1.經常使用到Robots.txt 文件的情況
● 網站升級,老版本網站的很多頁面在新版本網站中去掉了,在這種情況下,可以通過Robots文件 告訴蜘蛛不再抓取這些已經被去掉的頁面。
● 網站存在很多重復的內容,比如一個網站同時存在動態頁面和已經經過靜態化處理的頁面,這些頁面在內容上都是完全重復的內容,為了解決重復的問題,可以在Robots文件中禁止蜘蛛抓取動態頁面。
● 網站內部有些內容不便于公開發布,但是需要允許內部查閱。遇到這種情況,可以在Robots中告訴蜘蛛不要抓取。
2. Robots文件的基本寫法
User-agent : *
Allow : /cgi-bin/see
Allow : /tmp/hi
Allow : /~joe/look
Disallow : /cgi-bin/
Disallow : /tmp/
Disallow : /~joe/
Allow是允許蜘蛛爬行的頁面,而Disallow后面則是不允許蜘蛛訪問的路徑和文件。
3. Robots的使用示例
(1)僅允許訪問某目錄下某個后級的文件。這里僅允許訪問帶“'s" 符號的網址,如下。
User-agent: *
Allow : .asp$
Disallow : /
(2)禁止索引網站中所有的動態頁面。
這里是限制訪問帶“? ”的網址,例如,index.asp?id=1。
User- agent : *
Disallow : /*?*
(3)使用“*”限制訪問帶某 個后綴的域名。
這里是禁止訪問admin目錄下所有htm文件,如下。
User- agent :*
Disallow :/admin/* .htm網站式新聞動態
本文地址://huacheng.org.cn/article/8156.html