Robots協議是放在根目錄下的一個協議,也是蜘蛛爬行網站的時候需要訪問的第一個文件,通過解讀Robots文件的策略,蜘蛛可以知道哪些頁面可以爬行,哪些不可以爬行。一般來說,網站都是可以開發給蜘蛛來抓取的,某些不允許抓取的頁面或者頻道,只需要在Robots里面設定Disallow (禁止抓取的命令)就可以。但是在實際運營中,可能面臨更復雜的情況,比如整站已經在HTTPS下,但是部分頁面需要蜘蛛爬行,怎么辦?有以下幾個解決辦法。
(1)復制一份到HTTP下。
(2)使用user-agent判斷來訪者,將蜘蛛引導到HTTP頁面。
關于Robots文件,詳細說明如下。
關于Robots文件,詳細說明如下。
(1)特定頁面已經不需要蜘蛛抓取,可以進行Disallow。
(2)某類集中的頁面具有共同的URL參數,可以實現批量禁止抓取功能。在操作批量禁止的時候,需要避免誤傷,即具有同樣URL特征的功能可能并不在禁止的目的之內,無意中被禁止了。
關于同類特征的URL的一個特殊應用就是批量禁止動態URL的抓取。比如一個動態發布內容的網站,初始頁面都是動態頁面,從SEO角度考慮,這些動態頁面全部批量生成了對應的靜態頁面,如下。
//www.abc.com/?id=1
//www.abc.com/?id=2
......
(已經批量生成了如下)
//www.abc.com/ 1.html
......
如果同時被蜘蛛抓取了動態頁面和對應的靜態頁面,那么網站就存在大量的重復頁面,對SEO是不好的。可以通過Robots功能,統一禁止動態URL的抓取,比如在Robots文件里寫如下內容。
Disallow : /*?*
在抓取方面,蜘蛛會依據實際情況調整對網站的抓取頻次,即分配抓取定額,每天定量抓取網站內容,“定量”這個詞意味著是有限的,-一個大門]戶網站如果一次性提交10萬條URL,并不意味著蜘蛛會很快把10萬條數據抓取回去,因此,必須有耐心跟蹤搜索蜘蛛在網站每天的爬行和收錄情況。網站式行業動態
本文地址://huacheng.org.cn/article/7777.html