對(duì)于搜索引擎而言,爬蟲(chóng)效率的一個(gè)重要評(píng)價(jià)標(biāo)準(zhǔn)就是爬蟲(chóng)開(kāi)銷(xiāo)。淺析提高全棲運(yùn)營(yíng)網(wǎng)站的抓取率的方法有哪些?
Dasgupta等人將爬蟲(chóng)開(kāi)銷(xiāo)定義為:爬蟲(chóng)開(kāi)銷(xiāo)=重復(fù)抓取的老頁(yè)面數(shù)/發(fā)掘的新頁(yè)面數(shù)。那么,爬蟲(chóng)的抓取頻率以及效率該如何優(yōu)化呢?下面進(jìn)行具體介紹。
首先,以robots.txt命名的文本文件是個(gè)很強(qiáng)的利器,當(dāng)網(wǎng)站上擁有重復(fù)內(nèi)容、無(wú)內(nèi)容且無(wú)意義頁(yè)面等類(lèi)似內(nèi)容的時(shí)候,就可以果斷地用robots.txt屏蔽掉。這里需要注意:robots.txt文件可以用通配符書(shū)寫(xiě),書(shū)寫(xiě)是比較自由的。建議把xml格式的sitemap路徑放在robots.txt文件中,供搜索引擎尋找。
其次,當(dāng)需要合理地、有效率地下載一個(gè)網(wǎng)站時(shí),設(shè)置參數(shù)nofollow,可以讓百度搜索引擎不抓取頁(yè)面上的所有鏈接。在robots.txt文件中添加rel=“noindex”語(yǔ)句,不能阻止百度爬蟲(chóng)抓取,因?yàn)閚oindex參數(shù)可以讓搜索引擎不把當(dāng)前網(wǎng)頁(yè)置入索引庫(kù),但是頁(yè)面上所有的鏈接,爬蟲(chóng)都會(huì)去分析。若要屏蔽鏈接,要加上nofollow參數(shù)。
總之,提高爬蟲(chóng)的抓取效率在SEO之中是一件比較重要的事情,尤其對(duì)于中大型網(wǎng)站而言,應(yīng)該將大部分精力放在讓爬蟲(chóng)抓取更多更準(zhǔn)的頁(yè)面上,而不是讓它抓到無(wú)意義的頁(yè)面。