小創(chuàng):造成爬蟲遺漏或不收錄網(wǎng)站的常見原因如下:
1、沒有內(nèi)部或外部鏈接,沒有找到自己網(wǎng)站內(nèi)和此頁面內(nèi)容有相關(guān)聯(lián)的網(wǎng)頁。一般可以增加外鏈分享跳轉(zhuǎn)的聯(lián)系,也可以添加友情鏈;
2、搜索引擎對新站的收錄是有一定的時間的,堅(jiān)持內(nèi)容的更新,尤其是原創(chuàng)內(nèi)容的更新,可以加快收錄的速度;
3、網(wǎng)站設(shè)計(jì)的內(nèi)容對爬蟲抓取不友好。搭建網(wǎng)站設(shè)計(jì)應(yīng)以外國人的風(fēng)俗習(xí)慣做本土化
的內(nèi)容物料展示;
4、遇到的會造成搜索爬蟲無法抓取頁面的HTTP狀態(tài)碼是404、500、301和302,正確的頁面狀態(tài)碼是200;
5、網(wǎng)站設(shè)置阻止爬蟲的抓取。有可能出現(xiàn)以下原因:robots.txt設(shè)置了不可被抓??;網(wǎng)頁HTML代碼加了noindex標(biāo)簽;canonical標(biāo)簽指向另外一個網(wǎng)頁。
谷歌有數(shù)千臺機(jī)器來運(yùn)行蜘蛛,但有一百萬個網(wǎng)站等待被抓取。因此預(yù)算有限,只要做到網(wǎng)頁加載速度快,內(nèi)容質(zhì)量高,權(quán)威性高,相關(guān)性高等行為,即可大概率提高收錄率。