小創(chuàng):谷歌的爬蟲程序到你的網(wǎng)站上第一步會檢測你的網(wǎng)站是否處于可以抓取的狀態(tài),因?yàn)椴皇撬械木W(wǎng)站都需要讓搜索引擎抓取。可以用robots.txt的協(xié)議文件告訴蜘蛛是否可以抓取本網(wǎng)站,甚至進(jìn)一步規(guī)定哪些頁面可以抓取,哪些頁面不可以抓取。
操作方法:使用robots.txt文件協(xié)議,在網(wǎng)站根目錄下創(chuàng)建一個(gè)名為“robots.txt”的文本文件。該文件中,你可以制定哪些頁面或者目錄不希望被搜索引擎抓取。例如,你可以使用以下指令來阻止谷歌的爬蟲程序抓取整個(gè)網(wǎng)站:User-agent:Googlebot Disallow://