一個網(wǎng)站如果”/robots.txt”不存在或者為空文件,那么說明此網(wǎng)站對于所有的搜索引擎robot,該網(wǎng)站都是開放的。
從京東和淘寶的robots.txt文件協(xié)議來看,robots.txt文件要講究語法的.
三個語法
1、User-agent ——用于描述搜索引擎robot的名字,定義搜索引擎類型。
2、Disallow ——不希望被訪問的一組URL,定義禁止抓取收錄地址。
3、Allow——希望被訪問的一組UR。
a、 * 匹配0或多個任意字符。
b、 $ 結(jié)束符。
首先寫User-agent:
A、U必須大寫,后面的小寫,緊接著冒號 ——這里還要注意一點:輸入法必須調(diào)成英文狀態(tài),都是英文狀態(tài)下的)
B、空一格再定義搜索引擎類型。比如定義百度蜘蛛
再寫
Disallow ——不希望被訪問的一組URL,定義禁止抓取收錄地址,或 Allow——希望被訪問的一組UR。
Disallow: /(空一格,一撇)
Allow: /(空一格,一撇)
舉例:
1. 禁止所有搜索引擎訪問網(wǎng)站的任何部分
User-agent: *
Disallow: /
2. 僅禁止Baiduspider訪問您的網(wǎng)站
User-agent: Baiduspider
Disallow: /
3.禁止Google索引你的網(wǎng)站。
User-agent: Googlebot
Disallow: /
4.除了百度以外,其他一切搜索引擎禁止索引你的網(wǎng)站。
User-agent: Baiduspider
Allow: /
User-agent: *
Disallow: /
5. 禁止所有搜索引擎訪問install這個目錄以及install這個目錄下的所有文件
User-agent: *
Disallow: /install
6.禁止百度搜索引擎訪問admin目錄;允許訪問images目錄。
User-agent: Baiduspider
Disallow: /admin
Allow: /images
7.禁止百度搜索引擎訪問網(wǎng)站所有.jpg的圖片
User-agent: Baiduspider
Disallow: /*.jpg$
8.禁止百度搜索引擎訪問網(wǎng)站所有的圖片
User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.png$
Disallow: /*.gif$
9.禁止所有搜索引擎訪問admin目錄下所有php文件;允許訪問asp文件。
User-agent: *
Disallow: /admin/*.php$
Allow: /admin/*.asp$
10.禁止所有搜索引擎索引網(wǎng)站中所有的動態(tài)路徑。
User-agent: *
Disallow: /*?*
重點區(qū)分以下兩種:
a、禁止搜索引擎訪問faq目錄下的所有文件
User-agent: *
Disallow: /faq/
例1:http:///faq/1.html 不能訪問
例2:http:///faq1.html 能訪問
b、禁止搜索引擎訪問以faq開頭的所有文件
User-agent: *
Disallow: /faq
例1:http:///faq/1.html 不能訪問
例2:http:///faq1.html 不能訪問