robots协议详细写法,正确书写robots.txt

2019-06-19 20:05:18SEO优化

robots协议的作用是告诉搜索引擎爬虫,哪此允许访问,哪些又不允许访问,当一个搜索蜘蛛访问一个站点时,它会先会查看该站点根目录下是不是有robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

一、比如robots.txt禁止抓取某个目录或网站后台,其它的可以抓取。

User-agent: *

Disallow: /abcdef/

说明

1、这里的*代表的所有的搜索引擎种类,*是一个通配符

2、禁止抓取目录下的目录,网站后台不想被抓取可以这样写

如果怕被知道后台完整地址,可以写成Disallow: /abc* ,这样的话,只需写几个字符,后面的完整字符不用全写出来,这么写是表示禁止抓取以abc开头的目录及文件。

二、相关robots写法说明

Disallow: /abc 这里定义是禁止爬寻abc整个目录

Disallow: /abc/*.asp 指的是禁止访问/abc/目录下的所有以".asp"为后缀的URL(包含子目录)。

Disallow: /*?* 禁止访问网站中所有的动态页面

Disallow: .png$ 禁止抓取网页所有的.png格式的图片

Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html所有文件

Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录

Allow: /tmp 这里定义是允许爬寻tmp的整个目录

Allow: .asp$ 仅允许访问以".asp"为后缀的URL。

Allow: .jpg$ 允许抓取网页和jpg格式图片

三、如果屏蔽所有蜘蛛,可以这样写。

User-agent: *

Disallow: /

说到robots.txt协议屏蔽蜘蛛抓取,相信大家应该知道,淘宝网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容描述。

这要从 2008年说起,那时马云做了个霸气的决定,那就是淘宝在robots.txt协议中屏蔽了百度蜘蛛的抓取,这也就是为什么淘宝店铺无法通过百度搜索引起获得流量的原因,对此马云的解释是百度带来的流量都是垃圾流量,没有转化率,不过真的是这样的吗?

究起原因,应该是百度在2008年很高调的推出了百度有啊购物平台,立志成为Z好的电商平台,成了淘宝的直接对手,面对如此强大的对手,马云必须在其扩大之前消灭他。

屏蔽百度收录淘宝可以导致消费者在购物之前不会在百度中搜索产品类名称,比如牛仔裤、休闲裤、连衣裙等。

因为淘宝已经强大到让消费者把淘宝和网购这两个词等同的地步,当用户不再百度上面搜索产品名称,那么百度就将失去网购这块市场。

事实证明马云的这招很成功,让百度失去了网购市场,打败了百度有啊,百度有啊不久就接近关闭状态了。

robots协议详细写法,正确书写robots.txt相关