安徽SEO顾问

毛主席说过,实践出真知(也许他老人家也许没说过...不过这些不重要)重要的是本博将持续更新,持续分享。
网络营销优化QQ交流群:436867053

网站的robots的详细写法与robots语法作用

    网站robots文件是网站和搜索引擎的抓取协议,每一个蜘蛛到达网站,首先到你网站第一个抓取的是robots文件,你没有这个文件,就是代表默认蜘蛛抓取你所有的页面。

    为什么我们的网站要和搜索引擎有这样的协议呢?就是因为我们的网站有很多的东西是不能让搜索引擎去抓取的,比如说网站的后台,比如说你网站是注册的,你网站注册的用户,肯定是不能让他抓取的,所以我们才要有这个协议,如果你没有,那就是默认所有的都抓取。

    网站robots文件的4点用处:

    1、网站上无用的文件,比如模板文件,蜘蛛抓取毫无作用,如果让蜘蛛抓取大量这样的文件会浪费资源。

    2、如果蜘蛛还抓取你的敏感资源的话,比如注册账户、网站后台,他会导致你网站的信息泄露。

    3、如果蜘蛛来抓取你网站的无用内容,比如模板文件,会让蜘蛛认为你的网站质量相对低。

    4、一个网站是由各种各样的内容来完善的,也就是为了网站的完善性也要把robots加上。

    我们首先看2个robots实例:

百度robots实例淘宝robots实例


    每个网站所处的实际情况不一样,robots文件也各不相同,robots文件不要抄别人的,每个网站都不一样的,来看下robots里面的都是什么意思。

    Robots文件的语法

    每个网站都有一个这样的User-agent: 第一个字母是大写的,冒号是英文状态下的,意思是他是针对某个蜘蛛的, 如针对百度蜘蛛User-agent: Baiduspider,针对User-agent:Googlebot,针对所有的蜘蛛就是User-agent:*

协议的内容Disallow: /代表禁止,1、大写2、英文冒号3、空格4、斜杠

Robots文件的语法

不让所有的蜘蛛抓取写法

User-agent: *

Disallow: /

如果只让百度抓取所有,不让其他蜘蛛抓取如下:

User-agent: *

Disallow: /

User-agent: Baiduspider

Allow: 

Allow是允许的意思,所有蜘蛛的命名都是以大写开头的。

禁止与允许抓取目录的方法

robots蜘蛛抓取

Disallow: /plus/就是Plus文件下所有的内容都不允许抓取,plus是一个目录

Disallow: /?*所有的路径带有问好就不允许抓取

Disallow: /.css%所有的.css这样的后缀形式都不允许抓取

Disallow: /.php$所有的.php这样的后缀形式都不允许抓取

Disallow: /article/   article文件下所有的内容都不允许抓取article是一个目录

Disallow: /a/同上

Disallow: /sitemap/同上

禁止单个文件/123/123.php或者/123/123.htm那么你这么写/123/123就可以了,第一个123代表文件夹,包含有这种文件夹的不抓取,第二个代表路径中间有这样的就不抓取的意思。

蜘蛛会遵循详细的文件来抓取,比如你整个文件禁止抓取了,想抓取这个被禁止文件夹某一个文件,的话这样写:

User-agent: *

Disallow: /123/

Allow: /123/123.html

最后写完了,在百度站长里面检测下。

百度站长里面检测robots

参考链接:http://zhanzhang.baidu.com/college/courseinfo?id=150&page=1#h2_article_title15

发表看法

额 本文暂时没人评论 来添加一个吧

Top