常见Robots.txt名字及语法实例演示

 刘潜   2015-01-20 20:43   74350 人阅读  10 条评论

常见Robot名字及语法,告诉你:Robots.txt文件怎么写

  google蜘蛛: googlebot
  百度蜘蛛:baiduspider
  yahoo蜘蛛:slurp
  alexa蜘蛛:ia_archiver
  msn蜘蛛:msnbot
  altavista蜘蛛:scooter
  lycos蜘蛛: lycos_spider_(t-rex)
  alltheweb蜘蛛: fast-webcrawler/
  inktomi蜘蛛: slurp

  搜索引擎抓取规范是有robot.txt文件决定的:

  当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
  robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写
  User-agent:描述搜索引擎robot的名字
  即 : 你可以指定该规则只对baidu 或者google 或者其它指定搜索引擎有效 可用通配符 *表示全部
  Disallow: 描述不希望被访问的一组URL
  设定禁止访问的部分,可以用完整url , 也可以用相对路径,可以是单个目文件,也可以是整个文件夹,也可以用通配符限定指定类型
  Allow: 描述希望被访问的一组URL
  设定允许访问的部分,不过因为默认是全部允许的,这个语法通常是配合disallow使用的,用它来完成 如“除了xxx.html该目录下全部不能访问”这样的设定。 要注意的是allow和disallow的顺序是有讲究的,搜索引擎会以它先看到的规则为判断标准。
  关于通配符:"$" 匹配行结束符;"*"匹配0或多个任意字符。

  我们在进行网站优化的时候,很多时候需要把一些无用连接,及二级目录,还有一些重要的文件,如后台管理,这些我们都是不希望蜘蛛抓取到的,我们可以使用robots进行屏蔽,以防权重丢失或一些重要的文件被别人看到!
  例1. 禁止所有搜索引擎访问网站的任何部分
  User-agent: *
  Disallow: /
  例2. 允许所有的搜索引擎访问
  User-agent: *
  Allow: /
  或者
  可以建一个空文件 “robots.txt“里面什么都不要写
  例3. 仅禁止百度抓取网站所有文件
  User-agent: Baiduspider
  Disallow: /
  例4. 仅允许百度访问网站
  User-agent: Baiduspider
  Allow: /
  User-agent: *
  Disallow: /
  例5. 禁止搜索引擎抓取特定目录
  在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。
  User-agent: *
  Disallow: /cgi-bin/
  Disallow: /tmp/
  Disallow: /xinxianwang/
  例6. 只允许搜索引擎抓取新县网http://www.xinxian.wangcgi-bin目录下的xinxianwang目录中的部分url
  User-agent: *
  Allow: /cgi-bin/xinxianwang
  Disallow: /cgi-bin/
  例7. 禁止抓取/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)
  User-agent: *
  Disallow: /cgi-bin/*.htm
  例8. 仅允许抓取以”.gif”为后缀的URL
  User-agent: *
  Allow: .gif$
  Disallow: /
  例9. 禁止抓取网站中所有的动态页面
  User-agent: *
  Disallow: /*?*
  例10. 仅禁止百度抓取.jpg格式图片
  User-agent: Baiduspider
  Disallow: .jpg$
  例11、allow:(允许语法)用来定义允许蜘蛛爬取的页面或子目录
  例:禁止百度收录admin的文件夹,允许收录admin文件中的/a.asp/b.asp
  User-agent:Baiduspider
  Disallow:/admin/
  Allow:/admin/a.asp
  Allow:/admin/b.asp
  例12、”$” 匹配行结束符 ”*” 匹配0或多个任意字符
  例:屏蔽百度蜘蛛以.php结束的所有页面
  User-agent: Baiduspider
  Disallow:.php$
  或者User-agent: Baiduspider
  Disallow:/*.php


发表评论


表情

评论列表

  1. 网上赚钱的方法
    网上赚钱的方法  @回复

    学习了,谢谢分享吧

  2. 游客
    游客  @回复

    <img src="http://img.t.sinajs.cn/t35/style/images/common/face/ext/normal/d8/good_org.gif" alt="[good]" title="[good]" class="ds-smiley" />

  3. 冯耀宗
    冯耀宗  @回复

    最后我来温馨提示一下。<br />
    XML网站地图写在robots里面。

  4. 路小亚博客
    路小亚博客  @回复

    写好robots很重要,随便写可要不得,不然以后要哭了

  5. 游客
    游客  @回复

    男士手表、女士手表、男表女表、瑞士金表

  6. 安珂
    安珂  @回复

    支持一下<br />
    产后恢复加盟<a href="http://www.leishi.cc" target="_blank" rel="nofollow">http://www.leishi.cc</a>

  7. 咸宁婚纱摄影
    咸宁婚纱摄影  @回复

    不错啊看起来

  8. 爱奇趣分享网
    爱奇趣分享网  @回复

    不错 学习了!

  9. 笑话大全
    笑话大全  @回复

    路过,留个脚印,网站很棒!

  10. 欧美外贸
    欧美外贸  @回复

    [求关注] 感谢分享~~~~~~~~~~~~~