金楚辽:老生常谈ROBOTS.TXT的写法
发布人:一全科技 来源:CHINAZ用户投稿 发布于:2010-12-16 21:57:04 浏览:775

辽宁12选5走势图表 www.jc1o.cn 记得很早以前,那个时间新浪屏蔽百度蜘蛛的事件传得很大,其实你主要是学会了ROBOTS.TXT的写法,那就简单的了,两下就认出了这事的真假。所以说学好技术,可以更好的知道真相。

首先,我们先来认识我们亲爱的蜘蛛们吧:

国内的搜索引擎蜘蛛

百度蜘蛛:baiduspider

搜狗蜘蛛:sogou spider

有道蜘蛛:YodaoBot和OutfoxBot

搜搜蜘蛛: Sosospider

国外的搜索引擎蜘蛛

google蜘蛛: googlebot

yahoo蜘蛛:Yahoo! Slurp

alexa蜘蛛:ia_archiver

bing蜘蛛(MSN):msnbot

Robots.txt的几个常用英文意思

• User-Agent: 适用下列规则的漫游器

• Allow: 充许被抓取的网页

• Disallow: 要拦截的网页

Robots.txt的两个常用符号

“*”: 匹配0或多个任意字符(也有所有的意思)

“$”:匹配行结束符。

介绍得差不多了,下面来进入正题,Robots.txt:

一、充许所有的蜘蛛抓?。?/strong>

User-agent: *

Disallow:

或者

User-agent: *

Allow: /

(*号可以理解为所以的意思)

二、禁止所有的robot抓取

User-agent: *

Disallow: /

三、禁止某一蜘蛛抓?。?/strong>

User-agent: 蜘蛛名(上面介绍得有)

Disallow: /

四、只充许某一蜘蛛抓?。?/strong>

User-agent: 蜘蛛名(上面介绍得有)

Disallow:

User-agent: *

Disallow: /

上半部分是禁止该蜘蛛抓取,下半部分是充许所有,总体意思就是禁止此蜘蛛,充许其它蜘蛛。

五、禁止蜘蛛抓取某些目录

如禁止抓取admin和manage目录

User-agent: *

Disallow: /admin/

Disallow: /manage/

六、禁止蜘蛛特定后缀文件,这个用“*”号

如禁止抓取.htm的文件

User-agent: *

Disallow: *.htm(*号后面然后是点文件名,如.asp,.php)

七、仅充许抓取特定后缀文件,这个用“$”号

如仅充许.htm的文件

User-agent: *

Allow: .htm$

Disallow: /

(图片也可以参考第六条和第七条这个样子)

八、禁止抓取动态网页

User-agent: *

Disallow: /*?*

这个在论坛很有用,一般伪静态后,就不需要搜索引擎再收录其动态地址了。做论坛的朋友们注意了。

九、声明网站地图sitemap

这个告诉搜索引擎你的sitemap在哪

Sitemap: //你的域名/sitemap.xml

做完这些我们如何检查我们的robots.txt这个文件的有效性呢?推荐使用 Google管理员工具,登录后访问“工具 ->分析 robots.txt”,检查文件有效性。

原创文章请注明转载自:武汉seo-sem说

本文地址://www.semsay.com/seo/37.html

  • 为什么说一直辛苦劳作的农民没有富起来?而不说一直勤劳的农民没有富起来? 2019-06-15
  • 刘红:关注乳腺健康 做好体检预防工作 2019-06-11
  • 中国伊斯兰教协会“四进”清真寺活动启动 2019-06-05
  • 我国社会组织正成为全球治理体系中的新生力量 2019-06-05
  • 林肯全新Navigator领航员正式上市 售112.80万元起 2019-05-27
  • “川商走进新经济”第一场活动落幕 2019-05-14
  • 还加上制裁伊朗引起价格飙升的石油战 2019-05-14
  • 青海:52个客运站卫生间将全面改造 2019-05-12
  • 依规治党和依法治国结合的典范 2019-05-12
  • 内蒙古水利厅厅长付万惠接受纪律审查和监察调查 2019-05-11
  • 传销就是利用这种劣根性。 2019-05-08
  • 女性之声——全国妇联 2019-04-22
  • 不忘初心继续前进——七集政论专题片 2019-04-21
  • 百姓故事:摔跤吧!女孩 2019-04-16
  • 一条塔里木河 串起南疆各色景致与无限风光 2019-04-16
  • 804| 973| 845| 764| 652| 329| 892| 319| 81| 248|