重庆seo重庆seo  2018-10-24 00:46 来源:seo培训 显示边栏 |   抢沙发  25 
文章评分 0 次,平均分 0.0

  几乎每个网站都有 robots 文件,robots 文件可以规定哪些蜘蛛可以抓取网站的哪些文件,屏蔽掉不想被访问的蜘蛛,节省资源以及避免被不必要的采集。屏蔽掉不需要被蜘蛛访问的特定目录,节省蜘蛛资源,把蜘蛛引导到更需要的目录去,提高蜘蛛抓取效率,从而达到我们 seo 的目的。

  Robots 文件的好处大家都知道,但是由于没有正确的处理好 robots 文件,而造成不可预计的后果,这也是经常有的事。比如小编曾经操作过一个网站,网站的博客子域名始终不收录,无论怎么加内链和外链,都不能收录。后来觉得奇怪,仔细找了下原因,才知道是因为在 robots 里,把这个子域名给屏蔽掉了。

  可见 robtos 的重要性。经常对网站的 robots 文件进行检测,也是非常有必要的。爱站就有这样一个 robots 文件检测工具,可以自动检测 robots 文件的问题。

20181024004712.jpg

  只需输入网站地址,工具会自动读取 robots 文件。如果网站没有 robots,则会提示没有。若能读取到,则会展示 robots 的所有内容,并对每一条内容进行解释,标注出有问题的内容。

robots 在线生成工具:http://tool.chinaz.com/robots/

更多关于 robots 的介绍:

网站所有者使用/robots.txt 文件向网络机器人提供有关其网站的说明; 这被称为机器人排除协议 。

它的工作原理如下:机器人想要访问网站 URL,比如 http://www.example.com/welcome.html。 在此之前,它首先检查 http://www.example.com/robots.txt,并找到:

User-agent: *

Disallow: /

“ 用户代理:* ”表示此部分适用于所有机器人。 “ Disallow:/ ”告诉机器人它不应该访问网站上的任何页面。

使用/robots.txt 时有两个重要的注意事项:

机器人可以忽略你的/robots.txt。 特别是在网络上扫描安全漏洞的恶意软件机器人,以及垃圾邮件发送者使用的电子邮件地址收集器都不会引起注意。

/robots.txt 文件是一个公开可用的文件。 任何人都可以看到您不希望机器人使用的服务器部分。

所以不要试图使用/robots.txt 来隐藏信息。

也可以看看:

我可以阻止坏机器人吗?

为什么这个机器人会忽略我的/robots.txt?

/robots.txt 的安全隐患是什么?

细节

/robots.txt 是事实上的标准,并不属于任何标准机构。 有两个历史描述:

最初的 1994 年机器人排除标准文件。

1997 年互联网草案规范 Web 机器人控制方法

此外还有外部资源:

HTML 4.01 规范,附录 B.4.1

维基百科 - 机器人排除标准

/robots.txt 标准尚未积极开发。 请参阅/robots.txt 的进一步开发? 进一步讨论。

本页的其余部分概述了如何在服务器上使用/robots.txt,以及一些简单的配方。 要了解更多信息,请参阅常见问题 。

如何创建/robots.txt 文件

把它放在哪里

简短的回答:在您的 Web 服务器的顶级目录中。

答案越长:

当机器人查找 URL 的“/robots.txt”文件时,它会从 URL 中剥离路径组件(来自第一个单斜杠的所有内容),并将“/robots.txt”放在其位置。

例如,对于“ http://www.ddv6.com/shop/index.html ,它将删除” /shop/index.html “,并将其替换为” /robots.txt “,最终将以“http://www.ddv6.com/robots.txt”。

因此,作为网站所有者,您需要将其放在 Web 服务器上的正确位置,以便生成此 URL。 通常,这是您放置网站主要“ index.html ”欢迎页面的位置。 究竟是什么,以及如何将文件放在那里,取决于您的 Web 服务器软件。

请记住使用全文小写的文件名:“ robots.txt ”,而不是“ Robots.TXT 。

也可以看看:

我应该用什么程序来创建/robots.txt?

如何在虚拟主机上使用/robots.txt?

如何在共享主机上使用/robots.txt?

放什么

“/robots.txt”文件是一个文本文件,包含一个或多个记录。 通常包含一个看起来像这样的记录:

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

在此示例中,排除了三个目录。

请注意,对于要排除的每个 URL 前缀,您需要单独的“Disallow”行 - 您不能在一行上说“Disallow:/ cgi-bin / / tmp /”。 此外,您可能没有记录中的空行,因为它们用于分隔多个记录。

另请注意,User-agent 或 Disallow 行不支持 globbing 和正则表达式。 User-agent 字段中的'*'是一个特殊值,意思是“任何机器人”。 具体来说,你不能拥有像“User-agent:* bot *”,“Disallow:/ tmp / *”或“Disallow:* .gif”这样的行。

您要排除的内容取决于您的服务器。 未明确禁止的所有内容都被视为可以检索的公平游戏。 以下是一些例子:

从整个服务器中排除所有机器人

User-agent: *

Disallow: /

允许所有机器人完全访问

User-agent: *

Disallow:

(或者只是创建一个空的“/robots.txt”文件,或者根本不使用它)

禁止抓取某些指定的目录

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /junk/

排除单个机器人

User-agent: BadBot

Disallow: /

允许单个机器人

User-agent: Google

Disallow:

User-agent: *

Disallow: /

User-agent: *

Disallow: /~joe/stuff/

排除除一个以外的所有文件

这当前有点尴尬,因为没有“允许”字段。 简单的方法是将所有文件禁止放入一个单独的目录,比如“stuff”,并将一个文件保留在该目录上方的级别中:

User-agent: *

Disallow: /~joe/junk.html

Disallow: /~joe/foo.html

Disallow: /~joe/bar.html

或者,您可以明确禁止所有不允许的页面:

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

重庆seo
重庆seo 关注:0    粉丝:0
这个人很懒,什么都没写

发表评论

表情 贴图 链接 私密 格式 签到

切换注册

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

切换登录

注册

您也可以使用第三方帐号一键快捷注册

扫一扫二维码分享