2018-10-14 19:21 来源:seo培训 隐藏边栏 评论关闭  48 
文章评分 1 次,平均分 5.0
已解决
公开

robots在 seo 里面是必须要有的吗?如果不添加 robots 会怎么样?robots 该怎么写呢?

7 人关注这个问题
    1. 什么是 robots.txt? Robots.txt 是网站管理员创建的文本文件,用于指示网络机器人(通常是搜索引擎机器人)如何抓取其网站上的网页。 robots.txt 文件是机器人排除协议(REP)的一部分,该协议是一组 Web 标准,用于管理机器人如何抓取网络,访问和索引内容,以及将内容提供给用户。 REP 还包括诸如元机器人之类的指令,以及关于搜索引擎应如何处理链接(例如“跟随”或“nofollow”)的页面,子目录或站点范围的指令。 实际上, robots.txt 文件指示某些用户代理(网络爬行软件)是否可以抓取网站的某些部分。 这些爬行指令通过“禁止”或“允许”某些(或所有)用户代理的行为来指定。 基本格式: 用户代理:[用户代理名称] 禁止:[不要抓取的 URL 字符串] 这两行被认为是完整的 robots.txt 文件 - 尽管一个机器人文件可以包含多行用户代理和指令(即,禁止,允许,爬行延迟等)。 在 robots.txt 文件中, 每组用户代理指令显示为离散集 ,由换行符分隔: User agent directives specified by line breaks. 在具有多个用户代理指令的 robots.txt 文件中,每个禁止或允许规则仅适用于在该特定行分隔符集中指定的用户。 如果文件包含适用于多个用户代理的规则,则爬网程序将仅关注(并遵循指令) 最具体的指令组。 这是一个例子: ?Robots.txt.png 的 mtime = 20170427090303#资产:5201:大 Msnbot,discobot 和 Slurp 都是专门调用的,因此这些用户代理只会关注 robots.txt 文件各部分中的指令。 所有其他用户代理将遵循 user-agent:*组中的指令。 示例 robots.txt: 以下是 www.example.com 网站上 robots.txt 的几个示例: Robots.txt 文件网址: www.example.com/robots.txt 阻止所有内容的所有网络抓取工具 用户代理: * 不允许: / 在 robots.txt 文件中使用此语法会告诉所有网络抓取工具不要抓取 www.example.com 上的任何网页,包括主页。 允许所有 Web 爬网程序访问所有内容 用户代理: * 不允许: 在 robots.txt 文件中使用此语法可告知网络抓取工具抓取 www.example.com 上的所有网页,包括主页。 阻止特定文件夹中的特定 Web 爬网程序 用户代理:Googlebot 禁止:/ example-subfolder / 此语法仅告知 Google 的抓取工具(用户代理名称 Googlebot)不要抓取包含 URL 字符串 www.example.com/example-subfolder/的任何网页。 阻止特定网页上的特定网络抓取工具 用户代理:Bingbot 禁止:/example-subfolder/blocked-page.html 此语法仅告知 Bing 的抓取工具(用户代理名称 Bing),以避免在 www.example.com/example-subfolder/blocked-page 抓取特定页面。 robots.txt 如何运作? 搜索引擎有两个主要工作: 抓取网络以发现内容; 为该内容编制索引,以便将其提供给正在寻找信息的搜索者。 为了抓取网站,搜索引擎会关注从一个网站到另一个网站的链接 - 最终会抓取数十亿个链接和网站。 这种爬行行为有时被称为“蜘蛛”。 到达网站后但在搜索网站之前,搜索爬虫会查找 robots.txt 文件。 如果找到,爬虫将在继续浏览页面之前首先读取该文件。 由于 robots.txt 文件包含有关搜索引擎应如何抓取的信息,因此在此处找到的信息将指示此特定网站上的进一步抓取操作。 如果 robots.txt 文件不包含任何禁止用户代理活动的指令(或者如果该站点没有 robots.txt 文件),它将继续抓取该站点上的其他信息。 其他快速 robots.txt 必须知道: (在下面更详细地讨论) 要找到,必须将 robots.txt 文件放在网站的顶级目录中。 Robots.txt 区分大小写:文件必须命名为“robots.txt”(不是 Robots.txt,robots.TXT 或其他)。 某些用户代理(机器人)可能会选择忽略您的 robots.txt 文件。 这对于恶意软件机器人或电子邮件地址抓取工具等更恶毒的抓取工具尤为常见。 /robots.txt 文件是公开的:只需将/robots.txt 添加到任何根域的末尾即可查看该网站的指令(如果该站点有 robots.txt 文件!)。 这意味着任何人都可以查看您执行或不希望被抓取的页面,因此请勿使用它们来隐藏私人用户信息。 根域上的每个子域都使用单独的 robots.txt 文件。 这意味着 blog.example.com 和 example.com 都应该有自己的 robots.txt 文件(在 blog.example.com/robots.txt 和 example.com/robots.txt)。 通常最佳做法是在 robots.txt 文件的底部指明与此域关联的任何站点地图的位置。 这是一个例子: Sitemaps in robots.txt 技术 robots.txt 语法 Robots.txt 语法可以被认为是 robots.txt 文件的“语言”。 您可能在机器人文件中遇到五个常见术语。 他们包括: User-agent:您要向其提供爬网指令的特定 Web 爬网程序(通常是搜索引擎)。 可以在此处找到大多数用户代理的列表。 Disallow:用于告知用户代理不要抓取特定 URL 的命令。 每个 URL 只允许一行“Disallow:”行。 允许 (仅适用于 Googlebot):告诉 Googlebot 它可以访问页面或子文件夹的命令,即使其父页面或子文件夹可能不被允许。 爬网延迟:爬网程序在加载和爬网页面内容之前应等待的秒数。 请注意,Googlebot 不会确认此命令,但可以在 Google Search Console 中设置抓取速度 。 站点地图:用于调出与此 URL 关联的任何 XML 站点地图的位置。 请注意,此命令仅受 Google,Ask,Bing 和 Yahoo 支持。 模式匹配 当涉及要阻止或允许的实际 URL 时,robots.txt 文件会变得相当复杂,因为它们允许使用模式匹配来覆盖一系列可能的 URL 选项。 Google 和 Bing 都尊重两个正则表达式 ,可用于识别 SEO 想要排除的页面或子文件夹。 这两个字符是星号(*)和美元符号($)。 *是表示任何字符序列的通配符 $匹配 URL 的结尾 Google 提供了一个很好的模式匹配语法和示例列表。 robots.txt 在哪里进入网站? 每当他们来到一个网站时,搜索引擎和其他网络爬行机器人(如 Facebook 的爬虫 ,Facebot)都知道要查找 robots.txt 文件。 但是,他们只会在一个特定的位置查找该文件:主目录(通常是您的根域或主页)。 如果用户代理访问 www.example.com/robots.txt 并且未在其中找到机器人文件,则会假定该网站没有,并继续抓取页面上的所有内容(甚至可能在整个网站上)。 即使 robots.txt 页面确实存在于例如 example.com/index/robots.txt 或 www.example.com/homepage/robots.txt,用户代理也不会发现它,因此该站点将被处理好像它根本没有机器人文件。 为确保找到您的 robots.txt 文件,请始终将其包含在主目录或根域中。 你为什么需要 robots.txt? Robots.txt 文件控制抓取工具访问您网站的某些区域。 虽然如果您不小心禁止 Googlebot 抓取您的整个网站(!!),这可能会非常危险,但在某些情况下 robots.txt 文件可能会非常方便。 一些常见用例包括: 防止重复内容出现在 SERP 中(请注意,元机器人通常是更好的选择) 保持网站的整个部分保密(例如,您的工程团队的临时站点) 保持内部搜索结果页面不会出现在公共 SERP 上 指定站点地图的位置 阻止搜索引擎索引您网站上的某些文件(图像,PDF 等) 指定爬网延迟,以便在爬网程序一次加载多个内容时防止服务器过载 如果您的站点上没有要控制用户代理访问的区域,则可能根本不需要 robots.txt 文件。 检查您是否有 robots.txt 文件 不确定您是否有 robots.txt 文件? 只需输入您的根域,然后将/robots.txt 添加到 URL 的末尾。 例如,Moz 的机器人文件位于 moz.com/robots.txt。 如果没有.txt 页面,则您当前没有(实时)robots.txt 页面。 如何创建 robots.txt 文件 如果您发现自己没有 robots.txt 文件或想要更改自己的文件,那么创建一个文件就是一个简单的过程。 Google 撰写的这篇文章介绍了 robots.txt 文件创建过程, 此工具可让您测试文件是否设置正确。 寻找一些创建机器人文件的做法? 这篇博客文章介绍了一些互动示例。 SEO 最佳实践 确保您没有屏蔽要抓取的网站的任何内容或部分。 将不会遵循 robots.txt 阻止的网页上的链接。 这意味着 1.)除非它们也与其他搜索引擎可访问的页面(即未通过 robots.txt,元机器人或其他方式阻止的页面)链接,否则链接的资源将不会被抓取,也不会被编入索引。 2.)没有链接资产可以从被阻止的页面传递到链接目的地。 如果您有要将权益传递到的页面,请使用 robots.txt 以外的其他阻止机制。 不要使用 robots.txt 来防止敏感数据(如私人用户信息)出现在 SERP 结果中。 由于其他页面可能直接链接到包含私人信息的页面(从而绕过根域或主页上的 robots.txt 指令),因此它仍可能被编入索引。 如果要阻止搜索结果中的页面,请使用其他方法,如密码保护或 noindex 元指令 。 一些搜索引擎有多个用户代理。 例如,Google 使用 Googlebot 进行自然搜索,使用 Googlebot-Image 进行图像搜索。 来自同一搜索引擎的大多数用户代理遵循相同的规则,因此不需要为每个搜索引擎的多个抓取工具指定指令,但是有能力这样做可以让您微调网站内容的抓取方式。 搜索引擎将缓存 robots.txt 内容,但通常每天至少更新一次缓存内容。 如果您更改文件并希望更快地更新文件,则可以将您的 robots.txt 网址提交给 Google 。 Robots.txt vs meta robots vs x-robots 这么多机器人! 这三种机器人指令有什么区别? 首先,robots.txt 是一个实际的文本文件,而 meta 和 x-robots 是元指令 。 除了它们实际上,这三者都有不同的功能。 Robots.txt 指示站点或目录范围的爬网行为,而元和 x 机器人可以指定单个页面(或页面元素)级别的索引行为。
    2. robots.txt(统一小写)是一种存放于网站根目录下的 ASCII 编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的 URL 是大小写敏感的,所以 robots.txt 的文件名应统一为小写。robots.txt 应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的 robots.txt,或者使用 robots 元数据(Metadata,又称元数据)。 robots.txt 协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意 robots.txt 是用字符串比较来确定是否获取 URL,所以目录末尾有与没有斜杠“/”表示的是不同的 URL。robots.txt 允许使用类似"Disallow: *.gif"这样的通配符[1][2]。 其他的影响搜索引擎的行为的方法包括使用 robots 元数据: 这个协议也不是一个规范,而只是约定俗成的,有些搜索引擎会遵守这一规范,有些则不然。通常搜索引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面。
    3. *”指本节适用于所有的机器人。“Disallow: /”告诉机器人,它不应该访问的任何网站上的页面。
    4. 是的,它是一个文本文件来指导搜索引擎的机器人如何抓取和索引页在他们的网站上。该网站是不是要扫描的区域
    5. robots 怎么写?可以参考一下内容?disallow:/禁止抓取的路径 How about this ? User-agent: * Disallow: /login Disallow: /index.php?qa-rewrite= Disallow: /ask Disallow: /forgot Disallow: /register Disallow: /questions?sort Disallow: /chat Disallow: /admin Disallow: /activity/* Disallow: /search?q= Disallow: /cdn-cgi/ Crawl-delay: 4 User-agent: MJ12bot Disallow: / User-agent: HTTrack Disallow: / User-agent: Mozilla/5.0 (compatible; Ezooms/1.0; ezooms.bot@gmail.com) Disallow: / User-agent: Yandex Crawl-delay: 30 User-agent: SindiceBot Crawl-delay: 30 User-agent: CCBot Crawl-Delay: 30 User-agent: wget Disallow: / User-agent: WebReaper Disallow: / User-agent: AhrefsBot Disallow: / User-agent: Yahoo Pipes 1.0 Disallow: / 网站地图 http://www.ddv6.com/sitemap.xml
    6. 是的,这是必需的。robots 帮助搜索引擎索引的页面不一定。指定搜索引擎抓取需要遵循的规则,哪些页面可以抓取,哪些页面禁止抓取。

    来提交答案

    本文来自投稿,不代表seo培训立场,版权归原作者所有,欢迎分享本文,转载请保留出处!

    关注:    粉丝:
    这个人很懒,什么都没写
    切换注册

    登录

    忘记密码 ?

    您也可以使用第三方帐号快捷登录

    切换登录

    注册

    您也可以使用第三方帐号一键快捷注册

    扫一扫二维码分享