写于 2018-12-21 07:12:03| 澳门金沙新官方网站| 澳门金沙新网站
<p>机器人排除协议(REP)并不是一个复杂的协议,它的用途相当有限,因此它通常会被搜索引擎优化者所忽视,但它还有很多比你认为Robotstxt已经存在超过14年的更多,但是我们中有多少人知道除了disallow指令之外还有一个Googlebot服从的noindex指令</p><p>没有索引的页面不会在索引中结束但是不允许的页面会这样做,后者可以显示在搜索结果中(尽管由于蜘蛛无法看到页面内容而信息较少)</p><p>不允许的页面仍然累积PageRank</p><p>那个robotstxt可以接受有限形式的模式匹配吗</p><p>那,因为最后一个功能,您可以选择性地禁止目录,但也可以选择特定的文件类型(更确切地说,文件扩展名)</p><p>蜘蛛无法访问机器人文档禁止的页面,因此他们无法读取并遵守页面中包含的元机器人标签</p><p>机器人文件文件为抓取网页的搜索引擎蜘蛛提供关键信息在这些机器人(有人说“机器人”这个全文吗</p><p>)访问网站的页面之后,他们检查是否存在机器人文件文件这样做会使web效率更高,因为robotstxt文件使机器人无法访问不应被搜索引擎索引的某些页面拥有robotstxt文件是最佳实践即使只是因为某些度量程序将解释对请求的404响应的简单原因将缺少的robotstxt文件作为错误,这可能会导致错误的性能报告但是那个robotstxt文件中有什么</p><p>这就是它的关键</p><p>机器人文件和机器人元标签都依赖于机器人的合作,并且绝不保证能够为每个机器人工作如果你需要更强大的保护来防止不道德的机器人和其他代理,你应该使用其他方法,如密码保护太多次,我看到网站管理员天真地将敏感网址放在机器人文档中的管理区域你最好相信robotstxt是黑客的第一个呼叫端口之一 - 看看他们应该在哪里进入Robotstxt很适合:冒着成为队长的风险显而易见,robotstxt文件必须位于域的根目录中,并且必须命名为“robotstxt”(全部小写)位于子目录中的robotstxt文件无效,因为机器人仅在域的根目录中检查此文件robotstxt文件很简单您可以在任何文本编辑器中创建robotstxt文件它应该是ASCII编码的文本文件,而不是HTML文件Robotstxt语法让我们看一个示例robotstxt文件T下面的示例包括:User-agent:Googlebot Disallow:User-agent:msnbot Disallow:/#阻止来自tmp和logs目录的所有机器人User-agent:* Disallow:/ tmp / Disallow:/ logs#用于名为logs的目录和文件应该在User-Agent行列出什么</p><p>用户代理是特定搜索引擎机器人的名称您可以设置要应用于特定机器人的条目(通过列出名称),或者您可以将其设置为应用于所有机器人(通过列出星号,其作用为wildcard)适用于所有机器人的条目如下所示:User-Agent:*主要机器人包括:Googlebot(Google),Slurp(Yahoo!),msnbot(MSN)和TEOMA(Ask)请记住, Googlebot将遵守为Googlebot的用户代理指定的指令;但是Googlebot也不会遵守*(所有机器人)的用户代理的指令.Disallow线上应该列出什么</p><p> disallow列出要阻止的页面您可以列出特定的URL或模式条目应以正斜杠(/)开头示例:如果您通过http和https提供内容,则需要单独的robotstxt文件这些协议中的每一个例如,为了允许机器人索引所有http页但没有https页,您可以使用如下的robotstxt文件,对于您的http协议:User-agent:* Disallow:对于https协议:User- agent:* Disallow:/ Bots每次进入网站时都会检查robotstxt文件当robotstxt文件上传到站点的根目录并且僵尸程序到达站点时,它会立即生效</p><p>根据受欢迎程度,权限以及内容更新频率,机器人蜘蛛网站的频率会有所不同某些网站可能每天被抓取几次,而其他网站每周只能被抓取几次 Google网站管理员中心提供了一种查看Googlebot上次访问robotstxt文件的方法,我建议您使用Google网站站长中心的robotstxt分析工具检查特定网址,以查看您的robotstxt文件是否允许或阻止它们,看看Googlebot是否无法解析任何您的robotstxt文件中的行,并测试对您的robotstxt文件的更改一些高级技术主要搜索引擎已经开始协同工作以推进robotstxt文件的功能如上所述,主要搜索引擎已采用一些功能,并不一定是所有主要引擎,提供更好的控制爬行虽然这些可能有限,但在使用时请务必谨慎爬行延迟:某些网站可能会遇到大量流量,并希望减慢搜索引擎蜘蛛的速度允许更多的服务器资源来满足常规流量的需求爬行延迟是Yahoo,Live Search认可的特殊指令,和Ask指示爬虫在爬行页面之间等待的秒数:用户代理:msnbot爬网延迟:5模式匹配:此时,模式匹配似乎可供三个主要使用:Google,Yahoo,和实时搜索模式匹配的价值相当大让我们首先看看最基本的模式匹配,使用星号通配符来阻止访问所有以“private”开头的子目录:User-agent:Googlebot Disallow:/ private * /您可以使用美元符号($)匹配字符串的结尾</p><p>例如,要阻止以asp结尾的URL:User-agent:Googlebot Disallow:/ * asp $与Perl中的正则表达式中找到的更高级的模式匹配不同在其他地方,问号没有特殊的权力因此,要阻止访问包含问号(</p><p>)的所有网址,只需使用问号(无需“转义”它或在其前面加上反斜杠):用户 - 代理:*不允许:/ *</p><p>*阻止机器人进行抓取修改特定文件类型的所有文件(例如,gif):User-agent:* Disallow:/ * gif $这是一个更复杂的示例假设您的站点使用URL的查询字符串部分(“</p><p>”后面的内容) )仅针对会话ID,并且您希望排除包含动态参数的所有URL,以确保机器人不会抓取重复的页面但您可能希望包含任何以“</p><p>”结尾的URL</p><p>以下是您如何实现该目标:用户代理:Slurp Disallow:/ *</p><p> #阻止任何包含</p><p>的URL允许:/ *</p><p>$#允许以</p><p>结尾的任何网址</p><p> Allow指令:此时,Allow指令似乎只有Google,Yahoo和Ask支持听起来,它与Disallow指令相反,并提供专门调用可能被爬网的目录或页面的功能在禁止使用大型部分或整个网站后,这可能会有所帮助</p><p>只允许Googlebot进入“google”目录:User-agent:Googlebot Disallow:/ Allow:/ google / Noindex指令:如上所述,此指令提供了以下好处:从搜索结果中删除无片段无标题列表,但它仅限于Google其语法完全反映Disallow用Matt Cutts的话说:“Google允许在robotstxt中使用NOINDEX指令,它将完全删除Google中所有匹配的网站网址(该行为)可能会根据此政策讨论进行更改,当然,这就是为什么我们还没有谈到这一点很多)“Sitemap:XML站点地图文件可以告诉搜索引擎所有页面在您的网站上,也可以选择提供有关这些页面的信息,例如哪些页面最重要以及它们更改的频率它充当蜘蛛自动发现机制以查找XML站点地图文件您可以告诉Google和其他搜索引擎通过将以下行添加到您的robotstxt文件来关于您的站点地图:站点地图:sitemap_location站点地图位置应该是站点地图的完整URL,例如:http:// wwwexamplecom / sitemapxml此指令独立于用户代理行,因此它将它放在文件中的位置并不重要所有主要搜索引擎都支持自动发现站点地图协议,包括谷歌,雅虎,实时搜索和询问,而自动发现则提供了一种向搜索引擎通知站点地图的方法xml文件,还值得通过他们的每个网站管理员控制台(Google网站管理员中心,雅虎网站资源管理器,Live Search网站管理员中心)直接向搜索引擎验证和提交站点地图</p><p>更多关于谷歌的机器人谷歌使用几个不同的机器人(用户代理)用于网络搜索的机器人Googlebot Google的其他机器人遵循您为Googlebot设置的规则,但您可以为这些特定机器人设置其他规则以及阻止Googlebot阻止以“Googlebot”开头的所有机器人以下是Google机器人列表:您可以通过使用以下方式完全阻止Googlebot:用户代理:Googlebot禁止:/您可以允许Googlebot,但阻止访问所有其他机器人:用户代理:*禁止:/用户代理:Googlebot Disallow:机器人文档的问题您使用阻止的页面robotstxt disallows可能仍然在谷歌的索引中并出现在搜索结果中 - 特别是如果其他网站链接到他们授予,高排名是不太可能,因为谷歌不能“se e“页面内容;除了入站和内部链接的锚文本以及URL(以及ODP / DMOZ中的ODP标题和描述)之外,它几乎没有什么用处</p><p>因此,页面的URL以及可能的其他公开链接信息可以显示在搜索结果中但是,您的网页中的内容不会被抓取,编入索引或显示要完全阻止将网页添加到搜索引擎的索引中,即使其他网站链接到该网页,也请使用“noindex”漫游器元标记和确保在robotstxt中不允许该页面当蜘蛛抓取页面时,它将识别“noindex”元标记并从索引Robotstxt中删除URL并且机器人元标记冲突如果机器人文本文件和机器人元标记指示页面发生冲突机器人文件文件用于保护网站上的内容不被编入索引,包括机器人文件文件,无论建议使用,因为许多机器人进程会查找它们并提供一个加速他们的程序机器人文本和机器人元标记一起使您可以相对轻松地灵活地表达复杂的访问策略:机器人文本和机器人元标记都依赖于机器人的合作,并不能保证为每个机器人工作如果您需要更好地保护机器人和其他代理,您应该使用其他方法,如密码保护本文中表达的意见是客座作者的意见,