一、robots简介:
robots.txt一般指robots协议,Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
二、robots使用规则
Robots协议是国际互联网界通行的道德规范,基于以下原则建立:
1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;
2、网站有义务保护其使用者的个人信息和隐私不被侵犯。
三、robots功能用途
Robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。
四、什么是robots.txt文件?
搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明:该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
内容来源自:http://baidu.com/search/robots.html 具体详情请参考百度禁止搜索引擎收录的方法
五、关于robots文件
1、搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有robots.txt文件,该文件用于指令搜索引擎禁止抓取网站某些内容或允许抓取某些内容。注意:就算允许抓取所有内容,也要建一个空的robots.txt文件放在根目录下。
2、只有在需要禁止抓取某些内容时,robots.txt才有意义,如果该文件为空,就意味着允许搜索引擎抓取所有内容。
3、语法解释:
最简单的robots文件:禁止搜所有搜索引擎抓取任何内容,写法为
User-agent:*
Disallow:/
其中,User-agent用于指定规则适用于哪个蜘蛛。通配符*代表所有搜索引擎。如只适用于百度蜘蛛,则写为:User-agent:Baiduspider、谷歌蜘蛛:Googlebot。
Disallow告诉蜘蛛不要抓取某些文件。如 Disallow:/post/index.html,告诉蜘蛛禁止抓取Post文件夹下index.html文件。Disallow后什么都不写,代表允许抓取一切页面。
六、关于meta robots标签
1、用于指令搜索引擎禁止索引本页内容。
2、语法解释:<meta name=”robots” content=”noindex,nofollow”> 意思是 禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接。
noindex:告诉蜘蛛不要索引本页面。
nofollow:告诉蜘蛛不要跟踪本页面上的链接。
nosnippet:告诉蜘蛛不要在搜索结果中显示说明文字。
noarchive:告诉搜索引擎不要显示快照。
noodp:告诉搜索引擎不要使用开放目录中的标题和说明。
SEO学堂认为,robots.txt以及robots相关标签的应用,综合来说有以下几个方面的用处:1、告诉搜索引擎哪些可以抓取,那些不允许抓取;2、过滤部分不抓取页面,既可以防范权重流失,又可以节省网站带宽流量;综合来说,只有真正的了解robots的具体用途和相关规则,才可以利用robots来巧妙引导蜘蛛爬行,这样不仅便于搜索引擎的搜索,而且对网站的优化也起到了很大的作用。
本文链接:robots是什么意思?robots.txt写作方法禁止搜索引擎收录的robots用法诠释
转载声明:本站文章若无特别说明,皆为原创,转载请注明来源:seo学堂-seo新手学习交流的最佳平台。,谢谢!^^
历史的今天琪琪SEO发布的文章:
- 本文固定链接: http://www.qqseo8.com/1200.html
- 转载请注明: 琪琪SEO 于 seo学堂-seo新手学习交流的最佳平台。 发表
robots 原来这么重要!!!!
这都是SEO优化基础细节的东西,做好了感觉就不重要了,但是如果你一旦禁止了robots蜘蛛爬行协议,那么你的网站很可能就禁止搜索引擎访问了,所以也就不会被百度收录排名了。
真的长见识了
学习SEO,一定要先把SEO优化基础知识学扎实,才能进一步开展SEO实战优化,否则直接进入SEO实战,你会有一种手足无措的感觉。[圣诞树]
有些网站没设置好robots,把网站后台暴露在搜索引擎上,很不安全。
一般网站都是简单设置一下,允许搜索引擎蜘蛛访问网站即可,但是有些网站却非常详细的设置了允许蜘蛛访问哪些目录,不允许蜘蛛访问哪些目录。
哪个页面不想收录就在哪个页面加对吧
是啊,就是这样操作的。对于不想百度蜘蛛访问并且收录的页面,利用robots.txt文件告诉百度蜘蛛这个是禁止访问的,这样可以缩短百度蜘蛛寻址查找的时间,提高蜘蛛索引收录的时间与效率。[钻石]
robots太重要了,蜘蛛进网站第一件事情就是看他!
嗯,只是一旦设置好了,就感觉它没多少用了。[哈哈]