网站Robots“萝卜丝”是什么?Robots写法


写网站的Robots是为了屏蔽不想让蜘蛛爬行收录的页面,有的时候一单收录会对我们网站的安全性有一定的隐患,比如说收录到我们后台的地址,数据库等等内容,我们可以用Robots来控制蜘蛛,告诉他哪个可以收录哪个不可以这样能够很快的集中权重。
 
Robots:(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),俗称“萝卜丝”,网站通过“萝卜丝”告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

网站Robots“萝卜丝”是什么?Robots写法
 

常用robots.txt的写法:

1、允许所有的robot访问
 
User-agent: * Allow: / 或者 User-agent: * Disallow:
 
2、禁止所有搜索引擎访问网站的任何部分
 
User-agent: *
Disallow: /
 
3、禁止spider访问特定目录
 
User-agent: *
Disallow: /deta/
 
禁止所有搜索引擎蜘蛛访问deta文件里的所有内容
 
4、允许访问特定目录中的部分url
 
User-agent: *
Allow: /cgi-bin/see
 
允许所有搜索引擎蜘蛛访问cgi-bin文件中see文件里的所有内容
 
5、禁止访问网站中所有的动态页面
 
User-agent: *
Disallow: /*?*
 
6、使用”*”限制访问url
 
User-agent: *
Disallow: /cgi-bin/*.htm
 
禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
 

Robots语句介绍:

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /禁止访问
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址,一般是禁止抓取网址动态URL
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Allow: /允许访问
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
 
在书写写这些语句的时候尤其注意的一点是冒号(:)和( /) 之间要有一个空格符,如果这个空格没有加的话,是不能起到作用的,robots.txt文件一般放在网站的根目录下,而且命名必须是robots.txt

搜索引擎蜘蛛名称:

百度蜘蛛:Baiduspider
谷歌蜘蛛:Googlebot
360蜘蛛:360Spider
搜狗蜘蛛:Sogou News Spider
 
当网站的死链接过多处理非常麻烦的时候,我们可以利用robots来屏蔽这些页面,这样就可以避免网站因为死链接被百度降权。
 
robots.txt可以很好地控制搜索引擎蜘蛛抓取网站内容,快开始制作你的这个robots文件吧
 
正文内容到此结束,假如有不明白或者其他问题都可以咨询神蛋,专业的SEO优化技术,丰富的建站经验,欢迎骚扰沟通。