百度等搜索引擎的Robots和Meta Robots协议的细节问题
2016-01-19 10:34:08  By: shinyuu

对于很多seo优化人员来说Robot.txt是必修课之一、但是一提到这个协议、大家可能都会说这不就是用于网站和搜索引擎交流的通用协议嘛、难道本文的解释的能有百度百科详细吗?看到这可能你也会认为它只是一个辅助的小东西、虽然它很小、但是很可爱、更是很关键的一个协议、因为存在太多太多的细节我们需要去考虑了、另外还会简单介绍一下meta robots、这一点很多seoer可能都会遗漏的

搜索引擎的Robots协议


大家都会知道、网站建设尤其是一些电子商务网站的建设、细节要求真是浩如烟海、但是这些细节如果稍有不注意就会对整个网站造成严重的伤害、那么今天帮您分析一下Robot.txt和meta robots的一些细节、我们平时到底该注意哪些细节呢?


一、需要屏蔽动态化链接

当网站做好静态化或者伪静态化后、我们需要屏蔽掉前面的动态页面所产生的链接、具体的写法是这样的:Disallow: /*?* 、英文状态下书写哦


二、注意“/”的区别

很多站长都会认为在Robot.txt协议中加不加“/”都是无关紧要的事情、但是个人在这里认为这是大大的错误、举个例子、Disallow: /s 与Disallow: /s/的区别、前者对于搜索引擎的蜘蛛来说就是禁止抓取所有含有s开头的页面或者目录、而后者可能提醒蜘蛛的是不要抓取是目录下的页面、这两种区别真的是天差万别、所以在实际操作的时候可能会选择后者、因为前者会造成广范围的“误杀”


三、CSS和JS需要屏幕吗?

在很多站长看来、这个是需要的、但其实google站长工具明确的说明:封禁css与js调用、可能会影响页面质量的判断、从而影响排名、通过实践百度方面也会有相类似的影响


四、对于已经删除过的目录或页面该怎么办呢?

对于已经删除的页面或者目录、很多站长都会选择屏蔽、但是这些页面或目录其实在删除前已经被搜索引擎收录了、屏蔽、真是一个号的选择吗?答案显然是不对的、最佳的做法、个人认为还是把这些页面详细的整理出来、并且集中的提交一下、然后自定义404页面、这样做的目的是正面应对、而不是逃避


五、MetaRobots使用

robots Meta标签是放在网页中、一般用于部分网页需要单独设置的情况下、两者的功能是一样的、Meta robots标签必须放在<head>和</head>之间、格式如下

<meta name="robots" content="index,follow" />


content中的值决定允许抓取的类型、必须同时包含两个值:是否允许索引(index)和是否跟踪链接(follow)、共有4个组参数可选

index,follow:允许抓取本页、允许跟踪链接、
index,nofollow:允许抓取本页、但禁止跟踪链接、
noindex,follow:禁止抓取本页、但允许跟踪链接、
noindex,nofllow:禁止抓取本页、同时禁止跟踪本页中的链接、


需要注意的是、meta robots标签很多搜索引擎是不支持的、只有少数搜索引擎能够识别并按给定的值抓取。所以尽可能的使用robots.txt文件来限制抓取、另外不要太刻意的在robots.txt中设置过多禁止文件或目录、只设置确实不希望被搜索引擎索引的目录和文件就可以了

若资源对你有帮助、浏览后有很大收获、不妨小额打赏我一下、你的鼓励是维持我不断写博客最大动力

想获取DD博客最新资讯、你可以扫描下方的二维码、关注DD博客微信公众号(ddblogs)

或者你也可以关注我的新浪微博、了解DD博客的最新动态:DD博客官方微博(dwtedx的微博)

如对资源有任何疑问或觉得仍然有很大的改善空间、可以对该博文进行评论、希望不吝赐教

为保证及时回复、可以使用博客留言板给我留言: DD博客留言板(dwtedx的留言板)

感谢你的访问、祝你生活愉快、工作顺心、欢迎常来逛逛


快速评论


博文评论

DD记账
top
+