雅虎蜘蛛太多了,怎么办?

    昨晚在我们的群里面跟群友谈到雅虎蜘蛛的时候了解到,雅虎的蜘蛛对很多信息类或者门户站等大型的网站,造成了很大的负面影响。典型的例子就是一个群友说的,别说雅虎蜘蛛来了以后,百度蜘蛛就很少来了。下面我们把我们的讲解来跟大家分享一下。

    首先我们不谈雅虎蜘蛛,我们先谈论百度蜘蛛,百度蜘蛛比较智能,如果他发现你的服务器压力过大的话,那么他爬取的时间就会延迟一段时间,服务器压力减少后还会再来爬取的;谷歌管理员工具里面有个功能就是控制蜘蛛抓取速度的一个功能,另一个是谷歌智能判断。也就是说至少两大搜索引擎是不会不友好的抓取的。而雅虎呢?雅虎之前收购了很多家搜索引擎公司,像overture等一大批搜索引擎现在都在雅虎旗下,中国一搜也是雅虎旗下的搜索引擎,这些搜索引擎之间彼此是独立的,所以就导致了大量的重复抓取,而雅虎目前有没有解决这一块问题。

(通过上图能够看到谷歌能够只能确定抓取一个网站的速度)

    所以就出现上门的原因了,当百度,谷歌经常来抓取的时候,突然雅虎的蜘蛛也来抓取的话,那么服务器的压力就开始增大了,这个时候,百度和谷歌都有智能系统,他们感知到后就开始延缓一段时间再来爬取了。

   我们应该怎样解决这个问题呢?有朋友提出来在robots.txt里面直接屏蔽雅虎蜘蛛,我们认为这是一种比较极端的方法,不可取,除非雅虎蜘蛛做的非常严重。大多数情况下国外SEO都会使用以下代码:

User-agent: Yahoo-Slurp

Crawl-delay: 300

User-agent表示搜索引擎的代理蜘蛛,Yahoo-Slurp是雅虎蜘蛛的名字

Crawl-delay表示爬虫延时,300表示时间。

 

东栋新升上海SEO培训行业知名品牌
上海奇商网络科技有限公司 Copyright © 2008-2010 Powered By seo-021.com 沪ICP备09030439号