20070712 搜索引擎 蜘蛛 灭害
http://www.yippeesoft.com

加上一个蜘蛛统计的PHP ,发现。。。。。。

菩提:喝茶。
  至尊宝:麻烦你了!
  菩提:不要客气!
  至尊宝:为什么带我回这个洞呢?
  菩提:不是我们带你来的,是你昏倒迷迷糊糊带我们来的!
  至尊宝:我一定是太想念晶晶了。
  菩提:是啊,你昏倒的时候叫了晶晶这个名字叫了九十八次。
  至尊宝:晶晶是我娘子。
  菩提:还有一个名字叫紫霞的你叫了七百八十四次!
  至尊宝:啊?!
  菩提:七百八十四次……这个紫霞一定欠你很多钱。

我问候了YAHOO N次后,发现我还要问候×× ×× N次

因为,他们一定欠我很多流量

刚才看访问记录看到有Yahoo! Slurp,msnbot/1.0,Baiduspider+,Mediapartners-Google/2.1,lanshanbot/1.0+

YAHOO的抓了我1451 次,这个lanshanbot抓了 1219 次。。

今天查看网站访问日志的时候发现了一个陌生的蜘蛛,lanshanbot/1.0 202.96.51.146,google/baidu搜索都查不到相关的结果,google里只找到了一条 Details of "lanshanbot/1.0" user-agent ,也没提到这蜘蛛是谁家的,俺只好自己来探一探了。

先到ip138查询202.96.51.146这个IP,结果为:
   查询结果1:北京市 电信  
   查询结果2:北京市 东方网景
这个东方网景是谁?google查询,好象应该是east.net。上east.net去看一看,好象是一个搞网站建设之类的公司,靠!
估计是什么人的主机托管在那里,然后由这个主机放蜘蛛出来搜索资料的。至于搜索得到的资料干什么用去了,嘿嘿,不好说

The Alexa crawler (robot), which identifies itself as ia_archiver in the HTTP "User-agent" header field, uses a web-wide crawl strategy. Basically, it starts with a list of known URLs from across the entire Internet, then it fetches all local links found as it goes. There are several advantages to this approach, most importantly that it creates the least possible disruption to the sites being crawled.

   Alexa启用了一个叫做IA_Archiver的机器人程序,这个机器人程序类似Google等搜索引擎使用的蜘蛛程序,专门在互联网上爬行,刺探每个Web页面的流量信息。尤其是当某个网站的流量超过Alexa设定的阈值时,IA_Archiver就会马上爬到该网站的服务器上,分析此网站的流量是否正常,有没有作弊行为

加上
User-agent: Baiduspider+
Disallow: /

User-agent: Baiduspider
Disallow: /

User-agent: ia_archiver
Disallow: /

User-agent: lanshanbot
Disallow: /

SetEnvIfNoCase User-Agent "^Baiduspider" ban_bot
SetEnvIfNoCase User-Agent "^Baiduspider+" ban_bot
SetEnvIfNoCase User-Agent "^ia_archiver" ban_bot
SetEnvIfNoCase User-Agent "^lanshanbot" ban_bot

deny from env=ban_bot

哇噻:
悟空:大家看到啦?这个家伙没事就长篇大论婆婆妈妈叽叽歪歪,就好象整天有一只苍蝇,嗡……对不起,不是一只,是一堆苍蝇围着你,嗡…嗡…嗡…嗡…飞到你的耳朵里面,救命啊!

  (悟空倒地翻滚,异常痛苦。)悟空:所以呢我就抓住苍蝇挤破它的肚皮把它的肠子扯出来再用它的肠子勒住他的脖子用力一拉,呵--!整条舌头都伸出来啦!我再手起刀落哗--!整个世界清净了。现在大家明白,为什么我要杀他!

历史博文

标签:, ,
四月 5, 2008 at 11:46 下午 by yippee 1,007 次
Category: RAN乱
Tags: , ,