财经社区女性社区汽车社区军事社区文学社区社会社区娱乐社区游戏社区个人空间
上一主题:毛泽东主席“物质无限可分”观点... 下一主题:CZS引力场折光理论与广义相对理论...
【转载】即将到来的搜索引擎暗网之战
[楼主] 作者:shirleynj  发表时间:2009/07/28 23:37
点击:390次

前一段,Google索引的网址数量突破1兆。本来可喜可贺,没想到《纽约时报》的专栏专家倒打一耙,说“尽管突破1兆,但还差得远,Google的终极克星就是还没索引到的deep web。”

关于deep web(暗网),说白了,它就是搜索引擎和web内容的一场“猫捉老鼠”游戏。

你在明,他在暗,猫要怎么才能抓到老鼠?办法只有两种,一种是猫不眠不休拼命去抓;一种就是设计引诱老鼠主动送货上门。

Google主张前者,即以机器人主动抓取,百度主张后者,即以合作的方式“诱捕”暗网内容。这两种截然不同的思路必然将在未来有一场PK。

1、Google早就推出了“深度搜索”技术,但现实是,现在互联网暗网产生的速度远远快于抓取的速度,也就是说互联网正在变得越来越“暗”。这也是《纽约时报》质疑的焦点。

2、百度的“阿拉丁”是个开放性平台,体系中的三方——用户、搜索引擎、网站均能得到好处,这将让事情的进展事半功倍。这也是Yahoo选择类似思路的主要原因。开放必然是未来互联网的趋势。

3、从实际体验来看,“阿拉丁”的搜索结果明显好于Google。大家可以试试“天气”、“CCTV节目表”、“中国石油”、“意甲积分”等。出现的结果比较符合用户的搜索预期。这其实并非偶然,设想:搜索引擎的爬虫再先进,也肯定不如网站自身了解自己的目标用户及最优质数据是哪些。所以,由网站直接提交的数据往往是最符合用户需要的。

4、“阿拉丁”效率更高。一个典型的例子就是:百度可以与携程合作,将机票和酒店的信息嫁接过来。但Google只能重复做一遍携程做过的事,做一个小型的机票酒店垂直搜索。要记得,这只是两个行业,如果是成百上千个行业,恐怕Google得累死了。

5、“阿拉丁”更有灵活性。由于展示的方式、位置、关键词、爬虫抓取频率都是网站按照自身实际情况设定的,所以其展示上更加自由。是表格?还是图片,都有站长来确定。当然,Google的结果也有些无序。

6、大量搜索引擎后来者都采取的是“合作”。比如前一段发布的WolframAlpha,其实就是一个应对暗网的典范,你在上面搜索关键词,获得的是直接结果。WolframAlpha采取的方式是和一些数据机构合作,让暗网主动送上门。

如此看来,似乎百度处于上风。不过这是一场持续的战争,也许要再过几年才能真正下结论。



※※※※※※
一层是挣扎,一层是蜕变,而在蓦然回首的痛楚里,频频出现的是你我的年华。
本帖地址:http://club.xilu.com/hongbin/msgview-950451-198503.html[复制地址]
上一主题:毛泽东主席“物质无限可分”观点... 下一主题:CZS引力场折光理论与广义相对理论...
 [2楼]  作者:ptnan  发表时间: 2009/07/29 00:30 

读帖时,帖子不存在

精彩推荐>>

  简捷回复 [点此进入编辑器回帖页]  文明上网 理性发言
 推荐到西陆名言:
签  名:
作  者:
密  码:
游客来访 
注册用户 提 交
西陆网(www.xilu.com )版权所有 点击拥有西陆免费论坛  联系西陆小精灵

0.14168405532837