"北京大学信息管理系-百度(中国)有限公司
中国人搜索行为研究实验室 年 度 报 告 2007
二〇〇八年一月 北京
目录
中文搜索引擎搜索结果重合率研究 ................ - 1 1. 引言..............................................................................................................- 5 2. 研究方法......................................................................................................- 7 3. 数据统计结果............................................................................................- 10 4. 分析和讨论................................................................................................- 15 5. 结论............................................................................................................- 16 致谢 ..................................................................................................................- 17 参考文献 ..........................................................................................................- 17 -
互联网用户搜索行为中检索语言与语言现象研究 ... - 19 一 二 三 四 五 致 搜索行为之语言研究概述.......................................................................- 22 网络用户问卷调查研究...........................................................................- 24 搜索引擎查询日志挖掘研究...................................................................- 34 对比实验研究...........................................................................................- 41 研究结论...................................................................................................- 45 谢...............................................................................................................- 46 -
北京大学信息管理系获 SEWM2007 中文网页分类比赛第六名 ......................................... - 47 -
-1-
中文搜索引擎搜索结果重合率研究
王益明 刘菲 北京大学信息管理系
摘
要
本研究的目的是测试主流中文搜索引擎搜索结果之间的重合程度和差异程度, 并和主流
英文搜索引擎搜索结果的重合率进行比较。 利用一个具有 11171 条来自真实用户的提问样本 集对百度、谷歌和雅虎进行实际测试,发现中文搜索引擎搜索结果之间的重合率很低。 三个搜索引擎第一页搜索结果的重合率只有 2.54%,三者间任何两个引擎之间重合的比 例为 8.11%, 三者中任何一个引擎独有的搜索结果比例为 89.34%。 三个引擎前两页搜索结果 的重合率更低。 三个引擎两两之间进行比较时,百度和雅虎之间的重合率最低,第一页的重合率为 6.82%,而谷歌和雅虎的之间的重合率最高,第一页的重合率为 9.65%,百度和谷歌之间的 重合率居中,第一页的重合率为 7.78%。三个引擎两两之间前两页搜索结果的重合率比相应 的第一页搜索结果的重合率都要低。 三个引擎第一条搜索结果的重合率只有 3.86%,但比整个第一页面的重合率 2.54%要高 出 50%多。三个引擎两两之间第一条搜索结果的重合率略高于两两之间第一页搜索结果的重 合率。百度和雅虎第一条搜索结果的重合率最低,只有 7.65%,谷歌和雅虎第一条搜索结果 的重合率最高,为 10.85%,百度和雅虎第一条搜索结果的重合率居中,为 9.20%。 通过和已有的英文搜索引擎重合率测试数据的比较, 发现中英文搜索引擎搜索结果重合 率都很低,而且很接近。 本研究的结论是:不同的引擎,不同的结果。搜索引擎搜索结果之间的差异很大,重合 率很低。搜索引擎之间搜索结果重合率降低的趋势在今后一段时间内还会继续。
关键词:搜索引擎,搜索结果重合率,百度,谷歌,中国雅虎
-1-
Abstract
A Study of Results Overlap and Uniqueness among Major Chinese Web Search Engine Wang Yiming, Liu Fei (Department of Information management, Peking University, Beijing 100871) Abstract: Based on a large number of queries, this study is to measure the overlap and differences among search results across three most popular Chinese web search engines, which are Baidu, Google.cn and Yahoo.cn. The set of randomly selected user-entered queries has 11171 queries. Findings show that the percent of total first page results unique to only one of the three web search engines was 89.34%, shared by two of the three web search engines 8.11%, and shared by all three web search engines 2.54%. This small degree of overlap shows the significant difference in the way major Chinese web search engines retrieve and rank results as regards to the given queries. The research then compares these results with the overlap and uniqueness across the major English web search engines measured by American scholars before. Comparisons reflect that the overlap across major Chinese web search engines is the same as that across major English ones. Keywords: Search engine, Overlap, Baidu, Google.cn, Yahoo.cn
-2-
目
1. 1.1. 1.2. 1.3. 2. 2.1. 2.2. 2.3. 2.4. 3. 3.1. 3.2. 3.3. 3.4. 3.5. 3.6. 3.7. 4. 4.1. 4.2. 4.3. 5.
录
引言.......................................................................................................................... - 5 研究背景.............................................................................................................. - 5 相关研究现状...................................................................................................... - 6 研究目的.............................................................................................................. - 6 研究方法.................................................................................................................. - 7 实验设计.............................................................................................................. - 7 提问集的生成...................................................................................................... - 8 数据收集和预处理.............................................................................................. - 8 重合率的定义和计算方法.................................................................................. - 9 数据统计结果........................................................................................................ - 10 样本的基本情况................................................................................................ - 10 三大搜索引擎的搜索结果重合率.................................................................... - 10 只使用一个引擎时的漏检比例........................................................................ - 11 三大搜索引擎两两之间的搜索结果重合率 .................................................... - 12 各个搜索引擎搜索结果的独有比例................................................................ - 13 三大搜索引擎第一条搜索结果的重合率 ........................................................ - 14 三大搜索引擎前四条搜索结果的一致程度 .................................................... - 14 分析和讨论............................................................................................................ - 15 不同的引擎,不同的结果................................................................................ - 15 中英文搜索引擎搜索结果重合率的对比 ........................................................ - 15 中文元搜索引擎的发展空间............................................................................ - 16 结论........................................................................................................................ - 16 -
致谢 ....................................................................................................................................... - 17 参考文献 ............................................................................................................................... - 17 -
-3-
图表目录
图1 表1 表2 表3 表4 表5 表6 表7 表8 表9 表 10 表 11 表 12 表 13 表 14 三大搜索引擎第一页搜索结果的重合率 ............................................................. - 11 三大搜索引擎返还搜索结果的数量(单位:条) ............................................. - 10 三大搜索引擎第一页搜索结果的重合率 ............................................................. - 10 三大搜索引擎前两页搜索结果的重合率 ............................................................. - 11 三个引擎中只使用一个引擎时的漏检比例 ......................................................... - 12 百度和谷歌的搜索结果重合率............................................................................. - 12 百度和雅虎的搜索结果重合率............................................................................. - 12 谷歌和雅虎的搜索结果重合率............................................................................. - 12 百度搜索结果的独有比例..................................................................................... - 13 谷歌搜索结果的独有比例..................................................................................... - 13 雅虎搜索结果的独有比例................................................................................... - 13 三大搜索引擎第一条搜索结果的重合率 ........................................................... - 14 三大引擎两两之间第一条搜索结果的重合率 ................................................... - 14 三大搜索引擎前四条搜索结果的一致程度 ....................................................... - 15 主流中英文搜索引擎搜索结果重合率的对比 ................................................... - 16 -
-4-
1. 引言 1.1. 研究背景
互联网最近的 10 多年发展中,互联网上的信息,尤其是Web资源的增长非常迅速。据谷 歌(Google) 、雅虎(Yahoo!) 、Cyberatlas和麻省理工学院(MIT)等机构的估计,至 2007 年 7 月, 互联网上大约有 710 亿个公众可以访问的静态Web页面, 65 亿只限在内部网上访 有 问的静态Web页面,另外还有深藏在数据库中的超过 2200 亿的动态Web页面 。 据中国互联网络信息中心(CNNIC)的调查,至 2005 年底,中国大陆(不包括香港、澳 门、台湾地区)的网站拥有网页总数约为 24 亿个,网页总字节数约为 63932GB。另外,还 有在线数据库约 29.5 万个 。 搜索引擎是网络用户使用频率仅次于电子邮件和新闻浏览的互联网应用服务, 网络用户 几乎每天都在使用 。Web资源是互联网上最丰富的信息资源,而搜索引擎是Web资源的索引, 是使用Web资源的导航和指南。在浩如烟海的Web信息世界中,如果没有搜索引擎的导航,那 么对于Web资源的有效利用来说将是不可想象的灾难。然而,正是由于Web信息世界的浩瀚, 任何一个搜索引擎在它面前都显得渺小,其覆盖范围只占了整个Web世界的一小部分。据 Google公司的披露和学者的估计, 2004 年底, Google大约索引了 80 亿个Web页面 , 到了 2007 年中期,Google收录的Web网页达到了 125 亿 。这个数字离互联网上Web资源的总量还差得 很远。据有的学者估计,至 2007 年中,被常用搜索引擎收录的页面还不足互联网上全部网 页的 10% 。 搜索引擎由于网页抓取程序覆盖范围和更新频率的不同以及搜索结果排序算法的不同, 导致对于同一个查询提问, 不同的搜索引擎会有不同的搜索结果。 每个引擎都将搜索结果按 照自己的相关性排序规则呈现给用户, 因为各个搜索引擎的搜索结果的不同, 导致网络用户 在使用不同的搜索引擎时将会得到不同的结果。 这就导致了只使用一个引擎的用户将会遗漏 掉许多有用的结果。据北京正望咨询公司 2007 年 9 月发布的中国搜索引擎京沪穗用户调查 报告,有 64.3%的用户常用一个引擎,有 29.8%的用户经常使用两个引擎 。国内外其他的
Paul Gil. What is "The Invisible Web"?. [OL]. [2007-09-21]. http://netforbeginners.about.com/cs/secondaryweb1/a/secondaryweb.htm 2 CNNIC. 2005 年中国互联网络信息资源数量调查报告. [R/OL]. [2007-09-21]. htttp://www.cnnic.net.cn/download/2005/20050301.pdf 3 CNNIC. 中国互联网络发展状况统计报告(2007 年 1 月). [R/OL]. [2007-09-21]. http://www.cnnic.net.cn/uploadfiles/pdf/2007/2/13/95522.pdf 4 A. Gulli and A. Signorini. The Indexable Web is More than 11.5 billion pages. WWW 2005, May 10–14, 2005, Chiba, Japan. [OL]. [2007-09-21]. http://www.cs.uiowa.edu/~asignori/web-size/size-indexable-web.pdf 5 同1 6 同1 7 北京正望咨询有限公司. 中国搜索引擎京沪穗用户调查报告 2007. [R/OL].[2007-10-26]. http://www.sinaimg.cn/IT/focus/2007search/idx/2007/0917/U73P2T52D3140F1999DT20070917151539.pdf -51
7 6 5 4 3 2 1
搜索引擎用户调查也有类似的结论。 大部分用户只常用一个搜索引擎的习惯, 造成漏检许多 相关性较高的搜索结果的情况。 本研究的目的是测试当前主流的中文搜索引擎搜索结果的重合率, 以揭示不同搜索引擎 之间搜索结果的差异程度,为用户的搜索引擎使用提供参考。
1.2. 相关研究现状
搜索引擎搜索结果的重合率问题,从上个世纪 90 年代末开始就有一些学者和一些搜索 引擎公司做过零星的研究和测试。研究的结论是搜索引擎之间的重合率普遍较低
1,2,3
。美
国学者Amanda Spink、Bernard J. Jansen和元搜索引擎Dogpile.com公司合作分别于 2005 年 4 月、 2005 年 7 月和 2007 年 4 月对主流英文搜索引擎的搜索结果重合率做了 3 次大规模 的测试。他们得出的结论是Google、Yahoo!、Ask和MSN四大搜索引擎之间搜索结果的重合率 很低,并且随着时间的推移,重合率还在继续降低
4, 5 , 6
。
中文搜索引擎之间搜索结果的重合率研究只有零星的报道, 但没有正式的成果发表。 中 科院研究生院管理学院吕本富教授在 2006 年主持的一项关于搜索引擎相关性改进的研究中 发现,三大中文搜索引擎(百度、谷歌、雅虎)的搜索结果重合率只有 7%左右 。该结果 根据 270 位测试者的近 2 万条搜索结果分析得出 。大样本量的搜索结果重合率测试还未见 报道。
8 7
1.3. 研究目的
本研究的目的是测试主流中文搜索引擎搜索结果之间的重合程度和差异程度, 并和主流 英文搜索引擎搜索结果的重合率进行比较。具体目的如下:
1
A. Gulli and A. Signorini. Building an Open Source Meta Search Engine. WWW2005, May 10–14, 2005, Chiba, Japan. [OL]. [2007-09-21]. http://www2005.org/cdrom/docs/p1004.pdf 2 K. Bharat and A. Broder. A technique for measuring the relative size and overlap of public Web search engines.
Computer Networks and ISDN Systems, 1998(1): 379-388. [J/OL]. [2007-10-20]
http://net.pku.edu.cn/~wbia/2005/public_html/papers/webGraph/Estimating%20the%20Relative%20Size%20and %20Overlap%20of%20Public%20Web%20Search%20Engines.pdf 3 John Bailey etc. Search Engine Overlaps : Do they agree or disagree? Second International Workshop on Realising
Evidence-Based Software Engineering (REBSE'07)[OL]
http://ieeexplore.ieee.org/iel5/4273269/4273270/04273274.pdf?arnumber=4273274 4 Dogpile. Different Engines, Different Results 2005[R/OL]. [2007-09-21]. http://comparesearchengines.dogpile.com/OverlapAnalysis.pdf 5 Dogpile. Different Engines, Different Results 2007[R/OL]. [2007-09-21]. http://www.infospaceinc.com/onlineprod/Overlap-DifferentEnginesDifferentResults.pdf 6 Amanda Spink, Bernard J. Jansen, Chris Blakely, Sherry Koshman. A study of results overlap and uniqueness among major Web search engines [J/OL]. Information Processing and Management 2006(5): 1379-1391. [2007-10-1]. http://sky.fit.qut.edu.au/~spinkah/eprints/IPM-OverlapStudy.pdf 7 计算机世界网. 中科院报告称三大搜索引擎搜索重合率只有 7%[OL]. [2007-09-21]. http://soft.ccw.com.cn/web/other/htm2006/20060907_208454.htm 8 长垣纵横网. 基于客户体验的搜索引擎相关性改进报告-雅虎比肩百度[OL]. [2007-09-21]. http://www.feng7.com/zblog/post/基于客户体验的搜索引擎相关性改进报告.html -6-
测定主流中文搜索引擎相互之间非赞助搜索结果的重合率和差异程度。 比较主流中文搜索引擎和主流英文搜索引擎的搜索结果重合率。
2. 研究方法 2.1. 实验设计
基于以上研究目的,我们设计了一个实验。编写一个程序,将一个预先生成的提问集 (query set)中的提问依次提交给主流的中文搜索引擎,并将返回的搜索结果自动存储在 一个文件中。 通过对各个搜索引擎搜索结果的统计和分析, 就可以得到搜索引擎的重合率和 差异程度。 主流中文搜索引擎的选取,主要依据中国互联网络信息中心(CNNIC)的中国搜索引擎 市场调查报告 和Alexa.com公司的网络流量排序 。根据CNNIC2006 年和 2007 年的调查,中 文搜索引擎按照所占市场份额的大小排列依次是百度 (Baidu)谷歌 、 (Google)雅虎 、 (Yahoo!) 和搜狗(Sogou) 。根据Alexa的用户流量排序(traffic rank) ,中文搜索引擎 2007 年 9 月 至 10 月的流量排在前 4 位的也依次是百度、谷歌、雅虎和搜狗。为了便于和Dogpile的研究 结果进行比较,我们选择了这 4 个中文引擎。 一个提问返还的搜索结果往往有很多, 截取多少条搜索结果才能较真实地反映出各个搜 索引擎之间的重复率呢?我们认为只要比较各个搜索引擎的第一页搜索结果即可。 主要理由 有以下两点。 一是极大多数搜索用户的点击发生在搜索结果的第一页上。 国内外搜索引擎日志的分析 结果一再证实这一点。2006 年 8 月在EarnersForum.com网站的一个讨论搜索引擎优化和搜 索引擎营销的论坛上,有人根据美国在线(AOL)公布的自 2006 年 3 月 1 日至 5 月 31 日的 部分用户搜索日志,统计了 9038794 条用户搜索及相应的 4926623 次点击,第一页(排序号 前 10 位)搜索结果的点击次数占全部点击次数的 89.82%,第二页(排序号 11 至 20)搜索 结果的点击次数占全部点击次数的 4.37% 。Dogpile统计了其 2007 年 3 月和 4 月的部分搜 索日志,发现第一页搜索结果的点击次数占全部点击的 88.5% 。Dogpile和AOL搜索日志的 分析结果基本一致。 中文搜索引擎搜索结果的被点击情况也类似,王继民和彭波分析了北大天网 2003 年 9
4 3 1 2
1
2
CNNIC. 中国互联网络热点调查[OL]. [2007-11-01]. http://www.cnnic.net.cn/index/0E/manual/91/index.htm Alexa. Top Sites China[OL]. [2007-11-01]. http://www.alexa.com/site/ds/top_sites?cc=CN&ts_mode=country&lang=none 3 Earnersforum. [OL]. [2007-11-01]. http://www.earnersforum.com/t3953/ 4 Dogpile. Different Engines, Different Results 2007[R/OL]. [2007-09-21]. http://www.infospaceinc.com/onlineprod/Overlap-DifferentEnginesDifferentResults.pdf
-7-
月和 10 月的户日志,他们发现,点击搜索结果第一页占全部点击数量的 62%,点击前两页 的占全部点击数量的 76% 。 二是根据搜索引擎的排序算法,排在第一页的搜索结果..."
|
You need to upgrade your Flash Player , or try to enable javascript in order see this document properly.
|
|