网站公告:
WWW.PC12011.COM
 
ELPC网站制作推广工作室 >> SEO >> 如何测试搜索引擎的索引量大小(后篇)

如何测试搜索引擎的索引量大小(后篇)

ELPC网站制作推广工作室 互联网转载 不详 2007-10-8 12:43:49
搜索引擎索引的等概率随机采样:Ziv Bar-Yossef 等人的方法介绍

对于搜索引擎等概率随机采样的研究已经有了相当长的历史,具体的背景文献我们不准备在这里一一探讨。我们希望通过对Bar-Yossef等人最近工作的介绍,把一种比较客观、科学的测试方法推介给读者。我们也会探讨他们的方法对于中文索引的局限性和一些解决方案。

图3,一个简化的搜索引擎索引

图3给出了一个简化了的搜索引擎索引示例,假定关键字“news”将返回4个结果:www.cnn.com、news.google.com、www.foxnews.com和news.bbc.co.uk。

首先我们给出一组定义

  • 关键字搜索结果集合: results(q) = { 搜索关键字 q所返回的全部结果文档之集合}
  • 文档关键字集合: queries(x) = { 所有能返回文档x的搜索关键字之集合}
  • 搜索关键字池P: 一组理论上能够覆盖所有文档的搜索关键字集合
    • 例如图3中P = {news, bbc, maps, google}
  • 关键字搜索结果量: card(q) = |results(q)|,搜索关键字 q所返回的全部结果文档之数量
    • 例如图3中 card(“news”) = 4,card(“bbc”) = 3
  • 文档匹配度: deg(x) = |queries(x)| ,全体能够匹配文档x的搜索关键字数量
    • 例如图3中deg(www.cnn.com) = 1,deg(news.bbc.co.uk) = 2

当我们通过搜索框对搜索引擎的索引进行采样,所获得的结果实际上偏向于匹配度高的文档。对于图3所示的搜索引擎,如果我们从搜索关键字池P = {news, bbc, maps, google}中任意选取一个关键字,然后在所得搜索结果中任意选取一个文档,那么选到某一个具体文档的概率与它的匹配度成正比 ,例如,p(news.bbc.co.uk) = 2/13 ,p(www.cnn.com) = 1/13

因此,通过关键字对搜索引擎的索引进行采样,实际上是对文档匹配度概率分布 在作随机抽样。具体地说,如果相对于一个给定的搜索关键字池P ,该索引的全部文档匹配度的总和为deg(D ) = ∑x∈D deg(x),那么通过搜索框对引擎采样获取具体一个文档x的概率是deg(x)/ deg(D )。

如何通过对文档匹配度分布 的随机抽样而获得我们所期望的等概率随机采样

责任编辑: 刘-高祖
ELPC网站制作推广工作室点击这里给我发消息
公司地址:上海市武宁路1001号1509 室
电  话:0-13818910035
电子邮件:web@pc1201.com
网站ICP备案号:  沪 ICP 备案审核中
Powered By: KingCMS 3.0 Beta
/**/