如何测试搜索引擎的索引量大小(后篇)
ELPC网站制作推广工作室
互联网转载
不详
2007-10-8 12:43:49
搜索引擎索引的等概率随机采样:Ziv Bar-Yossef 等人的方法介绍
对于搜索引擎等概率随机采样的研究已经有了相当长的历史,具体的背景文献我们不准备在这里一一探讨。我们希望通过对Bar-Yossef等人最近工作的介绍,把一种比较客观、科学的测试方法推介给读者。我们也会探讨他们的方法对于中文索引的局限性和一些解决方案。
图3,一个简化的搜索引擎索引
图3给出了一个简化了的搜索引擎索引示例,假定关键字“news”将返回4个结果:www.cnn.com、news.google.com、www.foxnews.com和news.bbc.co.uk。
首先我们给出一组定义
- 关键字搜索结果集合: results(q) = { 搜索关键字 q所返回的全部结果文档之集合}
- 文档关键字集合: queries(x) = { 所有能返回文档x的搜索关键字之集合}
- 搜索关键字池P:
一组理论上能够覆盖所有文档的搜索关键字集合
- 例如图3中P = {news, bbc, maps, google}
- 关键字搜索结果量:
card(q) = |results(q)|,搜索关键字 q所返回的全部结果文档之数量
- 例如图3中 card(“news”) = 4,card(“bbc”) = 3
- 文档匹配度:
deg(x) = |queries(x)| ,全体能够匹配文档x的搜索关键字数量
- 例如图3中deg(www.cnn.com) = 1,deg(news.bbc.co.uk) = 2
当我们通过搜索框对搜索引擎的索引进行采样,所获得的结果实际上偏向于匹配度高的文档。对于图3所示的搜索引擎,如果我们从搜索关键字池P = {news, bbc, maps, google}中任意选取一个关键字,然后在所得搜索结果中任意选取一个文档,那么选到某一个具体文档的概率与它的匹配度成正比 ,例如,p(news.bbc.co.uk) = 2/13 ,p(www.cnn.com) = 1/13
因此,通过关键字对搜索引擎的索引进行采样,实际上是对文档匹配度概率分布 在作随机抽样。具体地说,如果相对于一个给定的搜索关键字池P ,该索引的全部文档匹配度的总和为deg(D ) = ∑x∈D deg(x),那么通过搜索框对引擎采样获取具体一个文档x的概率是deg(x)/ deg(D )。
如何通过对文档匹配度分布 的随机抽样而获得我们所期望的等概率随机采样
责任编辑: 刘-高祖
- 相关信息
- 搜索引擎优化:诊断流量下降的原..[10-08]
- 搜索引擎优化:诊断流量下降的原..[10-08]
- 长尾理论和搜索引擎优化SEO[10-08]
- 搜索引擎优化要掌握的20条准则[10-08]
- 网站优化-百度搜索引擎相关[09-28]
- 百度搜索引擎对SEO元素的比重研究[09-28]
- 最新信息
- Zac访谈Matt Cutts[10-08]
- 搜索引擎优化:诊断流量下降的原..[10-08]
- 搜索引擎优化:诊断流量下降的原..[10-08]
- 长尾理论和搜索引擎优化SEO[10-08]
- 搜索引擎优化要掌握的20条准则[10-08]
- 坚持内容为王,开发出色内容[10-08]

