如何测试搜索引擎的索引量大小(后篇)
ELPC网站制作推广工作室
互联网转载
不详
2007-10-8 12:43:49
呢?这正是Bar-Yossef 等人工作的主要成果所在:他们采用蒙特卡罗仿真(Monte Carlo Simulation)
算法实现了这一点
- 目标分布π(x) : D 上的等概率随机分布, π(x) = 1/|D |
- 实际采样分布p(x) : D 上的文档匹配度随机分布,p(x) = deg(x) / ∑x'∈D deg(x')
- 偏差权值: w(x) = π(x)/p(x) ∝1/deg(x)
- 选定一个搜索关键字池 P
- 随机选取q ∈P
- 在搜索结果中随机选取一个文档x ∈results(q)
- 计算该文档对P 的匹配度deg(x)
- 产生一个0~1的随机数r,如果r ≤ 1/deg(x)保留该文档,否则放弃
- 重复上述过程直到获得N个有效采样点
上述算法在数学上非常严谨优美,但是在具体的实现过程中仍然有相当多的困难,尤其是对于中文搜索引擎,有一些特殊的问题需要探讨。
- 搜索关键字池P 的选取
- 如何计算文档对P 的匹配度deg(x)?
- 搜索引擎对搜索最大返回结果的限制。
- 该算法的计算复杂度比较高。
* Ziv Bar-Yossef and Maxim Gurevich, Random Sampling from a Search Engine's Index (PDF文件和PPT文件)
<
责任编辑: 刘-高祖
- 相关信息
- 搜索引擎优化:诊断流量下降的原..[10-08]
- 搜索引擎优化:诊断流量下降的原..[10-08]
- 长尾理论和搜索引擎优化SEO[10-08]
- 搜索引擎优化要掌握的20条准则[10-08]
- 网站优化-百度搜索引擎相关[09-28]
- 百度搜索引擎对SEO元素的比重研究[09-28]
- 最新信息
- Zac访谈Matt Cutts[10-08]
- 搜索引擎优化:诊断流量下降的原..[10-08]
- 搜索引擎优化:诊断流量下降的原..[10-08]
- 长尾理论和搜索引擎优化SEO[10-08]
- 搜索引擎优化要掌握的20条准则[10-08]
- 坚持内容为王,开发出色内容[10-08]

