首页

网站优化: | 搜索优化 | 搜索引擎 | 网站建设 | 网站推广 | Alexa研究 | DMOZ研究 | 建站素材  
搜索引擎: | 谷歌搜索 | 雅虎搜索 | Live搜索 | 百度搜索 | 其他搜索      
广告联盟: | 行业新闻 | 广告联盟 | 广告投放 | 网赚技巧 | 英文专区 | 网络热点评论    
站长资源: | 免费域名 | 免费邮箱 | 免费网盘 | 免费统计 | 建站资源 | 国内免费空间 | 国外免费空间
会员中心
社区论坛
站内留言
 

全站最新内容RSS订阅……

您现在的位置: 网络搜索优化学院 >> 网站优化 >> 搜索引擎 >> 文章正文

【字体:         ★★★★★
 
搜索引擎算法研究
作者:龍慕臨淵 文章来源:seochat.org 点击数: 更新时间:2008-1-13


为了符合贝叶斯统计模型的规范,要给2M+N个未知参数()指定先验分布,这些分布应该是一般化的,不提供信息的,不依赖于被观察数据的,对结果只能产生很小影响的。Allan Borodin等在中指定满足正太分布N(μ,),均值μ=0,标准方差δ=10,指定满足Exp1)分布,即x>=0P(>=x)P(>=x)Exp(-x)。

   接下来就是标准的贝叶斯方法处理和HITS中求矩阵特征根的运算。

2.5.1 简化的贝叶斯算法

   Allan Borodin同时提出了简化的上述贝叶斯算法,完全除去了参数,也就不再需要正太分布的参数μ,δ了。计算公式变为:P(i,j)=/(1+),Hub网页到Authority网页j没有链接时,P(i,j)=1/(1+)。

   Allan Borodin 指出简化的贝叶斯产生的效果与SALSA算法的结果非常类似。

 

.6 Reputation

   上面的所有算法,都是从查询项或者主题出发,经过算法处理,得到结果网页。多伦多大学计算机系Alberto Mendelzon, Davood Rafiei提出了一种反向的算法,输入为某个网页的URL地址,输出为一组主题,网页在这些主题上有声望(repution)[16]。比如输入,www.gamelan.com,可能的输出结果是“java”,具体的系统可以访问htpp://www.cs.toronto.edu/db/topic。

   给定一个网页p,计算在主题t上的声望,首先定义2个参数,渗透率和聚焦率,简单起见,网页p包含主题项t,就认为p在主题t上。

 

是指向p而且包含t的网页数目,是指向p的网页数目,是包含t的网页数目。结合非条件概率,引入是WEB上网页的数目。P在t上的声望计算如下:

   指定是既指向p有包含t的概率,即,显然有

   我们可以从搜索引擎(如Altavista)的结果得到, ,WEB上网页的总数估计值某些组织会经常公布,在计算中是个常量不影响RM的排序,RM最后如此计算:

   给定网页p和主题t,RM可以如上计算,但是多数的情况的只给定网页p,需要提取主题后计算。算法的目标是找到一组t,使得RM(p,t)有较大的值。TOPIC系统中是抽取指向p的网页中的锚文本的单词作为主题(上面已经讨论过锚文本能很好描述目标网页,精度很高),避免了下载所有指向p的网页,而且RM(p,t)的计算很简单,算法的效率较高。主题抽取时,还忽略了用于导航、重复的链接的文本,同时也过滤了停止字(stop word),如“a”,“the”,“for”,“in”等。

   Reputation算法也是基于随机漫游模型的(random walk),可以说是PageRank和SALSA算法的结合体。

 

.链接算法的分类及其评价

   链接分析算法可以用来提高搜索引擎的查询效果,可以发现WWW上的重要的社区,可以分析某个网站的拓扑结构,声望,分类等,可以用来实现文档的自动分类等。归根结底,能够帮助用户在WWW海量的信息里面准确找到需要的信息。这是一个正在迅速发展的研究领域。

   上面我们从历史的角度总结了链接分析算法的发展历程,较为详细的介绍了算法的基本思想和具体实现,对算法的存在的问题也做了讨论。这些算法有的处于研究阶段,有的已经在具体的系统实现了。这些算法大体可以分为3类,基于随机漫游模型的,比如PageRank,Repution算法,基于Hub和Authority相互加强模型的,如HITS及其变种,基于概率模型的,如SALSA,PHITS,基于贝叶斯模型的,如贝叶斯算法及其简化版本。所有的算法在实际应用中都结合传统的内容分析技术进行了优化。一些实际的系统实现了某些算法,并且获得了很好的效果,Google实现了PageRank算法,IBM Almaden Research Center 的Clever Project实现了ARC算法,多伦多大学计算机系实现了一个原型系统TOPIC,来计算指定网页有声望的主题。

   AT&T香农实验室的Brian Amento在指出,用权威性来评价网页的质量和人类专家评价的结果是一致的,并且各种链接分析算法的结果在大多数的情况下差别很小[15]。但是,Allan Borodin也指出没有一种算法是完美的,在某些查询下,结果可能很好,在另外的查询下,结果可能很差[11]。所以应该根据不同查询的情况,选择不同的合适的算法。

   基于链接分析的算法,提供了一种衡量网页质量的客观方法,独立于语言,独立于内容,不需人工干预就能自动发现WEB上重要的资源,挖掘出WEB上重要的社区,自动实现文档分类。但是也有一些共同的问题影响着算法的精度。

1.根集的质量。根集质量应该是很高的,否则,扩展后的网页集会增加很多无关的网页,产生主题漂移,主题泛化等一系列的问题,计算量也增加很多。算法再好,也无法在低质量网页集找出很多高质量的网页。

2.噪音链接。WEB上不是每个链接都包含了有用的信息,比如广告,站点导航,赞助商,用于友情交换的链接,对于链接分析不仅没有帮助,而且还影响结果。如何有效的去除这些无关链接,也是算法的一个关键点。

3.锚文本的利用。锚文本有很高的精度,对链接和目标网页的描述比较精确。上述算法在具体的实现中利用了锚文本来优化算法。如何准确充分的利用锚文本,对算法的精度影响很大。

4.查询的分类。每种算法都有自身的适用情况,对于不同的查询,应该采用不同的算法,以求获得最好的结果。因此,对于查询的分类也显得非常重要。

   当然,这些问题带有很大的主观性,比如,质量不能精确的定义,链接是否包含重要的信息也没有有效的方法能准确的判定,分析锚文本又涉及到语义问题,查询的分类也没有明确界限。如果算法要取得更好的效果,在这几个方面需要继续做深入的研究,相信在不久的将来会有更多的有趣和有用的成果出现。

上一页  [1] [2] [3] [4] [5] 


  • 上一篇文章:

  • 下一篇文章:
  • 发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
    收藏到网摘:Google书签 Del.icio.us Yahoo书签 新浪ViVi 搜狐网摘 365Key网摘 天极网摘 我摘 POCO网摘 博采网摘 YouNote网摘 和讯网摘 博啦网 亿友响享 igooi网摘 I2Key网摘 天下图摘 百特门网摘
    网 友 评 论
     
    SEO搜索引擎 网赚
    最 新 文 章
    更多内容
    [网站建设]如何让百度多收录你采集的…
    [网站推广]站长快速增加流量最佳方案
    [DMOZ研究]关于亚马逊的《开放目录专…
    [网站推广]市场推广宝典之:网站推广…
    [网站建设]提高网站网页打开速度的一…
    [网站建设]精辟:博客站运营的十五个…
    [搜索引擎]重视seo不如重视网站内容和…
    [网站优化]网站SEO,标题优化七要素
    [网站建设]如何判断域名是否被百度和…
    [网络热点评论]商业周刊:08年最具影响力的…
    最新文章 热门文章 推荐文章 相关文章
    专 题 栏 目
    更多内容
     
    图 文
    更多内容
     
     
    | 网站地图 | 设为首页 | 加入收藏 | 联系站长 | 友情链接 | 版权申明 |
    网络搜索优化学院
    [ 转载网络搜索优化学院资料请标明出处并加上到本站的链接 ]
    本站内容部份采集自网络,本着为网站优化爱好者提供方便。
    如有版权问题请来信,我们第1时间删除,谢谢!
    Copyright © 2007-2008 版权所有 Usbd.Com.Cn