首页

网站优化: | 搜索优化 | 搜索引擎 | 网站建设 | 网站推广 | Alexa研究 | DMOZ研究    
搜索引擎: | 谷歌搜索 | 雅虎搜索 | Live搜索 | 百度搜索 | 其他搜索      
广告联盟: | 行业新闻 | 广告联盟 | 广告投放 | 网赚技巧 | 英文专区 | 网络热点评论    
站长资源: | 免费域名 | 免费邮箱 | 免费网盘 | 免费统计 | 建站资源 | 国内免费空间 | 国外免费空间
会员中心
社区论坛
站内留言
 

全站最新内容RSS订阅……

您现在的位置: 网络搜索优化学院 >> 网站优化 >> 搜索引擎 >> 文章正文

【字体:         ★★★★★
 
搜索引擎算法研究
作者:龍慕臨淵 文章来源:seochat.org 点击数: 更新时间:2008-1-13

1.引言

   万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],不到9个月的时间文档总数就会翻一番[14]。WEB上的文档和传统的文档比较,有很多新的特点,它们是分布的,异构的,无结构或者半结构的,这就对传统信息检索技术提出了新的挑战。

   传统的WEB搜索引擎大多数是基于关键字匹配的,返回的结果是包含查询项的文档,也有基于目录分类的搜索引擎。这些搜索引擎的结果并不令人满意。有些站点有意提高关键字出现的频率来提高自身在搜索引擎中的重要性,破坏搜索引擎结果的客观性和准确性。另外,有些重要的网页并不包含查询项。搜索引擎的分类目录也不可能把所有的分类考虑全面,并且目录大多靠人工维护,主观性强,费用高,更新速度慢[2]

   最近几年,许多研究者发现,WWW上超链结构是个非常丰富和重要的资源,如果能够充分利用的话,可以极大的提高检索结果的质量。基于这种超链分析的思想,Sergey Brin和Lawrence Page在1998年提出了PageRank算法[1] ,同年J. Kleinberg提出了HITS算法[5],其它一些学者也相继提出了另外的链接分析算法,如SALSA,PHITS,Bayesian等算法。这些算法有的已经在实际的系统中实现和使用,并且取得了良好的效果。

   文章的第2部分按照时间顺序详细剖析了各种链接分析算法,对不同的算法进行了比较。第3部分对这些算法做了评价和总结,指出了存在的问题和改进方向。

 

2.WEB超链分析算法

 

.1 GooglePageRank算法

   搜索引擎Google最初是斯坦福大学的博士研究生Sergey Brin和Lawrence Page实现的一个原型系统[2],现在已经发展成为WWW上最好的搜索引擎之一。Google的体系结构类似于传统的搜索引擎,它与传统的搜索引擎最大的不同处在于对网页进行了基于权威值的排序处理,使最重要的网页出现在结果的最前面。Google通过PageRank元算法计算出网页的PageRank值,从而决定网页在结果集中的出现位置,PageRank值越高的网页,在结果中出现的位置越前。

2.1.1 PageRank算法

    PageRank算法基于下面2个前提:

   前提1:一个网页被多次引用,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重要的网页引用,则它也可能是很重要的;一个网页的重要性被平均的传递到它所引用的网页。这种重要的网页称为权威(Authoritive)网页。

   前提2:假定用户一开始随机的访问网页集合中的一个网页,以后跟随网页的向外链接向前浏览网页,不回退浏览,浏览下一个网页的概率就是被浏览网页的PageRank值。

   简单PageRank算法描述如下:u是一个网页,是u指向的网页集合,是指向u的网页集合,是u指向外的链接数,显然=| | ,c是一个用于规范化的因子(Google通常取0.85),(这种表示法也适用于以后介绍的算法)则u的Rank值计算如下:

   这就是算法的形式化描述,也可以用矩阵来描述此算法,设A为一个方阵,行和列对应网页集的网页。如果网页i有指向网页j的一个链接,则,否则=0。设V是对应网页集的一个向量,有V=cAV,V为A的特征根为c的特征向量。实际上,只需要求出最大特征根的特征向量,就是网页集对应的最终PageRank值,这可以用迭代方法计算。

   如果有2个相互指向的网页a,b,他们不指向其它任何网页,另外有某个网页c,指向a,b中的某一个,比如a,那么在迭代计算中,a,b的rank值不分布出去而不断的累计。如下图:

   为了解决这个问题,Sergey Brin和Lawrence Page改进了算法,引入了衰退因子E(u),E(U)是对应网页集的某一向量,对应rank的初始值,算法改进如下:

其中,=1,对应的矩阵形式为V’=c(AV’+E)。

   另外还有一些特殊的链接,指向的网页没有向外的链接。PageRank计算时,把这种链接首先除去,等计算完以后再加入,这对原来计算出的网页的rank值影响是很小的。

   Pagerank算法除了对搜索结果进行排序外,还可以应用到其它方面,如估算网络流量,向后链接的预测器,为用户导航等[2]

[1] [2] [3] [4] [5] 下一页


  • 上一篇文章:

  • 下一篇文章:
  • 发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
    收藏到网摘:Google书签 Del.icio.us Yahoo书签 新浪ViVi 搜狐网摘 365Key网摘 天极网摘 我摘 POCO网摘 博采网摘 YouNote网摘 和讯网摘 博啦网 亿友响享 igooi网摘 I2Key网摘 天下图摘 百特门网摘
    网 友 评 论
     
    SEO搜索引擎 网赚
    最 新 文 章
    更多内容
    [网站建设]提高操作系统和IIS的安全性
    [网络热点评论]“网民爆料”揭黑反腐互联…
    [网站建设]PHP+MYSQL 简单实现中文分…
    [搜索引擎]从容应对搜索引擎不收录或…
    [网站建设].htaccess 网站防盗链设置…
    [网站建设]IIS(Windows服务器)启用…
    [网站优化]友情链接交换的注意事项
    [网络热点评论]黑客侵入红十字会网站 骗善…
    [网站优化]对于URL结构处理较好的方式…
    [搜索引擎]搜索引擎优化中的常见问题
    最新文章 热门文章 推荐文章 相关文章
    专 题 栏 目
    更多内容
     
    图 文
    更多内容
     
     
    | 网站地图 | 设为首页 | 加入收藏 | 联系站长 | 友情链接 | 版权申明 |
    网络搜索优化学院
    [ 转载网络搜索优化学院资料请标明出处并加上到本站的链接 ]
    本站内容部份采集自网络,本着为网站优化爱好者提供方便。
    如有版权问题请来信,我们第1时间删除,谢谢!
    Copyright © 2007-2008 版权所有 Usbd.Com.Cn