首页

网站优化: | 搜索优化 | 搜索引擎 | 网站建设 | 网站推广 | Alexa研究 | DMOZ研究 | 建站素材  
搜索引擎: | 谷歌搜索 | 雅虎搜索 | Live搜索 | 百度搜索 | 其他搜索      
广告联盟: | 行业新闻 | 广告联盟 | 广告投放 | 网赚技巧 | 英文专区 | 网络热点评论    
站长资源: | 免费域名 | 免费邮箱 | 免费网盘 | 免费统计 | 建站资源 | 国内免费空间 | 国外免费空间
会员中心
社区论坛
站内留言
 

全站最新内容RSS订阅……

您现在的位置: 网络搜索优化学院 >> 网站优化 >> 搜索引擎 >> 文章正文

【字体:         ★★★★★
 
搜索引擎算法研究
作者:龍慕臨淵 文章来源:seochat.org 点击数: 更新时间:2008-1-13


2.2.3 HITS的变种

   HITS算法遇到的问题,大多是因为HITS是纯粹的基于链接分析的算法,没有考虑文本内容,继J. Kleinberg提出HITS算法以后,很多研究者对HITS进行了改进,提出了许多HITS的变种算法,主要有:

2.2.3.1 Monika R. Henzinger和Krishna Bharat对HITS的改进

   对于上述提到的HITS遇到的第2个问题,Monika R. Henzinger和Krishna Bharat在[7]中进行了改进。假定主机A上有k个网页指向主机B上的某个文档d,则A上的k个文档对B的Authority贡献值总共为1,每个文档贡献1/k,而不是HITS中的每个文档贡献1,总共贡献k。类似的,对于Hub值,假定主机A上某个文档t指向主机B上的m个文档,则B上m个文档对t的Hub值总共贡献1,每个文档贡献1/m。I,O操作改为如下

I 操作:

O操作:

   调整后的算法有效的解决了问题2,称之为imp算法。

   在这基础上,Monika R. Henzinger和Krishna Bharat还引入了传统信息检索的内容分析技术来解决4和5,实际上也同时解决了问题3。具体方法如下,提取根集S中的每个文档的前1000个词语,串连起来作为查询主题Q,文档Dj和主题Q的相似度按如下公式计算:

=项i在查询Q中的出现次数,

=项i在文档Dj中的出现次数,IDFi是WWW上包含项i的文档数目的估计值。

   在S扩展到T后,计算每个文档的主题相似度,根据不同的阈值(threshold)进行刷选,可以选择所有文档相似度的中值,根集文档相似度的中值,最大文档相似度的分数,如1/10,作为阈值。根据不同阈值进行处理,删除不满足条件的文档,再运行imp算法计算文档的A/H值,这些算法分别称为med,startmed,maxby10。

   在此改进的算法中,计算文档的相似度时间开销会很大。

2.2.3.2 ARC算法

   IBM Almaden研究中心的Clever工程组提出了ARC(Automatic Resource Compilation)算法,对原始的HITS做了改进,赋予网页集对应的连结矩阵初值时结合了链接的锚(anchor)文本,适应了不同的链接具有不同的权值的情况。

   ARC算法与HITS的不同主要有以下3点:

1.由根集S扩展为T时,HITS只扩展与根集中网页链接路径长度为1的网页,也就是只扩展直接与S相邻的网页,而ARC中把扩展的链接长度增加到2,扩展后的网页集称为增集(Augment Set)。

2.HITS算法中,每个链接对应的矩阵值设为1,实际上每个链接的重要性是不同的,ARC算法考虑了链接周围的文本来确定链接的重要性。考虑链接p->q,p中有若干链接标记,文本1<a href=”q”>锚文本</a>文本2,设查询项t在文本1,锚文本,文本2,出现的次数为n(t),则w(p,q)=1+n(t)。文本1和文本2的长度经过试验设为50字节[10]。构造矩阵W,如果有网页i->j ,Wi,j=w(i,j),否则Wi,j=0,H值设为1,Z为W的转置矩阵,迭代执行下面3个的操作:

(1)A=WH (2)H=ZA (3)规范化A,H

3.ARC算法的目标是找到前15个最重要的网页,只需要A/H的前15个值相对大小保持稳定即可,不需要A/H整个收敛,这样2中迭代次数很小就能满足,[10]中指出迭代5次就可以,所以ARC算法有很高的计算效率,开销主要是在扩展根集上。 

2.2.3.3 Hub平均( Hub-Averaging-Kleinberg)算法

   Allan Borodin等在[11]指出了一种现象,设有M+1个Hub网页,M+1个权威网页,前M个Hub指向第一个权威网页,第M+1个Hub网页指向了所有M+1个权威网页。显然根据HITS算法,第一个权威网页最重要,有最高的Authority值,这是我们希望的。但是,根据HITS,第M+1个Hub网页有最高的Hub值,事实上,第M+1个Hub网页既指向了权威值很高的第一个权威网页,同时也指向了其它权威值不高的网页,它的Hub值不应该比前M个网页的Hub值高。因此,Allan Borodin修改了HITS的O操作:

O操作: ,n是(v,u)的个数

   调整以后,仅指向权威值高的网页的Hub值比既指向权威值高又指向权威值低的网页的Hub值高,此算法称为Hub平均(Hub-Averaging-Kleinberg)算法。

2.2.3.4 阈值(Threshhold—Kleinberg)算法

   Allan Borodin等在[11]中同时提出了3种阈值控制的算法,分别是Hub阈值算法,Authority阈值算法,以及结合2者的全阈值算法。

   计算网页p的Authority时候,不考虑指向它的所有网页Hub值对它的贡献,只考虑Hub值超过平均值的网页的贡献,这就是Hub阈值方法。

   Authority阈值算法和Hub阈值方法类似,不考虑所有p指向的网页的Authority对p的Hub值贡献,只计算前K个权威网页对它Hub值的贡献,这是基于算法的目标是查找最重要的K个权威网页的前提。

   同时使用Authority阈值算法和Hub阈值方法的算法,就是全阈值算法

上一页  [1] [2] [3] [4] [5] 下一页


  • 上一篇文章:

  • 下一篇文章:
  • 发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
    收藏到网摘:Google书签 Del.icio.us Yahoo书签 新浪ViVi 搜狐网摘 365Key网摘 天极网摘 我摘 POCO网摘 博采网摘 YouNote网摘 和讯网摘 博啦网 亿友响享 igooi网摘 I2Key网摘 天下图摘 百特门网摘
    网 友 评 论
     
    SEO搜索引擎 网赚
    最 新 文 章
    更多内容
    [网站建设]如何让百度多收录你采集的…
    [网站推广]站长快速增加流量最佳方案
    [DMOZ研究]关于亚马逊的《开放目录专…
    [网站推广]市场推广宝典之:网站推广…
    [网站建设]提高网站网页打开速度的一…
    [网站建设]精辟:博客站运营的十五个…
    [搜索引擎]重视seo不如重视网站内容和…
    [网站优化]网站SEO,标题优化七要素
    [网站建设]如何判断域名是否被百度和…
    [网络热点评论]商业周刊:08年最具影响力的…
    最新文章 热门文章 推荐文章 相关文章
    专 题 栏 目
    更多内容
     
    图 文
    更多内容
     
     
    | 网站地图 | 设为首页 | 加入收藏 | 联系站长 | 友情链接 | 版权申明 |
    网络搜索优化学院
    [ 转载网络搜索优化学院资料请标明出处并加上到本站的链接 ]
    本站内容部份采集自网络,本着为网站优化爱好者提供方便。
    如有版权问题请来信,我们第1时间删除,谢谢!
    Copyright © 2007-2008 版权所有 Usbd.Com.Cn