站长部落ZZBo.NET-我的网络,我的家
站长部落ZZBo.NET - 草根站长信息网
AD:本站精品广告位欢迎您来赞助
网站地图 订阅本站RSS 广告赞助

本站首页

| 业界新闻 | 站长访谈 | 建站心得 | 搜索优化 | 网站推广 | 策划盈利 | 创业频道 | 广告联盟| 站长学院 | 交流论坛 | 站长下载 | 站长网址

您的位置:首页 >>网站运作 >>搜索优化 >> 阅读文章:杨帆:网页抓取优先策略
杨帆:网页抓取优先策略
来源:www.ccyyw.com | 发布时间:2008-01-18 19:23:38 | 责编:疯伟 | 我要投稿

  网页抓取优先策略

  网页抓取优先策略也称为“页面选择问题”(page Selection),通常是尽可能地首先抓取重要性的网页,这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。那么哪些网页才是重要性高的呢?如何量化重要性呢?

  重要性度量由链接欢迎度、链接重要度和平均链接深度这个方面决定。

  定义链接欢迎度为IB(P),它主要由反向链接(Backinks)的数目和质量决定。首先考察数目,直观地讲,一个网页有越多的链接指向它(反向链接数多),那么表示其他网页对其的认可。同时这个网页被网民访问的机会就大,推测出其重要性也就越高;其次考察质量,如果被越多的重要性高的网指向,那么其重要性也就越高。如果不考虑质量,就会出现局部最优,而不是全局最优的问题。最典型的就是作弊网页,人为地在一些网页中设置了大量反策链接指向其自身的网页,以提高该网页的重要性。如果不考虑链接质量,就会被这些作弊者所利用。

  定义链接重要度为IL(P),它是一个关于URL字符串的函数,仅仅考察字符串本身。链接重要度主要通过一些模式,比如认为包含“.COM”或者“HOME”的URL重要度高,以及具有较少斜杠(Slash)的URL重要度高等。

  定义平均链接深度为ID(P),此为笔者所创。ID(P)表示在一个种子站点集合中,每个种子站点如果存在一条链路(宽度优先遍历规则)到达该网页,那么平均链接深度就是这个网页的又一个重要性指标。因为距离种子站点越近,说明被访问的机会越多,离种子站点越远,重要性越低。事实上,按照宽度优先的遍历规则即可满足这种重要性高的网页被优先抓取的需要。

  最后,定义网页重要性的度量为I(P),它由以上两个量化值线性决定,即:

  I(P)=a*IB(P)+β*IL(P)

  平均链接深度同宽度优先的遍历规则保证,因此不作为重要性评价的指标。在抓取能力有限的情况下,如果能够把重要性高的网页尽可能地抓完,是合理科学的,最终被用户查询到的网页也往往是那些重要性高的网页。

  尽管这样看来已经足够完美,事实上,还是忽视了一个重要的要素--时间。时间导致万维网动态变化的一面。如何抓取那些新增的网页呢?如何重访那些被修改了的网页呢?如何发现那些被删除了的网页呢?为了保持和万维网网页的同步变化,就必须有网页重访策略。通过该策略可以识别增加、修改及删除网页这3种网页变化的情况。

  首发:创亿网站策划机构(http://www.ccyyw.com )  作者:小小鸟

进入交流论坛

热点文章

·菜鸟总结影响网站排名因素,网站
·google的403错误解密
·用马克思电影系统的几点建议!
·结合SEO教您制作一个新网站 初
·Google服务过程中的秘密
·百度的关键词排名是否会考虑站点
·公开一个大批量生产PR值3-4网站
·解读百度:最近百度怎么了?
·张鑫武:关于SEO培训的一些总结
·《网站推广优化策略之三十六计》
·其实做SEO就像养猪
·SEO中加速新域名收录的6种办法

相关文章

·山东破获色情网站第一案 “逍遥
·百度新闻再度改版 分类板块更加
·中华英才网上市遇挫 Monster欲斥
·据调查45%中小网站年收入为零
·谷歌计划推出视频AdSense服务
·谷歌计划推出视频AdSense服务
·从google的改版看google如何赶超
·SEO也要具体问题具体分析
·搜索引擎优化(SEO)
·网站SEO定价的参考因素
·给VC看的好东西之网站真正的价值
·关键词的标题和网页描述撰写小技

推荐广告

网站地图 | 友情链接 | 关于本站 | 联系我们| 广告赞助 | 版权声明 | 内容投稿 | RSS-订阅 | 站长学院 | 交流论坛
本站资源信息均来自互联网,如果我们侵犯了您的版权,请尽快与我们取得联系.
Copyright 2007-2008 Www.ZZBo.NET[站长部落网]. All Rights Reserved.[闽ICP备08001692号]