加入收藏
担路网,一路担当!

为企业提供互联网工具,让供需互动变得触手可及

这两年,互联网让整个不太景气的传统经济稍有了零星的兴奋点。

但是,实在的企业老板**不能把互联网当成救市良药,若真把它当成“良药”,无异于传说中的“马踏飞燕”。

但是,我们必须拥抱这个互联网的社会,因为我们的家人,我们的朋友,我们的客户都在用互联网,他们的生活和工作已经无法与互联网绝缘!

详解spider爬行抓取策略


发布日期:2017-08-07

我们在做网站优化的时候,SEOer们常常会关注网站的spider的爬行日志,我们会发现spider爬行网站的次数时多时少,那么spider爬行抓取的策略是什么呢?下面担路网小编简单为大家介绍一下spider爬行抓取策略。

spider眼中,互联网的网页主要可以分成四类:已抓取的页面、待抓取的页面、可抓取的页面、暗网中的页面。已抓取的页面即spider已经抓取的页面。待抓取的页面:已经在spider要抓取的队列中,只是还没抓。可抓取的页面:就是通过互联网现有的链接关系可以找到这些页面,增量型spider随着抓取的深入能发现这些页面。暗网中的页面:通过现有的链接还是没办法找到的页面。

spider从一个入口进去开始抓取时,这个页面有很多的导出链接,spider会选择其中一个链接进去抓取,进去之后又有很多导出链接。spider抓取的方式主要有两种:深度优先策略、广度优先策略。深度优先就是沿着一条路径走下去,直到无路可走。广度优先就是一个页面上有多个导出链接,先顺着这些链接把链接到的页面都抓过去,然后再抓链接到的页面上的导出链接所到的页面。

理论上只要时间够,spider都能抓完所有的页面,但是搜索引擎的资源也是有限的,它不可能无限制的抓取下去,搜索引擎一般会采用深度和广度策略想结合的方式。一般情况下,网站的权重越高,spider抓取的频率就越高,抓取的内容也就越多。

以上两种策略都是单纯站在spider抓取的角度上来看的,实际过程中影响spider抓取的较大的因素是:重要页面优先抓取策略以及大站优先抓取。重要页面的重要程度主要是由该页面的导入链接的数量以及质量决定的。而所谓大站就是指在搜索引擎眼中,是一个有着良好的用户体验度、稳定的服务器、丰富的内容的网站。

总的来说,一个网站的导入链接越多,导入链接所在的页面权重越高,其被抓取的可能性也就越高,所以SEOer们在做好网站内部优化的同时,要做好高质量的外链的工作。



分享到:

加载中
旗下网站
产品体系
其它链接
CONTACT
联系我们
  • 热线:021-39517056 代理商咨询:15121033560
  • 投诉专线: 15121030463
  • 公司地址: 上海松江九亭九杜路349号417/418/419
  • 几万客户见证
  • 6x8小时售后服务
  • 免费的产品培训
  • 基于SaaS的云架构
  • 系统持续更新
友情链接:

高新技术企业编号:GR201631001183        ISO9001证书编号:ZZW16Q1111ROS