|
泰安网络公司讲解百度蜘蛛抓取系统的基本框架时间:2020-08-02 泰安网络公司讲解百度蜘蛛抓取系统的基本框架 常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider 整个互联网理解为一个一棵树,那么spider的工作过程可以认为是对这棵树上所有叶子的遍历。从树根 开始一根树干一根树干的去寻找叶子,也就代表我们的网站。 从一些重要的种子 URL开始,通过页面 上的超链接关系,不断的发现新URL并抓取,尽最大可能抓取到更多的有价值网页。对于类似百度这样 的大型spider系统,因为每时每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对 spider过去抓取过的页面保持更新,维护一个URL库和页面库。 spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度 系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider即是通过这种系统 的通力合作完成对互联网页面的抓取工作。 |