博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
《精通Python网络爬虫:核心技术、框架与项目实战》——1.3 网络爬虫的组成...
阅读量:6841 次
发布时间:2019-06-26

本文共 389 字,大约阅读时间需要 1 分钟。

本节书摘来自华章出版社《精通Python网络爬虫:核心技术、框架与项目实战》一书中的第1章,第1.3节,作者 韦 玮,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.3 网络爬虫的组成

接下来,我们将介绍网络爬虫的组成。网络爬虫由控制节点、爬虫节点、资源库构成。

图1-1所示是网络爬虫的控制节点和爬虫节点的结构关系。

f06ac635188406f711a2caade1342fa9d5c04ae8

可以看到,网络爬虫中可以有多个控制节点,每个控制节点下可以有多个爬虫节点,控制节点之间可以互相通信,同时,控制节点和其下的各爬虫节点之间也可以进行互相通信,属于同一个控制节点下的各爬虫节点间,亦可以互相通信。

控制节点,也叫作爬虫的中央控制器,主要负责根据URL地址分配线程,并调用爬虫节点进行具体的爬行。

爬虫节点会按照相关的算法,对网页进行具体的爬行,主要包括下载网页以及对网页的文本进行处理,爬行后,会将对应的爬行结果存储到对应的资源库中。

转载地址:http://qmkul.baihongyu.com/

你可能感兴趣的文章
我的友情链接
查看>>
什么是p2p流媒体技术?
查看>>
KVM虚拟机快照研究(一)
查看>>
我的友情链接
查看>>
yeelink在PX2上的运用(远程控制)
查看>>
IOS GCD之Block
查看>>
响应式 Web 设计必备的 12 款 CSS 框架
查看>>
我的友情链接
查看>>
我的友情链接
查看>>
Java中ArrayList和LinkedList区别
查看>>
css渐变
查看>>
安全漏洞影响的电子邮件地址
查看>>
linux超级基础系列——什么是shell? bash和shell有什么关系?
查看>>
硬件发展历史
查看>>
写一个迷你版Smarty模板引擎,对认识模板引擎原理非常好(附代码)
查看>>
OC中归档与解归档
查看>>
配置与管理DNS服务器
查看>>
linux程序包管理之源码编译安装
查看>>
Eureka Server
查看>>
读源码Apache-commons-lang3-3.1(二)
查看>>