简述python爬虫原理：怎么样用爬虫爬取数据

发布时间:2 年前栏目：行业详情浏览：次

互联网+社会来了，各种新的技术应孕而生，对于互联网而言，比方我们们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，沿着网络抓取小明的猎物(数据)爬虫指的是：向网站发起请求，获得资源后分析并提取有用数据的程序，存放起来使用。

网络爬虫是什么?

网络爬虫是一种用来抓取网页资源的程序工具。像谷歌，百度等知名搜索引擎就是采用网络爬虫把全网的网页资源收集起来，创立索引，用于搜索。

python网络爬虫实现原理

互联网网页没关系看成是一张超大图，任意一个网页是一个节点，网页中指向其他网页的链接是边。这样的话，没关系这样实现全网网页收集：以某一个网页为起点，下载并处理该网页，解析里面的链接，所得的URL加入下载队列。这个过程其实就是图的遍历过程，没关系是深度优先或者广度优先遍历，取决于下载队列怎么样维护。简单地，网络爬虫没关系由以下部分组成：

1、下载模块

对于一个给定的URL，下载该网页。比方从零开始实现，工作量还是挺大的：解析URL里面的域名并利用途径DNS查询域名对应的IP;创立一个到该IP的TCP连接;发送一个HTTP请求;接收并解析HTTP响应;保存该网页资源。说白了，就是给定一个URL，用HTTP协议请求一个网页资源的过程。

2、下载队列

下载队列保存从网页中解析出来将用于获得网页资源的URL：每次从下载队列里面取出一个URL，利用途径下载模块下载该网页，解析该网页里面的URL并加入下载队列，这样就没关系源源不断地做到网页抓取。比方用FIFO实现下载队列，这样的话对网页资源的遍历就是广度优先的;比方用LIFO实现下载队列，这样的话对网页资源的遍历就是深度优先的。

3、重复检查

比方某个网页里面包含了现在下载的网页的URL怎么办呢?肯定不能再重复下载一次。怎么样避免就是重复检查模块要做的事。没关系用一个set把全部遇到的URL记录下来，每次下载模块获得一个网页，将其URL放到该set;解析网页所获得的URL，比方在该set中现在存在了，就不要加入下载队列了。当然了，这只是第一直白的实现方案，工程上为了应对大量的URL，一般采用布隆过滤器。

爬虫爬行策略

我们们现在展示了，聚焦网络爬虫，是要确定URL的优先级，即爬虫应该先爬取哪一个，后爬取哪一个?爬行策略主要有：深度优先爬行策略、广度优先爬行策略、大站优先爬行策略、反链策略、其他爬行策略等。假如此时网页ABCDEFG都在爬行队列中，这样的话参考不同的爬行策略，其爬取的顺序是不同的。假设参考深度优先的顺序，爬取顺序也许是A->D->E->B->C->F->G;参考广度优先的爬行策略，爬行顺序也许是A->B->C->D->E->F->G。我们们也没关系采用大站爬行策略。我们们没关系按对应网页所属的站点做到归类，比方某个网站的网页数据多，这样的话则称其为大站，参考这种策略，网页数据越多的网站优先级越高。

一个网站的反链接数，指的是被其他网页指向的次数，这个次数在一定程度上代表着该网页被其他网页的推荐次数。所以，比方按反链策略去爬行的话，所以比方按反链策略去爬行的话，这样的话哪个网页的优先级越高。其他爬行策略还有特别多，假设：OPIC策略，PartialPageRank策略等。

网页更新策略

一个网站的网页经常会更新，作为爬虫方，在网页更新后，我们们则是要对这些网页做到重新爬取，这样的话什么时候去爬取合适呢?比方网站更新过慢，而爬虫爬取的过于频繁，则会带来行业器资源的浪费。若网站更新过快，不过爬虫提取的时候间隔较长，则我们们爬去的内在理由版本会过老，不利于新内在理由的爬取。显然，网站的更新频率与爬虫访问网站的频率越接近，则效果越好，当然，爬虫行业器资源有限的时候，此时爬虫也是要根据对应的策略，让不同网页具有不同的更新优先级，优先极高的网页更新，将获得较快的爬取响应。