
# 爬虫的原理

## 什么是爬虫？

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

## 爬虫的工作流程

网络爬虫基本的工作流程是从一个根URL开始，抓取页面，解析页面中所有的URL，将还没有抓取过的URL放入工作队列中，之后继续抓取工作队列中的URL，重复抓取、解析，将解析到的url放入工作队列的步骤，直到工作队列为空为止。

# 网页爬取
## 常用的库
### requests,BeautifulSoup4,scrapy,selenium,正则表达式
## 常用工具软件
### 浏览器，抓包软件，webdriver，无头浏览器如PhantomJS
## 网页爬取的伪装介绍
## 构造header
### headers池
## 获得cookie
## post传输信息
##  selenium
## ip池
## 模拟登陆
## post传输信息模拟登陆
## selenium模拟登陆

# 内容提取

## 正则表达式re

## BeautifulSoup4

## lxml

##  各种方式的比较

# 数据存储
## MongoDB
## Mysql


# 并发




我们希望通过并发执行来加快爬虫抓取页面的速度。一般的实现方式有三种：

> * 线程池方式： 开一个线程池，每当爬虫发现一个新链接，就将链接放入任务队列中，线程池中的线程从任务队列获取一个链接，之后建立socket，完成抓取页面、解析、将新连接放入工作队列的步骤。
* 回调方式：程序会有一个主循环叫做事件循环，在事件循环中会不断获得事件，通过在事件上注册解除回调函数来达到多任务并发执行的效果。缺点是一旦需要的回调操作变多，代码就会非常散，变得难以维护。
* 协程方式：同样通过事件循环执行程序，利用了Python 的生成器特性，生成器函数能够中途停止并在之后恢复，那么原本不得不分开写的回调函数就能够写在一个生成器函数中了，这也就实现了协程。

## 多进程

## 多线程

# 异步

## 异步的介绍


### 什么是异步
（1）什么是同步IO和异步IO，它们之间有什么区别？

答：举个现实例子，假设你需要打开4个不同的网站，但每个网站都比较卡。IO过程就相当于你打开网站的过程，CPU就是你的点击动作。你的点击动作很快，但是网站打开很慢。同步IO是指你每点击一个网址，都等待该网站彻底显示，才会去点击下一个网址。异步IO是指你点击完一个网址，不等对方服务器返回结果，立马新开浏览器窗口去打开另外一个网址，以此类推，最后同时等待4个网站彻底打开。很明显异步IO的效率更高。

### 为什么使用异步
传统计算机科学往往将大量精力放在如何追求更有效率的算法上。但如今大部分涉及网络的程序，它们的时间开销主要并不是在计算上，而是在维持多个Socket连接上。亦或是它们的事件循环处理的不够高效导致了更多的时间开销。对于这些程序来说，它们面临的挑战是如何更高效地等待大量的网络事件并进行调度。目前流行的解决方式就是使用异步I/O。

本课程将探讨几种实现爬虫的方法，从传统的线程池到使用协程，每节课实现一个小爬虫。另外学习协程的时候，我们会从原理入手，以ayncio协程库为原型，实现一个简单的异步编程模型。

本课程实现的爬虫为爬一个整站的爬虫，不会爬到站点外面去，且功能较简单，主要目的在于学习原理，提供实现并发与异步的思路，并不适合直接改写作为日常工具使用。

本次实验我们将使用线程池实现一个爬虫。   

资料来源：实验楼[Python实现基于协程的异步爬虫](https://www.shiyanlou.com/courses/574/labs/1905/document)

## 单线程上的异步I/O

有了非阻塞I/O这个特性，我们就能够实现单线程上多个sockets的处理了，学过C语言网络编程的同学应该都认识select这个函数吧？不认识也不要紧，select函数如果你不设置它的超时时间它就是默认一直阻塞的，只有当有I/O事件发生时它才会被激活，然后告诉你哪个socket上发生了什么事件（读|写|异常），在Python中也有select，还有跟select功能相同但是更高效的poll，它们都是底层C函数的Python实现。

不过这里我们不使用select，而是用更简单好用的DefaultSelector，是Python 3.4后才出现的一个模块里的类，你只需要在非阻塞socket和事件上绑定回调函数就可以了。

代码如下：

## 协程

### 什么是协程？

协程其实是比起一般的子例程而言更宽泛的存在，子例程是协程的一种特例。

子例程的起始处是惟一的入口点，一旦退出即完成了子例程的执行，子例程的一个实例只会返回一次。

协程可以通过<font color=#A52A2A size=4 >yield</font>来调用其它协程。通过<font color=#A52A2A size=4 >yield</font>方式转移执行权的协程之间不是调用者与被调用者的关系，而是彼此对称、平等的。

协程的起始处是第一个入口点，在协程里，返回点之后是接下来的入口点。子例程的生命期遵循后进先出（最后一个被调用的子例程最先返回）；相反，协程的生命期完全由他们的使用的需要决定。

还记得我们什么时候会用到<font color=#A52A2A size=4 >yield</font>吗，就是在生成器(generator)里，在迭代的时候每次执行next(generator)生成器都会执行到下一次<font color=#A52A2A size=4 >yield</font>的位置并返回，可以说生成器就是例程。

In [15]:
#定义生成器函数
def fib():
    a, b = 0, 1
    while(True):
            yield a
            a, b = b, a + b
#获得生成器
fib = fib()

print(next(fib))     # >> 0
print(next(fib))     # >> 1

0
1


<p>协程可以通过<code bgcolor=orange>yield</code>来调用其它协程。通过<code>yield</code>方式转移执行权的协程之间不是调用者与被调用者的关系，而是彼此对称、平等的。</p>

### 为什么用协程
Python中解决IO密集型任务（打开多个网站）的方式有很多种，比如多进程、多线程。但理论上一台电脑中的线程数、进程数是有限的，而且进程、线程之间的切换也比较浪费时间。所以就出现了“协程”的概念。协程允许一个执行过程A中断，然后转到执行过程B，在适当的时候再一次转回来，有点类似于多线程。但协程有以下2个优势：

>* 协程的数量理论上可以是无限个，而且没有线程之间的切换动作，执行效率比线程高。
* 协程不需要“锁”机制，即不需要lock和release过程，因为所有的协程都在一个线程中。
* 相对于线程，协程更容易调试debug，因为所有的代码是顺序执行的。


### 协程的实现

#### gevent协程

Python通过yield提供了对协程的基本支持，但是不完全。而第三方的gevent为Python提供了比较完善的协程支持。

gevent是第三方库，通过greenlet实现协程，其基本思想是：

当一个greenlet遇到IO操作时，比如访问网络，就自动切换到其他的greenlet，等到IO操作完成，再在适当的时候切换回来继续执行。由于IO操作非常耗时，经常使程序处于等待状态，有了gevent为我们自动切换协程，就保证总有greenlet在运行，而不是等待IO。

由于切换是在IO操作时自动完成，所以gevent需要修改Python自带的一些标准库，这一过程在启动时通过monkey patch完成：
gevent修改的过程很慢，因为时间问题就打断了。
gevent的教程是在廖雪峰python2的协程里出现的，而在python3中就没有出现了，因此我怀疑gevent不兼容python3，这部分就先这样了。

In [None]:
## 网页摘抄代码
import requests  
from multiprocessing import Process  
import gevent  
from gevent import monkey; monkey.patch_all()  
  
import sys  
reload(sys)  
sys.setdefaultencoding('utf8')  
def fetch(url):  
    try:  
        s = requests.Session()  
        r = s.get(url,timeout=1)#在这里抓取页面  
    except Exception as e:  
        print(e)   
    return ''  
   
def process_start(url_list):  
    tasks = []  
    for url in url_list:  
        tasks.append(gevent.spawn(fetch,url))  
    gevent.joinall(tasks)#使用协程来执行  
  
def task_start(filepath,flag = 100000):#每10W条url启动一个进程  
    with open(filepath,'r') as reader:#从给定的文件中读取url  
        url = reader.readline().strip()  
        url_list = []#这个list用于存放协程任务  
        i = 0 #计数器，记录添加了多少个url到协程队列  
        while url!='':  
            i += 1  
            url_list.append(url)#每次读取出url，将url添加到队列  
            if i == flag:#一定数量的url就启动一个进程并执行  
                p = Process(target=process_start,args=(url_list,))  
                p.start()  
                url_list = [] #重置url队列  
                i = 0 #重置计数器  
            url = reader.readline().strip()  
        if url_list not []:#若退出循环后任务队列里还有url剩余  
            p = Process(target=process_start,args=(url_list,))#把剩余的url全都放到最后这个进程来执行  
            p.start()  

In [None]:
import time
url_list=[]
for i in range(5):
    for j in range(5):
        url_list.append('https://xxxbunker.com/html5player.php?videoid=8'+str(i)+str(j)+'1681&autoplay=true')

start_time = time.time()
process_start(url_list)
print(time.time()-start_time)
start_time = time.time()
for i in url_list:
    fetch(i)
print(time.time()-start_time)

In [None]:
monkey.patch_all() 

The history saving thread hit an unexpected error (LoopExit('This operation would block forever', <Hub at 0x92a53ff9c8 select pending=0 ref=0>)).History will not be written to the database.


测试模块

In [6]:
url_list=['http://www.baidu.com']
process_start(url_list)

<!DOCTYPE html>
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css><title>ç¾åº¦ä¸ä¸ï¼ä½ å°±ç¥é</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus></span><span class="bg s_btn_wr"><input ty

In [3]:
def process_start(url_list):  
    tasks = []  
    for url in url_list:  
        tasks.append(gevent.spawn(fetch,url))  
    gevent.joinall(tasks)#使用协程来执行 

In [11]:
def fetch(url):  
    try:  
        s = requests.Session()  
        r = s.get(url,timeout=1)#在这里抓取页面
        #print(r.text)
    except Exception as e:  
        print(e)   
    return '' 

In [1]:
import requests  
from multiprocessing import Process  
import gevent  
from gevent import monkey
#monkey.patch_all()  

In [None]:
import requests  
from multiprocessing import Process  
import gevent  
from gevent import monkey; monkey.patch_all()  
  
import sys  
reload(sys)  
sys.setdefaultencoding('utf8')  
 

def process_start(url_list):  
    tasks = []  
    for url in url_list:  
        tasks.append(gevent.spawn(fetch,url))  
    gevent.joinall(tasks)#使用协程来执行  
  
def task_start(filepath,flag = 100000):#每10W条url启动一个进程  
    with open(filepath,'r') as reader:#从给定的文件中读取url  
        url = reader.readline().strip()  
        url_list = []#这个list用于存放协程任务  
        i = 0 #计数器，记录添加了多少个url到协程队列  
        while url!='':  
            i += 1  
            url_list.append(url)#每次读取出url，将url添加到队列  
            if i == flag:#一定数量的url就启动一个进程并执行  
                p = Process(target=process_start,args=(url_list,))  
                p.start()  
                url_list = [] #重置url队列  
                i = 0 #重置计数器  
            url = reader.readline().strip()  
        if not url_list ==[]:#若退出循环后任务队列里还有url剩余  
            p = Process(target=process_start,args=(url_list,))#把剩余的url全都放到最后这个进程来执行  
            p.start()  

#### asyncio

asyncio是Python 3.4版本引入的标准库，直接内置了对异步IO的支持。

asyncio的编程模型就是一个消息循环。我们从asyncio模块中直接获取一个EventLoop的引用，然后把需要执行的协程扔到EventLoop中执行，就实现了异步IO。

用asyncio实现Hello world代码如下：（运行前需要restart kernel）

In [1]:
import asyncio
import sys
@asyncio.coroutine
def hello():
    print("Hello world!")
    # 异步调用asyncio.sleep(1):
    r = yield from asyncio.sleep(1)
    print("Hello again!")

# 获取EventLoop:
loop = asyncio.get_event_loop()
# 执行coroutine
loop.run_until_complete(hello())
loop.close()

Hello world!
Hello again!


@asyncio.coroutine把一个generator标记为coroutine类型，然后，我们就把这个coroutine扔到EventLoop中执行。

hello()会首先打印出Hello world!，然后，yield from语法可以让我们方便地调用另一个generator。由于asyncio.sleep()也是一个coroutine，所以线程不会等待asyncio.sleep()，而是直接中断并执行下一个消息循环。当asyncio.sleep()返回时，线程就可以从yield from拿到返回值（此处是None），然后接着执行下一行语句。

把asyncio.sleep(1)看成是一个耗时1秒的IO操作，在此期间，主线程并未等待，而是去执行EventLoop中其他可以执行的coroutine了，因此可以实现并发执行。

我们用Task封装两个coroutine试试：（运行前需要restart kernel）

In [1]:
import threading
import asyncio

@asyncio.coroutine
def hello():
    print('Hello world! (%s)' % threading.currentThread())
    yield from asyncio.sleep(1)
    print('Hello again! (%s)' % threading.currentThread())

loop = asyncio.get_event_loop()
tasks = [hello(), hello()]
loop.run_until_complete(asyncio.wait(tasks))
loop.close()

Hello world! (<_MainThread(MainThread, started 9416)>)
Hello world! (<_MainThread(MainThread, started 9416)>)
Hello again! (<_MainThread(MainThread, started 9416)>)
Hello again! (<_MainThread(MainThread, started 9416)>)


由打印的当前线程名称可以看出，两个coroutine是由同一个线程并发执行的。

如果把asyncio.sleep()换成真正的IO操作，则多个coroutine就可以由一个线程并发执行。

我们用asyncio的异步网络连接来获取sina、sohu和163的网站首页：

In [1]:
import asyncio

@asyncio.coroutine
def wget(host):
    print('wget %s...' % host)
    connect = asyncio.open_connection(host, 80)
    reader, writer = yield from connect
    header = 'GET / HTTP/1.0\r\nHost: %s\r\n\r\n' % host
    writer.write(header.encode('utf-8'))
    yield from writer.drain()
    while True:
        line = yield from reader.readline()
        if line == b'\r\n':
            break
        print('%s header > %s' % (host, line.decode('utf-8').rstrip()))
    # Ignore the body, close the socket
    writer.close()

loop = asyncio.get_event_loop()
tasks = [wget(host) for host in ['www.sina.com.cn', 'www.sohu.com', 'www.163.com']]
loop.run_until_complete(asyncio.wait(tasks))
loop.close()

wget www.sohu.com...
wget www.sina.com.cn...
wget www.163.com...
www.sohu.com header > HTTP/1.1 200 OK
www.sohu.com header > Content-Type: text/html;charset=UTF-8
www.sohu.com header > Connection: close
www.sohu.com header > Server: nginx
www.sohu.com header > Date: Sun, 19 Nov 2017 05:02:58 GMT
www.sohu.com header > Cache-Control: max-age=60
www.sohu.com header > X-From-Sohu: X-SRC-Cached
www.sohu.com header > Content-Encoding: gzip
www.sohu.com header > FSS-Cache: HIT from 8605877.15552703.9605663
www.sohu.com header > FSS-Proxy: Powered by 3100769.4542571.4100471
www.163.com header > HTTP/1.0 302 Moved Temporarily
www.163.com header > Server: Cdn Cache Server V2.0
www.163.com header > Date: Sun, 19 Nov 2017 05:03:58 GMT
www.163.com header > Content-Length: 0
www.163.com header > Location: http://www.163.com/special/0077jt/error_isp.html
www.163.com header > Connection: close
www.sina.com.cn header > HTTP/1.1 200 OK
www.sina.com.cn header > Server: nginx
www.sina.com.cn header > Date

可见3个连接由一个线程通过coroutine并发完成。

#### async/await

注意：asyncio是3.4增加的特性，async/await是3.5增加的

用asyncio提供的@asyncio.coroutine可以把一个generator标记为coroutine类型，然后在coroutine内部用yield from调用另一个coroutine实现异步操作。

为了简化并更好地标识异步IO，从Python 3.5开始引入了新的语法async和await，可以让coroutine的代码更简洁易读。

请注意，async和await是针对coroutine的新语法，要使用新的语法，只需要做两步简单的替换：

把@asyncio.coroutine替换为async；
把yield from替换为await。
让我们对比一下上一节的代码：

In [None]:
@asyncio.coroutine
def hello():
    print("Hello world!")
    r = yield from asyncio.sleep(1)
    print("Hello again!")

用新语法重新编写如下：

In [None]:
async def hello():
    print("Hello world!")
    r = await asyncio.sleep(1)
    print("Hello again!")

剩下的代码保持不变。

小结

Python从3.5版本开始为asyncio提供了async和await的新语法；

注意新语法只能用在Python 3.5以及后续版本，如果使用3.4版本，则仍需使用上一节的方案。

练习

将上一节的异步获取sina、sohu和163的网站首页源码用新语法重写并运行。

#### aiohttp

asyncio可以实现单线程并发IO操作。如果仅用在客户端，发挥的威力不大。如果把asyncio用在服务器端，例如Web服务器，由于HTTP连接就是IO操作，因此可以用单线程+coroutine实现多用户的高并发支持。

asyncio实现了TCP、UDP、SSL等协议，aiohttp则是基于asyncio实现的HTTP框架。

我们先安装aiohttp：

In [None]:
pip install aiohttp

然后编写一个HTTP服务器，分别处理以下URL：

*  \- 首页返回b'<\h1\>Index\</\h1>'；

* /hello/{name} - 根据URL参数返回文本hello, %s!。

代码如下：

In [None]:
import asyncio

from aiohttp import web

async def index(request):
    await asyncio.sleep(0.5)
    return web.Response(body=b'<h1>Index</h1>')

async def hello(request):
    await asyncio.sleep(0.5)
    text = '<h1>hello, %s!</h1>' % request.match_info['name']
    return web.Response(body=text.encode('utf-8'))

async def init(loop):
    app = web.Application(loop=loop)
    app.router.add_route('GET', '/', index)
    app.router.add_route('GET', '/hello/{name}', hello)
    srv = await loop.create_server(app.make_handler(), '127.0.0.1', 8000)
    print('Server started at http://127.0.0.1:8000...')
    return srv

loop = asyncio.get_event_loop()
loop.run_until_complete(init(loop))
loop.run_forever()

注意aiohttp的初始化函数init()也是一个coroutine，loop.create_server()则利用asyncio创建TCP服务。

一个来自知乎[Python进阶：理解Python中的异步IO和协程(Coroutine)，并应用在爬虫中](https://zhuanlan.zhihu.com/p/24118476)的例子

In [1]:
import asyncio
async def get(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as resp:
            print(url, resp.status)
            print(url, await resp.text())

loop = asyncio.get_event_loop()     # 得到一个事件循环模型
tasks = [                           # 初始化任务列表
    get("http://zhushou.360.cn/detail/index/soft_id/3283370"),
    get("http://zhushou.360.cn/detail/index/soft_id/3264775"),
    get("http://zhushou.360.cn/detail/index/soft_id/705490")
]
loop.run_until_complete(asyncio.wait(tasks))    # 执行任务
loop.close()   

## 异步爬虫示例

### 豌豆荚设计奖多进程，异步IO爬取速度对比

来源：简书[豌豆荚设计奖多进程，异步IO爬取速度对比](http://www.jianshu.com/p/989005adcccd)

1. 豌豆荚的设计奖首页是<http://www.wandoujia.com/award> 点击下一页之后就会发现网页地址变成了http://www.wandoujia.com/award?page=x x就是当前的页数。
![豌豆荚设计奖首页](img_summary/豌豆荚设计奖首页.png)
2. 然后来看看本次抓取的信息分布，我抓取的是每个设计奖的背景图片，APP名称，图标，获奖说明。进入浏览器开发者模式后即可查找信息位置。（使用Ctrl+Shift+C选择目标快速到达代码位置，同时这个夸克浏览器也挺不错的，简洁流畅推荐大家安装试试。）
![豌豆荚设计奖item解析](img_summary/豌豆荚设计奖item解析.png)
3. 信息位置都找到了就可以使用BeautifulSoup来解析网页选择到这些数据，然后保存到mongodb。

In [None]:
# 共用部分
clients = pymongo.MongoClient('localhost')
db = clients["wandoujia"]
col = db["info"]

urls = ['http://www.wandoujia.com/award?page={}'.format(num) for num in range(1, 46)]
UA_LIST = [
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]
headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Encoding': 'gzip, deflate, sdch',
    'Accept-Language': 'zh-CN,zh;q=0.8,en;q=0.6',
    'Connection': 'keep-alive',
    'Host': 'www.wandoujia.com',
    'User-Agent': random.choice(UA_LIST)
}

proxies = {
    'http': 'http://123.206.6.17:3128',
    'https': 'http://123.206.6.17:3128'
}


使用这个方法需要对每个函数前面加async，表示成一个异步函数，调用asyncio.get_event_loop创建线程，run_until_complete方法负责安排执行 tasks中的任务。

In [None]:
def method_3():
    async def get_url(url):
        async with aiohttp.ClientSession() as session:  # await关键字将暂停协程函数的执行，等待异步IO返回结果。
            async with session.get(url) as html:
                response = await html.text(encoding="utf-8")  # await关键字将暂停协程函数的执行，等待异步IO返回结果。
                return response

    async def parser(url):
        html = await get_url(url)
        soup = BeautifulSoup(html, 'lxml')
        title = soup.find_all(class_='title')
        app_title = soup.find_all(class_='app-title')
        item_cover = soup.find_all(class_='item-cover')
        icon_cover = soup.select('div.list-wrap > ul > li > div.icon > img')
        for title_i, app_title_i, item_cover_i, icon_cover_i in zip(title, app_title, item_cover, icon_cover):
            content = {
                'title': title_i.get_text(),
                'app_title': app_title_i.get_text(),
                'item_cover': item_cover_i['data-original'],
                'icon_cover': icon_cover_i['data-original']
            }
            col.insert(content)
            print('成功插入一组数据' + str(content))

    start = time.time()
    loop = asyncio.get_event_loop()
    tasks = [parser(url) for url in urls]
    loop.run_until_complete(asyncio.gather(*tasks))
    print(time.time() - start)



# 框架的使用
## scrapy的使用

### scrapy介绍

### Scrapy简明教程(四)——爬取CSDN博客专家所有博文并存入MongoDB

首先，我们来看一下CSDN博客专家的链接: http://blog.csdn.net/experts.html

# 分布式爬虫