# 线程池爬中国票房

网址：http://www.boxofficecn.com/boxofficecn

多个线程同时爬取，将不同年份的电影信息保存到不同的文件中。

一般场景下多线程多进程使用的不多，主要是在图片视频资源下载的时候使用。

```python
import time

import requests
from lxml import etree
from concurrent.futures import ThreadPoolExecutor


def str_tools(str_list):
    if str_list:
        text = "".join(str_list).strip()
        return text
    else:
        return ""


def get_movie_info(year):
    f = open(f'{year}.csv', mode='w', encoding='utf-8')  # open打开的文件是线程安全的，多个线程可以同时使用，print打印到控制台不是线程安全的。
    url = f'http://www.boxofficecn.com/boxoffice{year}'
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)"
                      " Chrome/100.0.4896.75 Safari/537.36"
    }

    resp = requests.get(url, headers=headers)

    tree = etree.HTML(resp.text)

    trs = tree.xpath("//table/tbody/tr")[1:]
    print(year, trs)

    for tr in trs:
        num = tr.xpath('./td[1]//text()')  # 返回的是一个字符串列表
        year = tr.xpath('./td[2]//text()')
        name = tr.xpath('./td[3]//text()')
        money = tr.xpath('./td[4]//text()')

        num = str_tools(num)
        year = str_tools(year)
        name = str_tools(name)
        money = str_tools(money)

        f.write(f'{num},{year},{name},{money}\n')
    f.close()


if __name__ == '__main__':
    s1 = time.time()
    with ThreadPoolExecutor(16) as t:
        for i in range(1994, 2023):
            t.submit(get_movie_info, i)
            time.sleep(1)  # 访问网站的频率太快可能会被反爬检测，返回空数据。 网址会限制访问频率
    s2 = time.time()

    print("total time :", s2-s1)  # 多线程下载图片视频资源，所耗时间会显著提升

    """
    下来看下，课件中保存到一个文件中的代码
    """

```

# 斗图网爬取

网址：https://www.pkdoutu.com/photo/list/

这个网站使用的是懒加载图片，先预设一张默认的图片，在访问网页时，放的是默认图片，在下拉的过程中把需要看到的图进行加载，替换默认图片。

![image.png](attachment:image.png)

此时页面源代码的img的src属性就不是真正的数据，真正的图片资源在data-original属性中。

## 爬取思路

1. 拿到网页源代码
2. 提取data_original
3. 下载图片


在写的时候，先考虑一页的数据怎么抓取。

## 一页上的数据下载

In [None]:
import requests
from lxml import etree

headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                      "Chrome/100.0.4896.75 Safari/537.36"
    }


def get_img_url():
    url = 'https://www.pkdoutu.com/photo/list/?page=1'
    resp = requests.get(url, headers=headers)

    tree = etree.HTML(resp.text)
    img_url = tree.xpath('//li[@class="list-group-item"]//img/@data-original')  # //img是什么意思？
    for img in img_url:
        print("下载一张图片")
        download_url(img)


def download_url(url):
    file_name = url.split('/')[-1]
    resp = requests.get(url, headers=headers)
    with open(f'./img/{file_name}', mode='wb') as f:
        f.write(resp.content)


if __name__ == '__main__':
    get_img_url()

## 单线程爬取

1. 获取一页的所有图片链接
2. 将这一页获取的到图片链接保存到本地
3. 再去获取下一页，重复步骤1，2

这样的速度很慢，其原因如下：
    
    - 当下载的时候获取页面链接的功能是等待的；
    - 当获取页面链接时，下载功能是等待的；
    - 只有一条线执行
    

## 多线程爬取

多线程是提升当前进程的效率，当前只有一个进程，当线程用于下载时，只是提升了下载的速度，获取图片url此时还是在等待下载完成后，才能进行。

In [None]:
import time
import requests
from lxml import etree
from concurrent.futures import ThreadPoolExecutor

headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                      "Chrome/100.0.4896.75 Safari/537.36"
    }


def get_img_url():
    for page in range(1, 3):
        url = 'https://www.pkdoutu.com/photo/list/?page=1'
        resp = requests.get(url, headers=headers)

        tree = etree.HTML(resp.text)
        img_url = tree.xpath('//li[@class="list-group-item"]//img/@data-original')  # //img是什么意思？
        for img in img_url:
            print("下载一张图片")
            with ThreadPoolExecutor(10) as t:
                t.submit(download_url, img)


def download_url(url):
    file_name = url.split('/')[-1]
    resp = requests.get(url, headers=headers)
    with open(f'./img/{file_name}', mode='wb') as f:
        f.write(resp.content)


if __name__ == '__main__':
    s1 = time.time()
    get_img_url()
    s2 = time.time()
    print('total time: ', s2-s1)

耗时：
![image.png](attachment:image.png)

## 多进程爬取

将获取图片url和下载资源分为两个进程，同时进行。使用队列作为两个进程之间的通信工具。

In [None]:
import time
import requests
from lxml import etree
from concurrent.futures import ThreadPoolExecutor
from multiprocessing import Process, Queue

headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                      "Chrome/100.0.4896.75 Safari/537.36"
    }


def get_img_url(q):
    for page in range(1, 4):
        url = f'https://www.pkdoutu.com/photo/list/?page={page}'
        resp = requests.get(url, headers=headers)

        tree = etree.HTML(resp.text)
        img_url = tree.xpath('//li[@class="list-group-item"]//img/@data-original')  # //img是什么意思？
        for img in img_url:
            print("下载一张图片", img)
            q.put(img)
    q.put("url end")


def img_process(q):
    with ThreadPoolExecutor(20) as t:
        while True:
            url = q.get()  # 从队列中拿出一个url，如果队列中没有值，会阻塞等待
            if url == 'url end':
                # 所有url都获取完了，后面没有url了
                print('获取图片链接完毕')
                break
            t.submit(download_url, url)


def download_url(url):
    file_name = url.split('/')[-1]
    resp = requests.get(url, headers=headers)
    with open(f'./img/{file_name}', mode='wb') as f:
        f.write(resp.content)


if __name__ == '__main__':
    s1 = time.time()
    # 初始化队列
    q = Queue()
    p_get = Process(target=get_img_url, args=(q,))
    p_download = Process(target=img_process, args=(q,))

    p_get.start()
    p_download.start()

    # 等待子进程结束
    p_get.join()
    p_download.join()

    s2 = time.time()
    print('total time: ', s2-s1)

耗时：
![image.png](attachment:image.png)

# 协程结合爬虫

通用协程爬虫模板

In [None]:
import asyncio


async def get_page_source(url):
    print("向服务器请求")
    await asyncio.sleep(3)
    print("拿到服务器数据")

    return "返回请求的数据"

async def main():
    # 一堆将要爬取资源的url
    urls = [
        'www.baidu.com',
        'www,google.com'
    ]
    
    
    ############################# 获取协程函数的返回值 ##########
    #### 方案一：  ####

    # 拿到协程对象并创建对应的任务，在asyncio.create_task的时候就已经开始启动了，但是其任务可能没有执行完
    tasks = [asyncio.create_task(get_page_source(url)) for url in urls]

    # 等待任务完成，result来接收所有协程函数的返回值。
    result, pending = await asyncio.wait(tasks) # 此时所有的任务才执行完了
    # 所有任务执行完后，将任务返回的结果返回到result（第一个返回的结果）中，pending（第二个返回值）可以不关心
    
        
    #### 方案二： ####
    # result = await asyncio.gather(*tasks)
    
    
    for r in result:
        print(r.result())  # 拿到任务返回的结果
    

    ############################# 获取协程函数的返回值 ##########
    print("请求结束")


if __name__ == '__main__':
    m = main()
    asyncio.run(m)

一般很少接收返回值，因为爬取页面html时，协程请求速度快，很容易将网站干崩溃。经常用到协程的场景是下载图片，视频等直接将拿到的数据写入到文件中了，不太用到返回值。

## 支持异步能发送网络请求的模块

requests不支持异步，但是可以在协程函数中使用，但是它慢。需要支持异步的包：

```python
import asyncio

import aiohttp  # pip install aiohttp  替换的requests，异步的请求
import aiofiles  # pip install aiofiles 替换的是open，异步的文件读写
```

### asyncio使用

In [None]:
import aiohttp
import asyncio
import aiofiles

headers = {}

async def download(url):
    print("向服务器请求")
    file_name = url.split('/')[-1]
    # 如果with后面是一个异步的包，那么绝大多数这里前面要加async
    async with aiohttp.ClientSession() as session:
        async with session.get(url, headers=headers) as resp:  # get的参数和requests.get的参数大多数相同
            # 拿网页源代码：page_source = await resp.text(encoding="utf-8")
            # 拿json: json_data = await resp.json()
            content = await resp.content.read()  # 拿到资源字节数据，在此处挂起，等待网页的响应

            async with aiofiles.open(file_name, mode='wb') as f:  # 异步文件读写操作
                await f.write(content)  # await后面跟的是一个函数的调用，在此处挂起，等待写完数据
    print("获取数据结束")


async def main():
    # 一堆将要爬取源代码的url
    urls = [
        'https://img.h4ck.org.cn/wp-content/uploads/2022/01/20b562a268b9aee4b3403ba601fba85a.jpg',
        'https://img.h4ck.org.cn/wp-content/uploads/2021/09/7c3bc542238f57722ac818f3803174d9-768x513.jpg'
    ]

    # 拿到协程对象并创建对应的任务，在asyncio.create_task的时候就已经开始启动了，但是其任务可能没有执行完
    tasks = [asyncio.create_task(download(url)) for url in urls]

    # 等待任务完成
    await asyncio.wait(tasks)

    print("请求结束")


if __name__ == '__main__':
    # m = main()
    # asyncio.run(m)
    event_loop = asyncio.get_event_loop()
    event_loop.run_until_complete(main())

# 协程爬取明朝那些事

地址：https://www.mingchaonaxieshier.com/

要求：不要让网页死掉了。

其他练手的地址：https://www.51shucheng.net/

分析：
1. 拿到主页面的源代码（不需要异步）
2. 拿到源代码之后，需要解析出 卷名，章节和其href
3. 协程获取小说内容

页面源代码和elements可能会不一样，可以参考elements的信息，最后分析页面还是要以页面源代码为准。

In [None]:
import os
import requests
from lxml import etree
import asyncio
import aiofiles
import aiohttp

headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.75 Safari/537.36"
    }


def get_chapter_info(url):
    resp = requests.get(url, headers=headers)
    resp.encoding = "UTF-8"
    page_source = resp.text
    # print(page_source)
    tree = etree.HTML(page_source)

    results = []

    divs = tree.xpath("//div[@class='mulu']")
    print(divs)
    for div in divs:  # 拿到七个卷
        trs = div.xpath('.//tr')
        juan_name = trs[0].xpath('.//td//a/text()')  # tr中第一个元素是卷名, 返回的是一个列表
        juan_name = "".join(juan_name).strip().replace("：", "_")
        print(juan_name)
        for tr in trs[1:]:  # 拿到所有的章节，一个tr中有三个章节
            for td in tr.xpath('.//td'):  # 拿到每一个章节
                chapter_name = td.xpath('.//a/text()')
                chapter_href = td.xpath('.//a/@href')
                if chapter_href and chapter_href:  # 最后两个是td是空的，需要排除空的td
                    # 列表转为字符串
                    chapter_name = "".join(chapter_name).strip().replace(" ", "_")
                    chapter_href = "".join(chapter_href).strip()

                    dic = {"juan_name": juan_name, "chapter_name": chapter_name, "chapter_href": chapter_href}
                    results.append(dic)
    return results


async def download_one(url, file_path):
    print("开始下载一章")
    async with aiohttp.ClientSession() as session:
        async with session.get(url, headers=headers) as resp:
            page_source = await resp.text(encoding='UTF-8')
            # 解析小说章节的内容
            tree = etree.HTML(page_source)
            content = tree.xpath('//div[@class="content"]/p/text()')
            # print(content)
            # 列表处理为字符串
            content = "".join(content).strip().replace("\n", "").replace("\t", "").replace(" ", "")

            # 写入文件
            async with aiofiles.open(file_path, mode='w', encoding="UTF-8") as f:
                await f.write(content)

            print("一章下载完成：", file_path, url)


async def download_chapter(chapter_list):
    tasks = []
    for chapter in chapter_list:
        dir_name = chapter.get("juan_name")
        chapter_name = chapter.get("chapter_name")
        if not os.path.exists(dir_name):
            os.mkdir(dir_name)
        file_path = os.path.join(dir_name, f'{chapter_name}.txt')
        url = chapter.get("chapter_href")

        tasks.append(asyncio.create_task(download_one(url, file_path)))
        # break  # 调试用，不至于干崩网页，调试完成后可以注释
    await asyncio.wait(tasks)


def main():
    url = 'https://www.mingchaonaxieshier.com/'
    chapter_list = get_chapter_info(url)
    # asyncio.run(download_chapter(chapter_list))
    loop_event = asyncio.get_event_loop()
    loop_event.run_until_complete(download_chapter(chapter_list))


if __name__ == '__main__':
    main()