In [3]:
# -*- coding: utf-8 -*-
# Author: W.Y.
# Email: wangyingchn@outlook.com
# Date: 2022/4/4

# 导入模块
import csv  # 用于存储数据
import time  # 用于时间间隔避免过频繁的请求
import requests  # 用于请求数据
from bs4 import BeautifulSoup  # 用于解析数据

# 请求数据
def get_response(url):
    # 伪装一下，让服务器以为是正常浏览，而不是爬虫。
    # 静态网页通常反爬不严格，所以只要通过 User-Agent 伪装成浏览器即可。
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 \
        (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36"
    }
    # 请求数据。使用 get 方法请求数据
    response = requests.get(url, headers=headers)
    return response

# 解析数据
def parse_data(response):
    soup = BeautifulSoup(response.text, "html.parser")  # 由于是通过 html 格式存储的，所以用 “html.parser” 进行解析
    data_table = soup.find('table', attrs={'width':'620px','border':'0','class':'b','cellpadding':'1','cellspacing':'1'}).find_all("tr")  # 找到包裹表内容的 ul 标签，找到里面所有的 li 标签
    weather_list = []  # 构造空列表以存储数据
    for tr in data_table[1:]:  # 循环获取每行的数据（li 标签）
        th_list = tr.find_all('td')  # 获取每行的每个数据 （li 标签下的 div 标签）
        weather = {
            '空气质量指数': th_list[2].get_text(),  # 获取第一个 div 标签中的内容，命名为 “date”
        }   # 每行数据存储在一个字典中
        weather_list.append(weather)  # 所有行的数据存入一个列表中
    return weather_list
# 储存数据
def save_data(weather_list, save_path):
    with open(save_path, 'a', newline='', encoding='utf-8') as fp:
        csv_header = ['空气质量指数']  # 设置表头，即列名
        csv_writer = csv.DictWriter(fp, csv_header)
        if fp.tell() == 0:
            csv_writer.writeheader()  # 如果文件不存在，则写入表头；如果文件已经存在，则直接追加数据不再次写入表头
        csv_writer.writerows(weather_list)  # 写入数据

# 构造网址
def generate_urls():
    url_pattern = 'http://www.tianqihoubao.com/aqi/beijing-2021{}.html'  # 网址的基本结构，有变化的两个部分用 {} 替代，后面循环补充
    months = [str(x).zfill(2) for x in range(1, 13)]  # 生成月份列表，zfill 函数补充两位数
    month_list = [str(month)for month in months]  # 年月循环拼在一起
    url_list = []  # 空列表用于存储所有网址
    for m in month_list:  # 再循环时间
            url_list.append(url_pattern.format(m))  # 通过 format 函数生成网址
    return url_list

# 定义爬取函数
def crawler(url, save_path):
    response = get_response(url)    # 请求数据
    results = parse_data(response)  # 解析数据
    save_data(results, save_path)   # 存储数据
    print(f'成功爬取数据：{url}')

if __name__ == '__main__':
    urls = generate_urls()     # 构造所有网址
    save_file = 'weather3.csv'  # 保存数据的文件路径
    for u in urls:     # 在网址中循环
        time.sleep(2)  # 每次爬取休息 2 秒，以免太过频繁的请求
        crawler(u, save_file)  # 进行爬取

成功爬取数据：http://www.tianqihoubao.com/aqi/beijing-202101.html
成功爬取数据：http://www.tianqihoubao.com/aqi/beijing-202102.html
成功爬取数据：http://www.tianqihoubao.com/aqi/beijing-202103.html
成功爬取数据：http://www.tianqihoubao.com/aqi/beijing-202104.html
成功爬取数据：http://www.tianqihoubao.com/aqi/beijing-202105.html
成功爬取数据：http://www.tianqihoubao.com/aqi/beijing-202106.html
成功爬取数据：http://www.tianqihoubao.com/aqi/beijing-202107.html
成功爬取数据：http://www.tianqihoubao.com/aqi/beijing-202108.html
成功爬取数据：http://www.tianqihoubao.com/aqi/beijing-202109.html
成功爬取数据：http://www.tianqihoubao.com/aqi/beijing-202110.html


PermissionError: [Errno 13] Permission denied: 'weather3.csv'