# 5分钟使用Python爬取天气数据

爬取网站的步骤：
1. 设定爬取目标
   * 目标网站：2345天气预报网 - 北京历史天气，http://tianqi.2345.com/wea_history/54511.htm
   * 目标数据：北京2018年全年天气预报数据
2. 分析目标网站
   * 待爬取页面：http://tianqi.2345.com/t/wea_history/js/201906/54511_201906.js ，其中日期可替换
   * 待爬取数据：数据在js里面，是json格式
3. 批量下载js文件
   * 使用requests库实现下载，官网：https://2.python-requests.org//zh_CN/latest/user/quickstart.html
4. 实现返回的javascript解析，得到目标数据
   * 对于javascript的json如何解析？
5. 将结果数据存储
   * 将数据结果存储成csv格式，方便后续数据分析

## 1、构造待爬取的月份列表

In [None]:
year = 2018
months = ["%d%02d"%(year, month+1) for month in range(12)]

In [None]:
months

## 2、构造待爬取的JS的URL列表

In [None]:
todo_urls = [
    f"http://tianqi.2345.com/t/wea_history/js/{month}/54511_{month}.js"
    for month in months
]

In [None]:
todo_urls

## 3、批量下载数据

In [None]:
import requests

datas = []
for url in todo_urls:
    r = requests.get(url)
    if r.status_code!=200:
        raise Exception()
    # 去除javascript前后的字符串，得到一个js格式的JSON
    data = r.text.lstrip("var weather_str=").rstrip(";")
    datas.append(data)

In [None]:
datas[0]

## 4、解析JavaScript返回的数据

In [None]:
### 注意，这里的json是javascript格式，不能用标准库json解析
import json
json.loads(datas[0])

***介绍模块：demjson***   
地址：https://pypi.org/project/demjson/2.2.4/  
理由：  
    It is especially useful for   
    error checking   
    or ***for parsing JavaScript data***   
    which may not strictly be valid JSON data.

In [None]:
import demjson

In [None]:
demjson.decode(datas[0])

In [None]:
tqInfos = demjson.decode(datas[0])["tqInfo"]

In [None]:
tqInfos

In [None]:
# 解析所有月份的数据
all_datas = []

for data in datas:
    tqInfos = demjson.decode(data)["tqInfo"]
    all_datas.extend([x for x in tqInfos if len(x)>0])

In [None]:
len(all_datas)

## 5、将结果写出到csv文件

In [None]:
all_datas[0]

In [None]:
all_datas[0].keys()

In [None]:
import csv
with open('./beijing_tianqi_2018.csv', 'w', newline='', encoding='utf-8') as csv_file:
    writer = csv.writer(csv_file)
    
    columns = ['ymd', 'bWendu', 'yWendu', 'tianqi', 'fengxiang', 'fengli', 'aqi', 'aqiInfo']
    writer.writerow(columns)
    
    for data in all_datas:
        writer.writerow([data[column] for column in columns])