# 疫情下的城市静悄悄？—— 基于爬虫数据与可视化的模式探索实验

- 张晨峰（email:glen.zhang7@gmail.com）

## 讲座内容

- 简介

- 为什么使用Python和Jupyter？

- 为什么我们需要爬虫以及如何编写它？

- 疫情下的城市静悄悄？ —— 可视化模式探索

---

讲座相关数据程序，可点击[此处](https://github.com/plutoese/datastat)

## 简介

下列两张图片反映了什么现象（背后的故事是怎样的）？

![](https://p193.p3.n0.cdn.getcloudapp.com/items/ApurWQ8R/Snipaste_2020-03-27_14-29-07.png?v=6dfa2bf9ddb3d1e6d705596e9f65bb84)

![](https://p193.p3.n0.cdn.getcloudapp.com/items/8LuJEGQb/52248409_403.jpg?v=2c369f77988c6a84dc0b307f97240af5)

- 请点击[此处](https://p193.p3.n0.cdn.getcloudapp.com/items/X6uzLkBJ/Chinese%20floating%20migrants%20Rural-urban%20migrant%20labourers%27%20intentions%20to%20stay%20or%20return.pdf?v=ceff8852b0b977a779db0fb269c9d910)，查看图片一来源。

- 点击[此处](https://www.dw.com/en/coronavirus-outbreak-china-and-the-world-economy-worse-than-sars/a-52253833)，查看图片二来源。

## 为什么使用Python和Jupyter？

### 你为什么使用Python？

1989 年 12 月，荷兰计算机科学家 van Rossum 定下了一个圣诞节目标，创造出一种易于阅读和易于创建和分享模块的编程语言。他以英国喜剧团体 Monty Python 的名字将其命名为 Python 语言。

为什么它突然开始流行了？

### 我为什么使用Jupyter？

Jupyter是可分享的综合动态文档。

## 为什么我们需要爬虫以及如何编写它？

### 为什么我们需要爬虫？

- 网络上有大量对我们有帮助的数据

- 爬虫比人工搜集更有效率

### 如何用Python编写爬虫（5分钟简略版本）

爬虫，简而言之，就是一个自动化程序向网络服务器**请求数据**（通常是用HTML表单或其他网页文件），然后对数据进行**解析，提取需要的信息**。

因此，爬虫程序的核心就是两个步骤：

- 请求网络数据

- 解析和提取数据

#### 请求网络数据

Python的[requests](https://requests.kennethreitz.org/en/master/)是一个优雅且简洁的HTTP库，可以用于向服务器发送请求（例如get和post）。

- 目标：爬取百度首页

In [19]:
# 执行程序：使用requests的get()方法爬取百度首页
import requests

r = requests.get('http://www.baidu.com')

使用状态码查看是否爬取成功，如果返回200，就表示成功。

In [20]:
# 执行程序
r.status_code

200

查看爬取的内容

In [6]:
# 执行程序
r.text

'<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css><title>ç\x99¾åº¦ä¸\x80ä¸\x8bï¼\x8cä½\xa0å°±ç\x9f¥é\x81\x93</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus></span><span cl

**编码问题**

对于中文网页，如果是乱码，可以查看字符编码方式，并对此进行重新设置。（现在可以找到“百度一下，你就知道”了）

In [23]:
# 执行程序
r.encoding = "UTF-8"
r.text

'<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css><title>百度一下，你就知道</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus></span><span class="bg s_btn_wr"><input type=submit id=su

#### 解析和提取数据

[Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.html)是用来从HTML或XML文件中提取数据的Python库。

> Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象

- 目标：找到百度新闻的链接地址

In [24]:
# 执行程序
from bs4 import BeautifulSoup

# 构建了一个BeautifulSoup，它使用lxml解析器来转换百度网页
soup = BeautifulSoup(r.text, 'lxml')

In [25]:
# 执行程序
soup.title

<title>百度一下，你就知道</title>

In [26]:
# 执行程序
soup.title.string

'百度一下，你就知道'

**定位页面元素**

常用方法是find()和find_all()。

In [27]:
# 执行程序
for item in soup.find_all('a'):
    print(item)

<a class="mnav" href="http://news.baidu.com" name="tj_trnews">新闻</a>
<a class="mnav" href="http://www.hao123.com" name="tj_trhao123">hao123</a>
<a class="mnav" href="http://map.baidu.com" name="tj_trmap">地图</a>
<a class="mnav" href="http://v.baidu.com" name="tj_trvideo">视频</a>
<a class="mnav" href="http://tieba.baidu.com" name="tj_trtieba">贴吧</a>
<a class="lb" href="http://www.baidu.com/bdorz/login.gif?login&amp;tpl=mn&amp;u=http%3A%2F%2Fwww.baidu.com%2f%3fbdorz_come%3d1" name="tj_login">登录</a>
<a class="bri" href="//www.baidu.com/more/" name="tj_briicon" style="display: block;">更多产品</a>
<a href="http://home.baidu.com">关于百度</a>
<a href="http://ir.baidu.com">About Baidu</a>
<a href="http://www.baidu.com/duty/">使用百度前必读</a>
<a class="cp-feedback" href="http://jianyi.baidu.com/">意见反馈</a>


**CSS选择器与网页元素提取**


使用.select()，它支持CSS选择器。

CSS选择器参考手册，点击[此处](https://www.w3school.com.cn/cssref/css_selectors.asp)。

In [28]:
# 执行程序
soup.select("[name=tj_trnews]")

[<a class="mnav" href="http://news.baidu.com" name="tj_trnews">新闻</a>]

In [29]:
# 执行程序
soup.select('[name="tj_trnews"]')[0].attrs["href"]

'http://news.baidu.com'

### 应用：爬取高德交通主要城市的拥堵数据

点击[此处](https://report.amap.com/index.do)，查看高德地图城市交通网站。

- 目标：爬取中国主要城市拥堵排名

In [5]:
# 执行程序：使用requests的get()方法爬取高德交通网页
import requests

r = requests.get('https://report.amap.com/index.do')
r.text

'<!DOCTYPE html> <html> <body> <script> window.location.reload() </script> </body> </html>'

使用高德地图的开发者工具，打开网页，发现了getCityRank.do，可以双击打开查看此网页。

![](https://p193.p3.n0.cdn.getcloudapp.com/items/JruWYjBA/Snipaste_2020-03-27_15-32-18.png?v=2ba323b44b568941e9718cfe618d2ce0)

In [8]:
# 执行程序
r = requests.get('https://report.amap.com/ajax/getCityRank.do')
r.text

'[{"freeFlowSpeed":49.93,"healthValue":0.0,"idx":1.59,"idx1":1.58,"idxRatio":-3.0,"label":"香港","name":810000,"rank1":0,"rankState":"flat","realSpeed":31.32,"value":0,"idxRatioState":"down"},{"freeFlowSpeed":44.85,"healthValue":0.0,"idx":1.58,"idx1":1.57,"idxRatio":4.0,"label":"西安市","name":610100,"rank1":1,"rankState":"flat","realSpeed":28.33,"value":1,"idxRatioState":"up"},{"freeFlowSpeed":37.23,"healthValue":0.0,"idx":1.56,"idx1":1.53,"idxRatio":6.0,"label":"汕头市","name":440500,"rank1":3,"rankState":"up","realSpeed":23.84,"value":2,"idxRatioState":"up"},{"freeFlowSpeed":44.93,"healthValue":0.0,"idx":1.55,"idx1":1.56,"idxRatio":5.0,"label":"西宁市","name":630100,"rank1":2,"rankState":"down","realSpeed":29.01,"value":3,"idxRatioState":"up"},{"freeFlowSpeed":41.35,"healthValue":0.0,"idx":1.53,"idx1":1.52,"idxRatio":2.0,"label":"银川市","name":640100,"rank1":4,"rankState":"flat","realSpeed":27.11,"value":4,"idxRatioState":"up"},{"freeFlowSpeed":41.93,"healthValue":0.0,"idx":1.51,"idx1":1.5,"idxR

In [14]:
# 执行程序

# 用户可设置
# top_n表示前n个排名
top_n = 15


for item in r.json()[0:top_n]:
    print(item['label'], item['idx'])

香港 1.59
西安市 1.58
汕头市 1.56
西宁市 1.55
银川市 1.53
兰州市 1.51
中山市 1.49
德阳市 1.47
沧州市 1.45
新乡市 1.45
深圳市 1.45
昆明市 1.45
广州市 1.43
无锡市 1.42
成都市 1.42


- 目标：爬取某城市的延时拥堵指数

例如爬取上海的延时拥堵指数，点击[此处](https://report.amap.com/detail.do?city=310000)。

同样，使用高德地图的开发者工具，打开网页，发现了cityDailyQuarterly.do?cityCode=310000&year=2019&quarter=1，可以双击打开查看此网页。

![](https://p193.p3.n0.cdn.getcloudapp.com/items/6quBpOj9/Snipaste_2020-03-27_15-48-00.png?v=8c60ae67519179c58aabff1814e7f96d)

In [16]:
# 执行程序
r = requests.get('https://report.amap.com/ajax/cityDailyQuarterly.do?cityCode=310000&year=2020&quarter=1')
r.json()

{'serieData': [1.24,
  1.66,
  1.76,
  1.3,
  1.24,
  1.73,
  1.71,
  1.68,
  1.73,
  1.92,
  1.45,
  1.3,
  1.69,
  1.56,
  1.76,
  1.83,
  1.61,
  1.3,
  1.42,
  1.37,
  1.38,
  1.35,
  1.22,
  1.09,
  1.09,
  1.1,
  1.07,
  1.06,
  1.06,
  1.06,
  1.06,
  1.07,
  1.06,
  1.08,
  1.07,
  1.07,
  1.08,
  1.07,
  1.06,
  1.06,
  1.19,
  1.16,
  1.12,
  1.13,
  1.12,
  1.08,
  1.07,
  1.22,
  1.16,
  1.16,
  1.16,
  1.17,
  1.07,
  1.08,
  1.37,
  1.28,
  1.27,
  1.27,
  1.29,
  1.11,
  1.1,
  1.52,
  1.46,
  1.43,
  1.44,
  1.43,
  1.13,
  1.13,
  1.79,
  1.5,
  1.49,
  1.53,
  1.55,
  1.16,
  1.15,
  1.64,
  1.54,
  1.56,
  1.55,
  1.57,
  1.19,
  1.18,
  1.65,
  1.6,
  1.59,
  1.59],
 'categories': ['2020-01-01',
  '2020-01-02',
  '2020-01-03',
  '2020-01-04',
  '2020-01-05',
  '2020-01-06',
  '2020-01-07',
  '2020-01-08',
  '2020-01-09',
  '2020-01-10',
  '2020-01-11',
  '2020-01-12',
  '2020-01-13',
  '2020-01-14',
  '2020-01-15',
  '2020-01-16',
  '2020-01-17',
  '2020-01-18',
  '

练习：换一个城市试试？

- 目标：爬取近24小时的某城市延时拥堵指数

In [17]:
# 执行程序
r = requests.get('https://report.amap.com/ajax/cityHourly.do?cityCode=310000&dataType=1')
r.json()

[[1585209600000, 1.28],
 [1585213200000, 1.55],
 [1585216800000, 1.58],
 [1585220400000, 1.34],
 [1585224000000, 1.22],
 [1585227600000, 1.24],
 [1585231200000, 1.17],
 [1585234800000, 1.12],
 [1585238400000, 1.11],
 [1585242000000, 1.12],
 [1585245600000, 1.11],
 [1585249200000, 1.09],
 [1585252800000, 1.08],
 [1585256400000, 1.07],
 [1585260000000, 1.13],
 [1585263600000, 1.46],
 [1585267200000, 1.8],
 [1585270800000, 1.6],
 [1585274400000, 1.4],
 [1585278000000, 1.26],
 [1585281600000, 1.22],
 [1585285200000, 1.25],
 [1585288800000, 1.25]]

有必要做时间转换

In [18]:
# 执行程序
import time

for item in r.json():
    timearray = time.localtime(int(item[0]/1000))
    otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timearray)
    print(otherStyleTime, ": ", item[1])

2020-03-26 16:00:00 :  1.28
2020-03-26 17:00:00 :  1.55
2020-03-26 18:00:00 :  1.58
2020-03-26 19:00:00 :  1.34
2020-03-26 20:00:00 :  1.22
2020-03-26 21:00:00 :  1.24
2020-03-26 22:00:00 :  1.17
2020-03-26 23:00:00 :  1.12
2020-03-27 00:00:00 :  1.11
2020-03-27 01:00:00 :  1.12
2020-03-27 02:00:00 :  1.11
2020-03-27 03:00:00 :  1.09
2020-03-27 04:00:00 :  1.08
2020-03-27 05:00:00 :  1.07
2020-03-27 06:00:00 :  1.13
2020-03-27 07:00:00 :  1.46
2020-03-27 08:00:00 :  1.8
2020-03-27 09:00:00 :  1.6
2020-03-27 10:00:00 :  1.4
2020-03-27 11:00:00 :  1.26
2020-03-27 12:00:00 :  1.22
2020-03-27 13:00:00 :  1.25
2020-03-27 14:00:00 :  1.25


## 疫情下的城市静悄悄？ —— 可视化模式探索

**为什么选择[Pyecharts](https://pyecharts.org/)？**

Pyecharts是一个百度开源的流行数据可视化库Echarts的Python接口。

- 流行的图形库之一
- 简洁的 API 设计，使用如丝滑般流畅
- 详尽的**中文**文档
- 丰富的图形种类（例如日历图）
- 与百度地图的无缝对接

In [20]:
# 执行程序
import arrow
import pandas as pd

# 导入数据集
traffic_daily_data = pd.read_excel('./data/lecture_daily_traffic.xlsx')
traffic_hourly_data_before = pd.read_excel('./data/lecture_1206_hourly_oneday_traffic.xlsx')
traffic_hourly_data_after = pd.read_excel('./data/lecture_hourly_traffic.xlsx')

In [2]:
# 执行程序

# 导入绘图库
from pyecharts.charts import Bar, Grid, Page
from pyecharts.charts import Calendar
import pyecharts.options as opts
from pyecharts.faker import  Faker
from pyecharts.charts import Line
from pyecharts.globals import CurrentConfig, NotebookType

CurrentConfig.NOTEBOOK_TYPE = NotebookType.JUPYTER_LAB

- 显示城市列表

In [4]:
# 执行程序
traffic_hourly_data_after['city'].unique()

array(['北京', '天津', '石家庄', '唐山', '秦皇岛', '邯郸', '邢台', '保定', '张家口', '沧州',
       '廊坊', '太原', '大同', '呼和浩特', '鄂尔多斯', '沈阳', '大连', '长春', '哈尔滨', '上海',
       '南京', '无锡', '徐州', '常州', '苏州', '南通', '连云港', '淮安', '盐城', '扬州', '镇江',
       '泰州', '宿迁', '杭州', '宁波', '温州', '嘉兴', '湖州', '绍兴', '金华', '衢州', '台州',
       '合肥', '芜湖', '滁州', '福州', '厦门', '泉州', '漳州', '南昌', '赣州', '济南', '青岛',
       '淄博', '烟台', '潍坊', '济宁', '泰安', '临沂', '德州', '郑州', '洛阳', '新乡', '南阳',
       '武汉', '长沙', '衡阳', '广州', '韶关', '深圳', '珠海', '汕头', '佛山', '江门', '湛江',
       '茂名', '肇庆', '惠州', '清远', '东莞', '中山', '南宁', '柳州', '桂林', '海口', '三亚',
       '重庆', '成都', '德阳', '绵阳', '南充', '贵阳', '昆明', '西安', '咸阳', '兰州', '西宁',
       '银川', '乌鲁木齐', '伊犁', '香港'], dtype=object)

### 城市平均拥堵指数图

In [5]:
# 执行程序
def bar(cities):
    bar = Bar()
    first_sign = True
    
    for city in cities:
        daily_data = traffic_daily_data[traffic_daily_data['city']==city]
        daily_data['year_month'] = daily_data['date'].apply(lambda x: arrow.get(x).format('YYYY,MM'))
        data = daily_data.loc[:,('value','year_month')].groupby(['year_month']).mean()
        data['value'] = round(data['value'],2)
        
        if first_sign:
            bar.add_xaxis(list(data.index))
            first_sign = False
        
        bar.add_yaxis(city, list(data['value']))
    
    bar.set_global_opts(
        title_opts=opts.TitleOpts(title="按月份城市平均拥堵指数"),
        datazoom_opts=[opts.DataZoomOpts(), opts.DataZoomOpts(type_="inside")],
    )
    
    return bar

In [6]:
# 执行程序

# 自定义城市列表
cities = ['武汉', '三亚', '上海', '香港']

b = bar(cities)
b.load_javascript()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


<pyecharts.render.display.Javascript at 0x19c13e72b08>

In [7]:
b.render_notebook()

### 城市的拥堵日历图

In [8]:
# 执行程序
def calendar(city):
    cal = Calendar()
    daily_data = traffic_daily_data[traffic_daily_data['city']==city]
    data = [[item[1][0],item[1][1]] for item in daily_data.iterrows()]
    num_data = [item[1] for item in data]
    
    cal.add("", data, calendar_opts=opts.CalendarOpts(
            range_=['2019-03-01', '2020-03-26'],
            daylabel_opts=opts.CalendarDayLabelOpts(name_map="cn"),
            monthlabel_opts=opts.CalendarMonthLabelOpts(name_map="cn"),
        ))
    cal.set_global_opts(
            title_opts=opts.TitleOpts(title="2019-2020年{}拥堵日历".format(city)),
            visualmap_opts=opts.VisualMapOpts(
                max_=max(num_data),
                min_=min(num_data),
                orient="horizontal",
                is_piecewise=True,
                pos_top="230px",
                pos_left="100px",
            )
        )
    
    return cal

In [9]:
# 执行程序

# 自定义城市列表
cities = ['武汉', '上海', '三亚', '贵阳', '香港']

page = Page()
page.add(*[calendar(city) for city in cities])
page.render()
page.load_javascript()

<pyecharts.render.display.Javascript at 0x19c1479ca88>

In [10]:
# 执行程序
page.render_notebook()

### 疫情前后城市的一天比较

In [17]:
# 执行程序
def hourly_bar(city):
    bar = Bar()
    
    hourly_data_before = traffic_hourly_data_before[traffic_hourly_data_before['city']==city]
    hourly_data_after = traffic_hourly_data_after[traffic_hourly_data_after['city']==city]
    
    hourly_data_before['time'] = hourly_data_before['date'].apply(lambda x: arrow.get(x).format('HH:mm'))
    
    bar.add_xaxis(list(hourly_data_before['time']))
    bar.add_yaxis("2019年12月6日", list(hourly_data_before['value']))
    bar.add_yaxis("2020年3月20日", list(hourly_data_after['value']))
    
    bar.set_global_opts(
        title_opts=opts.TitleOpts(title="{}的前后比较".format(city)),
        datazoom_opts=[opts.DataZoomOpts(), opts.DataZoomOpts(type_="inside")],
    )
    
    return bar

In [18]:
# 执行程序

# 自定义城市列表
cities = ['武汉', '上海', '三亚', '乌鲁木齐', '香港']

page = Page()
page.add(*[hourly_bar(city) for city in cities])
page.render()
page.load_javascript()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


<pyecharts.render.display.Javascript at 0x19c1476a0c8>

In [19]:
page.render_notebook()