In [1]:
import time, json
import pandas as pd
import datetime
import pyecharts.options as opts
from pyecharts.commons.utils import JsCode
from pyecharts.charts import Line
from pyecharts.charts import Calendar
from pyecharts.charts import Map

from pyecharts.globals import CurrentConfig, OnlineHostType
CurrentConfig.ONLINE_HOST = "https://assets.pyecharts.org/assets/"

# 新冠疫情分析

新型冠状病毒肺炎（COVID-19，简称“新冠肺炎”）疫情肆虐全球多个国家，2020年3月11日，世界卫生组织 (WHO) 正式宣布将新冠肺炎列为全球性大流行病。

在全球抗击新型冠状病毒疫情的过程中，产生了前所未有的大规模疫情数据，利用大数据分析技术能够协助发现病毒传染源、监测疫情发展、调配救援物资，从而更好地进行疫情防控工作。

本项目利用公开的疫情数据集对疫情的发展趋势进行分析和预测。本项目所用的数据集为：
* china_provincedata.csv: 
    * 包含各省新冠疫情的统计数据
    * 时间：从2020年01月19日前后到2020年6月17日前后
    
* countrydata.csv:
    * 包含各国新冠疫情的统计数据
    * 时间：从2020年01月20日到2020年6月17日


## 1 新冠疫情统计分析



### 1.1 新冠疫情折线图

In [2]:
def render_lines(country_name, data_path):
    # 第一步：读取数据
    data = pd.read_csv(data_path)
    data = data[data['countryName'] == country_name]
    date_list = list(data['dateId'])
    date_list = list(map(lambda x: str(x), date_list))
    confirm_list = list(data['confirmedCount'])
    current_list = list(data['currentConfirmedCount'])
    dead_list = list(data['deadCount'])
    heal_list = list(data['curedCount'])

    # 第二步：绘制折线面积图
    line = (
        Line()
        .add_xaxis(date_list)
        .add_yaxis('确诊数据', confirm_list, is_smooth=True,
                   markpoint_opts=opts.MarkPointOpts(data=[opts.MarkPointItem(type_="max"),
                                                           opts.MarkPointItem(type_="min")]))
        .add_yaxis('现存确诊数据', current_list, is_smooth=True,
                   markpoint_opts=opts.MarkPointOpts(data=[opts.MarkPointItem(type_="max"),
                                                           opts.MarkPointItem(type_="min")]))
        .add_yaxis('死亡数据', dead_list, is_smooth=True,
                   markpoint_opts=opts.MarkPointOpts(data=[opts.MarkPointItem(type_="max"),
                                                           opts.MarkPointItem(type_="min")]))
        .add_yaxis('治愈数据', heal_list, is_smooth=True,
                   markpoint_opts=opts.MarkPointOpts(data=[opts.MarkPointItem(type_="max"),
                                                           opts.MarkPointItem(type_="min")]))
        # 隐藏数字 设置面积
        .set_series_opts(
            areastyle_opts=opts.AreaStyleOpts(opacity=0.5),
            label_opts=opts.LabelOpts(is_show=False))

        # 设置x轴标签旋转角度
        .set_global_opts(xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-30)),
                         yaxis_opts=opts.AxisOpts(name='人数', min_=3),
                         title_opts=opts.TitleOpts(title='COVID19'+country_name+'疫情数据曲线图'))
    )

    return line

In [3]:
# 输入参数
country_name = '中国'
data_path = "../../data/covid_19/countrydata.csv"

# 显示折线图
render_lines(country_name, data_path).render_notebook()

* 保存图像到html

In [4]:
# 输入参数
country_name = '中国'
data_path = "../../data/covid_19/countrydata.csv"
file_name = '附件：2020年1月至6月{}新冠疫情折线图.html'.format(country_name)
file_path = './results/{}'.format(file_name)

# 保存到文件
render_lines(country_name, data_path).render(file_path)

'D:\\a1-工作文档\\工作文档\\个人笔记\\notebook\\data_mining\\projects\\武汉疫情分析\\results\\附件：2020年1月至6月中国新冠疫情折线图.html'

### 1.2 新冠疫情日历图

In [5]:
def calendar_base(country_name, data_path) -> Calendar:
    # 第一步：读取数据，设置日期
    begin = datetime.date(2020, 1, 19)
    end = datetime.date(2020, 6, 17)
    data = pd.read_csv(data_path)
    data = data[data['countryName'] == country_name]
    date_list = list(data['dateId'])
    date_list = list(map(lambda x: str(x), date_list))
    confirm_list = list(data['confirmedIncr'])
    data = [
        [str(begin + datetime.timedelta(days=i)),
         confirm_list[i]]  # 设置日期间隔，步数范围
        for i in range((end - begin).days - 3)
    ]

    # 第二步：绘制日历图
    c = (
        Calendar()
        .add('', data, calendar_opts=opts.CalendarOpts(range_=['2020-1', '2020-6']))
        .set_global_opts(
            title_opts=opts.TitleOpts(
                title='{}疫情每日新增确诊病例日历图'.format(country_name), subtitle='From Weix'),
            visualmap_opts=opts.VisualMapOpts(
                pieces=[
                    {'min': 13000, 'color': '#7f1818'},
                    {'min': 1000, 'max': 10000},
                    {'min': 500, 'max': 999},
                    {'min': 100, 'max': 499},
                    {'min': 10, 'max': 99},
                    {'min': 0, 'max': 9}],
                orient='vertical',
                pos_top='230px',
                pos_left='100px',
                is_piecewise=True
            )
        )
    )
    return c

In [6]:
# 输入参数
country_name = '中国'
data_path = "../../data/covid_19/countrydata.csv"

# 输出日历图
calendar_base(country_name, data_path).render_notebook()

* 保存图像到html

In [7]:
# 输入参数
country_name = '中国'
data_path = "../../data/covid_19/countrydata.csv"
file_name = '附件：2020年1月至6月{}新冠疫情每日新增确诊病例日历图.html'.format(country_name)
file_path = './results/{}'.format(file_name)

# 输出日历图
calendar_base(country_name, data_path).render(file_path)

'D:\\a1-工作文档\\工作文档\\个人笔记\\notebook\\data_mining\\projects\\武汉疫情分析\\results\\附件：2020年1月至6月中国新冠疫情每日新增确诊病例日历图.html'

### 1.3 中国疫情分布图

In [8]:
# 全国疫情分布图（死亡率）
def render_mapcountChina_rate(dateId, data_path):
    data = pd.read_csv(data_path)
    data = data[data['dateId'] == dateId]
    list_data = list(zip(list(data['provinceShortName']), list(
        (data['deadCount']*1000 // data['confirmedCount'])/10)))

    c = (
        Map()
        .add('', list_data, 'china')
        .set_global_opts(
            title_opts=opts.TitleOpts(title='全国疫情分布图（死亡率）'+str(dateId)),
            visualmap_opts=opts.VisualMapOpts(is_show=True,
                                              split_number=6,
                                              is_piecewise=True,  # 是否为分段型
                                              pos_top='center',
                                              pieces=[
                                                  # 不指定 max
                                                  {'min': 40, 'color': '#7f1818'},
                                                  {'min': 20, 'max': 40},
                                                  {'min': 10, 'max': 20},
                                                  {'min': 8, 'max': 10},
                                                  {'min': 4, 'max': 8},
                                                  {'min': 1, 'max': 4},
                                                  {'min': 0.6, 'max': 1},
                                                  {'min': 0.1, 'max': 0.5},
                                                  {'min': 0, 'max': 0}
                                              ]),
        )
    )
    return c

# 全国疫情分布图（累计死亡人数）
def render_mapcountChina_death(dateId, data_path):
    data = pd.read_csv(data_path)
    data = data[data['dateId'] == dateId]
    list_data = list(
        zip(list(data['provinceShortName']), list(data['deadCount'])))

    c = (
        Map()
        .add('', list_data, 'china')
        .set_global_opts(
            title_opts=opts.TitleOpts(title='全国疫情分布图（累计死亡人数）'+str(dateId)),
            visualmap_opts=opts.VisualMapOpts(is_show=True,
                                              split_number=6,
                                              is_piecewise=True,  # 是否为分段型
                                              pos_top='center',
                                              pieces=[
                                                  # 不指定 max
                                                  {'min': 10000, 'color': '#7f1818'},
                                                  {'min': 1000, 'max': 10000},
                                                  {'min': 500, 'max': 999},
                                                  {'min': 100, 'max': 499},
                                                  {'min': 10, 'max': 99},
                                                  {'min': 0, 'max': 9}],
                                              ),
        )
    )
    return c

# 全国疫情分布图（现存）
def render_mapcountChina_current(dateId, data_path):
    data = pd.read_csv(data_path)
    data = data[data['dateId'] == dateId]
    list_data = list(zip(list(data['provinceShortName']),
                         list(data['currentConfirmedCount'])))

    c = (
        Map()
        .add('', list_data, 'china')
        .set_global_opts(
            title_opts=opts.TitleOpts(title='全国疫情分布图（现存）'+str(dateId)),
            visualmap_opts=opts.VisualMapOpts(is_show=True,
                                              split_number=6,
                                              is_piecewise=True,
                                              pos_top='center',
                                              pieces=[
                                                  # 不指定 max
                                                  {'min': 10000, 'color': '#7f1818'},
                                                  {'min': 1000, 'max': 10000},
                                                  {'min': 500, 'max': 999},
                                                  {'min': 100, 'max': 499},
                                                  {'min': 10, 'max': 99},
                                                  {'min': 0, 'max': 9}],
                                              ),
        )
    )
    return c


def render_mapcountChina(dateId, data_path, type_id):
    if(type_id == 0):
        return render_mapcountChina_current(dateId, data_path)
    elif(type_id == 1):
        return render_mapcountChina_death(dateId, data_path)
    elif(type_id == 2):
        return render_mapcountChina_rate(dateId, data_path)

In [9]:
# 输出某一天的中国疫情现存分布图(20200120-20200617)
data_path = "../../data/covid_19/china_provincedata.csv"
dateId = 20200212
type_id = 0

# 显示图像
render_mapcountChina(dateId, data_path, type_id).render_notebook()

* 保存文件到html

In [10]:
# 输出某一天的中国疫情现存分布图(20200120-20200617)
data_path = "../../data/covid_19/china_provincedata.csv"
dateId = 20200212
type_id = 0

# 保存图像
if(type_id == 0):
    file_name = '{}全国疫情地图(现存).html'.format(dateId)
elif(type_id == 1):
    file_name = '{}全国疫情分布图（累计死亡人数）.html'.format(dateId)
elif(type_id == 2):
    file_name = '{}全国疫情分布图（死亡率）.html'.format(dateId)

file_path = './results/{}'.format(file_name)
render_mapcountChina(dateId, data_path, type_id).render(file_path)

'D:\\a1-工作文档\\工作文档\\个人笔记\\notebook\\data_mining\\projects\\武汉疫情分析\\results\\20200212全国疫情地图(现存).html'

## 2 新冠疫情预测模型