# 上海疫情病例散点图


**使用数据说明**  

Shanghai2022-COVID19-Analysis\DataInfo2\community\xxx_geo.xlsx  
数据列：日期	**地址**	性别	年龄	类型	区	**经度**	**纬度**  **（类型代号）**  
（正常情况下，每个日期有3个文件，只有xxx_geo.xlsx文件包含同时包含经纬度+地点名信息）

**完成情况**

已实现带时间序列的地图散点图。
只需要在最后一个代码块，修改folder_path，即可根据该文件夹，生成时序图（前提是文件格式满足上述数据头说明）

In [4]:
# 函数： 根据原始数据的“类型：确诊/无病例”，在末尾生成列“类型代号：1/0”;若没有“类型列”，则统一生成0
# 目前if ws[index1] ==  "确诊"判断未起作用

from openpyxl import Workbook
from openpyxl import load_workbook


def refine_dataset(directory):

    wb = load_workbook(directory)
    ws =wb.active

    ws['I1'] = "类型代号"
    for i in range(2,ws.max_row+1):
        index1 = "E" + str(i)
        index2 = "I" + str(i)
        if ws[index1] ==  "确诊": # 未起作用
            ws[index2] = 1
        else:
            ws[index2] = 0

    wb.save(directory)


In [5]:
# # 说明：Geo 图的坐标引用自 pyecharts.datasets.COORDINATES
# from pyecharts import datasets
# for i in datasets.COORDINATES:
#     print(i)

In [6]:
# ls-函数：根据文件名字，生成时间
# directory = './DataInfo2/community/20220306_geo.xlsx'

def get_time(directory):
    end = directory.split('/')[-1]
    time = end.split('_')[0]
    month = int(time[4]+time[5])
    day = int(time[6] + time[7])
    geo_time = str(month) + '.' + str(day)
    return geo_time


In [13]:
# ls-函数：根据文件名字[../xxx_goe.xlsx]生成某一天的geo图，同时返回当天时间
# directory = './DataInfo2/community/20220306_geo.xlsx'

import pandas as pd

def get_geo(directory):
    
#     refine_dataset(directory) # 给原文件填上类型代号

    df = pd.read_excel(directory)

    geo_time = get_time(directory) # 生成与地图相匹配的时间
    
    geo = Geo(is_ignore_nonexistent_coord=True)
    geo.add_schema(maptype="上海")  # 使用上海地图

    
    # 有“类型”
    if "类型" in list(df):
        df_quezhen = df[df["类型"].isin(["确诊"])]
        df_wuzhengzhuang = df[df["类型"].isin(["无症状"])]   
    
        for i in df_quezhen.index:
            s = df_quezhen.loc[i]
            geo.add_coordinate(s["地址"], s["经度"], s["纬度"])

        for i in df_wuzhengzhuang.index:
            s = df_wuzhengzhuang.loc[i]
            geo.add_coordinate(s["地址"], s["经度"], s["纬度"])

        qz_data_pair = [(df_quezhen.loc[i]["地址"],1)for i in df_quezhen.index]
        wzz_data_pair = [(df_wuzhengzhuang.loc[i]["地址"],2)for i in df_wuzhengzhuang.index]

        geo.add("",wzz_data_pair)
        geo.add("",qz_data_pair)
        geo.add("", [list(z) for z in zip(df["地址"],df["类型代号"])])

        geo.set_series_opts(label_opts=opts.LabelOpts(is_show=False))  # 不展示数据点label
        geo.set_global_opts(
            visualmap_opts=opts.VisualMapOpts(max_=550,
                                                 is_piecewise=True,
                                                 pieces=[
                         {"max": 1, "min": 1, "label": "确诊", "color": "#DC143C"},
                         {"max": 2, "min": 2, "label": "无症状", "color": "#6495ED"},
                         {"max": 0, "min": 0, "label": "感染者", "color": "#9370DB"}]),
        title_opts=opts.TitleOpts(title="上海疫情散点图")
            )

    # 没有类型区分，直接归为感染者
    else:
        data_pair_zip = zip(df["地址"], df["经度"], df["纬度"] ) # 坐标点数据 
        data_pair_list = list(data_pair_zip) 
        for i in data_pair_list:
            geo.add_coordinate(i[0], i[1], i[2])    
            
        geo.add("", [list(z) for z in zip(df["地址"],df["类型代号"])])
        geo.set_series_opts(label_opts=opts.LabelOpts(is_show=False))  # 不展示数据点label
        geo.set_global_opts(
            visualmap_opts=opts.VisualMapOpts(max_=550,
                                                 is_piecewise=True,
                                                 pieces=[
                         {"max": 0, "min": 0, "label": "感染者", "color": "#9370DB"}]),
        title_opts=opts.TitleOpts(title="上海疫情散点图")
            )
    return geo,geo_time

In [14]:
# ls-函数：遍历目录文件夹内所有文件，返回目标文件路径列表，以及文件总数
# 目标文件名列表内，仅含有所需的[xxx_geo.xlsx]文件，不含有其他3种类型文件
# 其内文件名格式为：./DataInfo2/community/20220306_geo.xlsx,生成地图时可直接根据路径进行读取
# folder_path = './DataInfo2/community'

import os

def get_filelist(folder_path):
    tmp = os.listdir(folder_path)
    file_list = []
    for filename in tmp:
        if 'geo' in filename:
            filename = folder_path + "/" + filename
            file_list.append(filename)
            
    file_num = len(file_list)
    
    return file_list,file_num
    

In [15]:
# ls-绘制geo时间序列图

folder_path = './DataInfo2/community'

from pyecharts import options as opts
from pyecharts.charts import Map, Timeline
from pyecharts.faker import Faker
from pyecharts.charts import Geo
from pyecharts.globals import GeoType


file_list, file_num = get_filelist(folder_path)

tl = Timeline()
# file_num-1
for i in range(file_num-1): # 不知道为啥最后一个文件会报错，现在先不要它
    geo, geo_time = get_geo(file_list[i])
    tl.add_schema(play_interval=500)
    tl.add(geo, geo_time)

tl.render("./show_result/上海疫情散点时序图.html")
tl.render_notebook()