In [1]:
# 导入包
import numpy as np
import pandas as pd
import os

In [2]:
pd.set_option('display.max_rows', None) # 显示所有行
pd.set_option('display.max_columns', None) # 显示所有列

In [3]:
# 文件根路径
filepath_cn = "./疫情数据/国内数据/"
filepath_fg = "./疫情数据/外国数据/"

# 国内数据分析及处理

## 分析处理国内历史每日数据

In [4]:
# 查看国内历史每日数据
china_day_data = pd.read_csv(filepath_cn+"国内历史每日数据.csv") # 这其实是每日累计数据
# 为了更直观看，将列名全部改为中文
china_day_data.columns = ['累计确诊', '疑似', '累计死亡', '累计治愈', '现有确诊', '现有重症患者', '境外输入', '死亡率', '治愈率', '日期', '无症状感染者']
# 日期列调到第一列
data_col = china_day_data.pop('日期') # 先弹出该列
china_day_data.insert(0, '日期', data_col) # 再将该列添加到第一列即可
china_day_data

Unnamed: 0,日期,累计确诊,疑似,累计死亡,累计治愈,现有确诊,现有重症患者,境外输入,死亡率,治愈率,无症状感染者
0,1.16,45,0,2,8,0,0,0,4.4,17.8,0
1,1.17,62,0,2,12,0,0,0,3.2,19.4,0
2,1.18,198,0,3,17,0,0,0,1.5,8.6,0
3,1.19,275,0,4,18,0,0,0,1.5,6.5,0
4,1.2,291,54,6,25,291,0,0,2.1,8.6,0
5,1.21,440,37,9,25,431,0,0,2.0,5.7,0
6,1.22,574,393,17,25,557,0,0,3.0,4.4,0
7,1.23,835,1072,25,34,776,0,0,3.0,4.1,0
8,1.24,1297,1965,41,38,1218,0,0,3.2,2.9,0
9,1.25,1985,2684,56,49,1880,324,0,2.8,2.5,0


In [5]:
# 分析疑似病例随日期的变化
china_day_data.loc[:, ['日期', '疑似']]

Unnamed: 0,日期,疑似
0,1.16,0
1,1.17,0
2,1.18,0
3,1.19,0
4,1.2,54
5,1.21,37
6,1.22,393
7,1.23,1072
8,1.24,1965
9,1.25,2684


+ 可以看到从**1月23日**开始疑似病例逐渐增多，这说明**新冠病毒开始扩散传染了**
+ 而且从**1月20日**有疑似病例开始到**1月28日**短短不到10天就疑似病例就接近**万**人
+ 随后到**2月8日**，疑似病例就达到了**峰值**，这段时间我国重视疫情加大检测，越来越多的疑似病例被检测处理
+ 但是随后，疑似病例逐渐减少，这说明新冠病毒的传播得到了控制
+ 到**2月23日**，疑似病例已经回到了**3千多**，而且仍在下降
+ 最后**三月份三位数的疑似**，**四月份两位数的疑似**，**五月份一位数的疑似**，疫情短短不都两三个月就得到了控制
+ 但到**六月份**，疑似病例又开始增多，但也只是**从个位数到十位数**，这是因为**境外输入病例**传染的还有一些是**进口食品**上携带的
+ 不过也得到了控制，到现在疑似病例被控制在了个位数或十位数

In [6]:
# 分析现有确诊随日期的变化
china_day_data.loc[:, ['日期', '现有确诊']]

Unnamed: 0,日期,现有确诊
0,1.16,0
1,1.17,0
2,1.18,0
3,1.19,0
4,1.2,291
5,1.21,431
6,1.22,557
7,1.23,776
8,1.24,1218
9,1.25,1880


+ 可以看到与疑似病例的情况差不多，**二月份**是在**当时的现有确诊**是**最多**的时候
+ 而且随着疑似病例到三月的逐渐减少，进入三月份**当时的现有现有确诊**也开始**逐渐减少**
+ 这说明，疫情在二月份在国内达到了顶峰，但是随后就得到了控制
+ **当时的现有重症患者**也符合这个情况，都是二月份时是最多的，后来就逐渐减少了

In [7]:
# 分析境外输入随时间的变化
china_day_data.loc[:, ['日期', '境外输入']]

Unnamed: 0,日期,境外输入
0,1.16,0
1,1.17,0
2,1.18,0
3,1.19,0
4,1.2,0
5,1.21,0
6,1.22,0
7,1.23,0
8,1.24,0
9,1.25,0


+ 可以很清晰的看到，在整个三月份之前国内没有境外输入的病例
+ 但是三月份开始，境外输入病例开始一点点增加，而这时我国已经基本上控制了新冠病毒的传播，疑似病例和重症病例都在逐渐减少
+ 我猜测，有些外国人想来中国避难或者治疗。下面可以结合看外国的历史每日数据，就能发现，三月份开始新冠病毒开始在外国传播

In [24]:
# 分析无症状感染者随时间的变化
china_day_data.loc[:, ['日期', '无症状感染者']]

Unnamed: 0,日期,无症状感染者
0,1.16,0
1,1.17,0
2,1.18,0
3,1.19,0
4,1.2,0
5,1.21,0
6,1.22,0
7,1.23,0
8,1.24,0
9,1.25,0


+ 可以很清楚的看到异常的情况，**3月31日之前**无症状感染者都是0，但是**3月31日**无症状感染者就是**1367**人了
+ 通过查看当时的新闻发现，在3月31日之前我国并没有记录无症状感染者人数，而从3月31日才开始正式记录统计无症状感染者人数
+ 这个无症状感染者的人数从记录开始也是逐渐减少，因为3月份我国已经控制住新冠病毒传播，每日确诊人数也在逐渐减少
+ 但是由于**六七月份境外输入和进口食品又传播了病毒**，导致无症状感染者又多了起来，但是也只是百位数，还是被控制住了
+ 彰显了我国的强大！

## 分析国内历史每日新增数据

可以通过国内每日新增数据数据来再次说明问题

In [9]:
# 查看国内历史每日新增数据
china_dayadd_data = pd.read_csv(filepath_cn+"国内历史每日新增数据.csv") # 这其实是每日累计数据
# 列名中文化和调整列顺序
china_dayadd_data.columns = ['新增确诊', '新增疑似', '新增死亡', '新增治愈', '新增境外输入', '新增无症状感染者', '死亡率', '治愈率', '日期']
# 日期列调到第一列
data_col = china_dayadd_data.pop('日期') # 先弹出该列
china_dayadd_data.insert(0, '日期', data_col) # 再将该列添加到第一列即可
china_dayadd_data

Unnamed: 0,日期,新增确诊,新增疑似,新增死亡,新增治愈,新增境外输入,新增无症状感染者,死亡率,治愈率
0,1.23,259,680,8,6,0,0,3.1,2.3
1,1.24,444,1118,16,3,0,0,3.6,0.7
2,1.25,688,1309,15,11,0,0,2.2,1.6
3,1.26,769,3806,24,2,0,0,3.1,0.3
4,1.27,1771,2077,26,9,0,0,1.5,0.5
5,1.28,1459,3248,26,43,0,0,1.8,2.9
6,1.29,1737,4148,38,21,0,0,2.2,1.2
7,1.3,1982,4812,43,47,0,0,2.2,2.4
8,1.31,2102,5019,46,72,0,0,2.2,3.4
9,2.01,2590,4562,45,85,0,0,1.7,3.3


In [10]:
# 分析新增确诊随时间的变化
china_dayadd_data.loc[:, ['日期', '新增确诊']]

Unnamed: 0,日期,新增确诊
0,1.23,259
1,1.24,444
2,1.25,688
3,1.26,769
4,1.27,1771
5,1.28,1459
6,1.29,1737
7,1.3,1982
8,1.31,2102
9,2.01,2590


+ 光从数据就可以清晰的看到整个2月份每日新增确诊病例变化的趋势是**先上升后下降**
+ 其中比较突出的点是，2月12日，单日新增确诊数据达到了15153人
+ 可以通过**查看新增疑似**来探究为什么该日的新增确诊有这么多人

In [11]:
# 分析新增疑似随时间的变化
china_dayadd_data.loc[:, ['日期', '新增确诊', '新增疑似']]

Unnamed: 0,日期,新增确诊,新增疑似
0,1.23,259,680
1,1.24,444,1118
2,1.25,688,1309
3,1.26,769,3806
4,1.27,1771,2077
5,1.28,1459,3248
6,1.29,1737,4148
7,1.3,1982,4812
8,1.31,2102,5019
9,2.01,2590,4562


+ 从1月29日开始到2月11日每天的新增疑似病例都在3000以上
+ 而新冠病毒的隔离观察期是两周
+ 因此，在这两周内甚至更往前几天，这些疑似病例大部分都是感染者，最终检测阳性，成为新增确诊
+ 不过随后新增疑似病例就开始减少了

In [25]:
# 分析新增治愈和新增死亡随时间的变化
china_dayadd_data.loc[:, ['日期', '新增死亡', '新增治愈']]

Unnamed: 0,日期,新增死亡,新增治愈
0,1.23,8,6
1,1.24,16,3
2,1.25,15,11
3,1.26,24,2
4,1.27,26,9
5,1.28,26,43
6,1.29,38,21
7,1.3,43,47
8,1.31,46,72
9,2.01,45,85


+ 可以看到在2月12日那几天，新增死亡都在一百左右
+ 但是过了那几天，新增死亡人数逐渐下降，新增治愈人数逐渐上升

In [13]:
# 查看分析历史每日新增数据（湖北、全国和非湖北）
china_dayadd_data2 = pd.read_csv(filepath_cn+"历史每日新增数据（湖北、全国、和非湖北）.csv")
china_dayadd_data2

Unnamed: 0,date,hubei,country,notHubei
0,1.2,72,77,5
1,1.21,105,149,44
2,1.22,69,131,62
3,1.23,105,259,154
4,1.24,180,444,264
5,1.25,323,688,365
6,1.26,371,769,398
7,1.27,1291,1771,480
8,1.28,840,1459,619
9,1.29,1032,1737,705


分析很容易看出，湖北是此次疫情的爆发地，趋势跟上边分析的趋势差不多，但是在进入六七月以后，非湖北的每日新增人数要多于湖北。
通过新闻得知湖北已经开放了，不咋如疫情期间似的管理那么严，这是胜利的曙光。

# 外国数据分析及处理

## 分析全球历史每日数据

In [14]:
foreign_day_data = pd.read_csv(filepath_fg+"全球历史每日数据.csv") # 都是累计的数据
# 列名中文化
foreign_day_data.columns = ['日期', '累计确诊', '累计死亡', '累计治愈', '新增确诊', '死亡率', '治愈率']
foreign_day_data

Unnamed: 0,日期,累计确诊,累计死亡,累计治愈,新增确诊,死亡率,治愈率
0,1.28,57,0,3,0,0.0,5.26
1,1.29,74,0,3,13,0.0,4.05
2,1.3,98,0,6,22,0.0,6.12
3,1.31,124,0,11,20,0.0,8.87
4,2.01,139,0,11,13,0.0,7.91
5,2.02,149,1,11,10,0.67,7.38
6,2.03,154,1,12,5,0.65,7.79
7,2.04,177,1,19,22,0.56,10.73
8,2.05,201,1,21,14,0.5,10.45
9,2.06,225,1,25,24,0.44,11.11


+ 单独看日期和确诊，可以发现，在我国2月份的疫情爆发期，外国整体的数据都还趋于平稳
+ 但是进入三月份后外国的确诊病例就在突飞猛进
+ 短短三周不到，确诊病例就突破10万，接着不到一个星期就破20万
+ 随后确诊人数越来越多，到4月4日突破100万，5月21日突破500万，6月28日突破1000万
+ 到代码敲好的7月21日，已经外国累计1482多万人确诊

In [15]:
# 国外新增确诊和国内新增确诊随时间变化的对比
fg_tmp = foreign_day_data.loc[:, ['日期', '新增确诊']]
fg_tmp['新增确诊（国内）'] = china_dayadd_data['新增确诊']
fg_tmp

Unnamed: 0,日期,新增确诊,新增确诊（国内）
0,1.28,0,259
1,1.29,13,444
2,1.3,22,688
3,1.31,20,769
4,2.01,13,1771
5,2.02,10,1459
6,2.03,5,1737
7,2.04,22,1982
8,2.05,14,2102
9,2.06,24,2590


+ 同样在二月份国内的新增确诊是最多的，但是国外是平缓的状态
+ 而进入三月份后，外国新增确诊开始越来越多，而国内开始逐渐减少
+ 但是当我国控制住疫情传播后，却没有完全控制住境外输入
+ 因此在这几个月仍然每天都有十几例几十例新增确诊
+ 然而外国每日新增确诊仍没有下降的趋势，仍处于一个高水平的状态
+ 可推测外国疫情仍会继续蔓延下去，短时间内不会好转

## 分析外国疫情数据（按国家或大洲查看）

In [16]:
foreign_data = pd.read_csv(filepath_fg+"外国疫情数据（按国家或大洲查看）.csv", encoding='GBK') # 都是累计的数据
# 去除不要的列，并且列名中文化
foreign_data = foreign_data.iloc[:, :11] # 后面的较前一日比较的数据就不用看了
del foreign_data['isUpdated']
del foreign_data['suspect']
del foreign_data['confirmAddCut']
foreign_data.columns=['国家', '大洲', '日期', '新增确诊', '累计确诊', '累计死亡', '累计治愈', '现有确诊']
foreign_data

Unnamed: 0,国家,大洲,日期,新增确诊,累计确诊,累计死亡,累计治愈,现有确诊
0,美国,北美洲,7.22,67140,4028569,144953,1886583,1997033
1,巴西,南美洲,7.22,41008,2159654,81487,1563382,514785
2,印度,亚洲,7.22,37724,1193078,28732,753050,411296
3,俄罗斯,欧洲,7.22,5806,787846,12722,570984,204140
4,南非,非洲,7.22,8170,381798,5368,208144,168286
5,秘鲁,南美洲,7.22,8497,362087,13579,248746,99762
6,墨西哥,北美洲,7.22,6859,356255,40400,267407,48448
7,智利,南美洲,7.22,3753,334683,8677,306816,19190
8,西班牙,欧洲,7.22,1358,313274,28424,196958,87892
9,英国,欧洲,7.22,0,297389,45507,1414,250468


In [17]:
foreign_data.sort_values(by=['累计确诊'], ascending = False) # 按累计确诊降序排列分析数据

Unnamed: 0,国家,大洲,日期,新增确诊,累计确诊,累计死亡,累计治愈,现有确诊
0,美国,北美洲,7.22,67140,4028569,144953,1886583,1997033
1,巴西,南美洲,7.22,41008,2159654,81487,1563382,514785
2,印度,亚洲,7.22,37724,1193078,28732,753050,411296
3,俄罗斯,欧洲,7.22,5806,787846,12722,570984,204140
4,南非,非洲,7.22,8170,381798,5368,208144,168286
5,秘鲁,南美洲,7.22,8497,362087,13579,248746,99762
6,墨西哥,北美洲,7.22,6859,356255,40400,267407,48448
7,智利,南美洲,7.22,3753,334683,8677,306816,19190
8,西班牙,欧洲,7.22,1358,313274,28424,196958,87892
9,英国,欧洲,7.22,0,297389,45507,1414,250468


+ 很明显的看出，排名第一二的美国和巴西累计确诊远超其他国家每日新增的病例也是很多
+ 这里有个很明显的点，就是印度和俄罗斯还有一些其他，新增确诊病例为0，但这不符合实际情况
+ 应该是在爬取数据的时间点，这些国家的统计数据还没发布出来
+ 所以就存在有的国家明显还是会有新增确诊病例，但是却为0

In [18]:
foreign_data.sort_values(by=['现有确诊'], ascending = False) # 按现有确诊降序排列分析数据

Unnamed: 0,国家,大洲,日期,新增确诊,累计确诊,累计死亡,累计治愈,现有确诊
0,美国,北美洲,7.22,67140,4028569,144953,1886583,1997033
1,巴西,南美洲,7.22,41008,2159654,81487,1563382,514785
2,印度,亚洲,7.22,37724,1193078,28732,753050,411296
9,英国,欧洲,7.22,0,297389,45507,1414,250468
3,俄罗斯,欧洲,7.22,5806,787846,12722,570984,204140
4,南非,非洲,7.22,8170,381798,5368,208144,168286
17,哥伦比亚,南美洲,7.22,7033,211038,7166,98840,105032
15,法国,欧洲,7.22,584,214607,30168,79861,104578
5,秘鲁,南美洲,7.22,8497,362087,13579,248746,99762
16,孟加拉,亚洲,7.22,2744,213254,2751,117202,93301


可以发现欧洲和美洲的现有确诊病例很多，尤其是美国、巴西、英国、法国、俄罗斯这些欧洲和美洲的主要国家

In [19]:
# 统计各大洲的数据  先分组再合并
foreign_data.pop('日期') # 日期不重要，就去掉先
foreign_data_groupby = foreign_data.groupby(by='大洲')
foreign_data_agg = foreign_data_groupby.agg(np.sum)
foreign_data_agg

Unnamed: 0_level_0,新增确诊,累计确诊,累计死亡,累计治愈,现有确诊
大洲,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
亚洲,58485,3456983,78475,2446230,932278
其他,0,712,13,651,48
北美洲,78215,4723038,199752,2360414,2162872
南美洲,69193,3361311,121266,2339484,900561
大洋洲,476,14505,151,10185,4169
欧洲,12785,2749770,199956,1599299,950515
非洲,13702,748518,15693,408604,324221


+ 从累计确诊病例来看，其实亚洲、南美洲和欧洲三者比较接近
+ 但是北美洲就较多了100多万确诊，这确诊人数更多的都是在美国
+ 其他地区是指海上的轮船和军舰

In [20]:
# 分析外国人数与确诊人数的关系
million_confirm = pd.read_csv(filepath_fg+"外国人口与确诊数.csv", encoding='GBK')
million_confirm

Unnamed: 0,nation,confirm,population,rate
0,卡塔尔,104533,2781677,37579
1,巴林,34078,1569439,21713
2,智利,319493,18729160,17059
3,科威特,56174,4137309,13577
4,阿曼,59568,4829483,12334
5,巴拿马,48096,4176873,11515
6,亚美尼亚,32490,2951776,11007
7,美国,3545077,327167434,10836
8,秘鲁,333867,31989256,10437
9,巴西,1926824,209469333,9199


+ 最后的rate表示的是 外国每百万人的确诊人数
+ 可以看到卡塔尔每百万人就有将近4万人确诊，差不多等于每100人中就有4个人确诊
+ 看似概率小，但其实如果不控制住疫情，这个概率会翻倍的往上升

## 分析美国历史每日数据

In [21]:
# 查看美国每日数据
usa_day_data = pd.read_csv(filepath_fg+"/部分国家历史每日数据/美国.csv")
# 列名中文化
usa_day_data.columns = ['日期', '新增确诊', '累计确诊', '累计治愈', '累计死亡']
usa_day_data

Unnamed: 0,日期,新增确诊,累计确诊,累计治愈,累计死亡
0,1.28,0,5,0,0
1,1.29,0,5,0,0
2,1.3,1,6,0,0
3,1.31,0,6,0,0
4,2.01,1,7,0,0
5,2.02,1,8,0,0
6,2.03,3,11,1,0
7,2.04,0,11,1,0
8,2.05,0,11,1,0
9,2.06,1,12,1,0


+ 可以发现在1月和2月，美国只累计确诊不到一百例
+ 但是从三月开始，确诊病例逐渐增多，不到一个月就超过我国7个总共累计确诊病例数
+ 而且每日新增病例在三月底就是过万了，趋势仍在不断上升
+ 一直到7月份，美国的每日新增确诊病例已到达了6万5千多人
+ 照这个趋势下去，再过不久，美国的每日新增病例就能达到我国累计确诊病例数了
+ 这数据很好的彰显了美国抗疫的失败，我国一个月就能控制的住，他们五六个月都搞不定

## 分析美国具体行政区数据

In [22]:
# 查看美国具体行政区数据
usa_region_data = pd.read_csv(filepath_fg+"/部分国家具体行政区数据/美国-具体行政区数据.csv", encoding='GBK')
# 去除不要的列和列名中文化
del usa_region_data['date'] # 日期也不需要，因为都一样，在可视化时可以直接提出来
del usa_region_data['isUpdated']
del usa_region_data['confirmAdd']
del usa_region_data['confirmAddCut']
del usa_region_data['suspect']
usa_region_data.columns = ['地区', '地区英文名', '累计确诊', '累计死亡', '累计治愈']
usa_region_data

Unnamed: 0,地区,地区英文名,累计确诊,累计死亡,累计治愈
0,纽约,New York,413315,32520,58366
1,加利福尼亚,California,409305,7890,108711
2,佛罗里达,Florida,369834,5206,381
3,德克萨斯,Texas,351113,4213,186529
4,新泽西,New Jersey,177256,15826,3973
5,伊利诺伊,Illinois,163689,7324,75880
6,乔治亚,Georgia,148988,3254,340
7,亚利桑那,Arizona,148683,2918,174
8,马萨诸塞,Massachusetts,114033,8450,94347
9,宾夕法尼亚,Pennsylvania,107414,7046,1369


In [23]:
usa_region_data.sort_values(by='累计确诊', ascending = False) # 通过累计确诊纬度分析

Unnamed: 0,地区,地区英文名,累计确诊,累计死亡,累计治愈
0,纽约,New York,413315,32520,58366
1,加利福尼亚,California,409305,7890,108711
2,佛罗里达,Florida,369834,5206,381
3,德克萨斯,Texas,351113,4213,186529
4,新泽西,New Jersey,177256,15826,3973
5,伊利诺伊,Illinois,163689,7324,75880
6,乔治亚,Georgia,148988,3254,340
7,亚利桑那,Arizona,148683,2918,174
8,马萨诸塞,Massachusetts,114033,8450,94347
9,宾夕法尼亚,Pennsylvania,107414,7046,1369


+ 首先可以看到，美国很多地区的累计确诊人数都超过了我国全国的累计确诊人数
+ 其次可以看到一些异常点，佛罗丽达的确诊人数有30万，但是累计治愈才381人，同时他们的死亡人数为5206（截至数据爬取当日）
+ 这就很迷，这可能有大多数确诊病例没有去治疗或者没有统计，毕竟美国政府一直在阻拦抗疫
+ 这与我国就形成了鲜明的对比，我国是尽全力的医治每一个感染者
+ 而美国是，只要不统计就是没有确诊，很美国啊

# 其他的数据分析可通过数据可视化直观看出来