### 综合案例————流感数据及人口数据的数据预处理

任务要求

* 读取2004-2016年的流感数据，并拼接成一个数据集。

* 读取人口数据，按年份和地区对流感数据填充人口数。

In [1]:
# 加载数据分析相关包
import numpy as np
import pandas as pd
import os
import re

#### 一、流感数据的读取与清洗

1、读取2014年流感数据

In [2]:
data_2004 = pd.read_csv('D:/AI/上课代码/Day49/data/flu/year/2004.csv'
                       ,encoding="gbk")
data_2004.head()

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5
0,,,流行性感冒,,,
1,,地区,发病数,死亡数,发病率,死亡率
2,,全国,49496,15,3.8077,0.0012
3,,北京市,8,0,0.0540,
4,,天津市,13,0,0.1399,


In [3]:
data_2004.tail() # 查看后5行

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5
30,,甘肃省,978.0,0.0,3.7416,
31,,青海省,230.0,1.0,4.2627,0.0185
32,,宁夏,193.0,0.0,3.3051,
33,,新疆,95.0,0.0,0.5106,
34,2018年9月10日 下午9:09,,,,,


2、对2004年的数据进行预处理

In [4]:
data_2004.drop('Unnamed: 0', axis=1, inplace=True) # 删除第一行
# data_2004.iloc[1] # 获取第一行作为真实列名
data_2004.rename(columns=data_2004.iloc[1],inplace=True)
data_2004.drop([0, 1, len(data_2004)-1], axis=0, inplace=True)

In [5]:
data_2004.head()

Unnamed: 0,地区,发病数,死亡数,发病率,死亡率
2,全国,49496,15,3.8077,0.0012
3,北京市,8,0,0.054,
4,天津市,13,0,0.1399,
5,河北省,1923,0,2.8283,
6,山西省,57,0,0.172,


In [6]:
# 重置行索引
data_2004.reset_index(inplace=True,drop=True)
data_2004.head()

Unnamed: 0,地区,发病数,死亡数,发病率,死亡率
0,全国,49496,15,3.8077,0.0012
1,北京市,8,0,0.054,
2,天津市,13,0,0.1399,
3,河北省,1923,0,2.8283,
4,山西省,57,0,0.172,


In [7]:
# 增加”年份”一列
data_2004['年份'] = 2004

In [8]:
data_2004.head()

Unnamed: 0,地区,发病数,死亡数,发病率,死亡率,年份
0,全国,49496,15,3.8077,0.0012,2004
1,北京市,8,0,0.054,,2004
2,天津市,13,0,0.1399,,2004
3,河北省,1923,0,2.8283,,2004
4,山西省,57,0,0.172,,2004


In [9]:
# 使用0对缺失值进行填充
data_2004.fillna(0,inplace=True)
data_2004.head()

Unnamed: 0,地区,发病数,死亡数,发病率,死亡率,年份
0,全国,49496,15,3.8077,0.0012,2004
1,北京市,8,0,0.054,0.0,2004
2,天津市,13,0,0.1399,0.0,2004
3,河北省,1923,0,2.8283,0.0,2004
4,山西省,57,0,0.172,0.0,2004


3、批量读取流感数据

In [10]:
file_path = 'D:/AI/上课代码/Day49/Data/flu/year/' # 定义流感数据文件的所在路径
file_name = os.listdir(file_path) # 获取所有的流感数据的文件名
file_name.remove('2004.csv') # 删除已经获取的2004年的流感数据

In [11]:
def pretreatment(df, year):
    """
    作用：对流感数据进行预处理
    :param:df 数据集
    :param:year 年份
    :return:df 预处理之后的数据集
    """
    df.drop('Unnamed: 0', axis=1, inplace=True)      # 删除第一行
    df.rename(columns=df.iloc[1],inplace=True)       # 选取第一行作为真实列名
    df.drop([0, 1, len(df)-1], axis=0, inplace=True) # 删除前两行和后一行
    df.fillna(0, inplace=True)                       # 使用0对缺失值进行补充
    df.reset_index(inplace=True,drop=True)           # 重置行索引
    df['年份'] = year                                 # 重塑年份变量
    return df

def read_year(file_name, file_path):
    """
    作用：批量读取并拼接流感数据
    """
    file_data = []
    for i in range(len(file_name)):
        df = pd.read_csv(file_path + file_name[i], encoding='gbk')
        year = 2005 + i
        pretreatment(df, year)  # 对当前的流感数据文件进行预处理
        file_data.append(df)
        other_data = pd.concat(file_data)
    return other_data

In [12]:
other_data = read_year(file_name, file_path)
other_data

Unnamed: 0,地区,发病数,死亡数,发病率,死亡率,年份
0,全 国,45672,5,3.5136,0.0004,2005
1,北京市,120,0,0.7811,0,2005
2,天津市,377,1,3.6197,0.0096,2005
3,河北省,3916,0,5.7508,0,2005
4,山西省,79,0,0.2369,0,2005
...,...,...,...,...,...,...
28,甘肃省,8479,8,32.7276,0.0309,2016
29,青海省,767,0,13.1466,0,2016
30,宁 夏,1434,1,21.6767,0.0151,2016
31,新疆,2445,2,10.6375,0.0087,2016


In [28]:
flu_data = pd.concat([data_2004, other_data])

In [29]:
flu_data.head()

Unnamed: 0,地区,发病数,死亡数,发病率,死亡率,年份
0,全国,49496,15,3.8077,0.0012,2004
1,北京市,8,0,0.054,0.0,2004
2,天津市,13,0,0.1399,0.0,2004
3,河北省,1923,0,2.8283,0.0,2004
4,山西省,57,0,0.172,0.0,2004


#### 二、人口数据的清洗与重塑

In [13]:
people_data = pd.read_excel('D:/AI/上课代码/Day49/Data/flu/people.xls')

In [14]:
people_data.head()

Unnamed: 0,数据库：分省年度数据,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15,Unnamed: 16,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20
0,指标：年末常住人口(万人),,,,,,,,,,...,,,,,,,,,,
1,时间：最近20年,,,,,,,,,,...,,,,,,,,,,
2,地区,2016年,2015年,2014年,2013年,2012年,2011年,2010年,2009年,2008年,...,2006年,2005年,2004年,2003年,2002年,2001年,2000年,1999年,1998年,1997年
3,北京市,2173,2171,2152,2115,2069,2019,1962,1860,1771,...,1601,1538,1493,1456,1423,1385,1364,,,
4,天津市,1562,1547,1517,1472,1413,1355,1299,1228,1176,...,1075,1043,1024,1011,1007,1004,1001,,,


In [15]:
people_data.tail()

Unnamed: 0,数据库：分省年度数据,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15,Unnamed: 16,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20
31,青海省,593.0,588.0,583.0,578.0,573.0,568.0,563.0,557.0,554.0,...,548.0,543.0,539.0,534.0,529.0,523.0,517.0,,,
32,宁夏回族自治区,675.0,668.0,662.0,654.0,647.0,639.0,633.0,625.0,618.0,...,604.0,596.0,588.0,580.0,572.0,563.0,554.0,,,
33,新疆维吾尔自治区,2398.0,2360.0,2298.0,2264.0,2233.0,2209.0,2185.0,2159.0,2131.0,...,2050.0,2010.0,1963.0,1934.0,1905.0,1876.0,1849.0,,,
34,注：2000、2001年人口为当年人口普查推算数，其余年份人口为年度人口抽样调查推算数据，2...,,,,,,,,,,...,,,,,,,,,,
35,数据来源：国家统计局,,,,,,,,,,...,,,,,,,,,,


In [16]:
# 数据清洗
people_data.columns = people_data.iloc[2]
people_data.drop([0, 1, 2, len(people_data)-1, len(people_data)-2], axis=0, inplace=True)
people_data.reset_index(inplace=True,drop=True)

In [17]:
people_data.head()

2,地区,2016年,2015年,2014年,2013年,2012年,2011年,2010年,2009年,2008年,...,2006年,2005年,2004年,2003年,2002年,2001年,2000年,1999年,1998年,1997年
0,北京市,2173,2171,2152,2115,2069,2019,1962,1860,1771,...,1601,1538,1493,1456,1423,1385,1364,,,
1,天津市,1562,1547,1517,1472,1413,1355,1299,1228,1176,...,1075,1043,1024,1011,1007,1004,1001,,,
2,河北省,7470,7425,7384,7333,7288,7241,7194,7034,6989,...,6898,6851,6809,6769,6735,6699,6674,,,
3,山西省,3682,3664,3648,3630,3611,3593,3574,3427,3411,...,3375,3355,3335,3314,3294,3272,3247,,,
4,内蒙古自治区,2520,2511,2505,2498,2490,2482,2472,2458,2444,...,2415,2403,2393,2386,2384,2381,2372,,,


In [18]:
# 统一地区名称
people_data.loc[people_data['地区']=='内蒙古自治区','地区' ]= '内蒙古'
people_data.loc[people_data['地区']=='广西壮族自治区','地区'] = '广西'
people_data.loc[people_data['地区']=='西藏自治区','地区']= '西藏'
people_data.loc[people_data['地区']=='宁夏回族古自治区','地区' ]= '宁夏'
people_data.loc[people_data['地区']=='新疆维吾尔自治区', '地区']= '新疆'

In [19]:
people_data.head()

2,地区,2016年,2015年,2014年,2013年,2012年,2011年,2010年,2009年,2008年,...,2006年,2005年,2004年,2003年,2002年,2001年,2000年,1999年,1998年,1997年
0,北京市,2173,2171,2152,2115,2069,2019,1962,1860,1771,...,1601,1538,1493,1456,1423,1385,1364,,,
1,天津市,1562,1547,1517,1472,1413,1355,1299,1228,1176,...,1075,1043,1024,1011,1007,1004,1001,,,
2,河北省,7470,7425,7384,7333,7288,7241,7194,7034,6989,...,6898,6851,6809,6769,6735,6699,6674,,,
3,山西省,3682,3664,3648,3630,3611,3593,3574,3427,3411,...,3375,3355,3335,3314,3294,3272,3247,,,
4,内蒙古,2520,2511,2505,2498,2490,2482,2472,2458,2444,...,2415,2403,2393,2386,2384,2381,2372,,,


In [20]:
 # 将宽数据转换成长数据（地区、年份、总人数）
 # pivot()函数：将长数据转换成宽数据，melt（）函数：将宽数据转换成长数据。
 people_name = list(people_data.columns)  # 获取列名
 people_name.remove('地区') # 删除地区
 people_name

['2016年',
 '2015年',
 '2014年',
 '2013年',
 '2012年',
 '2011年',
 '2010年',
 '2009年',
 '2008年',
 '2007年',
 '2006年',
 '2005年',
 '2004年',
 '2003年',
 '2002年',
 '2001年',
 '2000年',
 '1999年',
 '1998年',
 '1997年']

In [21]:
 # 通过melt函数重塑数据
 new_people_data = pd.melt(people_data,
                           id_vars = ['地区'],
                           value_vars = people_name,
                           var_name = '年份',
                           value_name = '总人口数')
 new_people_data

Unnamed: 0,地区,年份,总人口数
0,北京市,2016年,2173
1,天津市,2016年,1562
2,河北省,2016年,7470
3,山西省,2016年,3682
4,内蒙古,2016年,2520
...,...,...,...
615,陕西省,1997年,
616,甘肃省,1997年,
617,青海省,1997年,
618,宁夏回族自治区,1997年,


In [22]:
 # 去除年份中的'年'字
 new_people_data['年份'] = new_people_data['年份'].apply(lambda x: re.findall("\d+", x)[0])
 new_people_data.head()

Unnamed: 0,地区,年份,总人口数
0,北京市,2016,2173
1,天津市,2016,1562
2,河北省,2016,7470
3,山西省,2016,3682
4,内蒙古,2016,2520


In [24]:
 # 将年份转换成int类型
 new_people_data['年份']= new_people_data['年份'].astype('int')

#### 三、流感数据与人口数据的合并

In [30]:
 result = pd.merge(flu_data, new_people_data, on=['地区','年份'])

In [31]:
 result

Unnamed: 0,地区,发病数,死亡数,发病率,死亡率,年份,总人口数
0,北京市,8,0,0.0540,0,2004,1493
1,天津市,13,0,0.1399,0,2004,1024
2,河北省,1923,0,2.8283,0,2004,6809
3,山西省,57,0,0.1720,0,2004,3335
4,内蒙古,106,0,0.4446,0,2004,2393
...,...,...,...,...,...,...,...
357,云南省,2656,0,5.6344,0,2016,4771
358,陕西省,5975,0,15.8273,0,2016,3813
359,甘肃省,8479,8,32.7276,0.0309,2016,2610
360,青海省,767,0,13.1466,0,2016,593


In [32]:
 # 将数值类的类型进行转换
 change_list = ['发病数','死亡数','发病率','死亡率','总人口数']
 result[change_list] = result[change_list].apply(pd.to_numeric)

In [33]:
 result.head()

Unnamed: 0,地区,发病数,死亡数,发病率,死亡率,年份,总人口数
0,北京市,8,0,0.054,0.0,2004,1493
1,天津市,13,0,0.1399,0.0,2004,1024
2,河北省,1923,0,2.8283,0.0,2004,6809
3,山西省,57,0,0.172,0.0,2004,3335
4,内蒙古,106,0,0.4446,0.0,2004,2393


In [34]:
 result

Unnamed: 0,地区,发病数,死亡数,发病率,死亡率,年份,总人口数
0,北京市,8,0,0.0540,0.0000,2004,1493
1,天津市,13,0,0.1399,0.0000,2004,1024
2,河北省,1923,0,2.8283,0.0000,2004,6809
3,山西省,57,0,0.1720,0.0000,2004,3335
4,内蒙古,106,0,0.4446,0.0000,2004,2393
...,...,...,...,...,...,...,...
357,云南省,2656,0,5.6344,0.0000,2016,4771
358,陕西省,5975,0,15.8273,0.0000,2016,3813
359,甘肃省,8479,8,32.7276,0.0309,2016,2610
360,青海省,767,0,13.1466,0.0000,2016,593


In [35]:
  flu_data.to_csv('./flu_data.csv', encoding="gbk")

In [36]:
  result.to_csv('./result.csv', encoding="gbk")