# 数据预处理

## 删除含有缺失值的行

`df.dropna()`语句直接把含有缺失值的行全部删除  

`df.dropna(how='all')`传入一个参数how='all'，则只删除全为空值的行，不全为空值的行就不会被删除

In [2]:
import pandas as pd

df = pd.read_excel('./datapool/期末考试安排（商学院）.xlsx')
df.dropna()

Unnamed: 0,商学院2020-2021-2学期期末考试安排表(提前）,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5
0,考试时间,课程,班级,人数,考试试室,监考员1
1,5月10日晚上7:30-9:30,宏观经济学,18酒店,34,4-301,王亚新


## 对缺失值进行填充

在括号里面填写缺失值，会对所有的缺失空进行填充  
也可以按不同列进行填充，只需传入一个字典**dict**,字典包含相应的键跟值，键代表填充的列，值代表填充的值

In [3]:
df.fillna(0)

Unnamed: 0,商学院2020-2021-2学期期末考试安排表(提前）,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5
0,考试时间,课程,班级,人数,考试试室,监考员1
1,5月10日晚上7:30-9:30,宏观经济学,18酒店,34,4-301,王亚新
2,0,0,18物流,26,0,0
3,0,0,18工商,35,4-302,黄飞


In [4]:
df.fillna({'商学院2020-2021-2学期期末考试安排表(提前）':'5月10日晚上7:30-9:30'})

Unnamed: 0,商学院2020-2021-2学期期末考试安排表(提前）,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5
0,考试时间,课程,班级,人数,考试试室,监考员1
1,5月10日晚上7:30-9:30,宏观经济学,18酒店,34,4-301,王亚新
2,5月10日晚上7:30-9:30,,18物流,26,,
3,5月10日晚上7:30-9:30,,18工商,35,4-302,黄飞


## 重复值处理

1. drop_duplicates()该方法对所有值进行重复值判断，且默认保留第一个值  
`df.drop_duplicates()`   
2. 当只有一列重复时，也可去重复行，只需指定重复的列  
`df.drop_duplicates(subset='第一剂时间')`  
3. 也可指定当两列去重  
`df.drop_duplicates(subset=['性别','第一剂时间'])`  

可以通过指定keep参数，选择保留项  
1. 默认值是first，即保留第一个值  
`df.drop_duplicates(keep='first')`   
2. 也可指定为last,即保留最后一个  
`df.drop_duplicates(keep='last')`  
3. 也可不保留任何重复值  
`df.drop_duplicates(keep=False)`

In [6]:
df = pd.read_excel('./datapool/岭南师范学院第二针.xls')
df.drop_duplicates(subset=['第一剂时间','性别'],keep='last')

Unnamed: 0,序号,地市,县区,接种单位,姓名,性别,出生日期,工作单位,人群分类,第一剂时间,第一剂厂家,第二剂时间,第二剂厂家
83,84,湛江市,赤坎区,湛江中心人民医院岭师流动点,胡文静,男,2002-11-03,岭南师范学院,高等教育院校学生,2021-03-29,北京生物,,
84,85,湛江市,赤坎区,湛江中心人民医院岭师流动点,徐诗怡,女,2000-08-13,岭南师范学院,高等教育院校学生,2021-03-29,北京生物,,
151,152,湛江市,赤坎区,湛江中心人民医院岭师流动点,丁雨婷,女,2001-08-05,湛江师范学校,高等教育院校学生,2021-04-01,北京科兴中维,,
153,154,湛江市,赤坎区,湛江中心人民医院岭师流动点,葛在波,男,1973-12-27,岭南师范学院,教育工作者,2021-04-01,北京科兴中维,,
259,260,湛江市,赤坎区,湛江中心人民医院岭师流动点,方逸夫,男,2002-08-29,岭南师范学院,高等教育院校学生,2021-04-02,北京科兴中维,,
260,261,湛江市,赤坎区,湛江中心人民医院岭师流动点,蔡思琦,女,2001-11-18,岭南师范学院,高等教育院校学生,2021-04-02,北京科兴中维,,


## 利用dtype查看数据类型

In [7]:
df['第一剂时间'].dtype

dtype('O')

## 数据格式转换
数据类型：  
int:整型数
float:浮点数  
object:Python数据类型，用O表示  
string_:字符串类型，经常用S表示  
unicode_：固定长度的unicode类型  
datetime64[ns]:表示时间格式  

In [12]:
df['第一剂时间'] = df['第一剂时间'].astype('datetime64[ns]')

In [21]:
from datetime import datetime
df[df['第一剂时间'] < datetime(2021, 4, 1)]

Unnamed: 0,序号,地市,县区,接种单位,姓名,性别,出生日期,工作单位,人群分类,第一剂时间,第一剂厂家,第二剂时间,第二剂厂家
0,1,湛江市,赤坎区,湛江中心人民医院岭师流动点,李吉那,女,1997-05-03,岭南师范学院,高等教育院校学生,2021-03-29,北京生物,,
1,2,湛江市,赤坎区,湛江中心人民医院岭师流动点,曹熹,女,2001-06-07,岭南师范学院,高等教育院校学生,2021-03-29,北京生物,,
2,3,湛江市,赤坎区,湛江中心人民医院岭师流动点,苏国昊,男,1998-03-13,岭南师范学院,高等教育院校学生,2021-03-29,北京生物,,
3,4,湛江市,赤坎区,湛江中心人民医院岭师流动点,柯宝怡,女,2001-08-09,岭南师范学院,高等教育院校学生,2021-03-29,北京生物,,
4,5,湛江市,赤坎区,湛江中心人民医院岭师流动点,陈心妍,女,2002-05-28,岭南师范学院,高等教育院校学生,2021-03-29,北京生物,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
80,81,湛江市,赤坎区,湛江中心人民医院岭师流动点,陈立根,男,2002-08-29,岭南师范学院,高等教育院校学生,2021-03-29,北京生物,,
81,82,湛江市,赤坎区,湛江中心人民医院岭师流动点,高泳诗,女,2000-10-12,岭南师范学院,高等教育院校学生,2021-03-29,北京生物,,
82,83,湛江市,赤坎区,湛江中心人民医院岭师流动点,李翠碧,女,1998-03-15,岭南师范学院,高等教育院校学生,2021-03-29,北京生物,,
83,84,湛江市,赤坎区,湛江中心人民医院岭师流动点,胡文静,男,2002-11-03,岭南师范学院,高等教育院校学生,2021-03-29,北京生物,,


## 可以用columns参数传入索引值
`df.columns = [1,2,3,4,5]`  

## 可以用index参数传入行索引
`df.index = [1,2,3,4,5]`

## 重新设置索引值

In [29]:
df = pd.read_excel('./datapool/岭南师范学院第二针.xls')
df.set_index('序号').head()

Unnamed: 0_level_0,地市,县区,接种单位,姓名,性别,出生日期,工作单位,人群分类,第一剂时间,第一剂厂家,第二剂时间,第二剂厂家
序号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,湛江市,赤坎区,湛江中心人民医院岭师流动点,李吉那,女,1997-05-03,岭南师范学院,高等教育院校学生,2021-03-29,北京生物,,
2,湛江市,赤坎区,湛江中心人民医院岭师流动点,曹熹,女,2001-06-07,岭南师范学院,高等教育院校学生,2021-03-29,北京生物,,
3,湛江市,赤坎区,湛江中心人民医院岭师流动点,苏国昊,男,1998-03-13,岭南师范学院,高等教育院校学生,2021-03-29,北京生物,,
4,湛江市,赤坎区,湛江中心人民医院岭师流动点,柯宝怡,女,2001-08-09,岭南师范学院,高等教育院校学生,2021-03-29,北京生物,,
5,湛江市,赤坎区,湛江中心人民医院岭师流动点,陈心妍,女,2002-05-28,岭南师范学院,高等教育院校学生,2021-03-29,北京生物,,


## 层次化索引
可以给set_index()传入两个或多个列命，一个表用多个列做为索引的方式叫做**层次化索引**

`df = pd.read_excel(r'./datapool/期末考试安排（商学院）.xlsx',sheet_name = 1,index_col=[0,1,4],header = 1,usecols=[0,1,2,3,4])`

In [27]:
df = pd.read_excel(r'./datapool/期末考试安排（商学院）.xlsx',sheet_name = 1,index_col=[0,1,4],header = 1,usecols=[0,1,2,3,4])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,班级,人数
考试时间,课程,考试试室,Unnamed: 3_level_1,Unnamed: 4_level_1
十八周星期一（6月28日）上午8:30-10:30,大学英语II,4-302,20电商1,28
十八周星期一（6月28日）上午8:30-10:30,大学英语II,4-302,20电商2,32
十八周星期一（6月28日）上午8:30-10:30,大学英语II,4-705,20国贸1,36
十八周星期一（6月28日）上午8:30-10:30,大学英语II,4-705,20国贸2,38
十八周星期一（6月28日）上午8:30-10:30,大学英语II,4-303,20国贸3,35
十八周星期一（6月28日）上午8:30-10:30,大学英语II,4-311,20财管1,46
十八周星期一（6月28日）上午8:30-10:30,大学英语II,4-401,20财管2,40
十八周星期一（6月28日）上午8:30-10:30,大学英语II,4-312,20财管3,39
十八周星期一（6月28日）上午8:30-10:30,大学英语II,4-706,20工商1,44
十八周星期一（6月28日）上午8:30-10:30,大学英语II,4-706,20工商2,44


## 重命名索引
```python
df.rename(columns = {'接种单位':'新接种单位','性别':'sex'},index = {1:'一', 2:'二'})
```
通过rename方法，向rename里面的columns传入参数，参数为一个字典，键跟值，键为原本的列表命，值为新的列表命     
也可以通过index参数修改列索引，方法跟columns一样

In [26]:
df3 = df.rename(columns = {'接种单位':'新接种单位','性别':'sex'},index = {1:'一', 2:'二'})
df3

Unnamed: 0,序号,地市,县区,新接种单位,姓名,sex,出生日期,工作单位,人群分类,第一剂时间,第一剂厂家,第二剂时间,第二剂厂家
0,1,湛江市,赤坎区,湛江中心人民医院岭师流动点,李吉那,女,1997-05-03,岭南师范学院,高等教育院校学生,2021-03-29,北京生物,,
一,2,湛江市,赤坎区,湛江中心人民医院岭师流动点,曹熹,女,2001-06-07,岭南师范学院,高等教育院校学生,2021-03-29,北京生物,,
二,3,湛江市,赤坎区,湛江中心人民医院岭师流动点,苏国昊,男,1998-03-13,岭南师范学院,高等教育院校学生,2021-03-29,北京生物,,
3,4,湛江市,赤坎区,湛江中心人民医院岭师流动点,柯宝怡,女,2001-08-09,岭南师范学院,高等教育院校学生,2021-03-29,北京生物,,
4,5,湛江市,赤坎区,湛江中心人民医院岭师流动点,陈心妍,女,2002-05-28,岭南师范学院,高等教育院校学生,2021-03-29,北京生物,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
256,257,湛江市,赤坎区,湛江中心人民医院岭师流动点,巫观萍,女,2001-05-20,岭南师范学院,高等教育院校学生,2021-04-02,北京科兴中维,,
257,258,湛江市,赤坎区,湛江中心人民医院岭师流动点,潘昌龙,男,2000-10-06,岭南师范学院,高等教育院校学生,2021-04-02,北京科兴中维,,
258,259,湛江市,赤坎区,湛江中心人民医院岭师流动点,赖家南,男,2000-03-13,岭南师范学院,高等教育院校学生,2021-04-02,北京科兴中维,,
259,260,湛江市,赤坎区,湛江中心人民医院岭师流动点,方逸夫,男,2002-08-29,岭南师范学院,高等教育院校学生,2021-04-02,北京科兴中维,,


## 重置索引
重置索引主要引用在层次化索引表中，重置索引是将索引列当作一个columns进行返回  
level参数用来指定要层次化索引的第几级传化为columns,第一个索引为0级，第二个索引为1级，默认为全部索引，即默认索引全部转化为columns  
drop参数用来指定是否将原索引删掉，即不作为一个新的columns，默认为False,即不删除原索引  
inplace参数用来指定是否修改原数据表  
`reset_index(level=None,drop=False,inplace=False)`  
reset_index()方法常用于数据分组、数据透视表中  

In [31]:
df = pd.read_excel(r'datapool/期末考试安排（商学院）.xlsx',sheet_name = 1,index_col=[0,1,4],header = 1,usecols=[0,1,2,3,4])
df1 = df.reset_index()
df1['考试时间']

0     十八周星期一（6月28日）上午8:30-10:30
1     十八周星期一（6月28日）上午8:30-10:30
2     十八周星期一（6月28日）上午8:30-10:30
3     十八周星期一（6月28日）上午8:30-10:30
4     十八周星期一（6月28日）上午8:30-10:30
5     十八周星期一（6月28日）上午8:30-10:30
6     十八周星期一（6月28日）上午8:30-10:30
7     十八周星期一（6月28日）上午8:30-10:30
8     十八周星期一（6月28日）上午8:30-10:30
9     十八周星期一（6月28日）上午8:30-10:30
10    十八周星期一（6月28日）上午8:30-10:30
11    十八周星期一（6月28日）上午8:30-10:30
12    十八周星期一（6月28日）上午8:30-10:30
13    十八周星期二（6月29日）上午8:30-10:30
14    十八周星期二（6月29日）上午8:30-10:30
15    十八周星期二（6月29日）上午8:30-10:30
16    十八周星期二（6月29日）上午8:30-10:30
17    十八周星期二（6月29日）上午8:30-10:30
18    十八周星期二（6月29日）上午8:30-10:30
19    十八周星期二（6月29日）上午8:30-10:30
20     十八周星期二（6月29日）下午3:00-5:00
21     十八周星期二（6月29日）下午3:00-5:00
22     十八周星期二（6月29日）下午3:00-5:00
23     十八周星期二（6月29日）下午3:00-5:00
24     十八周星期二（6月29日）下午3:00-5:00
25     十八周星期二（6月29日）下午3:00-5:00
26     十八周星期二（6月29日）下午3:00-5:00
27     十八周星期二（6月29日）下午3:00-5:00
28     十八周星期二（6月29日）下午3:00-5:00
29     十八周星期二（6月29日）下午3:00-5:00
30     十八周星期二（6月29日）下午3:00-5:00
31     十