<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#读取数据" data-toc-modified-id="读取数据-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>读取数据</a></span></li><li><span><a href="#处理缺失值" data-toc-modified-id="处理缺失值-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>处理缺失值</a></span><ul class="toc-item"><li><span><a href="#什么是缺失值" data-toc-modified-id="什么是缺失值-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>什么是缺失值</a></span></li><li><span><a href="#寻找空值数据" data-toc-modified-id="寻找空值数据-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>寻找空值数据</a></span></li><li><span><a href="#掩码提取空值" data-toc-modified-id="掩码提取空值-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>掩码提取空值</a></span></li><li><span><a href="#丢弃缺失值" data-toc-modified-id="丢弃缺失值-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span>丢弃缺失值</a></span></li></ul></li><li><span><a href="#填充缺失值" data-toc-modified-id="填充缺失值-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>填充缺失值</a></span><ul class="toc-item"><li><span><a href="#固定值填充" data-toc-modified-id="固定值填充-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>固定值填充</a></span></li><li><span><a href="#上下文填充" data-toc-modified-id="上下文填充-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>上下文填充</a></span></li><li><span><a href="#替换缺失值" data-toc-modified-id="替换缺失值-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>替换缺失值</a></span></li><li><span><a href="#使用其他对象填充" data-toc-modified-id="使用其他对象填充-3.4"><span class="toc-item-num">3.4&nbsp;&nbsp;</span>使用其他对象填充</a></span></li></ul></li></ul></div>

In [1]:
import numpy as np
import pandas as pd

## 读取数据

In [2]:
grade = pd.read_csv('student_grade.txt',sep='\t')
grade

Unnamed: 0,姓名,语文,数学,英语,总分,班名次
0,杨璐,131,143,144,418,1
1,王雪,131,135,144,410,2
2,韩林霖,127,139,142,408,3
3,沙龙逸,123,148,136,407,4
4,李鉴学,126,135,140,401,5
...,...,...,...,...,...,...
63,赵森,90,29,64,183,64
64,满朝升,78,45,47,170,65
65,李忠浩,86,32,46,164,66
66,侯禹志,75,23,34,132,67


## 处理缺失值

### 什么是缺失值

在了解缺失值（也叫控制）如何处理之前，首先要知道的就是什么是缺失值？直观上理解，缺失值表示的是“缺失的数据”。

可以思考一个问题：是什么原因造成的缺失值呢？其实有很多原因，实际生活中可能由于有的数据不全所以导致数据缺失，也有可能由于误操作导致数据缺失，又或者人为地造成数据缺失。

下面我们人为的造成一些数据缺失

In [4]:
grade  = pd.read_csv('student_grade_empty.txt',sep='\t')
grade

Unnamed: 0,姓名,语文,数学,英语,总分,班名次
0,杨璐,131.0,143.0,144.0,418.0,1.0
1,王雪,131.0,135.0,144.0,410.0,2.0
2,韩林霖,127.0,139.0,142.0,408.0,3.0
3,沙龙逸,,148.0,136.0,407.0,4.0
4,李鉴学,,135.0,140.0,401.0,5.0
...,...,...,...,...,...,...
63,赵森,90.0,29.0,64.0,183.0,64.0
64,满朝升,78.0,45.0,47.0,170.0,65.0
65,李忠浩,86.0,32.0,46.0,164.0,66.0
66,侯禹志,75.0,23.0,34.0,132.0,67.0


### 寻找空值数据

这些缺失值，可以使用 isnull() 或 notnull()方法来操作。

In [5]:
grade.isnull()

Unnamed: 0,姓名,语文,数学,英语,总分,班名次
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,True,False,False,False,False
4,False,True,False,False,False,False
...,...,...,...,...,...,...
63,False,False,False,False,False,False
64,False,False,False,False,False,False
65,False,False,False,False,False,False
66,False,False,False,False,False,False


In [6]:
grade.notnull()

Unnamed: 0,姓名,语文,数学,英语,总分,班名次
0,True,True,True,True,True,True
1,True,True,True,True,True,True
2,True,True,True,True,True,True
3,True,False,True,True,True,True
4,True,False,True,True,True,True
...,...,...,...,...,...,...
63,True,True,True,True,True,True
64,True,True,True,True,True,True
65,True,True,True,True,True,True
66,True,True,True,True,True,True


### 掩码提取空值

In [8]:
# 提取出有空值的行
grade[grade.数学.isnull()]

Unnamed: 0,姓名,语文,数学,英语,总分,班名次
9,林世博,,,,387.0,10.0
41,张俊奎,103.0,,,317.0,42.0


In [9]:
# 反过来提取非空行
grade[grade.数学.notnull()]

Unnamed: 0,姓名,语文,数学,英语,总分,班名次
0,杨璐,131.0,143.0,144.0,418.0,1.0
1,王雪,131.0,135.0,144.0,410.0,2.0
2,韩林霖,127.0,139.0,142.0,408.0,3.0
3,沙龙逸,,148.0,136.0,407.0,4.0
4,李鉴学,,135.0,140.0,401.0,5.0
...,...,...,...,...,...,...
63,赵森,90.0,29.0,64.0,183.0,64.0
64,满朝升,78.0,45.0,47.0,170.0,65.0
65,李忠浩,86.0,32.0,46.0,164.0,66.0
66,侯禹志,75.0,23.0,34.0,132.0,67.0


### 丢弃缺失值

既然有缺失值了，常见的一种处理办法就是丢弃缺失值。使用 dropna 方法可以丢弃缺失值。

```python
user_info.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
```

Seriese 使用 dropna 比较简单，对于 DataFrame 来说，可以设置更多的参数。

axis 参数用于控制行或列，跟其他不一样的是，axis=0 （默认）表示操作行，axis=1 表示操作列。

how 参数可选的值为 any（默认） 或者 all。any 表示一行/列有任意元素为空时即丢弃，all 一行/列所有值都为空时才丢弃。

subset 参数表示删除时只考虑的索引或列名。

thresh参数的类型为整数，它的作用是，比如 thresh=3，会在一行/列中至少有 3 个非空值时将其保留。

In [10]:
grade.dropna()

Unnamed: 0,姓名,语文,数学,英语,总分,班名次
0,杨璐,131.0,143.0,144.0,418.0,1.0
1,王雪,131.0,135.0,144.0,410.0,2.0
2,韩林霖,127.0,139.0,142.0,408.0,3.0
5,韩雨萌,129.0,133.0,138.0,400.0,6.0
6,刘帅,116.0,143.0,140.0,399.0,7.0
7,康惠雯,114.0,142.0,139.0,395.0,8.0
8,刘钰婷,115.0,139.0,135.0,389.0,9.0
13,卢一凡,121.0,123.0,139.0,383.0,14.0
14,张瑞鑫,126.0,115.0,139.0,380.0,15.0
16,裴子翔,111.0,139.0,128.0,378.0,17.0


In [13]:
grade.dropna().shape

(51, 6)

## 填充缺失值

除了可以丢弃缺失值外，也可以填充缺失值，最常见的是使用 fillna 完成填充。

fillna 这名字一看就是用来填充缺失值的。

### 固定值填充

填充缺失值时，常见的一种方式是使用一个标量来填充。例如，这里我样有缺失的年龄都填充为 0。

In [14]:
grade.fillna(0)

Unnamed: 0,姓名,语文,数学,英语,总分,班名次
0,杨璐,131.0,143.0,144.0,418.0,1.0
1,王雪,131.0,135.0,144.0,410.0,2.0
2,韩林霖,127.0,139.0,142.0,408.0,3.0
3,沙龙逸,0.0,148.0,136.0,407.0,4.0
4,李鉴学,0.0,135.0,140.0,401.0,5.0
...,...,...,...,...,...,...
63,赵森,90.0,29.0,64.0,183.0,64.0
64,满朝升,78.0,45.0,47.0,170.0,65.0
65,李忠浩,86.0,32.0,46.0,164.0,66.0
66,侯禹志,75.0,23.0,34.0,132.0,67.0


### 上下文填充

除了可以使用标量来填充之外，还可以使用前一个或后一个有效值来填充。

设置参数 method='pad' 或 method='ffill' 可以使用前一个有效值来填充。

设置参数 method='bfill' 或 method='backfill' 可以使用后一个有效值来填充。

除了通过 fillna 方法来填充缺失值外，还可以通过 interpolate 方法来填充。默认情况下使用线性差值，可以是设置 method 参数来改变方式。