### 删除缺失值

之前我们了解到:

1. 导入缺失值会使 sklearn 报错
2. 删除缺失值的原因


现在让我们用 Pandas 来删除数据中的缺失值。你可以按照指定的行或列来删除值，也可以根据指定的行或列是否存在缺失值来删除该行或列的所有值。

[这里](https://chrisalbon.com/)包含了很多跟 Pandas 相关的资料，Chris 在[这里](https://chrisalbon.com/python/data_wrangling/pandas_dropping_column_and_rows/)专门详细总结了如何处理缺失值。你还可以在[这里](https://stackoverflow.com/questions/13413590/how-to-drop-rows-of-pandas-dataframe-whose-value-in-certain-columns-is-nan)查看更多资料。

In [1]:
import numpy as np
import pandas as pd
# import RemovingValues as t
import matplotlib.pyplot as plt
%matplotlib inline

small_dataset = pd.DataFrame({'col1': [1, 2, np.nan, np.nan, 5, 6], 
                              'col2': [7, 8, np.nan, 10, 11, 12],
                              'col3': [np.nan, 14, np.nan, 16, 17, 18]})

small_dataset

Unnamed: 0,col1,col2,col3
0,1.0,7.0,
1,2.0,8.0,14.0
2,,,
3,,10.0,16.0
4,5.0,11.0,17.0
5,6.0,12.0,18.0


#### Question 1

**1.** 删除所有包含缺失值的行。

dropna(how=, axis=, subset=)常用于删除缺失值。  

how用于设置删除某一行或列全为Nan，还是部分为Nan。

axis常用于设置删除行还是列。0为行，1为列。默认为删除行。  

subset可以设置想要检查并删除的列名列表。

In [3]:
all_drop  = small_dataset.dropna()# Drop any row with a missing value


#print result
all_drop

Unnamed: 0,col1,col2,col3
1,2.0,8.0,14.0
4,5.0,11.0,17.0
5,6.0,12.0,18.0


In [4]:
t.all_drop_test(all_drop) #test

Nice job! That looks right!


#### Question 2

**2.** 删除整行都是缺失值的行。

In [6]:
all_row = small_dataset.dropna(how='all')# Drop only rows with all missing values 


#print result
all_row

Unnamed: 0,col1,col2,col3
0,1.0,7.0,
1,2.0,8.0,14.0
3,,10.0,16.0
4,5.0,11.0,17.0
5,6.0,12.0,18.0


In [7]:
t.all_row_test(all_row) #test

Nice job! That looks right!


#### Question 3

**3.** 删除第三列存在缺失值的行。

In [9]:
only3_drop = small_dataset.dropna(subset=['col3'])# Drop only rows with missing values in column 3


#print result
only3_drop

Unnamed: 0,col1,col2,col3
1,2.0,8.0,14.0
3,,10.0,16.0
4,5.0,11.0,17.0
5,6.0,12.0,18.0


In [10]:
t.only3_drop_test(only3_drop) #test

Nice job! That looks right!


#### Question 4

**4.** 删除第一列或第三列中存在缺失值的行。

In [11]:
only3or1_drop = small_dataset.dropna(subset=['col1','col3'])# Drop rows with missing values in column 1 or column 3


#print result
only3or1_drop

Unnamed: 0,col1,col2,col3
1,2.0,8.0,14.0
4,5.0,11.0,17.0
5,6.0,12.0,18.0


In [12]:
t.only3or1_drop_test(only3or1_drop) #test

Nice job! That looks right!
