# 查看处理缺失值
缺失值指的是数据中空的部分，可以对其删除，填充或替换，以及插值（均值，中位数等）
## 查看缺失值
使用info查看概况

In [1]:
import pandas as pd
#以下两行代码将表格对齐
pd.set_option('display.unicode.east_asian_width',True)
pd.set_option('display.unicode.ambiguous_as_wide',True)
df = pd.read_excel('Code/03/37/TB2018.xls')
print(df)
print(df.info())

  买家会员名  买家实际支付金额  宝贝总数量                     宝贝标题   \
0      mr001            143.50         2.0                Python黄金组合   
1      mr002             78.80         1.0                Python编程锦囊   
2      mr003             48.86         1.0                 零基础学C语言   
3      mr004             81.75         NaN  SQL Server应用与开发范例宝典   
4      mr005            299.00         1.0          Python程序开发资源库   
5      mr006             41.86         1.0                零基础学Python   
6      mr007             55.86         1.0            C语言精彩编程200例   
7      mr008             41.86         NaN         C语言项目开发实战入门   
8      mr009             41.86         1.0          Java项目开发实战入门   
9      mr010             34.86         1.0                   SQL即查即用   

   类别        订单付款时间  
0  图书 2018-10-09 22:54:26  
1   NaN 2018-10-09 22:52:42  
2  图书 2018-01-19 12:53:01  
3  图书 2018-06-30 11:46:14  
4   NaN 2018-03-23 18:25:45  
5  图书 2018-03-24 19:25:45  
6  图书 2018-03-25 11:00:45  
7  图书 2018-03-26 23:11:11 

与缺失值有关的是两个方法，分别是isnull和notnull

In [2]:
print(df.isnull())
print(df.notnull())

   买家会员名  买家实际支付金额  宝贝总数量  宝贝标题    类别  订单付款时间
0       False             False       False      False  False         False
1       False             False       False      False   True         False
2       False             False       False      False  False         False
3       False             False        True      False  False         False
4       False             False       False      False   True         False
5       False             False       False      False  False         False
6       False             False       False      False  False         False
7       False             False        True      False  False         False
8       False             False       False      False  False         False
9       False             False       False      False  False         False
   买家会员名  买家实际支付金额  宝贝总数量  宝贝标题    类别  订单付款时间
0        True              True        True       True   True          True
1        True              True        True       True  False          T

isnull() 缺失值返回True;非缺失值返回False
notnull() 缺失值返回False；非缺失值返回True

## 删除缺失值

In [3]:
df.dropna(inplace=True)
print(df)

  买家会员名  买家实际支付金额  宝贝总数量             宝贝标题   类别  \
0      mr001            143.50         2.0        Python黄金组合  图书   
2      mr003             48.86         1.0         零基础学C语言  图书   
5      mr006             41.86         1.0        零基础学Python  图书   
6      mr007             55.86         1.0    C语言精彩编程200例  图书   
8      mr009             41.86         1.0  Java项目开发实战入门  图书   
9      mr010             34.86         1.0           SQL即查即用  图书   

         订单付款时间  
0 2018-10-09 22:54:26  
2 2018-01-19 12:53:01  
5 2018-03-24 19:25:45  
6 2018-03-25 11:00:45  
8 2018-03-27 07:25:30  
9 2018-03-28 18:09:12  


对于不应删除掉的部分，可以使用另外的方法进行操作
如只想针对“宝贝总数量”中的nan进行操作可以使用下面的方法

In [4]:
df = pd.read_excel('Code/03/37/TB2018.xls')
df1 = df[df['宝贝总数量'].notnull()]
print(df1)

  买家会员名  买家实际支付金额  宝贝总数量             宝贝标题   类别  \
0      mr001            143.50         2.0        Python黄金组合  图书   
1      mr002             78.80         1.0        Python编程锦囊   NaN   
2      mr003             48.86         1.0         零基础学C语言  图书   
4      mr005            299.00         1.0  Python程序开发资源库   NaN   
5      mr006             41.86         1.0        零基础学Python  图书   
6      mr007             55.86         1.0    C语言精彩编程200例  图书   
8      mr009             41.86         1.0  Java项目开发实战入门  图书   
9      mr010             34.86         1.0           SQL即查即用  图书   

         订单付款时间  
0 2018-10-09 22:54:26  
1 2018-10-09 22:52:42  
2 2018-01-19 12:53:01  
4 2018-03-23 18:25:45  
5 2018-03-24 19:25:45  
6 2018-03-25 11:00:45  
8 2018-03-27 07:25:30  
9 2018-03-28 18:09:12  


## 将NaN填充为0

In [5]:
df['宝贝总数量'] = df['宝贝总数量'].fillna(0)
print(df)

  买家会员名  买家实际支付金额  宝贝总数量                     宝贝标题   \
0      mr001            143.50         2.0                Python黄金组合   
1      mr002             78.80         1.0                Python编程锦囊   
2      mr003             48.86         1.0                 零基础学C语言   
3      mr004             81.75         0.0  SQL Server应用与开发范例宝典   
4      mr005            299.00         1.0          Python程序开发资源库   
5      mr006             41.86         1.0                零基础学Python   
6      mr007             55.86         1.0            C语言精彩编程200例   
7      mr008             41.86         0.0         C语言项目开发实战入门   
8      mr009             41.86         1.0          Java项目开发实战入门   
9      mr010             34.86         1.0                   SQL即查即用   

   类别        订单付款时间  
0  图书 2018-10-09 22:54:26  
1   NaN 2018-10-09 22:52:42  
2  图书 2018-01-19 12:53:01  
3  图书 2018-06-30 11:46:14  
4   NaN 2018-03-23 18:25:45  
5  图书 2018-03-24 19:25:45  
6  图书 2018-03-25 11:00:45  
7  图书 2018-03-26 23:11:11 