In [2]:
import pandas as pd
import numpy as np

#导入pyplot模块
import matplotlib.pyplot as plt

#使用中文字体
from pylab import mpl
mpl.rcParams['font.sans-serif']="Simsun"
mpl.rcParams['axes.unicode_minus']=False

#使用svg格式，避免图形模糊
%matplotlib inline
%config InlineBackend.figure_format="svg"

#设置缺省颜色和线型
from cycler import cycler
mpl.rcParams['axes.prop_cycle'] = (
    cycler(color=['steelblue', 'lightcoral', 'forestgreen', 'darkorange']) 
    + cycler(linestyle=['-', '--', '-.', ':']))

# 缺失值简介

来源于现实中的数据，经常会出现变量值缺失的现象。比如，某份调查文件漏填；参加某项药物实验的病人中途退出等等。

另外，在合并不同来源的DateFrame时，也会出现缺失值。

在pandas和numpy中使用np.NaN表示缺失值。

In [10]:
df = pd.DataFrame(
    np.random.randn(5, 3),
    index=["a", "c", "e", "f", "h"],
    columns=["one", "two", "three"],
)
df["one"]["a"]=np.NaN
df["two"]["c"]=np.NaN
df

Unnamed: 0,one,two,three
a,,-2.317314,-0.249741
c,-0.575932,,0.248711
e,-0.139722,-0.038832,0.475237
f,-0.302565,-0.292386,-1.068755
h,-1.220479,0.414333,0.260448


# 涉及缺失值的运算

## 算术运算

np.NaN参与的所有算术运算结果均为np.NaN

In [11]:
df["one"]+df["two"]

a         NaN
c         NaN
e   -0.178554
f   -0.594951
h   -0.806146
dtype: float64

## 关系运算

**isna**方法返回是否是缺失值；**notna**方法返回是否不是缺失值。

np.NaN参与的所有比较运算结果均为**假**。

注意：np.NaN==np.NaN为假，所以不能用直接和np.Nan比较的方法判断是否为缺失值。



In [4]:
df.isna()

Unnamed: 0,one,two,three
a,False,False,False
b,True,True,True
c,False,False,False
d,True,True,True
e,False,False,False
f,False,False,False
g,True,True,True
h,False,False,False


In [6]:
np.NaN >= 1

False

## 汇总计算

pandas的mean/sum等汇总函数在计算时会自动忽略NaN。

In [12]:
df.count()

one      4
two      4
three    5
dtype: int64

In [13]:
df.mean()

one     -0.559674
two     -0.558550
three   -0.066820
dtype: float64

# 填补缺失值

使用**fillna**方法可以填补缺失值

## 统一替换

最简单的办法是用一个固定值代替NaN

In [14]:
df.fillna(10)

Unnamed: 0,one,two,three
a,10.0,-2.317314,-0.249741
c,-0.575932,10.0,0.248711
e,-0.139722,-0.038832,0.475237
f,-0.302565,-0.292386,-1.068755
h,-1.220479,0.414333,0.260448


## 用最近的上一个有效值填补

在**fillna**时将**method**参数设为 **"ffill"**，就会用之前最近的有效值代替NaN。

In [15]:
df.fillna(method="ffill")

Unnamed: 0,one,two,three
a,,-2.317314,-0.249741
c,-0.575932,-2.317314,0.248711
e,-0.139722,-0.038832,0.475237
f,-0.302565,-0.292386,-1.068755
h,-1.220479,0.414333,0.260448


## 用最近的下一个有效值填补

在**fillna**时将**method**参数设为 **"bfill"**，就会用之后最近的有效值代替NaN。

In [16]:
df.fillna(method="bfill")

Unnamed: 0,one,two,three
a,-0.575932,-2.317314,-0.249741
c,-0.575932,-0.038832,0.248711
e,-0.139722,-0.038832,0.475237
f,-0.302565,-0.292386,-1.068755
h,-1.220479,0.414333,0.260448
