# 缺失值


何时以及为什么数据丢失？

想象一下有一个产品的在线调查。很多时候，人们不会分享与他们有关的所有信息。 很少有人分享他们的经验，但不是他们使用产品多久; 很少有人分享使用产品的时间，经验，但不是他们的个人联系信息。 因此，以某种方式或其他方式，总会有一部分数据总是会丢失，这是非常常见的现象。
现在来看看如何处理使用Pandas的缺失值(如NA或NaN)。 

- 检查缺失值
- 缺少数据的计算
- 清理/填充缺少数据
  - 用标量值替换NaN
  - 填写NA前进和后退
  - 丢失缺少的值
  - 替换丢失(或)通用值


In [2]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
print (df) 

        one       two     three
a  0.046807  0.290463  0.979174
b       NaN       NaN       NaN
c  0.121279  2.182342  0.465830
d       NaN       NaN       NaN
e  0.268761  0.323568 -0.127466
f -0.361894 -0.264720  0.665884
g       NaN       NaN       NaN
h  1.415022 -0.949700 -0.173139


## 1 检查缺失值
为了更容易地检测缺失值(以及跨越不同的数组dtype)，Pandas提供了isnull()和notnull()函数，它们也是Series和DataFrame对象的方法 

In [4]:
import pandas as pd
import numpy as np 
df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three']) 
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']) 
print (df['one'].isnull())  # 返回一个列表(布尔值的列表)
print (df['one'].notnull()) 

a    False
b     True
c    False
d     True
e    False
f    False
g     True
h    False
Name: one, dtype: bool
a     True
b    False
c     True
d    False
e     True
f     True
g    False
h     True
Name: one, dtype: bool


## 2 缺少数据的计算
- 在求和数据时，NA将被视为0 

In [8]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
print (df['one'].sum())  

2.903436867171946


## 3 清理/填充缺少数据
Pandas提供了各种方法来清除缺失的值。fillna()函数可以通过几种方法用非空数据“填充”NA值，在下面的章节中将学习和使用。 
- 用标量值替换NaN
- 填写NA前进和后退
- 丢掉缺少的值

In [10]:
#--------------------- 用标量值替换NaN

"""
以下程序显示如何用0替换NaN
"""

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(3, 3), index=['a', 'c', 'e'],columns=['one',
'two', 'three'])
df = df.reindex(['a', 'b', 'c']) 
print (df.fillna(0))  # 用0来填充缺失值

        one       two     three
a  0.249008 -0.459125  0.333342
b       NaN       NaN       NaN
c -0.135275 -0.700354 -0.114933
NaN replaced with '0':
        one       two     three
a  0.249008 -0.459125  0.333342
b  0.000000  0.000000  0.000000
c -0.135275 -0.700354 -0.114933


In [12]:
#------------------ 填写NA前进和后退
"""
使用重构索引章节讨论的填充概念，来填补缺失的值。

- pad/fill        填充方法向前
- bfill/backfill  填充方法向后
"""

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
print (df.fillna(method='pad'))  # 填充前向
print (df.fillna(method='backfill')) # 填充后向

        one       two     three
a  0.194399 -0.385730  0.338172
b  0.194399 -0.385730  0.338172
c -0.067270 -1.858202 -1.499314
d -0.067270 -1.858202 -1.499314
e  0.228682 -1.107757  0.323603
f  0.469024 -0.221272  0.603823
g  0.469024 -0.221272  0.603823
h -0.807022 -0.421614 -0.398633
        one       two     three
a  0.194399 -0.385730  0.338172
b -0.067270 -1.858202 -1.499314
c -0.067270 -1.858202 -1.499314
d  0.228682 -1.107757  0.323603
e  0.228682 -1.107757  0.323603
f  0.469024 -0.221272  0.603823
g -0.807022 -0.421614 -0.398633
h -0.807022 -0.421614 -0.398633


In [16]:
#-------------------- 丢失缺少的值
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
print (df.dropna())  # 丢弃掉有缺失值的行
print (df.dropna(axis=1)) # 丢弃掉有缺失值的列

        one       two     three
a -1.973678  0.049021  0.919289
c -1.053036  0.961547 -1.421711
e  0.063460 -0.971598 -0.690402
f -0.092586  1.134437 -0.254210
h -0.539921 -0.775163  0.630517
Empty DataFrame
Columns: []
Index: [a, b, c, d, e, f, g, h]


## 替换通用值

In [18]:
#------------------ 替换通用值
import pandas as pd
import numpy as np
df = pd.DataFrame({'one':[10,20,30,40,50,2000],
'two':[1000,0,30,40,50,60]})
print(df)
print (df.replace({1000:10,2000:60})) 


    one   two
0    10  1000
1    20     0
2    30    30
3    40    40
4    50    50
5  2000    60
   one  two
0   10   10
1   20    0
2   30   30
3   40   40
4   50   50
5   60   60
