In [1]:
import numpy as np
import pandas as pd

In [2]:
##-------------------------##
## ----Pandas缺失值处理-----##
##-------------------------##

In [3]:
#01. None：Python对象类型的缺失值
data1=np.array([1,2,None,3])
data1

array([1, 2, None, 3], dtype=object)

In [4]:
#None， 它是一个 Python 单体对象， 经常在代码中表示缺失值。 由于 None 是一个 Python 对象， 所
#以不能作为任何 NumPy / Pandas 数组类型的缺失值， 只能用于 'object' 数组类型（即由 Python 对象构成的数组）

In [5]:
#02. NaN： 数值类型的缺失值 是一种按照 IEEE 浮点数标准设计、 在任何系统中都兼容的特殊浮点数
data2=np.array([1,2,3,np.nan])
data2.dtype
#可以看出使用NaN后data2已经是numpy对象了

dtype('float64')

In [6]:
#无论和 NaN 进行何种操作， 最终结果都是 NaN
print(data2 + 1,data2 * 0,np.sin(data2))

[ 2.  3.  4. nan] [ 0.  0.  0. nan] [0.84147098 0.90929743 0.14112001        nan]


In [7]:
#NumPy 也提供了一些特殊的累计函数， 它们可以忽略缺失值的影响如 nansum nanmax nanmin
print(np.nanmax(data2))
print(np.nanmin(data2))
print(np.nansum(data2))

3.0
1.0
6.0


In [19]:
#03. Pandas中NaN与None的差异
#Pandas会对None进行适当的转换
pd.Series([1,1,None])

0    1.0
1    1.0
2    NaN
dtype: float64

In [25]:
#pandas将None转换为NaN时，会将数据类型强制转换为float64
pd.Series([1,2,3,None])

0    1.0
1    2.0
2    3.0
3    NaN
dtype: float64

In [None]:
###Panda处理缺失值###

In [None]:
#主要通过四个函数处理缺失值
#isnull()：创建一个布尔类型的掩码标签缺失值
#notnull()：与 isnull() 操作相反
#dropna()：返回一个剔除缺失值的数据
#fillna()：返回一个填充了缺失值的数据副本

In [29]:
#01. 发现缺失值
data2=pd.Series([1,2,"hello",None,np.nan])
data2

0        1
1        2
2    hello
3     None
4      NaN
dtype: object

In [30]:
pd.isnull(data2)

0    False
1    False
2    False
3     True
4     True
dtype: bool

In [31]:
data2.notnull()

0     True
1     True
2     True
3    False
4    False
dtype: bool

In [33]:
#剔除任何包含缺失值的整行/列数据（通过axis指定）
data2.dropna()

0        1
1        2
2    hello
dtype: object

In [57]:
data3=pd.DataFrame((np.random.randint(0,9,(3,3))),
                  columns=["a","b","c"])
data3

Unnamed: 0,a,b,c
0,7,4,6
1,3,1,2
2,6,1,3


In [59]:
data3["d"] = np.array([np.nan,np.nan,np.nan])
data3

Unnamed: 0,a,b,c,d
0,7,4,6,
1,3,1,2,
2,6,1,3,


In [61]:
#删除含有缺失值的列
data3.dropna(axis=1)

Unnamed: 0,a,b,c
0,7,4,6
1,3,1,2
2,6,1,3


In [62]:
#删除含有缺失值的行
data3.dropna(axis=0)

Unnamed: 0,a,b,c,d


In [67]:
#如果只需要剔除全部是NA的行或列需要设置how参数，默认how = any删除包含NA的行和列，how = all表示删除全部是NA的行或列
data3.dropna(axis=0,how="any")

Unnamed: 0,a,b,c,d


In [70]:
#可以看出由于每一行都不是全为NA所以没有删除
#还可以通过 thresh 参数设置行或列中非缺失值的最小数量
data3.dropna(axis=0,how="all",thresh=1)

Unnamed: 0,a,b,c,d
0,7,4,6,
1,3,1,2,
2,6,1,3,


In [71]:
#非缺失值最小值为4，所以所有行被删除
data3.dropna(axis=0,how="all",thresh=4)

Unnamed: 0,a,b,c,d


In [None]:
##03. 填充缺失值
#fillna()

In [73]:
data4 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data4

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

In [74]:
#使用0填充缺失值
data4.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

In [75]:
#用缺失值前面的有效值来从前往后填充（forward-fill） 
data4.fillna(method="ffill")

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

In [76]:
#也可以用缺失值后面的有效值来从后往前填充（back-fill）
data4.fillna(method="bfill")

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

In [77]:
#DataFrame对象也是一样的
df = pd.DataFrame([[1, np.nan, 2],[2, 3, 5],[np.nan, 4, 6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [78]:
#从前（后）往后（前）填充时， 需要填充的缺失值前面（后面）没有值， 那么它就仍然是缺失值
df.fillna(method="ffill")

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,2.0,4.0,6


In [81]:
df.fillna(method="bfill",axis = 1)

Unnamed: 0,0,1,2
0,1.0,2.0,2.0
1,2.0,3.0,5.0
2,4.0,4.0,6.0
