# 10.1 缺失值的认定

In [11]:
import pandas as pd

# None 、 NaN 、pd.NA 都是缺失值

In [12]:
df = pd.DataFrame({'A':['a1','a1','a2','2'],'B':['b1','b2', None, 'b2'],'C':[1,2,3,4],'D':[5,6,None,8],'E':[5,None,7,8]})
df

Unnamed: 0,A,B,C,D,E
0,a1,b1,1,5.0,5.0
1,a1,b2,2,6.0,
2,a2,,3,,7.0
3,2,b2,4,8.0,8.0


In [13]:
# 全局设置正负无穷当作缺失值
pd.options.mode.use_inf_as_na = True

# 10.1.2 缺失值判断

In [14]:
# 判断缺失值，存在True，不存在False
df.isna()

Unnamed: 0,A,B,C,D,E
0,False,False,False,False,False
1,False,False,False,False,True
2,False,True,False,True,False
3,False,False,False,False,False


In [15]:
df.D.isna()

0    False
1    False
2     True
3    False
Name: D, dtype: bool

In [16]:
# 对 isna取反
df.notna()

Unnamed: 0,A,B,C,D,E
0,True,True,True,True,True
1,True,True,True,True,False
2,True,False,True,False,True
3,True,True,True,True,True


# 10.1.3 缺失值统计

In [17]:
# 布尔值统计
pd.Series([True,True,False]).sum()

2

In [18]:
# 统计每列的缺失值数量（为True的数量）
df.isnull().sum()
# df.isna().sum() 同上

A    0
B    1
C    0
D    1
E    1
dtype: int64

In [19]:
# 统计每行缺失值数量
df.isna().sum(axis=1)  # df.isna().sum(1)

0    0
1    1
2    2
3    0
dtype: int64

In [20]:
# 统计所有列总共有多少缺失值
df.isna().sum().sum()

3

# 10.1.4 缺失值筛选

In [21]:
df

Unnamed: 0,A,B,C,D,E
0,a1,b1,1,5.0,5.0
1,a1,b2,2,6.0,
2,a2,,3,,7.0
3,2,b2,4,8.0,8.0


In [22]:
# 筛选包含缺失值的行
df.loc[df.isna().any(1)]

  df.loc[df.isna().any(1)]


Unnamed: 0,A,B,C,D,E
1,a1,b2,2,6.0,
2,a2,,3,,7.0


In [23]:
# 筛选包含缺失值的列
df.loc[:, df.isna().any()]

Unnamed: 0,B,D,E
0,b1,5.0,5.0
1,b2,6.0,
2,,,7.0
3,b2,8.0,8.0


In [24]:
# 筛选没有缺失值的行
df.loc[~df.isna().any(1)]

  df.loc[~df.isna().any(1)]


Unnamed: 0,A,B,C,D,E
0,a1,b1,1,5.0,5.0
3,2,b2,4,8.0,8.0


In [25]:
# 筛选没有包含缺失值的列
df.loc[:, ~df.isna().any()]

Unnamed: 0,A,C
0,a1,1
1,a1,2
2,a2,3
3,2,4


# 10.1.5 NA标量（空整数、空布尔、空字符串）

In [26]:
s = pd.Series([1,2,None,4],dtype='Int64')
s

0       1
1       2
2    <NA>
3       4
dtype: Int64

In [27]:
s[2]

<NA>

In [28]:
# pd.NA本身是一个缺失值
s[2] is pd.NA

True

# 10.1.6 时间数据中的缺失值

In [29]:
# NaT表示时间缺失值，与NaN是兼容的。
pd.Series([pd.Timestamp('20200101'),None, pd.Timestamp('20200103')])


0   2020-01-01
1          NaT
2   2020-01-03
dtype: datetime64[ns]

# 10.1.7 整型数据中的缺失值

In [30]:
# 由于NaN是浮点型，因此缺少一个整数的列可以转换为整型


In [31]:
df

Unnamed: 0,A,B,C,D,E
0,a1,b1,1,5.0,5.0
1,a1,b2,2,6.0,
2,a2,,3,,7.0
3,2,b2,4,8.0,8.0


In [32]:
# nan是float64
type(df.at[2,'D'])

numpy.float64

In [33]:
df.at[2,'D']

nan

# 10.1.8 插入缺失值

In [34]:
# 将第一二行全部改为NaN
df.loc[0] = df.loc[1] = None

In [35]:
df

Unnamed: 0,A,B,C,D,E
0,,,,,
1,,,,,
2,a2,,3.0,,7.0
3,2,b2,4.0,8.0,8.0


In [36]:
# 将A列改为NA
df.A = pd.NA
df

Unnamed: 0,A,B,C,D,E
0,,,,,
1,,,,,
2,,,3.0,,7.0
3,,b2,4.0,8.0,8.0
