- pandas中的缺失值用NaN（Not a Number）来表示

- 时间的缺失值用NaT（Not a Time）来表示

- 如果要显式地使用NaN值，可以使用`numpy.nan`来获取

- Python内置的None值在pandas中也是NaN

- 处理缺失值的主要方法：
<table border="1">
    <tr><th>方法</th><th style="width:50%; ">说明</th></tr>
    <tr><td>dropna</td><td>根据各标签值中是否存在却只出具对轴变迁进行过滤，可通过阈值调节对缺失值的容忍度</td></tr>
    <tr><td>fillna</td><td>用指定值或插值方法（如ffill或bfill）填充缺失数据</td></tr>
    <tr><td>isnull</td><td>返回一个含有布尔值的对象，这些布尔值表示哪些值是NaN</td></tr>
    <tr><td>notnull</td><td>返回一个含有布尔值的对象，这些布尔值表示哪些值不是NaN</td></tr>
</table>

In [4]:
import numpy as np
import pandas as pd

---
# 1、dropna()

`s.dropna(axis=0, inplace=False, **kwargs)`

`df.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)`

- axis：删除包含缺失值的行还是列。默认为行
- how：指定删除方式。默认为any，只要有一个为缺失值就删除；如果指定为all，则该行或列全部为缺失值才删除
- thresh：指定至少包含几个缺失值才删除
- subset：指定需要考虑缺失值的标签
- inplace：是否原地删除

In [23]:
df = pd.DataFrame({'name':['张三', '李四', '王五', '赵六', '陈七'], 'age':[20,21, np.nan, np.nan, np.nan], 'city':['cd', 'bj', np.nan,'gz', np.nan]})
df

Unnamed: 0,name,age,city
0,张三,20.0,cd
1,李四,21.0,bj
2,王五,,
3,赵六,,gz
4,陈七,,


In [14]:
df.dropna(axis=0)

Unnamed: 0,name,age,city
0,张三,20.0,cd
1,李四,21.0,bj


In [15]:
df.dropna(axis=1)

Unnamed: 0,name
0,张三
1,李四
2,王五
3,赵六
4,陈七


In [16]:
df.dropna(how='all')

Unnamed: 0,name,age,city
0,张三,20.0,cd
1,李四,21.0,bj
2,王五,,
3,赵六,,gz
4,陈七,,


In [17]:
df.dropna(thresh=2)

Unnamed: 0,name,age,city
0,张三,20.0,cd
1,李四,21.0,bj
3,赵六,,gz


In [22]:
df.dropna(subset=['city'])

Unnamed: 0,name,age,city
0,张三,20.0,cd
1,李四,21.0,bj
3,赵六,,gz


---
# 2、fillna()

`s.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)`

`df.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)`

- value：填充的值。可以为标量，dict， Series，DataFrame
- method：填充方式。可选值为backfill，bfill，pad，ffill，None
- axis：沿着哪个轴填充
- inplace：是否原地填充

In [25]:
df.fillna(0)

Unnamed: 0,name,age,city
0,张三,20.0,cd
1,李四,21.0,bj
2,王五,0.0,0
3,赵六,0.0,gz
4,陈七,0.0,0


In [26]:
df.fillna({'age': 18, 'city': 'cd'})

Unnamed: 0,name,age,city
0,张三,20.0,cd
1,李四,21.0,bj
2,王五,18.0,cd
3,赵六,18.0,gz
4,陈七,18.0,cd


In [30]:
df.fillna(method='ffill')

Unnamed: 0,name,age,city
0,张三,20.0,cd
1,李四,21.0,bj
2,王五,21.0,bj
3,赵六,21.0,gz
4,陈七,21.0,gz


In [34]:
df.fillna(method='pad')

Unnamed: 0,name,age,city
0,张三,20.0,cd
1,李四,21.0,bj
2,王五,21.0,bj
3,赵六,21.0,gz
4,陈七,21.0,gz


In [31]:
df.fillna(method='bfill')

Unnamed: 0,name,age,city
0,张三,20.0,cd
1,李四,21.0,bj
2,王五,,gz
3,赵六,,gz
4,陈七,,


In [32]:
df.fillna(method='backfill')

Unnamed: 0,name,age,city
0,张三,20.0,cd
1,李四,21.0,bj
2,王五,,gz
3,赵六,,gz
4,陈七,,


---
# 3、isnull（）

In [35]:
df

Unnamed: 0,name,age,city
0,张三,20.0,cd
1,李四,21.0,bj
2,王五,,
3,赵六,,gz
4,陈七,,


In [41]:
df.isnull()

Unnamed: 0,name,age,city
0,False,False,False
1,False,False,False
2,False,True,True
3,False,True,False
4,False,True,True


---
# 4、notnull（）

In [40]:
df.notnull()

Unnamed: 0,name,age,city
0,True,True,True
1,True,True,True
2,True,False,False
3,True,False,True
4,True,False,False


In [39]:
df[df.notnull()]

Unnamed: 0,name,age,city
0,张三,20.0,cd
1,李四,21.0,bj
2,王五,,
3,赵六,,gz
4,陈七,,
