# Pandas处理丢失数据

In [2]:
import pandas as pd
import numpy as np
dates = pd.date_range('20181014',periods=6)
df = pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns=['A','B','C','D'])
df.iloc[0,1] = np.nan
df.iloc[1,2] = np.nan
print(df)

             A     B     C   D
2018-10-14   0   NaN   2.0   3
2018-10-15   4   5.0   NaN   7
2018-10-16   8   9.0  10.0  11
2018-10-17  12  13.0  14.0  15
2018-10-18  16  17.0  18.0  19
2018-10-19  20  21.0  22.0  23


## 过滤掉含NAN的行 

In [3]:
print(df.dropna(axis=0,how = 'any'))

             A     B     C   D
2018-10-16   8   9.0  10.0  11
2018-10-17  12  13.0  14.0  15
2018-10-18  16  17.0  18.0  19
2018-10-19  20  21.0  22.0  23


how = {'any','all'}，对于上面这句代码any代表只要这一行有任何一个any，就丢掉这一行，all代表这一行全部为NAN才丢掉这一行

## 过滤掉含NAN的列 

In [4]:
print(df.dropna(axis=1,how='any'))

             A   D
2018-10-14   0   3
2018-10-15   4   7
2018-10-16   8  11
2018-10-17  12  15
2018-10-18  16  19
2018-10-19  20  23


而如果how是all的话，那么不会丢掉任何一行任何一列，因为all代表这一行或者这一列全为NAN的时候才会丢掉这一行或这一列

In [5]:
print(df.dropna(axis=0,how='all'))
print(df.dropna(axis=1,how='all'))

             A     B     C   D
2018-10-14   0   NaN   2.0   3
2018-10-15   4   5.0   NaN   7
2018-10-16   8   9.0  10.0  11
2018-10-17  12  13.0  14.0  15
2018-10-18  16  17.0  18.0  19
2018-10-19  20  21.0  22.0  23
             A     B     C   D
2018-10-14   0   NaN   2.0   3
2018-10-15   4   5.0   NaN   7
2018-10-16   8   9.0  10.0  11
2018-10-17  12  13.0  14.0  15
2018-10-18  16  17.0  18.0  19
2018-10-19  20  21.0  22.0  23


**如果不想丢掉这些NAN，想用上这些NAN的数据，可以用下面这种方法：**

In [6]:
print(df.fillna(value=0))

             A     B     C   D
2018-10-14   0   0.0   2.0   3
2018-10-15   4   5.0   0.0   7
2018-10-16   8   9.0  10.0  11
2018-10-17  12  13.0  14.0  15
2018-10-18  16  17.0  18.0  19
2018-10-19  20  21.0  22.0  23


可以看到，原本是NAN的位置变成了0.0

## 检查DataFrame是否含有NAN

In [7]:
print(df.isnull())

                A      B      C      D
2018-10-14  False   True  False  False
2018-10-15  False  False   True  False
2018-10-16  False  False  False  False
2018-10-17  False  False  False  False
2018-10-18  False  False  False  False
2018-10-19  False  False  False  False


在NAN的位置处会打印True，其余位置会打印False

如果这个DataFrame特别大的时候，肉眼很难观察True和False的时候，可以用下面这种方法：

In [8]:
print(np.any(df.isnull()) == True)

True
