### NaN - means Not a Number

In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

### nan in numpy 

numpy提供了一个方法让我们创建NaN的数据

In [2]:
n = np.nan

In [3]:
type(n)

float

可以看出这是一个浮点类型的数值。也就是numpy里的nan是浮点型

In [4]:
m = 1
m + n

nan

任何数据和nan去做运算，结果都是nan

### nan in Series

In [5]:
s1 = Series([1, 2, np.nan, 3, 4], index=['A','B','C','D','E'])

In [6]:
s1

A    1.0
B    2.0
C    NaN
D    3.0
E    4.0
dtype: float64

In [7]:
s1.isnull()

A    False
B    False
C     True
D    False
E    False
dtype: bool

`isnull`会返回一个新的series，会判断每个值是否是nan

>如果是nan会返回true

In [8]:
s1.notnull()

A     True
B     True
C    False
D     True
E     True
dtype: bool

`notnull`会返回一个新的series，会判断每个值是否不是nan

>如果不是nan会返回true

In [9]:
s1.dropna()

A    1.0
B    2.0
D    3.0
E    4.0
dtype: float64

`dropna()`会返回一个将series中的nan值去除掉之后的新series

### nan in DataFrame

In [10]:
dframe = DataFrame([[1,2,3],[np.nan,5,6], [7,np.nan,9],[np.nan,np.nan,np.nan]])

上面的这个dataframe是由一个list创建的。list中又包含四个子list。每个子list中有三个元素。

In [11]:
dframe

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,,5.0,6.0
2,7.0,,9.0
3,,,


In [12]:
dframe.isnull()

Unnamed: 0,0,1,2
0,False,False,False
1,True,False,False
2,False,True,False
3,True,True,True


In [13]:
dframe.notnull()

Unnamed: 0,0,1,2
0,True,True,True
1,False,True,True
2,True,False,True
3,False,False,False


```
Signature: 
    dframe.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
```

- axis 参数表示对行操作，还是对列操作。

In [14]:
dframe.dropna(axis=0)

Unnamed: 0,0,1,2
0,1.0,2.0,3.0


会把所有行中，只要这一行有一个nan的都drop掉

In [15]:
dframe.dropna(axis=1)

0
1
2
3


会把所有列中，只要这一列有一个nan的都drop掉

#### 第二个参数any

In [16]:
dframe.dropna(axis=0, how='any')

Unnamed: 0,0,1,2
0,1.0,2.0,3.0


any 是指只要这一行里有nan元素就会被删除掉

In [17]:
dframe.dropna(axis=0, how='all')

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,,5.0,6.0
2,7.0,,9.0


all 是指只有这一行里全部的元素都是nan才会被删除掉

#### 第三个参数 thresh=None

In [18]:
dframe2 = DataFrame([[1,2,3,np.nan],[2,np.nan,5,6], [np.nan, 7,np.nan,9],[np.nan,np.nan,np.nan,np.nan]])

In [19]:
dframe2

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,
1,2.0,,5.0,6.0
2,,7.0,,9.0
3,,,,


这个dataframe的每一行每一列中都有nan

In [20]:
dframe2.dropna(thresh=None)

Unnamed: 0,0,1,2,3


因为默认的它每行都有nan，会直接把行删除完。

In [21]:
dframe2.dropna(thresh=1)

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,
1,2.0,,5.0,6.0
2,,7.0,,9.0


thresh 是一个界限值。严格大于(没有等于)一个的就删除掉。

```
Signature:
dframe2.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)
```
将dataframe中是nan的值进行填充新的值。


In [22]:
dframe2.fillna(value=1)

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,1.0
1,2.0,1.0,5.0,6.0
2,1.0,7.0,1.0,9.0
3,1.0,1.0,1.0,1.0


>value=1 会将其中所有的null值填充为1

In [23]:
dframe2

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,
1,2.0,,5.0,6.0
2,,7.0,,9.0
3,,,,


In [24]:
dframe2.fillna(value={0:0,1:1,2:2,3:3})

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,3.0
1,2.0,1.0,5.0,6.0
2,0.0,7.0,2.0,9.0
3,0.0,1.0,2.0,3.0


可以指定第几列的nan值填充为哪个value。

- 第0列填充为0.0

#### dropna() 和fillna(1) 都不会改变原始的值，而是返回新的dataframe

In [25]:
dframe.dropna()

Unnamed: 0,0,1,2
0,1.0,2.0,3.0


In [26]:
dframe

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,,5.0,6.0
2,7.0,,9.0
3,,,


In [27]:
dframe.fillna(1)

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,1.0,5.0,6.0
2,7.0,1.0,9.0
3,1.0,1.0,1.0


In [28]:
dframe

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,,5.0,6.0
2,7.0,,9.0
3,,,
