# 处理丢失数据

有两种丢失数据：
- None
- np.nan(NaN)

In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

## 1. None

None是Python自带的，其类型为python object。因此，None不能参与到任何计算中。

In [2]:
type(None)

NoneType

In [3]:
# None不能参与运算
n = np.array([0,1,2,3,None])
n.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

object类型的运算要比int类型的运算慢得多  
计算不同数据类型求和时间  
%timeit np.arange(1e5,dtype=xxx).sum()

In [4]:
%timeit np.arange(1e5, dtype=np.float64).sum()

295 µs ± 49.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [5]:
%timeit np.arange(1e5, dtype=np.int32).sum()

181 µs ± 15.5 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [6]:
%timeit np.arange(1e5, dtype=object).sum()

10.7 ms ± 1.11 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


## 2. np.nan（NaN）

np.nan是浮点类型，能参与到计算中。但计算的结果总是NaN。

In [7]:
type(np.nan)

float

In [8]:
np.array([1,2,3,np.nan]).sum()

nan

但可以使用np.nan*()函数来计算nan，此时视nan为0。

In [9]:
np.nansum(np.array([1,2,3,np.nan]))

6.0

In [10]:
np.array([1,2,3,np.nan]).nansum()

AttributeError: 'numpy.ndarray' object has no attribute 'nansum'

## 3. pandas中的None与NaN

### 1) pandas中None与np.nan都视作np.nan

创建DataFrame

In [23]:
df = DataFrame(data=np.random.randint(0,100, size=(4,4)), columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
0,29,59,11,61
1,34,73,39,2
2,98,32,41,21
3,23,22,70,88


使用DataFrame行索引与列索引修改DataFrame数据

In [24]:
df.iloc[0,0] = None
df

Unnamed: 0,A,B,C,D
0,,59,11,61
1,34.0,73,39,2
2,98.0,32,41,21
3,23.0,22,70,88


In [25]:
df.iloc[1,2] = np.nan
df

Unnamed: 0,A,B,C,D
0,,59,11.0,61
1,34.0,73,,2
2,98.0,32,41.0,21
3,23.0,22,70.0,88


### 2) pandas中None与np.nan的操作

- ``isnull()``
- ``notnull()``
- ``dropna()``: 过滤丢失数据
- ``fillna()``: 填充丢失数据

(1)判断函数
- ``isnull()``
- ``notnull()``

In [14]:
df.isnull()

Unnamed: 0,A,B,C,D
0,True,False,False,False
1,False,False,True,False
2,False,False,False,False
3,False,False,False,False


In [15]:
df.notnull()

Unnamed: 0,A,B,C,D
0,False,True,True,True
1,True,True,False,True
2,True,True,True,True
3,True,True,True,True


In [16]:
pd.isnull(df)

Unnamed: 0,A,B,C,D
0,True,False,False,False
1,False,False,True,False
2,False,False,False,False
3,False,False,False,False


In [17]:
pd.notnull(df)

Unnamed: 0,A,B,C,D
0,False,True,True,True
1,True,True,False,True
2,True,True,True,True
3,True,True,True,True


(2) 过滤函数
- ``dropna()``

In [18]:
df

Unnamed: 0,A,B,C,D
0,,8,18.0,76
1,26.0,32,,22
2,91.0,11,88.0,86
3,2.0,41,24.0,92


In [21]:
# inplace会直接修改原始数据.
df.dropna(inplace=True)

In [22]:
df

Unnamed: 0,A,B,C,D
2,91.0,11,88.0,86
3,2.0,41,24.0,92


可以选择过滤的是行还是列（默认为行）

In [26]:
df.dropna(axis=1 )

Unnamed: 0,B,D
0,59,61
1,73,2
2,32,21
3,22,88


也可以选择过滤的方式 how = 'all'

In [28]:
df.iloc[0] = np.nan

In [29]:
df

Unnamed: 0,A,B,C,D
0,,,,
1,34.0,73.0,,2.0
2,98.0,32.0,41.0,21.0
3,23.0,22.0,70.0,88.0


In [30]:
df.dropna(axis=0, how='all')

Unnamed: 0,A,B,C,D
1,34.0,73.0,,2.0
2,98.0,32.0,41.0,21.0
3,23.0,22.0,70.0,88.0


(3) 填充函数 Series/DataFrame
- ``fillna()``

In [31]:
df

Unnamed: 0,A,B,C,D
0,,,,
1,34.0,73.0,,2.0
2,98.0,32.0,41.0,21.0
3,23.0,22.0,70.0,88.0


In [32]:
# 使用指定的值来填充
df.fillna(value=88)

Unnamed: 0,A,B,C,D
0,88.0,88.0,88.0,88.0
1,34.0,73.0,88.0,2.0
2,98.0,32.0,41.0,21.0
3,23.0,22.0,70.0,88.0


In [42]:
df.fillna(value=88, axis=0, limit=2)

Unnamed: 0,A,B,C,D
0,88.0,88.0,88.0,88.0
1,34.0,73.0,88.0,2.0
2,98.0,32.0,41.0,21.0
3,23.0,22.0,70.0,88.0


In [43]:
df

Unnamed: 0,A,B,C,D
0,,,,
1,34.0,73.0,,2.0
2,98.0,32.0,41.0,21.0
3,23.0,22.0,70.0,88.0


可以选择前向填充还是后向填充

In [44]:
# value 和method不能一起用
df.fillna(method='bfill', axis=1)

Unnamed: 0,A,B,C,D
0,,,,
1,34.0,73.0,2.0,2.0
2,98.0,32.0,41.0,21.0
3,23.0,22.0,70.0,88.0


In [45]:
df.fillna(method='bfill', axis=0)

Unnamed: 0,A,B,C,D
0,34.0,73.0,41.0,2.0
1,34.0,73.0,41.0,2.0
2,98.0,32.0,41.0,21.0
3,23.0,22.0,70.0,88.0


对于DataFrame来说，还要选择填充的轴axis。记住，对于DataFrame来说：

- axis=0：index/行
- axis=1：columns/列

============================================

练习7：

1. 简述None与NaN的区别

2. 假设张三李四参加模拟考试，但张三因为突然想明白人生放弃了英语考试，因此记为None，请据此创建一个DataFrame,命名为ddd3

3. 老师决定根据用数学的分数填充张三的英语成绩，如何实现？
    用李四的英语成绩填充张三的英语成绩？

============================================

In [None]:
1, None是NoneType对象,是一个object, NaN是float型.
2, None不能参与运算,NaN可以参与运算.
3, numpy中None ,NaN是不一样的,pandas中None和np.nan是一样的.


In [3]:
data = np.random.randint(0,150,size=(4,4))
index = ['张三', '李四', '王五', '赵六']
columns = ['语文', '数学', '英语', 'python']
ddd = DataFrame(data=data, index=index, columns=columns)
ddd

Unnamed: 0,语文,数学,英语,python
张三,93,61,122,63
李四,147,99,74,34
王五,88,139,137,105
赵六,109,72,111,9


In [5]:
ddd.loc['张三', '英语'] = None
ddd

Unnamed: 0,语文,数学,英语,python
张三,93,61,,63
李四,147,99,74.0,34
王五,88,139,137.0,105
赵六,109,72,111.0,9


In [6]:
ddd.fillna(method='bfill', axis=1) # 用python成绩填充到英语处

Unnamed: 0,语文,数学,英语,python
张三,93.0,61.0,63.0,63.0
李四,147.0,99.0,74.0,34.0
王五,88.0,139.0,137.0,105.0
赵六,109.0,72.0,111.0,9.0


In [7]:
ddd.fillna(method='ffill', axis=1)  # 用数学成绩填充到英语处

Unnamed: 0,语文,数学,英语,python
张三,93.0,61.0,61.0,63.0
李四,147.0,99.0,74.0,34.0
王五,88.0,139.0,137.0,105.0
赵六,109.0,72.0,111.0,9.0


In [8]:
ddd.fillna(method='bfill', axis=0)  # 用李四的英语填充张三的英语

Unnamed: 0,语文,数学,英语,python
张三,93,61,74.0,63
李四,147,99,74.0,34
王五,88,139,137.0,105
赵六,109,72,111.0,9
