# 处理丢失数据

有两种丢失数据：
- None
- np.nan(NaN)

## 1. None

None是Python自带的，其类型为python object。因此，None不能参与到任何计算中。

In [2]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame

In [3]:
n1 = np.array([1,2,None])
n2 = np.array([1,2,np.nan])

In [4]:
n1.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

In [5]:
#nan not a number可以进行计算
n2.sum()

nan

In [6]:
df = DataFrame({'Python':[88,104,113],'数学':[118,132,119]},
               columns = ['Python','数学','英语'])
df['英语'] = [80,None,90]
df

Unnamed: 0,Python,数学,英语
0,88,118,80.0
1,104,132,
2,113,119,90.0


In [7]:
df.mean(axis = 0)

Python    101.666667
数学        123.000000
英语         85.000000
dtype: float64

object类型的运算要比int类型的运算慢得多  
计算不同数据类型求和时间  
%timeit np.arange(1e5,dtype=xxx).sum()

In [8]:
%timeit np.arange(1e5,dtype=int).sum()

75.7 µs ± 489 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [9]:
%timeit np.arange(1e5,dtype=float).sum()

79.1 µs ± 615 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [10]:
%timeit np.arange(1e5,dtype=object).sum()

4.28 ms ± 32.3 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


## 2. np.nan（NaN）

np.nan是浮点类型，能参与到计算中。但计算的结果总是NaN。

但可以使用np.nan*()函数来计算nan，此时视nan为0。

## 3. pandas中的None与NaN

### 1) pandas中None与np.nan都视作np.nan

创建DataFrame

In [12]:
df

Unnamed: 0,Python,数学,英语
0,88,118,80.0
1,104,132,
2,113,119,90.0


使用DataFrame行索引与列索引修改DataFrame数据

### 2) pandas中None与np.nan的操作

- ``isnull()``
- ``notnull()``
- ``dropna()``: 过滤丢失数据
- ``fillna()``: 填充丢失数据

(1)判断函数
- ``isnull()``
- ``notnull()``

In [15]:
df.isnull()

Unnamed: 0,Python,数学,英语
0,False,False,False
1,False,False,True
2,False,False,False


In [22]:
# 以行为单位查询数据
s1 = df.isnull().any(axis=1)

In [24]:
# 有了s1这个数据，获取哪些数据为空 
df[s1]

Unnamed: 0,Python,数学,英语
1,104,132,


In [26]:
# 保留非空的数据  这一行所有数据都不能为空 all
s1 = df.notnull().all(axis=1)
df[s1]

Unnamed: 0,Python,数学,英语
0,88,118,80.0
2,113,119,90.0


(2) 过滤函数
- ``dropna()``

可以选择过滤的是行还是列（默认为行）

In [33]:
df.dropna(axis = 0)

Unnamed: 0,Python,数学,英语
0,88,118,80.0
2,113,119,90.0


也可以选择过滤的方式 how = 'all' 所有都是空都删除，any只要有一个就删除

In [34]:
df.loc[1] = np.nan
df

Unnamed: 0,Python,数学,英语
0,88.0,118.0,80.0
1,,,
2,113.0,119.0,90.0


In [36]:
df.dropna(how = 'all')

Unnamed: 0,Python,数学,英语
0,88.0,118.0,80.0
2,113.0,119.0,90.0


(3) 填充函数 Series/DataFrame
- ``fillna()``

In [35]:
df.fillna(50)

Unnamed: 0,Python,数学,英语
0,88.0,118.0,80.0
1,50.0,50.0,50.0
2,113.0,119.0,90.0


可以选择前向填充还是后向填充

对于DataFrame来说，还要选择填充的轴axis。记住，对于DataFrame来说：

- axis=0：index/行
- axis=1：columns/列

In [36]:
#{'backfill', 'bfill',  后填充   'pad', 'ffill' 前填充
# inplace= True 原来的数据就会发生变化
df.fillna(method='ffill')

Unnamed: 0,Python,数学,英语
0,88.0,118.0,80.0
1,88.0,118.0,80.0
2,113.0,119.0,90.0


============================================

练习7：

1. 简述None与NaN的区别

2. 假设张三李四参加模拟考试，但张三因为突然想明白人生放弃了英语考试，因此记为None，请据此创建一个DataFrame,命名为ddd3

3. 老师决定根据用数学的分数填充张三的英语成绩，如何实现？
    用李四的英语成绩填充张三的英语成绩？

============================================