# 处理丢失数据

有两种丢失数据：
  - None
  - np.nan(NaN)
 

In [2]:
import pandas as pd
import numpy as np
from pandas import Series,DataFrame

In [1]:
type(None)

NoneType

In [4]:
# NaN不能参与运算，不是一个数值，只是一个展示符号
# 表达一个空值，是要用np.nan
np.nan

nan

In [5]:
#任何数与np.nan运算的结果都为nan
type(np.nan)

float

## 1.None

  - None是Python自带的，其类型为Python object。因此，None不能参与到任何计算中。  
  - object类型的运算要比int类型的运算慢很多。
 

In [6]:
%timeit np.arange(1e5,dtype = object).sum()

3.86 ms ± 37.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [7]:
%timeit np.arange(1e5,dtype = float).sum()

82.3 µs ± 365 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


## 2.np.nan（NaN）

  - np.nan是浮点类型，能参与到计算中，但计算的结果总是NaN。  
  - 可使用np.nan*()函数计算nan，此时视nan为0。
 

## 3.Pandas中的None与np.nan


  ### 1）pandas中的None与np.nan
  
  - 创建DataFrame
  - 使用DataFrame行索引与列索引修改DataFrame的值。

In [8]:
s = Series(np.random.randint(0,10,size=5))
s

0    3
1    5
2    4
3    8
4    2
dtype: int32

In [9]:
# pandas会把None自动优化成np.nan
# df.dtypes 查看DataFrame的每一列的数据结构元素类型
s.loc[1]=None
s

0    3.0
1    NaN
2    4.0
3    8.0
4    2.0
dtype: float64

## 2）pandas中None与np.nan的操作
  - isnull() 查看空值，"df.isnull().any()"可查看空值存在的列。  
  - notnull()
  - dropna() 过滤丢失数据
  - fillna() 填充丢失数据

In [11]:
columns = ['语文','数学','英语']
index = ['张三','李四']
data = np.random.randint(0,150,size=(2,3))
df_1 = DataFrame(data,index=index,columns=columns)
df_1

Unnamed: 0,语文,数学,英语
张三,24,19,119
李四,113,3,141


In [12]:
df_1.loc['张三','数学']=np.nan
df_1

Unnamed: 0,语文,数学,英语
张三,24,,119
李四,113,3.0,141


In [14]:
#从左向右“行填充”
df_1.fillna(method='ffill',axis=1)

Unnamed: 0,语文,数学,英语
张三,24.0,24.0,119.0
李四,113.0,3.0,141.0


In [15]:
#从下向上“列填充”
df_1.fillna(method='bfill',axis=0)

Unnamed: 0,语文,数学,英语
张三,24,3.0,119
李四,113,3.0,141
