In [1]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame

# 处理丢失数据

有两种丢失数据  
* None  
* np.nan(NaN)

## 1. None  
None是Python自带的，其类型为python object，因此，None不能参与到任何计算中

In [6]:
type(None)

NoneType

In [7]:
n = np.array([1,3,5,None])
n

array([1, 3, 5, None], dtype=object)

In [10]:
n.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

object类型的运算时间比int类型的运算慢得多  
计算不同类型求和时间  
%timeit np.arange(1e5,dtype=xxx).sum()

In [14]:
%timeit np.arange(1e5,dtype=np.int8).sum()

113 µs ± 2.38 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [16]:
%timeit np.arange(1e5,dtype=np.int64).sum()

67.9 µs ± 1.41 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [17]:
%timeit np.arange(1e5,dtype=np.object).sum()

3.51 ms ± 23.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


## 2.np.nan(NaN)
np.nan是浮点类型，能参与到计算中，但计算结果总是NaN

In [21]:
type(np.nan)

float

In [26]:
n = np.array([1,2,3,np.nan])
n

array([ 1.,  2.,  3., nan])

In [29]:
n.sum() # n中含有np.nan,可以计算，但总为NaN

nan

但可以使用np.nan*()来计算nan，此时nan为0

In [30]:
np.nansum(n)

6.0

## 3.pandas中的None与NaN  
### 1）pandas中的None与np.nan都视为np.nan
  
创建DataFrame  
  
使用DataFrame行索引与列索引修改DataFrame数据

In [59]:
data = np.random.randint(1,150,size=(4,4))
index = ['张三','李四','王五','赵六']
columns = ['语文','数学','英语','体育']
df = DataFrame(data,index,columns)
df

Unnamed: 0,语文,数学,英语,体育
张三,127,44,11,45
李四,99,84,63,147
王五,10,69,54,22
赵六,132,31,73,25


In [61]:
df1 = df.copy()
df1

Unnamed: 0,语文,数学,英语,体育
张三,127,,11,45.0
李四,99,84.0,63,
王五,10,69.0,54,22.0
赵六,132,31.0,73,25.0


**修改数据为NaN，则数据所在那一列都会转换成float类型**

In [60]:
df.loc['李四','体育'] = None
df.loc['张三','数学'] = np.nan
df

Unnamed: 0,语文,数学,英语,体育
张三,127,,11,45.0
李四,99,84.0,63,
王五,10,69.0,54,22.0
赵六,132,31.0,73,25.0


### 2）pandas中的None与np.nan的操作  
+ isnull()  
+ notnull()
+ dropna()：过滤丢失数据
+ fillna()：填充丢失数据

（1）判断函数  
+ isnull()
+ notnull()

In [34]:
pd.isnull(df)

Unnamed: 0,语文,数学,英语,体育
张三,False,True,False,False
李四,False,False,False,True
王五,False,False,False,False
赵六,False,False,False,False


In [35]:
df.isnull()

Unnamed: 0,语文,数学,英语,体育
张三,False,True,False,False
李四,False,False,False,True
王五,False,False,False,False
赵六,False,False,False,False


In [36]:
df.notnull()

Unnamed: 0,语文,数学,英语,体育
张三,True,False,True,True
李四,True,True,True,False
王五,True,True,True,True
赵六,True,True,True,True


In [39]:
# 和any()结合使用，判断行或列是否存在NaN数据
# 默认axis=0，判断每一列是否有NaN数据
df.isnull().any()

语文    False
数学     True
英语    False
体育     True
dtype: bool

In [41]:
# axis=1,判断每一行是否有NaN数据
df.isnull().any(axis=1)

张三     True
李四     True
王五    False
赵六    False
dtype: bool

(2)过滤函数  
+ dropna()

In [42]:
df

Unnamed: 0,语文,数学,英语,体育
张三,92,,137,80.0
李四,41,6.0,137,
王五,22,104.0,43,100.0
赵六,21,114.0,5,16.0


In [46]:
# 默认axis=0，删除行
# 默认how='any',表示只要有NaN就删除
# 默认inplace=False，表示返回一个新的DataFrame，不会改变原来的DataFrame
df.dropna()

Unnamed: 0,语文,数学,英语,体育
王五,22,104.0,43,100.0
赵六,21,114.0,5,16.0


In [51]:
# axis=1，删除列
# how='all',表示全为NaN则删除
df.dropna(axis=1,how='all')

In [53]:
df

Unnamed: 0,语文,数学,英语,体育
张三,92,,137,80.0
李四,41,6.0,137,
王五,22,104.0,43,100.0
赵六,21,114.0,5,16.0


In [62]:
# inplace=True，无返回值，直接改变原来的DataFrame
df.dropna(axis=1,inplace=True)

In [63]:
df

Unnamed: 0,语文,英语
张三,127,11
李四,99,63
王五,10,54
赵六,132,73


In [65]:
df1

Unnamed: 0,语文,数学,英语,体育
张三,127,,11,45.0
李四,99,84.0,63,
王五,10,69.0,54,22.0
赵六,132,31.0,73,25.0


In [67]:
# axis=0，表示只操作subset列表当中的列索引
df1.dropna(subset=['语文','数学'])

Unnamed: 0,语文,数学,英语,体育
李四,99,84.0,63,
王五,10,69.0,54,22.0
赵六,132,31.0,73,25.0


In [70]:
# axis=1，表示只操作subset列表当中的行索引
df1.dropna(axis=1,subset=['张三','赵六'])

Unnamed: 0,语文,英语,体育
张三,127,11,45.0
李四,99,63,
王五,10,54,22.0
赵六,132,73,25.0


(3)填充函数，填充Series和DataFrame  
+ df.fillna()

In [80]:
# value 用指定值填充
df1.fillna(value=0)

Unnamed: 0,语文,数学,英语,体育
张三,127,0.0,11,45.0
李四,99,84.0,63,0.0
王五,10,69.0,54,22.0
赵六,132,31.0,73,25.0


In [87]:
# 使用已有值来填充
# method = backfill', 'bfill',都是向后 
# method = 'pad', 'ffill，
df1.fillna(axis=1,method='backfill') # 表示向后（右）填充，但是axis要为1，默认为None

Unnamed: 0,语文,数学,英语,体育
张三,127.0,11.0,11.0,45.0
李四,99.0,84.0,63.0,
王五,10.0,69.0,54.0,22.0
赵六,132.0,31.0,73.0,25.0


In [91]:
df1.fillna(axis=0,method='bfill') # 表示向下填充，但是axis要为0

Unnamed: 0,语文,数学,英语,体育
张三,127,84.0,11,45.0
李四,99,84.0,63,22.0
王五,10,69.0,54,22.0
赵六,132,31.0,73,25.0


In [84]:
df1.fillna(method='ffill') # 表示向上填充

Unnamed: 0,语文,数学,英语,体育
张三,127,,11,45.0
李四,99,84.0,63,45.0
王五,10,69.0,54,22.0
赵六,132,31.0,73,25.0


In [85]:
df1.fillna(method='pad') # 表示向下填充

Unnamed: 0,语文,数学,英语,体育
张三,127,,11,45.0
李四,99,84.0,63,45.0
王五,10,69.0,54,22.0
赵六,132,31.0,73,25.0
