In [1]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame

# 处理丢失数据

有两种丢失数据  
* None  
* np.nan(NaN)

## 1. None  
None是Python自带的，其类型为python object，因此，None不能参与到任何计算中

In [2]:
type(None)

NoneType

In [3]:
n = np.array([1,3,5,None])
n

array([1, 3, 5, None], dtype=object)

In [4]:
n.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

object类型的运算时间比int类型的运算慢得多  
计算不同类型求和时间  
%timeit np.arange(1e5,dtype=xxx).sum()

In [5]:
%timeit np.arange(1e5,dtype=np.int8).sum()

150 µs ± 3.24 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [6]:
%timeit np.arange(1e5,dtype=np.int64).sum()

79.1 µs ± 2.9 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [7]:
%timeit np.arange(1e5,dtype=np.object).sum()

4.8 ms ± 29.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


## 2.np.nan(NaN)
np.nan是浮点类型，能参与到计算中，但计算结果总是NaN

In [8]:
type(np.nan)

float

In [9]:
n = np.array([1,2,3,np.nan])
n

array([ 1.,  2.,  3., nan])

In [None]:
n.sum() # n中含有np.nan,可以计算，但总为NaN

但可以使用np.nan*()来计算nan，此时nan为0

In [10]:
np.nansum(n)

6.0

## 3.pandas中的None与NaN  
### 1）pandas中的None与np.nan都视为np.nan
  
创建DataFrame  
  
使用DataFrame行索引与列索引修改DataFrame数据

In [11]:
data = np.random.randint(1,150,size=(4,4))
index = ['张三','李四','王五','赵六']
columns = ['语文','数学','英语','体育']
df = DataFrame(data,index,columns)
df

Unnamed: 0,语文,数学,英语,体育
张三,7,135,128,88
李四,138,113,35,99
王五,119,123,146,50
赵六,115,118,60,119


In [12]:
df1 = df.copy()
df1

Unnamed: 0,语文,数学,英语,体育
张三,7,135,128,88
李四,138,113,35,99
王五,119,123,146,50
赵六,115,118,60,119


**修改数据为NaN，则数据所在那一列都会转换成float类型**

In [13]:
df.loc['李四','体育'] = None
df.loc['张三','数学'] = np.nan
df

Unnamed: 0,语文,数学,英语,体育
张三,7,,128,88.0
李四,138,113.0,35,
王五,119,123.0,146,50.0
赵六,115,118.0,60,119.0


### 2）pandas中的None与np.nan的操作  
+ isnull()  
+ notnull()
+ dropna()：过滤丢失数据
+ fillna()：填充丢失数据

（1）判断函数  
+ isnull()
+ notnull()

In [14]:
pd.isnull(df)

Unnamed: 0,语文,数学,英语,体育
张三,False,True,False,False
李四,False,False,False,True
王五,False,False,False,False
赵六,False,False,False,False


In [15]:
df.isnull()

Unnamed: 0,语文,数学,英语,体育
张三,False,True,False,False
李四,False,False,False,True
王五,False,False,False,False
赵六,False,False,False,False


In [16]:
df.notnull()

Unnamed: 0,语文,数学,英语,体育
张三,True,False,True,True
李四,True,True,True,False
王五,True,True,True,True
赵六,True,True,True,True


In [17]:
# 和any()结合使用，判断行或列是否存在NaN数据
# 默认axis=0，判断每一列是否有NaN数据
df.isnull().any()

语文    False
数学     True
英语    False
体育     True
dtype: bool

In [18]:
# axis=1,判断每一行是否有NaN数据
df.isnull().any(axis=1)

张三     True
李四     True
王五    False
赵六    False
dtype: bool

(2)过滤函数  
+ dropna()

In [19]:
df

Unnamed: 0,语文,数学,英语,体育
张三,7,,128,88.0
李四,138,113.0,35,
王五,119,123.0,146,50.0
赵六,115,118.0,60,119.0


In [20]:
# 默认axis=0，删除行
# 默认how='any',表示只要有NaN就删除
# 默认inplace=False，表示返回一个新的DataFrame，不会改变原来的DataFrame
df.dropna()

Unnamed: 0,语文,数学,英语,体育
王五,119,123.0,146,50.0
赵六,115,118.0,60,119.0


In [21]:
# axis=1，删除列
# how='all',表示全为NaN则删除
df.dropna(axis=1,how='all')

Unnamed: 0,语文,数学,英语,体育
张三,7,,128,88.0
李四,138,113.0,35,
王五,119,123.0,146,50.0
赵六,115,118.0,60,119.0


In [22]:
df

Unnamed: 0,语文,数学,英语,体育
张三,7,,128,88.0
李四,138,113.0,35,
王五,119,123.0,146,50.0
赵六,115,118.0,60,119.0


In [23]:
# inplace=True，无返回值，直接改变原来的DataFrame
df.dropna(axis=1,inplace=True)

In [24]:
df

Unnamed: 0,语文,英语
张三,7,128
李四,138,35
王五,119,146
赵六,115,60


In [25]:
df1

Unnamed: 0,语文,数学,英语,体育
张三,7,135,128,88
李四,138,113,35,99
王五,119,123,146,50
赵六,115,118,60,119


In [26]:
# axis=0，表示只操作subset列表当中的列索引
df1.dropna(subset=['语文','数学'])

Unnamed: 0,语文,数学,英语,体育
张三,7,135,128,88
李四,138,113,35,99
王五,119,123,146,50
赵六,115,118,60,119


In [27]:
# axis=1，表示只操作subset列表当中的行索引
df1.dropna(axis=1,subset=['张三','赵六'])

Unnamed: 0,语文,数学,英语,体育
张三,7,135,128,88
李四,138,113,35,99
王五,119,123,146,50
赵六,115,118,60,119


(3)填充函数，填充Series和DataFrame  
+ df.fillna()

In [28]:
# value 用指定值填充
df1.fillna(value=0)

Unnamed: 0,语文,数学,英语,体育
张三,7,135,128,88
李四,138,113,35,99
王五,119,123,146,50
赵六,115,118,60,119


In [36]:
df1.loc['张三','语文'] = None
df1.loc['张三','体育'] = None
df1.loc['王五','英语'] = None
df1.loc['赵六','数学'] = None

In [39]:
# 使用已有值来填充
# method = backfill', 'bfill',axis=0都是向上 ,axis=1都是向左
display(df1,df1.fillna(axis=0,method='backfill'),df1.fillna(axis=1,method='backfill')) # 表示向后（右）填充，但是axis要为1，默认为None

Unnamed: 0,语文,数学,英语,体育
张三,,135.0,128.0,
李四,138.0,113.0,35.0,99.0
王五,119.0,123.0,,50.0
赵六,115.0,,60.0,119.0


Unnamed: 0,语文,数学,英语,体育
张三,138.0,135.0,128.0,99.0
李四,138.0,113.0,35.0,99.0
王五,119.0,123.0,60.0,50.0
赵六,115.0,,60.0,119.0


Unnamed: 0,语文,数学,英语,体育
张三,135.0,135.0,128.0,
李四,138.0,113.0,35.0,99.0
王五,119.0,123.0,50.0,50.0
赵六,115.0,60.0,60.0,119.0


In [40]:
# method = backfill', 'bfill',axis=0都是向上 ,axis=1都是向左
display(df1,df1.fillna(axis=0,method='bfill'),df1.fillna(axis=1,method='bfill'))

Unnamed: 0,语文,数学,英语,体育
张三,,135.0,128.0,
李四,138.0,113.0,35.0,99.0
王五,119.0,123.0,,50.0
赵六,115.0,,60.0,119.0


Unnamed: 0,语文,数学,英语,体育
张三,138.0,135.0,128.0,99.0
李四,138.0,113.0,35.0,99.0
王五,119.0,123.0,60.0,50.0
赵六,115.0,,60.0,119.0


Unnamed: 0,语文,数学,英语,体育
张三,135.0,135.0,128.0,
李四,138.0,113.0,35.0,99.0
王五,119.0,123.0,50.0,50.0
赵六,115.0,60.0,60.0,119.0


In [41]:
# method = 'pad', 'ffill，axis=0向下填充,asix=1向右填充
display(df1,df1.fillna(axis=0,method='ffill'),df1.fillna(axis=0,method='pad'))

Unnamed: 0,语文,数学,英语,体育
张三,,135.0,128.0,
李四,138.0,113.0,35.0,99.0
王五,119.0,123.0,,50.0
赵六,115.0,,60.0,119.0


Unnamed: 0,语文,数学,英语,体育
张三,,135.0,128.0,
李四,138.0,113.0,35.0,99.0
王五,119.0,123.0,35.0,50.0
赵六,115.0,123.0,60.0,119.0


Unnamed: 0,语文,数学,英语,体育
张三,,135.0,128.0,
李四,138.0,113.0,35.0,99.0
王五,119.0,123.0,35.0,50.0
赵六,115.0,123.0,60.0,119.0


In [42]:
# method = 'pad', 'ffill，axis=0向下填充,asix=1向右填充
display(df1,df1.fillna(axis=1,method='ffill'),df1.fillna(axis=1,method='pad'))

Unnamed: 0,语文,数学,英语,体育
张三,,135.0,128.0,
李四,138.0,113.0,35.0,99.0
王五,119.0,123.0,,50.0
赵六,115.0,,60.0,119.0


Unnamed: 0,语文,数学,英语,体育
张三,,135.0,128.0,128.0
李四,138.0,113.0,35.0,99.0
王五,119.0,123.0,123.0,50.0
赵六,115.0,115.0,60.0,119.0


Unnamed: 0,语文,数学,英语,体育
张三,,135.0,128.0,128.0
李四,138.0,113.0,35.0,99.0
王五,119.0,123.0,123.0,50.0
赵六,115.0,115.0,60.0,119.0


In [50]:
# axis=0,method='ffill' 向下填充,limit=1表示填充一次
display(df1,df1.fillna(axis=0,method='ffill',limit=1))

Unnamed: 0,语文,数学,英语,体育
张三,,135.0,128.0,
李四,138.0,113.0,35.0,99.0
王五,119.0,123.0,,50.0
赵六,115.0,,60.0,119.0


Unnamed: 0,语文,数学,英语,体育
张三,,135.0,128.0,
李四,138.0,113.0,35.0,99.0
王五,119.0,123.0,35.0,50.0
赵六,115.0,123.0,60.0,119.0


练习7：  
1.简述None和NaN的区别  
2.假设张三李四参加模拟考试，但张三突然想明白人生放弃了英语考试，因此记为None，请据此创建一个DataFrame命名为ddd3  
3.老师决定根据数学的分数填补张三的英语成绩，如何实现？用李四的英语成绩填充张三的英语成绩？  

1.None是python的object，不能参与计算，NaN是float类型，可以参与计算，但结果总为NaN，可以使用np.nan*来计算正确的值，在pandas中，None和np.nan都被当成np.nan来处理

In [48]:
data = np.random.randint(1,150,size=(4,4))
index = ['张三','李四','王五','赵六']
columns = ['语文','数学','英语','体育']
df = DataFrame(data,index,columns)
df

Unnamed: 0,语文,数学,英语,体育
张三,62,30,58,64
李四,49,77,94,90
王五,40,114,75,69
赵六,43,103,51,128


In [49]:
# 2.
df.loc['张三','英语'] = np.nan
df

Unnamed: 0,语文,数学,英语,体育
张三,62,30,,64
李四,49,77,94.0,90
王五,40,114,75.0,69
赵六,43,103,51.0,128


In [52]:
# 3.用数学成绩填充英语
df.fillna(axis=1,method='pad')

Unnamed: 0,语文,数学,英语,体育
张三,62.0,30.0,30.0,64.0
李四,49.0,77.0,94.0,90.0
王五,40.0,114.0,75.0,69.0
赵六,43.0,103.0,51.0,128.0


In [53]:
# 3.用李四的英语成绩填充张三的英语成绩
df.fillna(axis=0,method='bfill')

Unnamed: 0,语文,数学,英语,体育
张三,62,30,94.0,64
李四,49,77,94.0,90
王五,40,114,75.0,69
赵六,43,103,51.0,128
