In [19]:
import numpy as np
from pandas import DataFrame, Series

# 处理丢失数据

有两种丢失数据：
- None
- np.nan(NaN)

## 1. None

None是Python自带的，其类型为python object。因此，None不能参与到任何计算中。

In [2]:
type(None) # 是一种叫做NoneType的object对象

NoneType

In [8]:
np.array([1, 2, 3, None]).sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

In [14]:
np.nansum(np.array([1, 2, 3, np.nan]))

6.0

object类型的运算要比int类型的运算慢得多  
计算不同数据类型求和时间  
%timeit np.arange(1e5,dtype=xxx).sum()

In [5]:
%timeit np.arange(1e5, dtype='int').sum()

121 µs ± 5.46 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [15]:
%timeit np.arange(1e5, dtype='float').sum()

115 µs ± 3.51 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [16]:
%timeit np.arange(1e5, dtype='object').sum()

4.99 ms ± 160 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


## 2. np.nan（NaN）

np.nan是浮点类型，能参与到计算中。但计算的结果总是NaN。

但可以使用np.nan*()函数来计算nan，此时视nan为0。

In [6]:
type(np.nan)

float

In [17]:
1 + np.nan

nan

In [21]:
np.nansum(np.array([1, 2, 3, np.nan]))

6.0

## 3. pandas中的None与NaN

### 1) pandas中None与np.nan都视作np.nan

创建DataFrame

使用DataFrame行索引与列索引修改DataFrame数据

In [66]:
index = ['张三', '李四', '王五', '赵六']
columns = ['语文', '数学', '英语', 'Python']
data = np.random.randint(0, 150, size=(4, 4))
df = DataFrame(index=index, columns=columns, data=data)
df

Unnamed: 0,语文,数学,英语,Python
张三,88,78,39,33
李四,145,36,27,89
王五,73,125,22,23
赵六,12,115,67,138


In [67]:
df.loc['张三', '语文'] = np.nan
df.iloc[1,2] = None

In [63]:
df

Unnamed: 0,语文,数学,英语,Python
张三,,73,123.0,82
李四,119.0,61,,149
王五,71.0,8,121.0,61
赵六,61.0,5,96.0,143


### 2) pandas中None与np.nan的操作

In [None]:
# 处理缺失数据的步骤
1.检测缺失数据, 使用isnull().any(axis=0/1)去检测行或者列是否存在缺失数据
2.根据情况, 判断是否可以删除缺失数据, 可以删的话就删掉, 能删则删,dropna(axis=0/1, inplace=False/True)
3.不能删, 找到合适的方法去填充, 基本的原则,要合理. 不能删则填,fillna(value, method, axis, inplace)

- ``isnull()``
- ``notnull()``
- ``dropna()``: 过滤丢失数据
- ``fillna()``: 填充丢失数据

(1)判断函数
- ``isnull()``
- ``notnull()``

In [27]:
# 元素是否是空, 如果是空返回True, 如果不是返回False,
df.isnull()

Unnamed: 0,语文,数学,英语,Python
张三,True,False,False,False
李四,False,False,True,False
王五,False,False,False,False
赵六,False,False,False,False


In [28]:
df.notnull()

Unnamed: 0,语文,数学,英语,Python
张三,False,True,True,True
李四,True,True,False,True
王五,True,True,True,True
赵六,True,True,True,True


In [30]:
import pandas as pd

In [31]:
pd.isnull(df)

Unnamed: 0,语文,数学,英语,Python
张三,True,False,False,False
李四,False,False,True,False
王五,False,False,False,False
赵六,False,False,False,False


In [32]:
pd.notnull(df)

Unnamed: 0,语文,数学,英语,Python
张三,False,True,True,True
李四,True,True,False,True
王五,True,True,True,True
赵六,True,True,True,True


In [33]:
df.isnull()

Unnamed: 0,语文,数学,英语,Python
张三,True,False,False,False
李四,False,False,True,False
王五,False,False,False,False
赵六,False,False,False,False


In [None]:
# 一般isnull/notnull和any,all
# 一般不关心具体哪个元素是否是空, 我们关心哪一行或者哪一列含有缺失数据.
# 查看哪一列有缺失数据
df.isnull().any()

In [36]:
df.isnull().any()

语文         True
数学        False
英语         True
Python    False
dtype: bool

In [29]:
df.isnull().any(axis=0)

语文         True
数学        False
英语         True
Python    False
dtype: bool

In [37]:
# 查看哪一行有缺失数据
df.isnull().any(axis=1)

张三     True
李四     True
王五    False
赵六    False
dtype: bool

(2) 过滤函数
- ``dropna()``

In [None]:
# 一般删除的原则:
1.缺的太多, 可以删掉, 比如缺50%以上
2.缺的数据对我们的数据分析或者数据挖掘没用
df.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

In [39]:
df

Unnamed: 0,语文,数学,英语,Python
张三,,94,86.0,103
李四,18.0,88,,127
王五,35.0,86,108.0,18
赵六,143.0,37,25.0,75


In [40]:
# 默认删除行
df.dropna()

Unnamed: 0,语文,数学,英语,Python
王五,35.0,86,108.0,18
赵六,143.0,37,25.0,75


In [41]:
# 删除列
df.dropna(axis=1)

Unnamed: 0,数学,Python
张三,94,103
李四,88,127
王五,86,18
赵六,37,75


In [68]:
df_copy = df.copy()

In [45]:
df.dropna(inplace=True)

In [46]:
df

Unnamed: 0,语文,数学,英语,Python
王五,35.0,86,108.0,18
赵六,143.0,37,25.0,75


In [77]:
df = df_copy.copy()

In [69]:
df

Unnamed: 0,语文,数学,英语,Python
张三,,78,39.0,33
李四,145.0,36,,89
王五,73.0,125,22.0,23
赵六,12.0,115,67.0,138


In [72]:
df.iloc[0,0:3] = None

In [73]:
df

Unnamed: 0,语文,数学,英语,Python
张三,,,,33
李四,145.0,36.0,,89
王五,73.0,125.0,22.0,23
赵六,12.0,115.0,67.0,138


In [74]:
# how='all'表示都是空才可以删,subset表示在子集中判断
df.dropna(how='all', subset=['语文', '数学', '英语'])

Unnamed: 0,语文,数学,英语,Python
李四,145.0,36.0,,89
王五,73.0,125.0,22.0,23
赵六,12.0,115.0,67.0,138


可以选择过滤的是行还是列（默认为行）

也可以选择过滤的方式 how = 'all'

(3) 填充函数 Series/DataFrame
- ``fillna()``

In [None]:
# 一般有这些填充方式: 可以使用平均数,众数,中位数, 拉格朗日差值法/机器学习算法根据规律去预测填充
# 填充就一个原则, 尽量合理, 尽量真实
# 可以根据相邻数据填充

可以选择前向填充还是后向填充

In [78]:
zhangsan = df.loc['张三'].copy()
zhangsan.fillna(value=df.loc['张三'].mean(), inplace=True)

In [79]:
zhangsan

语文        50.0
数学        78.0
英语        39.0
Python    33.0
Name: 张三, dtype: float64

In [80]:
df.loc['张三'] = zhangsan
df

Unnamed: 0,语文,数学,英语,Python
张三,50.0,78.0,39.0,33.0
李四,145.0,36.0,,89.0
王五,73.0,125.0,22.0,23.0
赵六,12.0,115.0,67.0,138.0


In [83]:
# method : {'backfill' 向后填充, 'bfill'向后填充, 'pad' 向前填充, 'ffill'向前填充, None}
# 方向与axis对应
df.fillna(method='pad', axis=0)

Unnamed: 0,语文,数学,英语,Python
张三,50.0,78.0,39.0,33.0
李四,145.0,36.0,39.0,89.0
王五,73.0,125.0,22.0,23.0
赵六,12.0,115.0,67.0,138.0


In [84]:
df.fillna(method='bfill', axis=0)

Unnamed: 0,语文,数学,英语,Python
张三,50.0,78.0,39.0,33.0
李四,145.0,36.0,22.0,89.0
王五,73.0,125.0,22.0,23.0
赵六,12.0,115.0,67.0,138.0


In [85]:
df.fillna(method='backfill', axis=0)

Unnamed: 0,语文,数学,英语,Python
张三,50.0,78.0,39.0,33.0
李四,145.0,36.0,22.0,89.0
王五,73.0,125.0,22.0,23.0
赵六,12.0,115.0,67.0,138.0


In [86]:
df.fillna(method='ffill', axis=0)

Unnamed: 0,语文,数学,英语,Python
张三,50.0,78.0,39.0,33.0
李四,145.0,36.0,39.0,89.0
王五,73.0,125.0,22.0,23.0
赵六,12.0,115.0,67.0,138.0


对于DataFrame来说，还要选择填充的轴axis。记住，对于DataFrame来说：

- axis=0：index/行
- axis=1：columns/列

============================================

练习7：

1. 简述None与NaN的区别

2. 假设张三李四参加模拟考试，但张三因为突然想明白人生放弃了英语考试，因此记为None，请据此创建一个DataFrame,命名为ddd3

3. 老师决定根据用数学的分数填充张三的英语成绩，如何实现？
    用李四的英语成绩填充张三的英语成绩？

============================================

In [None]:
None是Python对象, 不能参与任何计算
NaN是float型,可以参与计算, 但是结果总是NaN, 可以在聚合的时候 通过np.nan<聚合函数>消除nan的影响
在pandas中None,np.nan都被视为np.nan

In [87]:
df

Unnamed: 0,语文,数学,英语,Python
张三,50.0,78.0,39.0,33.0
李四,145.0,36.0,,89.0
王五,73.0,125.0,22.0,23.0
赵六,12.0,115.0,67.0,138.0


In [92]:
ddd3 = df.copy()

In [91]:
ddd3.loc['张三', '英语'] = None

In [93]:
ddd3

Unnamed: 0,语文,数学,英语,Python
张三,50.0,78.0,,33.0
李四,145.0,36.0,,89.0
王五,73.0,125.0,22.0,23.0
赵六,12.0,115.0,67.0,138.0


In [94]:
ddd3.fillna(method='bfill', axis=1)

Unnamed: 0,语文,数学,英语,Python
张三,50.0,78.0,33.0,33.0
李四,145.0,36.0,89.0,89.0
王五,73.0,125.0,22.0,23.0
赵六,12.0,115.0,67.0,138.0


In [95]:
ddd3.fillna(method='backfill', axis=0)

Unnamed: 0,语文,数学,英语,Python
张三,50.0,78.0,22.0,33.0
李四,145.0,36.0,22.0,89.0
王五,73.0,125.0,22.0,23.0
赵六,12.0,115.0,67.0,138.0
