# 处理丢失数据

In [2]:
import numpy as np
import pandas as pd

有两种丢失数据：
- None
- np.nan(NaN)

In [None]:
None
np.nan

## 1. None

None是Python自带的，其类型为python object。因此，None不能参与到任何计算中。

In [1]:
type(None)

NoneType

In [3]:
n = np.array([1,2,3, None])
n

array([1, 2, 3, None], dtype=object)

In [4]:
n.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

object类型的运算要比int类型的运算慢得多  
计算不同数据类型求和时间  
%timeit np.arange(1e5,dtype=xxx).sum()

In [5]:
%timeit np.arange(1e5, dtype='int').sum()

184 µs ± 7.06 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [6]:
%timeit np.arange(1e5, dtype='float').sum()

281 µs ± 43.4 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [7]:
%timeit np.arange(1e5, dtype='object').sum()

10.8 ms ± 1.61 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


## 2. np.nan（NaN）

np.nan是浮点类型，能参与到计算中。但计算的结果总是NaN。

In [8]:
type(np.nan)

float

In [9]:
n = np.array([1,2,3,np.nan])
n.sum()

nan

In [10]:
n.mean()

nan

但可以使用np.nan*()函数来计算nan，此时视nan为0。

In [None]:
n.nansum() # 对象没有nansum

In [11]:
np.nansum(n) # 会把np.nan当成0

6.0

## 3. pandas中的None与NaN

### 1) pandas中None与np.nan都视作np.nan

In [12]:
from pandas import Series, DataFrame

In [13]:
s = Series(data=[1,2,3,4,None, np.nan])
s

0    1.0
1    2.0
2    3.0
3    4.0
4    NaN
5    NaN
dtype: float64

创建DataFrame

使用DataFrame行索引与列索引修改DataFrame数据

### 2) pandas中None与np.nan的操作

- ``isnull()``
- ``notnull()``
- ``dropna()``: 过滤丢失数据
- ``fillna()``: 填充丢失数据

(1)判断函数
- ``isnull()``
- ``notnull()``

In [None]:
pd.isnull() ,pd.notnull() ,

In [14]:
s.isnull()

0    False
1    False
2    False
3    False
4     True
5     True
dtype: bool

In [15]:
s.notnull()

0     True
1     True
2     True
3     True
4    False
5    False
dtype: bool

In [16]:
pd.isnull(s)

0    False
1    False
2    False
3    False
4     True
5     True
dtype: bool

In [17]:
pd.notnull(s)

0     True
1     True
2     True
3     True
4    False
5    False
dtype: bool

In [39]:
index = ['张三', '李四', '田七', '孙八']
columns = ['Chinese', 'Math', 'English', 'python']
data = np.random.randint(0,150, size=(4,4))
df = DataFrame(index=index, columns=columns, data=data)
df

Unnamed: 0,Chinese,Math,English,python
张三,116,122,55,120
李四,80,29,50,114
田七,16,9,128,98
孙八,61,125,5,137


In [40]:
df.iloc[0,0] = None
df.iloc[0,1] = np.nan
df

Unnamed: 0,Chinese,Math,English,python
张三,,,55,120
李四,80.0,29.0,50,114
田七,16.0,9.0,128,98
孙八,61.0,125.0,5,137


In [20]:
pd.isnull(df)

Unnamed: 0,Chinese,Math,English,python
张三,True,True,False,False
李四,False,False,False,False
田七,False,False,False,False
孙八,False,False,False,False


In [21]:
pd.notnull(df)

Unnamed: 0,Chinese,Math,English,python
张三,False,False,True,True
李四,True,True,True,True
田七,True,True,True,True
孙八,True,True,True,True


In [22]:
df.isnull()

Unnamed: 0,Chinese,Math,English,python
张三,True,True,False,False
李四,False,False,False,False
田七,False,False,False,False
孙八,False,False,False,False


In [None]:
any , all

In [25]:
# python中任何非空的元素都是True, 0, '', [], (), {} 
np.any([0,0,0, 0]) # 有任何True,就返回True

False

In [27]:
np.all([1,2,3,1]) # 所有的都是True,才返回True.

True

In [28]:
df

Unnamed: 0,Chinese,Math,English,python
张三,,,83,66
李四,47.0,111.0,73,95
田七,130.0,96.0,27,73
孙八,144.0,96.0,65,111


In [30]:
df.isnull().any() # axis=0

Chinese     True
Math        True
English    False
python     False
dtype: bool

In [31]:
df.isnull().any(axis=1) # axis表示 对每一行进行判断.

张三     True
李四    False
田七    False
孙八    False
dtype: bool

In [33]:
df

Unnamed: 0,Chinese,Math,English,python
张三,,,83,66
李四,47.0,111.0,73,95
田七,130.0,96.0,27,73
孙八,144.0,96.0,65,111


In [35]:
df.drop(labels='Chinese', axis=1, inplace=True)

In [36]:
df

Unnamed: 0,Math,English,python
张三,,83,66
李四,111.0,73,95
田七,96.0,27,73
孙八,96.0,65,111


In [38]:
df.drop(columns=['Math', 'English'])

Unnamed: 0,python
张三,66
李四,95
田七,73
孙八,111


(2) 过滤函数
- ``dropna()``

In [32]:
df

Unnamed: 0,Chinese,Math,English,python
张三,,,83,66
李四,47.0,111.0,73,95
田七,130.0,96.0,27,73
孙八,144.0,96.0,65,111


可以选择过滤的是行还是列（默认为行）

In [41]:
df.dropna(axis=0) # aixs=0 默认删行

Unnamed: 0,Chinese,Math,English,python
李四,80.0,29.0,50,114
田七,16.0,9.0,128,98
孙八,61.0,125.0,5,137


In [42]:
df.dropna(how='all')

Unnamed: 0,Chinese,Math,English,python
张三,,,55,120
李四,80.0,29.0,50,114
田七,16.0,9.0,128,98
孙八,61.0,125.0,5,137


In [43]:
df.dropna(axis=1)

Unnamed: 0,English,python
张三,55,120
李四,50,114
田七,128,98
孙八,5,137


也可以选择过滤的方式 how = 'all'

(3) 填充函数 Series/DataFrame
- ``fillna()``

In [45]:
df.fillna(value=100)

Unnamed: 0,Chinese,Math,English,python
张三,100.0,100.0,55,120
李四,80.0,29.0,50,114
田七,16.0,9.0,128,98
孙八,61.0,125.0,5,137


In [46]:
df

Unnamed: 0,Chinese,Math,English,python
张三,,,55,120
李四,80.0,29.0,50,114
田七,16.0,9.0,128,98
孙八,61.0,125.0,5,137


In [47]:
df.fillna(axis=0, method='bfill')

Unnamed: 0,Chinese,Math,English,python
张三,80.0,29.0,55,120
李四,80.0,29.0,50,114
田七,16.0,9.0,128,98
孙八,61.0,125.0,5,137


In [49]:
df.fillna(axis=1, method='bfill')

Unnamed: 0,Chinese,Math,English,python
张三,55.0,55.0,55.0,120.0
李四,80.0,29.0,50.0,114.0
田七,16.0,9.0,128.0,98.0
孙八,61.0,125.0,5.0,137.0


In [50]:
df.fillna(axis=1, method='bfill',  limit=1)

Unnamed: 0,Chinese,Math,English,python
张三,,55.0,55.0,120.0
李四,80.0,29.0,50.0,114.0
田七,16.0,9.0,128.0,98.0
孙八,61.0,125.0,5.0,137.0


可以选择前向填充还是后向填充

对于DataFrame来说，还要选择填充的轴axis。记住，对于DataFrame来说：

- axis=0：index/行
- axis=1：columns/列

============================================

练习7：

1. 简述None与NaN的区别

2. 假设张三李四参加模拟考试，但张三因为突然想明白人生放弃了英语考试，因此记为None，请据此创建一个DataFrame,命名为ddd3

3. 老师决定根据用数学的分数填充张三的英语成绩，如何实现？
    用李四的英语成绩填充张三的英语成绩？

============================================

In [None]:
1, None是Python的对象,不能参与运算.
2, np.nan是浮点数,可以参与 运算,结果总是NaN, 使用np.nan*可以算出正常 结果.
3, pandas中None和np.nan都被当成np.nan

In [51]:
df

Unnamed: 0,Chinese,Math,English,python
张三,,,55,120
李四,80.0,29.0,50,114
田七,16.0,9.0,128,98
孙八,61.0,125.0,5,137


In [52]:
df.iloc[0,2] = None
df

Unnamed: 0,Chinese,Math,English,python
张三,,,,120
李四,80.0,29.0,50.0,114
田七,16.0,9.0,128.0,98
孙八,61.0,125.0,5.0,137


In [53]:
df.fillna(method='bfill', axis=1)

Unnamed: 0,Chinese,Math,English,python
张三,120.0,120.0,120.0,120.0
李四,80.0,29.0,50.0,114.0
田七,16.0,9.0,128.0,98.0
孙八,61.0,125.0,5.0,137.0


In [54]:
df.fillna(method='bfill', axis=0)

Unnamed: 0,Chinese,Math,English,python
张三,80.0,29.0,50.0,120
李四,80.0,29.0,50.0,114
田七,16.0,9.0,128.0,98
孙八,61.0,125.0,5.0,137
