# 4.缺失值处理 (missing data)                             


#### 笨办法学 Python 数据分析  / learn data analysis the hard way
- @Author：知行并重


## Skill List
- Q046: 查看数据表某列的缺失值数量
- Q047: 查看数据表中缺失值数量
- Q048: 查看数据表中非缺失值数量
- Q049: 绘图展示数据整体缺失情况分布
- Q050: 删除数据中含有缺失值的列
- Q051: 删除数据中含有缺失值的行
- Q052: 根据缺失值数量删除缺失值(行)的数据
- Q053: 用特定值填充数据中的缺失值
- Q054: 对连续数据列用均值等统计值填充数据中的缺失值
- Q055: 用前一个值填补数据中缺失值
- Q056: 对离散型数据列用众数填充数据中的缺失值

## 目录
1. 查看缺失值： 统计缺失值数，分布
2. 数据缺失原因分析
3. 缺失值处理：
    + 缺失值删除（按行，按列[某几列]）
    + 缺失值填充 
        - **常规做法**：
            - 非时序数据：基于统计方法：众数、中位数、均值
            - 时序数据:前向、后向、插值填充等
        - **进阶做法**：基于模型方法，如KNN、随机森林等等

## 导入必要的库

In [None]:
import pandas as pd #数据分析
import numpy as np #科学计算

data = pd.read_csv("../input/titanic.csv")

data.head()

# 一、查看缺失值

### 1.1. 查看缺失值数量


### 1.2. 查看非缺失值数量

### 1.3 数据整体缺失值分布

上面的方法是孤立的去看每个字段的缺失情况。这是片面的。通常不同字段之间缺失是相关的，因此需要对数据表的整体缺失情况有一定的认识。

In [None]:
# 安装必要的包 
# !pip install missingno
import missingno as msno

更多资料参考如下：
- [A Guide to Handling Missing values in Python](https://www.kaggle.com/parulpandey/a-guide-to-handling-missing-values-in-python)
- [ResidentMario/missingno](https://github.com/ResidentMario/missingno#matrix)
- [缺失值可视化处理--missingno](https://blog.csdn.net/Andy_shenzl/article/details/81633356)

# 二、数据缺失原因分析

对于缺失值的处理通常按照下面的逻辑进行。
1. 首先明确缺失值的缺失的原因。
    - 数据采集逻辑导致（比如某渠道进来的客户，不需要填写收入，导致收入缺失）
    - 是不是随机因素导致


# 三、缺失值处理

基于不同的原因，采取不同的处理方式。

![缺失值](../pics/missing_data.png)
该图取自参考资料1

## 3.1 缺失值删除

### 3.1.1 删除含有缺失值的Cabin列 
运用 drop方法

### 3.1.2. 删除缺失值行 Cabin 缺失的行


### 3.1.3. 删除超过三个缺失的样本(行)数据 
['Cabin','Age','Embarked']

## 3.2 缺失值替换
**<font color=blue>缺失值替换  fillna</font>**<br>

* [Pandas参考文档](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html?highlight=fillna#pandas.DataFrame.fillna)

In [None]:
data['Age'].sum() #求和
data['Age'].mean() #均值
data['Age'].median() #中位数
data['Age'].mode() #众数
data['Age'].var() #方差
data['Age'].std() #标准差
data['Age'].mad() #平均绝对偏差
data['Age'].skew() #偏度
data['Age'].kurt() #峰度
data['Age'].count() #非空元素计算
data['Age'].min() #最小值
data['Age'].max() #最大值
data['Age'].idxmin() #最小值的位置，类似于R中的which.min函数
data['Age'].idxmax() #最大值的位置，类似于R中的which.max函数
data['Age'].quantile(0.1) #10%分位数
data['Age'].describe() #一次性输出多个描述性统计指标

### 3.2.1 用均值替换Fare缺失值

### 3.2.2  用特定值替换Age缺失值

### 3.2.3  用replace 标记Age 缺失值为 -1

### 3.2.3 用前一个值值替换Age缺失值

### 3.2.4 用replace 对Age 特定值进行替换(基于列表 和 字典)
0.42: 0 ;-1000: np.nan 

### 3.2.5 基于连续变量的统计分布填充  
随机random.randint() 抽取 
[#在正负标准差之间选取]

### 3.2.6 离散型变量Embarked-用众数填充  mode()   
中位数median()  -->数值型

#### Embarked

# 谢谢观看
Github 代码：https://github.com/kevin-meng/learn-data-analysis-the-hard-way

![](../pics/thankyou.png)
