# 预处理理论



## 1\. 特征工程概述
根据经验（数据）自动化做出决策的过程，机器学习能够根据我们输入的数据改进自己的性能。输入数据，输出我们想要的结果。
数据模型不是由人搭建的，而是由数据构造的。我们通过不同的算法，如决策树、SVM等把数据组织起来，就可以形成数据模型。同样的算法在不同的数据训练后会得到不同的模型，同样的数据经过不同的算法会得到不同的效果。

经验表明，数据集的质和量的大小与数据模型的复杂度是呈负相关关系的。数据集越大、数据质量越好，数据模型的复杂度就越低。有时候数据的质和量差到一定程度，是根本无法建立起能够反映数据关系的模型的。

> 数据和特征决定了机器学习的上限，而模型和算法只是逼近了这个上限而已。

可以提取特征进行使用，特征
比如一个三位数就有相当多特征，比如百、十、个位是不是等差数列、是不是等比数列、是不是相等、是不是和某个节日重合、有几个1等。哪些特征有用取决于我们的模型。
提取特征，需要我们有丰富的生活经验，也要善于观察和总结归纳。

所以，对于特征分析，我们要多看case，特别是结合探索性数据分析的方法，宏观分析每个case，总结，归纳。

特征工程的内涵相当丰富

- 特征使用：关注源数据
    - 数据选择：可用的数据有哪些，如何获取
    - 数据的可用性：数据特征是否可持续输出，更新否？时效性？安全性？成本？
- 特征获取
    - 特征来源
    - 特征的规整与存储：把不同来源的特征整理，储存到同一文件中
- 特征处理：使特征能尽可能大地发挥作用（重点）
    - 数据清洗
    - 特征预处理
- 特征监控：随着时间推移，数据可能积累，模型可能需要调整
    - 现有特征考察
    - 新特征


## 2\. 数据清洗
1. 数据样本抽样
2. 异常值（空值）处理

### 2-1 数据样本抽样 <a name="2-1"></a>
抽样允许我们以较小的失真的代价获得准确的统计结构；也可能因为获取全样本不现实，比如测灯泡的寿命。  
抽样条件满足：  
- 样本要具备代表性
- 样本比例要平衡以及样本不平衡时如何处理
- 尽可能考虑全量数据。如果我们的目的是获取精确的结果，建立精准的模型，那我们应该改善工具，而不是委曲求全使用小样本
### 2-2 异常值（空值）处理
探索性数据分析中，我们的目的主要是观察，重在异常值的分布和数量进行观察和记录，去掉异常值的作用也在于更好地观察正常值的范围。
而我们特征预处理中的异常值处理在于为之后的模型建立打基础，以让模型充分利用，所以这一阶段的异常值处理主要是将异常值进行丢弃或者转换。
虽然二者目的不同，但方法是一致的。

- 识别异常值：
    - 空值、重复值、四分位数上下1.5-3倍边界之外也有可能是异常值，1.5倍认为中度异常，以及业务知识下不允许出现的异常值。
    - 方法：pd.isnull(), pd.duplicated()
- 直接丢弃：
    - 方法：pd.drop(),pd.dropna(), pd.drop_duplicated()
- 代替 如果异常值比较多，可以用一个新值代替异常值，或者把这个属性是否异常当做一个新的属性，代替原值
    - pd.fillna()
- 集中值指代，集中值可以是除异常值外的平均数、中位数、众数等等

- 边界值指代
    - 连续数据中用四分位数指定的上下边界来代替超过上下边界的数
    - pd.fillna()

- 插值
    - 连续数据可以用插值方法填充
    - pd.interpolate()---Series



In [1]:
import numpy as np
import pandas as pd
df = pd.DataFrame({
    "A": ["a0", "a1", "a1", "a2", "a3", "a4"],
    "B": ["b0", "b1", "b2", "b2", "b3", None],
    "C": [1, 2, None, 3, 4, 5],
    "D": [0.1, 10.2, 11.4, 8.9, 9.1, 12],
    "E": [10, 19, 32, 25, 8, None],
    "F": ["f0", "f1", "g2", "f3", "f4", "f5"]
})
df

Unnamed: 0,A,B,C,D,E,F
0,a0,b0,1.0,0.1,10.0,f0
1,a1,b1,2.0,10.2,19.0,f1
2,a1,b2,,11.4,32.0,g2
3,a2,b2,3.0,8.9,25.0,f3
4,a3,b3,4.0,9.1,8.0,f4
5,a4,,5.0,12.0,,f5


注意：对于字符型的空值，显示的是None；数值型的空值，显示的是NaN。两者是有区别的。

In [3]:
df_new = df.copy()
df_new

Unnamed: 0,A,B,C,D,E,F
0,a0,b0,1.0,0.1,10.0,f0
1,a1,b1,2.0,10.2,19.0,f1
2,a1,b2,,11.4,32.0,g2
3,a2,b2,3.0,8.9,25.0,f3
4,a3,b3,4.0,9.1,8.0,f4
5,a4,,5.0,12.0,,f5


In [4]:
df_new.isnull()

Unnamed: 0,A,B,C,D,E,F
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,True,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
5,False,True,False,False,True,False


上述所有空值的地方都是True

In [5]:
df_new.dropna()

Unnamed: 0,A,B,C,D,E,F
0,a0,b0,1.0,0.1,10.0,f0
1,a1,b1,2.0,10.2,19.0,f1
3,a2,b2,3.0,8.9,25.0,f3
4,a3,b3,4.0,9.1,8.0,f4


若我们只想去掉某一行的空值，用`subset`参数

In [6]:
df_new.dropna(subset=["B"])  # 只去除“B”列的空值

Unnamed: 0,A,B,C,D,E,F
0,a0,b0,1.0,0.1,10.0,f0
1,a1,b1,2.0,10.2,19.0,f1
2,a1,b2,,11.4,32.0,g2
3,a2,b2,3.0,8.9,25.0,f3
4,a3,b3,4.0,9.1,8.0,f4


找重复值

In [8]:
df_new.duplicated(["A"])

0    False
1    False
2     True
3    False
4    False
5    False
dtype: bool

In [9]:
df_new.duplicated(["A", "B"])  # "A"和"B"列都重复的记录

0    False
1    False
2    False
3    False
4    False
5    False
dtype: bool

去除重复值

In [10]:
df_new.drop_duplicates(["A"])  # subset参数

Unnamed: 0,A,B,C,D,E,F
0,a0,b0,1.0,0.1,10.0,f0
1,a1,b1,2.0,10.2,19.0,f1
3,a2,b2,3.0,8.9,25.0,f3
4,a3,b3,4.0,9.1,8.0,f4
5,a4,,5.0,12.0,,f5


该函数有一个参数keep，可以取'first'默认，保留第一个,'last',False全不要  


In [12]:
df_new.drop_duplicates(["A"], keep=False)  # 删除掉重复项所有记录

Unnamed: 0,A,B,C,D,E,F
0,a0,b0,1.0,0.1,10.0,f0
3,a2,b2,3.0,8.9,25.0,f3
4,a3,b3,4.0,9.1,8.0,f4
5,a4,,5.0,12.0,,f5


该函数的另一个参数inplace，如果inplace=True，就真的删掉了  
标注异常值为'b\*'

In [13]:
df_new.fillna('b*')

Unnamed: 0,A,B,C,D,E,F
0,a0,b0,1,0.1,10,f0
1,a1,b1,2,10.2,19,f1
2,a1,b2,b*,11.4,32,g2
3,a2,b2,3,8.9,25,f3
4,a3,b3,4,9.1,8,f4
5,a4,b*,5,12.0,b*,f5


将异常值用均值指代 .mean()方法是自动忽略均值的，可以放心使用

In [14]:
df_new.fillna(df["E"].mean())

Unnamed: 0,A,B,C,D,E,F
0,a0,b0,1.0,0.1,10.0,f0
1,a1,b1,2.0,10.2,19.0,f1
2,a1,b2,18.8,11.4,32.0,g2
3,a2,b2,3.0,8.9,25.0,f3
4,a3,b3,4.0,9.1,8.0,f4
5,a4,18.8,5.0,12.0,18.8,f5


对"E"列用插值，注意.interpolate()只能对Series使用

In [18]:
df_new["E"].interpolate()  #结果为8

0    10.0
1    19.0
2    32.0
3    25.0
4     8.0
5     8.0
Name: E, dtype: float64

In [20]:
pd.Series([1,None, 4,5,20]).interpolate()  #返回相邻两个值的平均值，只有一个数相邻的话，就取该值

0     1.0
1     2.5
2     4.0
3     5.0
4    20.0
dtype: float64

In [22]:
# 可以取其他model
df["E"].interpolate(method='spline', order=3)

0    10.000000
1    19.000000
2    32.000000
3    25.000000
4     8.000000
5   -20.143603
Name: E, dtype: float64

"D"列的 0.1 可能有些异常，我们用上下界进行过滤

In [23]:
df_new["D"]

0     0.1
1    10.2
2    11.4
3     8.9
4     9.1
5    12.0
Name: D, dtype: float64

In [24]:
upper_q = df["D"].quantile(0.75)  # 上四分位数
lower_q = df["D"].quantile(0.25)  # 下四分位数
q_int = upper_q - lower_q  # 四分位间距
k = 1.5 
upper_limit = upper_q + q_int * k
lower_limit = lower_q - q_int * k
df[df["D"] > lower_limit][df["D"] < upper_limit]

# 第0行就被过滤掉了

  import sys


Unnamed: 0,A,B,C,D,E,F
1,a1,b1,2.0,10.2,19.0,f1
2,a1,b2,,11.4,32.0,g2
3,a2,b2,3.0,8.9,25.0,f3
4,a3,b3,4.0,9.1,8.0,f4
5,a4,,5.0,12.0,,f5


"F"列，出现了一个'g2'

In [25]:
df.drop(2)

Unnamed: 0,A,B,C,D,E,F
0,a0,b0,1.0,0.1,10.0,f0
1,a1,b1,2.0,10.2,19.0,f1
3,a2,b2,3.0,8.9,25.0,f3
4,a3,b3,4.0,9.1,8.0,f4
5,a4,,5.0,12.0,,f5


In [26]:
df[[True if item.startswith('f') else False for item in list(df["F"].values)]]

Unnamed: 0,A,B,C,D,E,F
0,a0,b0,1.0,0.1,10.0,f0
1,a1,b1,2.0,10.2,19.0,f1
3,a2,b2,3.0,8.9,25.0,f3
4,a3,b3,4.0,9.1,8.0,f4
5,a4,,5.0,12.0,,f5


## 特征预处理
### 标注（标记、标签、label）
反映我们目的的属性，一般是我们关注但不容易获得的。  
但有些相关的数据可以获取，用于预测，这就是我们的输入数据。
在Kaggle上有一个HR，satisfaction_level, last_evaluation, number_project, average_montly_hours, time_spend_company, work_accident, left, promotion_last_5years, department, salary预测员工是否会离职。label就是left，1是离职，0就是不离职

### 特征预处理主要包括
- 特征选择
- 特征变换
    - 对指化、离散化、数据平滑、归一化（标准化）、数值化、正规化
- 特征降维
- 特征衍生

#### 特征选择
剔除与标注不相关或者冗余的特征，减少特征的个数。减少模型训练的时间，减少过拟合，提高准确度。PCA、奇异值变换等利用变换的方式降维的方法，这些降维的方法叫做特征提取。提取离不开变换，特征选择就是利用统计学方法、数据模型、机器学习模型本身的特征，进行与标注影响大小的排序后，剔除排序靠后的特征，完成降维。特征选择可以放在特征预处理之前或者在特征变换之后进行，总之需要结合属性本身的特征和任务的需求进行选择。特征选择需要多次迭代，每次特征选择都要使用模型去验证，最终目的是获得能训练出更好的模型的数据。

数据规约，特征选择就是数据规约的一种处理方式。（另一种数据规约的处理方式是抽样。）

特征选择的思路有两条：
1. 过滤思想：直接评价某个特征与标注的相关性等特征，如果与标注的相关性很小，就去掉。
在探索性因子分析，属性与属性的关系时，总结的一张表。我们的标注和特征无非是连续值和离散值两种。这里的阈值设置比较灵活，特征多的时候，阈值高一些；特征少的时候，阈值低一些。或者直接根据业务需求或经验设置。

| 数据类型 | 可用方法 |
| ------| ------ |
| 连续 - 连续 | 相关系数、假设检验 |
| 连续 - 离散（二值） | 相关系数、连续二值化（最小Gini切分、最大熵增益切分） |
| 连续 - 离散（非二值） | 相关系数（定序） |
| 离散（二值） — 离散（二值） | 相关系数、熵相关、F分值 |
| 离散 - 离散（非二值） | 熵相关、Gini、相关系数（定序） |

2. 包裹思想
特征空间X，最佳的特征集合是它的一个子集，我们要找到这个子集，我们指定一个标准，如


- 特征变换
    - 对指化、离散化、数据平滑、归一化（标准化）、数值化、正规化
- 特征降维
- 特征衍生


In [None]:

## 4\. 标注

## 5\. 特征选择

## 6\. 特征变换-对指化

## 7\. 特征变换-离散化

## 8\. 特征变换-归一化与标准化

## 9\. 特征变换-数值化

## 10\. 特征变换-正规化

## 11\. 特征降维-LDA

## 12\. 特征衍生

## 13\. HR表的特征与处理-1

## 14\. HR表的特征与处理-2

## 15\. 本章小结