# 数据预处理及其流程

## 1.1 什么是数据预处理

大数据与人工智能时代离不开海量的原始数据做支撑，这些原始数据存在数据不完整、数据不一致、数据异常等问题，很难得到高质量的数据用于数据建模，甚至可能导致工程应用的偏差。因此，要对原始数据做一定的处理。这种从原始数据到挖掘数据，对数据进行的操作叫作数据预处理。数据预处理通常包括数据清理、数据集成、数据归约、数据变换，目的是挖掘数据背后的应用价值和社会价值。

【定义】**数据预处理**通俗地理解就是将**原始数据转化为机器可以认知**的数据形式，以**适应**相关技术或者**算法模型**。

数据预处理在整个数据分析流程中所处的位置如下图所示：

![image.png](attachment:353b9fda-7db7-4b2d-99d1-bad1be3720e0.png)

总而言之，原始数据可能存在数据不完整、数据偏态、数据噪声、数据特征维度高、数据缺失值、数据错误值等一系列问题，经过数据预处理后的数据能够达到数据完整干净、数据特征比重合适、数据特征维度合理、数据无缺失值等优点，使数据利用更加准确、高质。

## 1.2 数据预处理的流程

数据来源众多，如何正确有效地将不同数据源中的信息整合到一起，直接影响到分类器的最终结果，数据预处理正是解决这一问题的有力方案。数据预处理的过程数据清洗、数据集成、数据变换和数据规约，如下图所示：

![image.png](attachment:33ad0f08-2984-4c36-9068-2cea8e615938.png)

### 1.2.1 数据清洗

**数据清洗**是指删除原始数据集中的无关数据、重复数据，平滑噪声数据，筛选掉与挖掘主题无关的数据，处理缺失值、异常值等。

#### （1）缺失值处理：

处理缺失值的方法可分为3类：删除（丢弃）记录、数据插补（填充）和不处理。其中常用的数据插补方法如下表所示。

![image.png](attachment:4a4e86b0-e2db-4ceb-82f7-045f6850b68a.png)

1. 删除（丢弃）记录：如果简单地删除小部分记录就能达到既定的目标，那么删除含有缺失值的记录这种方法是最有效的。然而，这种方法却有很大的局限性。它是以减少历史数据来换取数据的完备，会造成资源的大量浪费，丢弃了大量隐藏在这些记录中的信息。
2. 数据（填充）插补：相对丢弃而言，补全是更加常用的缺失值处理方式。通过一定的方法将缺失的数据补上，从而形成完整的数据记录，对于后续的数据处理、分析和建模至关重要。常用的补全方法：
   - 统计法：对于数值型的数据，使用均值、加权均值、中位数等方法补足；对于分类型数据，使用类别众数最多的值补足
   - 模型法：更多时候我们会基于已有的其他字段，将缺失字段作为目标变量进行预测，从而得到最为可能的补全值。如果带有缺失值的列是数值变量，采用回归模型补全；如果是分类变量，则采用分类模型补全。
   - 插值法：拉格朗日插值法、牛顿插值法、样条插值等

#### （2）异常值处理

在数据预处理时，异常值是否剔除需视具体情况而定，因为有些异常值可能蕴含着有用的信息。异常值处理的常用方法如下表所示：

![image.png](attachment:529014f4-88bf-4246-94b3-9dfc74df079d.png)

1. 将含有异常值的记录直接删除：这种方法简单易行，但缺点也很明显，在观测值很少的情况下，直接删除会造成样本量不足，可能会改变变量的原有分布，从而造成分析结果的不准确。
2. 缺失值处理：这种方法的好处是可以利用现有变量的信息，对异常值（缺失值）进行填补。

### 1.2.2 数据集成

数据往往分布在不同的数据源中，**数据集成**就是将来自多个数据源的数据合并统一存储（如数据仓库）的过程。

#### （1）实体识别

实体识别是从不同数据源识别出现实世界的实体，它的任务是统一不同源数据的矛盾之处。常见的实体识别如下：

1. 同名异议：如数据源A中的属性ID和数据源B中的属性ID分别描述的是菜品编号和订单编号，即描述的是不同的实体。
2. 异名同义：数据源A中的sales_dt和数据源B中的sales_date都是描述销售日期的，即A.sales_dt=B.sales_date
3. 单位不统一：描述同一个实体时分别用的是国际单位和中国传统的计量单位

#### （2）冗余属性识别

数据集成往往导致数据冗余，例如：1）同一属性多次出现；2）同一属性命名不一致导致重复

- 仔细整合不同源数据能减少甚至避免数据冗余与不一致，从而提高数据挖掘的速度和质量
- 对于冗余属性要先进行分析，检测后再将其删除
- 有些冗余属性可以用相关分析检测。给定两个数值型的属性A和属性B，根据其属性值，用相关系数度量一个属性在多大程度上蕴含另一个属性。如出生日期和年龄。

### 1.2.3 数据变换

数据变换主要是对数据进行规范化处理，将数据转换成“适当的”形式，以适用于挖掘任务及算法的需要

#### （1）简单函数变换

简单函数变换是对原始数据进行某些**数学函数变换**，常用的包括：

- 平方：$ x' = x^2 $
- 平方根：$ x' = \sqrt{x} $
- 取对数：$ x' = \log{x} $
- 差分运算：$ \Delta{f(x_k)} = f(x_{k+1}) - f(x_k) $

#### （2）规范化

规范化指将数据按比例缩放，使之落入某个特定区间，目的是消除特征间量纲和取值范围差异的影响，让算法收敛的更快，以提升模型拟合过程的计算效率。常用的规范化方法有：

1. **最小-最大规范化**：也称为离差标准化，是对原始数据的线性变换，将数值映射到[0，1]之间。转换公式为：

   $$ x' = \frac{x - min}{max - min} $$

2. **零-均值规范化**：也称标准差标准化，经过处理的数据的均值为0，标准差为1。其转化公式为：

   $$ x^\star = \frac{x - \overline{x}}{\sigma}$$
   
   其中，$\overline{x}$为原始数据的均值，$\sigma$为原始数据的标准差。
 
3. **小数定标规范化**：通过移动属性值的小数位数，将属性值映射到[-1，1]之间，移动的小数位数取决于属性值绝对值的最大值。转化公式为：

   $$ x^\star = \frac{x}{10^k} $$
   
#### （3）连续属性离散化

某些机器学习算法，特别是某些分类算法，如ID3算法、Apriori算法等，要求数据是分类属性形式。这样，常常需要将连续属性变换成分类属性，即连续属性离散化。

1. **离散化的过程**：连续属性离散化就是在数据的取值范围内设定若干个离散的划分点，将取值范围划分为一些离散化的区间，最后用不同的符号或整数值代表落在每个子区间中的数据值。所以，离散化涉及两个子任务：确定分类数以及如何将连续属性值映射到这些分类值

2. **常用的离散化方法**：
   - 等宽法：将属性的值域分成具有相同宽度的区间，区间的个数由数据本身的特点决定或者用户指定。等宽法的缺点在于它对离群点比较敏感，倾向于不均匀地把属性值分布到各个区间
   - 等频法：将相同数量的记录放进每个区间，等频法虽然避免了上述问题的产生，却可能将相同的数据值分到不同的区间，以满足每个区间中固定的数据个数
   - 基于聚类分析的方法：首先将连续属性的值用聚类算法（如K-Means算法）进行聚类，然后再将聚类得到的簇进行处理，合并到一个簇的连续属性值做同一标记。聚类分析的离散化方法也需要用户指定簇的个数，从而决定产生的区间数

#### （4）属性构造

在数据挖掘过程中，为了帮助用户提取更有用的信息，挖掘更深层次的模式，提高挖掘结果的精度，需要利用已有的属性集构造出新的属性，并加入到现有的属性集合中。如根据供入电量、供出电量构造出一个新的属性-线损率：

$$ 线损率 = \frac{供入电量-供出电量}{供入电量} \times{100\%} $$

### 1.2.4 数据归约

在大数据集上进行复杂的数据分析和挖掘需要费时费力（算力）。数据归约产生更小且保持原数据完整性的新数据集，在归约后的数据集上进行分析和挖掘将提高效率。

数据归约的意义在于：

1. 降低无效、错误数据对建模的影响，提高建模的准确性。
2. 少量且具有代表性的数据将大幅缩减数据挖掘所需的时间
3. 降低储存数据的成本

#### （1）属性归约

属性归约通过属性合并创建新属性维数，或者通过直接删除不相关的属性（维）来减少数据维数，从而提高数据挖掘的效率，降低计算成本

属性归约的目标是寻找最小的属性子集并确保新数据子集的概率分布尽可能接近原来数据集的概率分布。属性归约常用方法如下表所示：

![image.png](attachment:2553bf44-7a2b-47d9-822b-0f6732ee3ab9.png)

#### （2）数值归约

数值归约通过选择替代的、较小的数据来减少数据量，包括有参数方法和无参数方法两类。

- **有参数方法**是使用一个模型来评估数据，只需存放参数，而不需要存放实际数据，例如回归（线性回归和多元回归）和对数线性模型（近似离散属性集中的多维概率分布）
- **无参数方法**需要存放实际数据，例如直方图、聚类、抽样（采样）

1. **直方图**：直方图使用分箱来近似数据分布，是一种流行的数据归约形式
2. **聚类**：聚类技术将数据元组（即记录，数据表中的一行）视为对象。它将对象划分为簇，使一个簇中的对象彼此“相似”，而与其他簇中的对象“相异”。在数据归约中，用数据的簇替换实际数据。该技术的有效性依赖于簇的定义是否符合数据的分布性质。
3. **抽样**：抽样也是一种数据归约技术，它用比原始数据小得多的随机样本（子集）表示原始数据集。常用的抽样方法有：
   - 样本无放回简单随机抽样
   - 样本有放回地简单随机抽样
   - 聚类抽样：如果原始数据集D中的元组分组放入m个互不相交的“簇”，则可以得到s个簇的简单随机抽样，其中s＜m
   - 分层抽样：如果原始数据集D划分成互不相交的部分，称作层，则通过对每一层的简单随机抽样就可以得到D的分层样本
4. **参数回归**：简单线性模型和对数线性模型可以用来近似给定的数据。
   - 用（简单）线性模型对数据建模，使之拟合一条直线
   - 对数线性模型：用来描述期望频数与协变量之间的关系