# 预处理

In [None]:
!pip install scikit-learn

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
%matplotlib inline

In [None]:
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

## 预处理

在使用数据进行建模前，需要保证数据的质量：

1. 准确性：偏离预期的错误值
2. 完整性：缺少特征值
3. 一致性：格式、单位等

对于缺失值，通常有以下处理方法：

1. 删除缺失值：导致数据丢失
2. 人工填充：对于较大的数据集不现实
3. 自动填充：使用中位数、平均值等统计量

对于异常值，可以通过`Matplotlib`绘制图像发现：

![](./img/outlier1.png)

![](./img/outlier2.png)

## 属性

在数据分析中，属性/特征的类型主要分为以下几种：

- 定性属性Qualitative
    - 名义属性Nominal：仅用于标记类别，没有内在顺序。如：国籍、颜色、性别
    - 序数属性Ordinal：具有顺序或等级，但是差异不固定。如：学历、满意度
- 定量属性Quantitative
    - 间隔属性Interval：数值间有固定的间隔，但是没有零点。如：温度（0℃不代表没有温度、20℃也不是10℃的两倍）
    - 比例属性Ratio：数值间有固定的间隔，具有真正的零点，而且通过比例进行比较。如：收入、年龄、身高

## 标准化Normalization

标准化/归一化用于对数据属性进行缩放，使其落在较小的范围之内，比如$ [-1, 1] $或$ [0, 1] $。很多机器学习算法都受益于此。

不同尺度的数据会导致一个重要属性的有效性被稀释，因为范围大的属性在模型中更有优先级，这会导致模型表现不佳。

### Min-Max

$$
x = {x - x_{min} \over x_{max} - x_{min}}
$$

In [None]:
df = pd.read_csv('data/students.csv')
df

In [None]:
def min_max_normalize(data):
    min_data = data.min(axis=0)
    max_data = data.max(axis=0)
    return (data - min_data) / (max_data - min_data)

In [None]:
min_max_normalize(df[['Height', 'Weight']])

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
df = pd.read_csv('data/students.csv')
df

In [None]:
min_max_scaler = MinMaxScaler()
df[['Height', 'Weight']] = min_max_scaler.fit_transform(df[['Height', 'Weight']])
df

### z-score

$$
x = {x - \mu \over \sigma}
$$

$ \mu $为均值，$ \sigma $为标准差

In [None]:
df = pd.read_csv('data/students.csv')
df

In [None]:
def z_score_normalize(data):
    mean_data = data.mean(axis=0)
    std_data = data.std(axis=0)
    return (data - mean_data) / std_data

In [None]:
z_score_normalize(df[['Height', 'Weight']])

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
df = pd.read_csv('data/students.csv')
df

In [None]:
z_score_scaler = StandardScaler()
df[['Height', 'Weight']] = z_score_scaler.fit_transform(df[['Height', 'Weight']])
df

## 编码Encoding

1. 特征工程：从现有数据中创建新的特征，以提高模型的预测能力。比如，从日期时间数据中提取出年份、月份、星期几等。

2. 序号编码：序号编码用于当类别具有自然顺序时，如“低”、“中”、“高”，将类别转换为对应的整数值。

3. 独热编码One-Hot Encoding：将分类转换为一系列二进制列，每一列代表一个类别。例如，如果有一个“颜色”列包含“红色”，“绿色”，“蓝色”，独热编码会创建三列：一列用于“红色”，一列用于“绿色”，一列用于“蓝色”。

In [None]:
df = pd.DataFrame({
    'color': ['Red', 'Green', 'Blue', 'Green', 'Red']
})

df

In [None]:
df = pd.get_dummies(df, columns=['color'])
df