# 机器学习100天——第1天：数据预处理（Data Preprocessing）

搭建anaconda环境，参考 https://zhuanlan.zhihu.com/p/33358809

## 第一步：导入需要的库
这两个是我们每次都需要导入的库。NumPy包含数学计算函数。Pandas用于导入和管理数据集。

In [70]:
import numpy as np
import pandas as pd

In [71]:
import sklearn
from sklearn.impute import SimpleImputer
#This block is an example used to learn SimpleImputer
imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
# imp_mean.fit([[7, 2, 3], [4, np.nan, 6], [10, 5, 9]])
X = [[np.nan, 2, 3], [4, np.nan, 6], [10, np.nan, 9]]
imp_mean.fit(X)
print(imp_mean.transform(X))
print("Sklearn verion is {}".format(sklearn.__version__))

[[ 7.  2.  3.]
 [ 4.  2.  6.]
 [10.  2.  9.]]
Sklearn verion is 1.5.2


In [72]:
from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(handle_unknown='ignore')
X = [['Male', 1], ['Female', 3], ['Female', 2]]
print(enc.fit(X))
print(enc.categories_)
print(enc.transform([['Female', 1], ['Male', 4]]))
print(enc.inverse_transform([[0, 1, 1, 0, 0], [0, 0, 0, 1, 0]]))
print(enc.get_feature_names_out(['gender', 'group']))

OneHotEncoder(handle_unknown='ignore')
[array(['Female', 'Male'], dtype=object), array([1, 2, 3], dtype=object)]
<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 3 stored elements and shape (2, 5)>
  Coords	Values
  (0, 0)	1.0
  (0, 2)	1.0
  (1, 1)	1.0
[['Male' 1]
 [None 2]]
['gender_Female' 'gender_Male' 'group_1' 'group_2' 'group_3']


## 第二步：导入数据集
数据集通常是.csv格式。CSV文件以文本形式保存表格数据。文件的每一行是一条数据记录。我们使用Pandas的read_csv方法读取本地csv文件为一个数据帧。然后，从数据帧中制作自变量和因变量的矩阵和向量。

In [73]:
dataset = pd.read_csv('../datasets/Data.csv')
# 不包括最后一列的所有列
X = dataset.iloc[ : , :-1].values
#取最后一列
Y = dataset.iloc[ : , 3].values
print("Step 2: Importing dataset")
print("X")
print(X)
print("Y")
print(Y)
print(X[ : , 1:3])

Step 2: Importing dataset
X
[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 nan]
 ['France' 35.0 58000.0]
 ['Spain' nan 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]
Y
['No' 'Yes' 'No' 'No' 'Yes' 'Yes' 'No' 'Yes' 'No' 'Yes']
[[44.0 72000.0]
 [27.0 48000.0]
 [30.0 54000.0]
 [38.0 61000.0]
 [40.0 nan]
 [35.0 58000.0]
 [nan 52000.0]
 [48.0 79000.0]
 [50.0 83000.0]
 [37.0 67000.0]]


## 第三步：处理丢失数据
我们得到的数据很少是完整的。数据可能因为各种原因丢失，为了不降低机器学习模型的性能，需要处理数据。我们可以用整列的平均值或中间值替换丢失的数据。我们用sklearn.preprocessing库中的Imputer类完成这项任务。

In [74]:
# If you use the newest version of sklearn, use the lines of code commented out
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy="most_frequent")
#from sklearn.preprocessing import Imputer
# axis=0表示按列进行
#imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
#print(imputer)
#
# print(X[ : , 1:3])
imputer = imputer.fit(X[ : , 1:3]) #put the data we want to process in to this imputer
X[ : , 1:3] = imputer.transform(X[ : , 1:3]) #replace the np.nan with mean
#print(X[ : , 1:3])
print("---------------------")
print("Step 3: Handling the missing data")
print("step2")
print("X")
print(X)

---------------------
Step 3: Handling the missing data
step2
X
[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 48000.0]
 ['France' 35.0 58000.0]
 ['Spain' 27.0 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]


## 第四步：解析分类数据
分类数据指的是含有标签值而不是数字值的变量。取值范围通常是固定的。例如"Yes"和"No"不能用于模型的数学计算，所以需要解析成数字。为实现这一功能，我们从sklearn.preprocessing库导入LabelEncoder类。

In [75]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer 
#labelencoder_X = LabelEncoder()
#X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])
#Creating a dummy variable
#print(X)
ct = ColumnTransformer([("", OneHotEncoder(), [0])], remainder = 'passthrough')
X1 = ct.fit_transform(X)
#onehotencoder = OneHotEncoder(categorical_features = [0])
#X = onehotencoder.fit_transform(X).toarray()
labelencoder_Y = LabelEncoder()
Y1 =  labelencoder_Y.fit_transform(Y)
print("---------------------")
print("Step 4: Encoding categorical data")
print("X")
print(X1)
print("Y")
print(Y1)
print(LabelEncoder().fit_transform(X[ : , 0]))

---------------------
Step 4: Encoding categorical data
X
[[1.0 0.0 0.0 44.0 72000.0]
 [0.0 0.0 1.0 27.0 48000.0]
 [0.0 1.0 0.0 30.0 54000.0]
 [0.0 0.0 1.0 38.0 61000.0]
 [0.0 1.0 0.0 40.0 48000.0]
 [1.0 0.0 0.0 35.0 58000.0]
 [0.0 0.0 1.0 27.0 52000.0]
 [1.0 0.0 0.0 48.0 79000.0]
 [0.0 1.0 0.0 50.0 83000.0]
 [1.0 0.0 0.0 37.0 67000.0]]
Y
[0 1 0 0 1 1 0 1 0 1]
[0 2 1 2 1 0 2 0 1 0]


## 第五步：拆分数据集为测试集合和训练集合
把数据集拆分成两个：一个是用来训练模型的训练集合，另一个是用来验证模型的测试集合。两者比例一般是80:20。我们导入sklearn.model_selection库中的train_test_split()方法。

In [76]:
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X1 , Y1 , test_size = 0.2, random_state = 0)
print("---------------------")
print("Step 5: Splitting the datasets into training sets and Test sets")
print("X_train")
print(X_train)
print("X_test")
print(X_test)
print("Y_train")
print(Y_train)
print("Y_test")
print(Y_test)

---------------------
Step 5: Splitting the datasets into training sets and Test sets
X_train
[[0.0 1.0 0.0 40.0 48000.0]
 [1.0 0.0 0.0 37.0 67000.0]
 [0.0 0.0 1.0 27.0 48000.0]
 [0.0 0.0 1.0 27.0 52000.0]
 [1.0 0.0 0.0 48.0 79000.0]
 [0.0 0.0 1.0 38.0 61000.0]
 [1.0 0.0 0.0 44.0 72000.0]
 [1.0 0.0 0.0 35.0 58000.0]]
X_test
[[0.0 1.0 0.0 30.0 54000.0]
 [0.0 1.0 0.0 50.0 83000.0]]
Y_train
[1 1 1 0 1 0 0 1]
Y_test
[0 0]


## 第六步：特征量化
大部分模型算法使用两点间的欧氏距离表示，但此特征在幅度、单位和范围姿态问题上变化很大。在距离计算中，高幅度的特征比低幅度特征权重更大。可用特征标准化或Z值归一化解决。导入sklearn.preprocessing库的StandardScalar类。

### 特征标准化（Feature Scaling）
是指将不同特征的数值调整到同一量级的过程，以便于提高机器学习模型的性能。特征标准化的主要目的是解决以下问题：

- **不同特征之间的数值差异**：当不同特征的数值范围相差较大时，某些算法（如基于距离的算法，例如K近邻、支持向量机等）可能会受到数值范围较大的特征的影响，导致这些特征在模型中的权重过高。
- **加快模型收敛速度**：对于梯度下降等优化算法，特征标准化可以加速模型的收敛速度。

### 常见的特征标准化方法有：

1. **最小-最大缩放（Min-Max Scaling）**：
   将特征的值缩放到一个固定范围（通常是[0, 1]）。
   $$
   X_scaled = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
   $$

2. **Z-Score 标准化（Standardization）**：
   将特征的值转换为均值为0，标准差为1的标准正态分布。
   $$
   X' = \frac{X - \mu}{\sigma} \\
   其中，(\mu) 是数据的均值，(\sigma) 是数据的标准差。
   $$


### 举例。

* 假设我们有一组简单的数据集，包含两个特征：年龄（Age）和收入（Income）。具体数据如下：

    | Age | Income |
    |-----|--------|
    | 25  | 50000  |
    | 30  | 60000  |
    | 35  | 80000  |
    | 40  | 120000 |

* 最小-最大缩放（Min-Max Scaling）

    * 计算过程
        - **年龄（Age）**：
          - $ X_{min} = 25 $
          - $ X_{max} = 40 $
          - 缩放后的年龄计算公式：
            $$
            X' = \frac{X - 25}{40 - 25} = \frac{X - 25}{15}
            $$
          - 计算结果：
            - 25 -> $\frac{25 - 25}{15} = 0.0$
            - 30 -> $\frac{30 - 25}{15} = 0.3333$
            - 35 -> $\frac{35 - 25}{15} = 0.6667$
            - 40 -> $\frac{40 - 25}{15} = 1.0$

        - **收入（Income）**：
          - $ X_{min} = 50000 $
          - $ X_{max} = 120000 $
          - 缩放后的收入计算公式：
            $$
            X' = \frac{X - 50000}{120000 - 50000} = \frac{X - 50000}{70000}
            $$
          - 计算结果：
            - 50000 -> $\frac{50000 - 50000}{70000} = 0.0$
            - 60000 -> $\frac{60000 - 50000}{70000} = 0.1429$
            - 80000 -> $\frac{80000 - 50000}{70000} = 0.4286$
            - 120000 -> $\frac{120000 - 50000}{70000} = 1.0$

    * 转换后的数据
        | Age (Scaled) | Income (Scaled) |
        |--------------|-----------------|
        | 0.0          | 0.0             |
        | 0.3333       | 0.1429          |
        | 0.6667       | 0.4286          |
        | 1.0          | 1.0             |

* Z-Score标准化（Standardization）

    * 计算过程
        - **年龄（Age）**：
          - 均值 ($\mu$) = $\frac{25 + 30 + 35 + 40}{4} = 30$
          - 标准差 ($\sigma$) = $\sqrt{\frac{(25-30)^2 + (30-30)^2 + (35-30)^2 + (40-30)^2}{4}} = \sqrt{\frac{25 + 0 + 25 + 100}{4}} = \sqrt{37.5} \approx 6.12$
          - 标准化后的年龄计算公式：
            $$
            X' = \frac{X - 30}{6.12}
            $$
          - 计算结果：
            - 25 -> $\frac{25 - 30}{6.12} \approx -0.817$
            - 30 -> $\frac{30 - 30}{6.12} = 0.0$
            - 35 -> $\frac{35 - 30}{6.12} \approx 0.817$
            - 40 -> $\frac{40 - 30}{6.12} \approx 1.634$

        - **收入（Income）**：
          - 均值 ($\mu$) = $\frac{50000 + 60000 + 80000 + 120000}{4} = 77500$
          - 标准差 ($\sigma$) = $\sqrt{\frac{(50000-77500)^2 + (60000-77500)^2 + (80000-77500)^2 + (120000-77500)^2}{4}} = \sqrt{\frac{76562500 + 3062500 + 62500 + 17562500}{4}} = \sqrt{21625000} \approx 4650.05$
          - 标准化后的收入计算公式：
            $$
            X' = \frac{X - 77500}{4650.05}
            $$
          - 计算结果：
            - 50000 -> $\frac{50000 - 77500}{4650.05} \approx -5.916$
            - 60000 -> $\frac{60000 - 77500}{4650.05} \approx -3.763$
            - 80000 -> $\frac{80000 - 77500}{4650.05} \approx 0.537$
            - 120000 -> $\frac{120000 - 77500}{4650.05} \approx 9.139$

    * 转换后的数据
        | Age (Standardized) | Income (Standardized) |
        |--------------------|-----------------------|
        | -0.817             | -5.916                |
        | 0.0                | -3.763                |
        | 0.817              | 0.537                 |
        | 1.634              | 9.139                 |

### 总结
- **最小-最大缩放**将数据缩放到[0, 1]范围内，适合需要固定范围的算法。
- **Z-Score标准化**将数据转换为均值为0，标准差为1的标准正态分布，适合大多数机器学习算法，尤其是对数据分布有假设的算法。

In [77]:
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train1 = sc_X.fit_transform(X_train)
X_test1 = sc_X.transform(X_test) #we should not use fit_transfer cause the u and z is determined from x_train
print("---------------------")
print("Step 6: Feature Scaling")
print("X_train")
print(X_train1)
print("X_test")
print(X_test1)


---------------------
Step 6: Feature Scaling
X_train
[[-1.          2.64575131 -0.77459667  0.4330127  -1.1851228 ]
 [ 1.         -0.37796447 -0.77459667  0.          0.59842834]
 [-1.         -0.37796447  1.29099445 -1.44337567 -1.1851228 ]
 [-1.         -0.37796447  1.29099445 -1.44337567 -0.80963835]
 [ 1.         -0.37796447 -0.77459667  1.58771324  1.72488169]
 [-1.         -0.37796447  1.29099445  0.14433757  0.03520167]
 [ 1.         -0.37796447 -0.77459667  1.01036297  1.0677839 ]
 [ 1.         -0.37796447 -0.77459667 -0.28867513 -0.24641167]]
X_test
[[-1.          2.64575131 -0.77459667 -1.01036297 -0.62189612]
 [-1.          2.64575131 -0.77459667  1.87638837  2.10036614]]


<b>完整的项目请前往Github项目<a href="https://github.com/MachineLearning100/100-Days-Of-ML-Code">100-Days-Of-ML-Code</a>查看。有任何的建议或者意见欢迎在issue中提出~</b>