In [108]:
import numpy as np
import matplotlib as plt
import pandas as pd

导入数据集

In [109]:
dataset = pd.read_csv('Data_Preprocessing/Data.csv')
dataset.head(10)

Unnamed: 0,Country,Age,Salary,Purchased
0,France,44.0,72000.0,No
1,Spain,27.0,48000.0,Yes
2,Germany,30.0,54000.0,No
3,Spain,38.0,61000.0,No
4,Germany,40.0,,Yes
5,France,35.0,58000.0,Yes
6,Spain,,52000.0,No
7,France,48.0,79000.0,Yes
8,Germany,50.0,83000.0,No
9,France,37.0,67000.0,Yes


> * 自变量（Independent Variable）： 自变量是实验或研究中你主动改变的变量。你通过改变自变量来观察它是否会影响因变量。在一个函数关系中，自变量通常被定义为 x。
* 因变量（Dependent Variable）： 因变量是实验或研究中你观察或度量的变量。你想要了解自变量的改变如何影响因变量。在一个函数关系中，因变量通常被定义为 y。

选取除了最后一列的所有列，并将选取的数据转换为一个 NumPy 数组作为自变量X

In [110]:
X = dataset.iloc[:, :-1].values

最后一列(Purchased)作为因变量y

In [111]:
y = dataset.iloc[:, 3].values

处理缺失数据

In [112]:
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values= np.nan, strategy='mean')
X[:, 1:3] = imputer.fit_transform(X[:, 1:3])
X

array([['France', 44.0, 72000.0],
       ['Spain', 27.0, 48000.0],
       ['Germany', 30.0, 54000.0],
       ['Spain', 38.0, 61000.0],
       ['Germany', 40.0, 63777.77777777778],
       ['France', 35.0, 58000.0],
       ['Spain', 38.77777777777778, 52000.0],
       ['France', 48.0, 79000.0],
       ['Germany', 50.0, 83000.0],
       ['France', 37.0, 67000.0]], dtype=object)

分类数据, 转义成数字

In [113]:
from sklearn.preprocessing import LabelEncoder
labelencoder_y = LabelEncoder()
y = labelencoder_y.fit_transform(y)
y

array([0, 1, 0, 0, 1, 1, 0, 1, 0, 1])

> One-hot 编码是一种处理类别变量的方法。在这种方法中，每个类别都会被转换为一个新的二元特征（也就是只有 0 和 1 的特征），这个新特征表示原变量是否等于这个类别。
>
> 举个例子，假设我们有一个类别变量 "Color"，它有三个可能的值： "Red"、 "Green" 和 "Blue"。我们可以使用 one-hot 编码来处理这个变量，方法如下：
>
> 对于 "Red"，我们创建一个新的特征 "Color_Red"，如果 "Color" 是 "Red"，那么 "Color_Red" 的值为 1，否则为 0。
>
> 对于 "Green"，我们创建一个新的特征 "Color_Green"，如果 "Color" 是 "Green"，那么 "Color_Green" 的值为 1，否则为 0。
>
> 对于 "Blue"，我们创建一个新的特征 "Color_Blue"，如果 "Color" 是 "Blue"，那么 "Color_Blue" 的值为 1，否则为 0。
>
> 这样，原来的 "Color" 变量就被转换为了三个二元特征 "Color_Red"、 "Color_Green" 和 "Color_Blue"。
>
> 这种方法被称为 "one-hot" 编码，因为对于每个观察值，只有一个特征的值为 1（"hot"），其他特征的值都为 0。
>
> One-hot 编码是处理类别变量的常用方法，它允许我们在模型中使用类别数据，而不需要假设类别之间有顺序关系。但是，如果一个变量有很多类别，one-hot 编码可能会导致数据维度的显著增加。

In [114]:
from sklearn.preprocessing import OneHotEncoder
onehotencoder = OneHotEncoder()
X_reshaped = X[:, 0].reshape(-1, 1)  # 转换为二维数组
X_onehot = onehotencoder.fit_transform(X_reshaped).toarray()  # 对第一列进行 one-hot 编码

# 如果你还想保留原来的其他列，你可以将它们和 one-hot 编码的结果合并在一起：
X_new = np.concatenate([X_onehot, X[:, 1:]], axis=1)
X_new

array([[1.0, 0.0, 0.0, 44.0, 72000.0],
       [0.0, 0.0, 1.0, 27.0, 48000.0],
       [0.0, 1.0, 0.0, 30.0, 54000.0],
       [0.0, 0.0, 1.0, 38.0, 61000.0],
       [0.0, 1.0, 0.0, 40.0, 63777.77777777778],
       [1.0, 0.0, 0.0, 35.0, 58000.0],
       [0.0, 0.0, 1.0, 38.77777777777778, 52000.0],
       [1.0, 0.0, 0.0, 48.0, 79000.0],
       [0.0, 1.0, 0.0, 50.0, 83000.0],
       [1.0, 0.0, 0.0, 37.0, 67000.0]], dtype=object)

拆分训练数据和测试数据集

In [117]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_new, y, test_size=0.2, random_state=0)
X_train

array([[0.0, 1.0, 0.0, 40.0, 63777.77777777778],
       [1.0, 0.0, 0.0, 37.0, 67000.0],
       [0.0, 0.0, 1.0, 27.0, 48000.0],
       [0.0, 0.0, 1.0, 38.77777777777778, 52000.0],
       [1.0, 0.0, 0.0, 48.0, 79000.0],
       [0.0, 0.0, 1.0, 38.0, 61000.0],
       [1.0, 0.0, 0.0, 44.0, 72000.0],
       [1.0, 0.0, 0.0, 35.0, 58000.0]], dtype=object)

In [118]:
X_test


array([[0.0, 1.0, 0.0, 30.0, 54000.0],
       [0.0, 1.0, 0.0, 50.0, 83000.0]], dtype=object)

特征缩放(年龄和薪酬调整到统一尺度)
> 它可以将所有特征调整到相同的尺度。特征缩放的主要目的是避免某些特征由于其数值范围较大而在模型中占据过大的权重

In [119]:
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)
X_train

array([[-1.        ,  2.64575131, -0.77459667,  0.26306757,  0.12381479],
       [ 1.        , -0.37796447, -0.77459667, -0.25350148,  0.46175632],
       [-1.        , -0.37796447,  1.29099445, -1.97539832, -1.53093341],
       [-1.        , -0.37796447,  1.29099445,  0.05261351, -1.11141978],
       [ 1.        , -0.37796447, -0.77459667,  1.64058505,  1.7202972 ],
       [-1.        , -0.37796447,  1.29099445, -0.0813118 , -0.16751412],
       [ 1.        , -0.37796447, -0.77459667,  0.95182631,  0.98614835],
       [ 1.        , -0.37796447, -0.77459667, -0.59788085, -0.48214934]])