# Step 1: Importing the libraries

**第 1 步：导入库**
> Numpy 包包含数学计算函数

> Pandas 用于导入和管理数据集

In [1]:
import numpy as np
import pandas as pd

# Step 2: Importing dataset
**第 2 步：导入数据集**
> 数据集通常是 .csv 格式

> CSV 文件以文本形式保存表格数据

> 文件的每一行是一条数据记录

> 使用 Pandas 的 read_csv 方法读取本地 csv 文件为一个数据帧并从中制作自变量和因变量的矩阵向量

In [4]:
dataset = pd.read_csv('datasets/Data.csv')
X = dataset.iloc[ : , :-1].values
Y = dataset.iloc[ : , 3].values

# Step 3: Handling the missing data
**第 3 步：处理丢失数据**
> 可以用整列的平均值或中间值替换丢失的数据

> 使用 sklearn.preprocessing 库中的 Imputer 类来完成这项任务

In [5]:
from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values='NaN', strategy='mean', axis=0)
imputer = imputer.fit(X[ : , 1:3])
X[ : , 1:3] = imputer.transform(X[ : , 1:3])

# Step 4: Encoding categorical data
**第 4 步：解析分类数据**

> 分类数据指的是含有标签值而不是数字值的变量

> 无法用于模型的数值计算，需要解析成数字

> 使用 sklearn.preprocessing 库中的 LabelEncoder 类来完成这项任务

In [7]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X = LabelEncoder()
X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])

## Creating a dummy variable
**创建虚拟变量**

In [9]:
onehotencoder = OneHotEncoder(categorical_features=[0])
X = onehotencoder.fit_transform(X).toarray()
labelencoder_Y = LabelEncoder()
Y = labelencoder_Y.fit_transform(Y)

# Step 5: Splitting the datasets into training sets and Test sets
**拆分数据集为训练集合和测试集合**

> 把数据集拆分成两个

> 一个是用来训练模型的训练集合，另一个是用来验证模型的测试集合

> 两者比例一般是 8 : 2 

> 使用 sklearn.model_selection 中的 train_test_split 来完成这项任务

In [16]:
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

# Step 6: Feature Scalling
**第 6 步：特征量化**

> 大部分模型算法使用两点间的欧氏距离表示

> 但是本次的特征在幅度、单位和范围姿态问题上变化很大

> 在距离计算中，高幅度特征比低幅度特征权重更大。可用特征标准化或 Z 值归一化解决

> 使用 sklearn.preprocessing 中的 StandardScalar 类来完成这项任务

In [17]:
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.fit_transform(X_test)