# 数据的预处理

### 第一步：导入数据库
使用import语句把模块导入当前程序中，as为模块起个代称以便日后调用简单

In [1]:
import numpy as np
import pandas as pd

### 第二步：导入数据集
数据集通常是.csv格式。

In [2]:
dataset = pd.read_csv('C:\\Users\\Administrator\\Desktop\\100-Days-Of-ML-Code-master\\datasets\\Data.csv')
#使用pandas.read读取.csv文件 ,使用“\\”这里“\”会报错。
dataset
#查看数据集

Unnamed: 0,Country,Age,Salary,Purchased
0,France,44.0,72000.0,No
1,Spain,27.0,48000.0,Yes
2,Germany,30.0,54000.0,No
3,Spain,38.0,61000.0,No
4,Germany,40.0,,Yes
5,France,35.0,58000.0,Yes
6,Spain,,52000.0,No
7,France,48.0,79000.0,Yes
8,Germany,50.0,83000.0,No
9,France,37.0,67000.0,Yes


In [3]:
X = dataset.iloc[ : , :-1].values
X #除去最后一项(-1)，purchased

array([['France', 44.0, 72000.0],
       ['Spain', 27.0, 48000.0],
       ['Germany', 30.0, 54000.0],
       ['Spain', 38.0, 61000.0],
       ['Germany', 40.0, nan],
       ['France', 35.0, 58000.0],
       ['Spain', nan, 52000.0],
       ['France', 48.0, 79000.0],
       ['Germany', 50.0, 83000.0],
       ['France', 37.0, 67000.0]], dtype=object)

In [4]:
Y = dataset.iloc[ : , 3].values
Y#读取最后一项(第四项【3】)，purchased

array(['No', 'Yes', 'No', 'No', 'Yes', 'Yes', 'No', 'Yes', 'No', 'Yes'],
      dtype=object)

### 第三步：处理丢失数据
查看数据集时可以看见，数据中存在NaN项（如：4， Germany， 40.0， NaN， Yes），为了提高机器学习模型的性能，需要对NaN进行处理。
我们可以用整列的平均值或中间值替换丢失的数据。我们用sklearn.preprocessing库中的Imputer类完成这项任务。


In [5]:
from sklearn.preprocessing import Imputer
#为了处理缺失数据
pro_data = Imputer(missing_values = 'NaN',  strategy = "mean", axis = 0)
#使用列平均填补NaN，axis = 0 按列进行
pro_data = pro_data.fit(X[ : , 1:3])
# 调用fit方法，标记填充NaN位置

In [6]:
X[ : , 1:3] = pro_data.transform(X[ : , 1:3])
#把值补到X内
X
#查看补好的数据集

array([['France', 44.0, 72000.0],
       ['Spain', 27.0, 48000.0],
       ['Germany', 30.0, 54000.0],
       ['Spain', 38.0, 61000.0],
       ['Germany', 40.0, 63777.77777777778],
       ['France', 35.0, 58000.0],
       ['Spain', 38.77777777777778, 52000.0],
       ['France', 48.0, 79000.0],
       ['Germany', 50.0, 83000.0],
       ['France', 37.0, 67000.0]], dtype=object)

### 第四步：解析分类数据
分类数据指的是含有标签值而不是数字值的变量。取值范围通常是固定的。例如"Yes"和"No"不能用于模型的数学计算，所以需要解析成数字。为实现这一功能，我们从sklearn.preprocessing库导入LabelEncoder类

In [7]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
#onehotencoder 不仅对 label 可以进行编码，还可对 categorical feature 进行编码：
labelencoder_X = LabelEncoder()
X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])
onehotencoder = OneHotEncoder(categorical_features = [0])
X = onehotencoder.fit_transform(X).toarray()
labelencoder_Y = LabelEncoder()
Y =  labelencoder_Y.fit_transform(Y)
Y#Y就修改成0，1表示

array([0, 1, 0, 0, 1, 1, 0, 1, 0, 1], dtype=int64)

### 第五步：拆分数据集为测试集合和训练集合
把数据集拆分成两个：一个是用来训练模型的训练集合，另一个是用来验证模型的测试集合。
两者比例一般是80:20。导入sklearn.model_selection库中的train_test_split()方法。

In [8]:
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)
#设定好size，随机分成训练集和测试集

### 第六步：特征量化
大部分模型算法使用两点间的欧氏距离表示，但此特征在幅度、单位和范围姿态问题上变化很大。在距离计算中，高幅度的特征比低幅度特征权重更大。可用特征标准化或Z值归一化解决。导入sklearn.preprocessing库的StandardScalar类。
- 欧氏距离Euclidean Distance：是最常见的距离度量，衡量的是多维空间中各个点之间的绝对距离
-  $d=\sqrt{(x_2 - x_1  )^2+ (y_2- y_1)^2}$

In [9]:
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)

In [10]:
X_train

array([[-1.        ,  2.64575131, -0.77459667,  0.26306757,  0.12381479],
       [ 1.        , -0.37796447, -0.77459667, -0.25350148,  0.46175632],
       [-1.        , -0.37796447,  1.29099445, -1.97539832, -1.53093341],
       [-1.        , -0.37796447,  1.29099445,  0.05261351, -1.11141978],
       [ 1.        , -0.37796447, -0.77459667,  1.64058505,  1.7202972 ],
       [-1.        , -0.37796447,  1.29099445, -0.0813118 , -0.16751412],
       [ 1.        , -0.37796447, -0.77459667,  0.95182631,  0.98614835],
       [ 1.        , -0.37796447, -0.77459667, -0.59788085, -0.48214934]])