# 数据预处理

## 第一步：导入必要的库

numpy和pandas是我们每次都需要导入的库。
* Numpy包含数学计算函数。
* Pandas用于导入和管理数据集

In [13]:
import numpy as np
import pandas as pd

In [None]:
'''求均值和方差'''
# 调出numpy
import numpy as np
df = [21, 22, 30, 23, 15, 12]  # 要计算的数值
# 求均值
mean = np.mean(df)
# 求方差
var = np.var(df)
# 求标准差
std = np.std(df, ddof=1)
# 数值输出,2f为保留两位小数
print("平均值为：%.2f" % mean)
print("方 差 为：%.2f" % var)
print("标准差为：%.2f" % std)

## 第二步：导入数据集

数据集通常以.csv格式提供。

CSV文件以纯文本存储表格数据。

文件的每一行都是数据记录，我们使用pandas库的read_csv方法读取本地CSV文件作为数据中的自变量和因变量。


In [14]:
df= pd.read_csv(r'D:\program_Lab_Report\machine_learning\100day\datasets\Data.csv')
x=df.iloc[:,:-1].values  #矩阵
y=df.iloc[:,3].values  #向量
print(x)
print(y) 

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 nan]
 ['France' 35.0 58000.0]
 ['Spain' nan 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]
['No' 'Yes' 'No' 'No' 'Yes' 'Yes' 'No' 'Yes' 'No' 'Yes']


## 处理丢失的数据

我们得到的数据很少是完整的，数据可能因为各种原因丢失，

为了不降低机器学习模型的性能，需要处理数据。
* 用整列的**平均值**或**中间值**替换丢失的数据

我们用sklearn.preprocess库中的Imputer类完成这一项任务。
   

In [15]:
from sklearn.impute import SimpleImputer
imputer=SimpleImputer(strategy="mean")  #用均值替代缺失值
x[:,1:3]=imputer.fit_transform(x[:,1:3])
print(x)

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 63777.77777777778]
 ['France' 35.0 58000.0]
 ['Spain' 38.77777777777778 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]


## 第四步：分析数据类型

分类数据指的是：含有标签值而不是数字值的变量，取值范围通常是固定的。

例如“Yes”和"No”不能用于模型的数学计算，所以需要解析成数字。为实现这一功能。

我们从sklearn.preprocesing库导入LabelEncoder类，完成这一项任务。



In [16]:
#将分类数据转化为数字
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
from sklearn.compose import ColumnTransformer
labelencoder_x=LabelEncoder()  #初始化
x[:,0]=labelencoder_x.fit_transform(x[:,0])  #选取第一列数据
#创建虚变量
ct=ColumnTransformer([("Country",OneHotEncoder(),[0])],remainder="passthrough")
x=ct.fit_transform(x)

labelencoder_y=LabelEncoder()
y=labelencoder_y.fit_transform(y)

print(x)
print(x)

[[1.0 0.0 0.0 44.0 72000.0]
 [0.0 0.0 1.0 27.0 48000.0]
 [0.0 1.0 0.0 30.0 54000.0]
 [0.0 0.0 1.0 38.0 61000.0]
 [0.0 1.0 0.0 40.0 63777.77777777778]
 [1.0 0.0 0.0 35.0 58000.0]
 [0.0 0.0 1.0 38.77777777777778 52000.0]
 [1.0 0.0 0.0 48.0 79000.0]
 [0.0 1.0 0.0 50.0 83000.0]
 [1.0 0.0 0.0 37.0 67000.0]]
[[1.0 0.0 0.0 44.0 72000.0]
 [0.0 0.0 1.0 27.0 48000.0]
 [0.0 1.0 0.0 30.0 54000.0]
 [0.0 0.0 1.0 38.0 61000.0]
 [0.0 1.0 0.0 40.0 63777.77777777778]
 [1.0 0.0 0.0 35.0 58000.0]
 [0.0 0.0 1.0 38.77777777777778 52000.0]
 [1.0 0.0 0.0 48.0 79000.0]
 [0.0 1.0 0.0 50.0 83000.0]
 [1.0 0.0 0.0 37.0 67000.0]]


## 第五步：将数据集划分为训练集和测试集

把数据集拆分成两个:
* 训练模型的训练集合
* 验证模型的测试集合。

两者比例一般是80:20。

我们导入sklearn.cro-ssvalidation库中的train_test_split()方法。


In [17]:
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2)
print(x_train)
print(x_test)
print(y_train)
print(y_test)

[[0.0 0.0 1.0 38.0 61000.0]
 [0.0 1.0 0.0 30.0 54000.0]
 [1.0 0.0 0.0 37.0 67000.0]
 [1.0 0.0 0.0 44.0 72000.0]
 [0.0 0.0 1.0 27.0 48000.0]
 [0.0 1.0 0.0 50.0 83000.0]
 [0.0 0.0 1.0 38.77777777777778 52000.0]
 [1.0 0.0 0.0 48.0 79000.0]]
[[1.0 0.0 0.0 35.0 58000.0]
 [0.0 1.0 0.0 40.0 63777.77777777778]]
[0 0 1 0 1 0 0 1]
[1 1]


## 第六步：特征缩放

大部分模型算法使用两点间的欧式距离表示。

但此特征在幅度、单位和范围姿态问题上变化很大。在距离计算中，高幅度的特征比低幅度特征权重更大。

可用**特征标准化**或**归一化**解决。

导入sklearn.preprocessing库的Stan-dardScalar类。


In [18]:
from sklearn.preprocessing import StandardScaler
sc_x=StandardScaler()
x_train=sc_x.fit_transform(x_train)
x_test=sc_x.fit_transform(x_test)
print(x_train)

[[-0.77459667 -0.57735027  1.29099445 -0.14517571 -0.28991038]
 [-0.77459667  1.73205081 -0.77459667 -1.20367201 -0.86973113]
 [ 1.29099445 -0.57735027 -0.77459667 -0.27748775  0.20707884]
 [ 1.29099445 -0.57735027 -0.77459667  0.64869652  0.62123652]
 [-0.77459667 -0.57735027  1.29099445 -1.60060813 -1.36672035]
 [-0.77459667  1.73205081 -0.77459667  1.44256875  1.53238343]
 [-0.77459667 -0.57735027  1.29099445 -0.04226635 -1.03539421]
 [ 1.29099445 -0.57735027 -0.77459667  1.17794467  1.20105728]]


## 总和

In [19]:
import numpy as np
import pandas as pd
from sklearn.impute import SimpleImputer  #替换缺失值
from sklearn.preprocessing import LabelEncoder,OneHotEncoder  #数据转化
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import train_test_split  #数据划分
from sklearn.preprocessing import StandardScaler  #

x=df.iloc[:,:-1].values  #矩阵
y=df.iloc[:,3].values  #向量

imputer=SimpleImputer(strategy="mean")  #用均值替代缺失值
imputer=imputer.fit(x[:,1:3])
x[:,1:3]=imputer.transform(x[:,1:3])

labelencoder_x=LabelEncoder()  #初始化
x[:,0]=labelencoder_x.fit_transform(x[:,0])  #选取第一列数据
#创建虚变量
ct=ColumnTransformer([("Country",OneHotEncoder(),[0])],remainder="passthrough")
x=ct.fit_transform(x)

labelencoder_y=LabelEncoder()
y=labelencoder_y.fit_transform(y)

x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2)

sc_x=StandardScaler()
x_train=sc_x.fit_transform(x_train)
x_test=sc_x.fit_transform(x_test)
print(x_train)

[[-0.77459667  1.29099445 -0.57735027  0.13046561 -0.09355807]
 [ 1.29099445 -0.77459667 -0.57735027 -0.52186246 -0.59901468]
 [ 1.29099445 -0.77459667 -0.57735027  1.17419053  1.23812568]
 [ 1.29099445 -0.77459667 -0.57735027  0.65232807  0.62574556]
 [-0.77459667  1.29099445 -0.57735027  1.43512176  1.58805718]
 [-0.77459667 -0.77459667  1.73205081 -0.13046561 -0.33656606]
 [-0.77459667  1.29099445 -0.57735027 -1.17419053 -0.94894618]
 [-0.77459667 -0.77459667  1.73205081 -1.56558738 -1.47384342]]
