❗️ **本教程知识体系来源于**
**Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd edition**
**作者为Aurélien Géron**

**知识产权归原作者所有，如有侵权请联系删除**

# 动手做机器学习教程3 - 一个简易的机器学习项目（下）
>在本节，我们会完成上节的机器学习项目。我们在上一节已经处理好了数据，接下来要运用模型来使机器进行学习。
>
>数据来源：https://www.kaggle.com/spscientist/students-performance-in-exams

## 1.选择模型&进行训练
我们需要先读取上一篇教程中存储的数据：

In [1]:
import numpy as np
import pandas as pd
from scipy import sparse
copy_encoded = sparse.load_npz('copy_encoded.npz') 
copy_label = pd.read_csv('copy_label.csv')
strat_train_set = pd.read_csv('strat_train_set.csv')
strat_test_set = pd.read_csv('strat_train_set.csv')
data = pd.read_csv('F:\python\Jupyter\OpenBayes\StudentsPerformance.csv')

我们现在需要选择模型，并用对其进行训练。我们选择三个sklearn的内置模型：线性回归(LinearRegression)，回归树(DecisionTreeRegressor)和随机森林回归(RandomForestRegressor)。

In [2]:
from sklearn.linear_model import LinearRegression
lin_reg = LinearRegression()

In [3]:
from sklearn.tree import DecisionTreeRegressor
tree_reg = DecisionTreeRegressor()

In [4]:
from sklearn.ensemble import RandomForestRegressor
forest_reg = RandomForestRegressor()

接下来我们利用**k折交叉验证(k-fold cross-validation)**对三个模型进行检测，在这里，我们取折数k为10。

我们先将训练集分为10个(cv=10)不交的子集（称为“折”(fold)），接下来选出一个折作为验证集，用除该折外的9个折进行训练，再用该折进行验证、评分。待10次训练、验证后，我们对10个分数进行统计，根据统计数据选出最好的模型。

我们所用的评分函数是"neg_mean_squared_error"，即 $ -\frac{1}{m} \sum_{i=1}^{m} ({\hat{y}^{(i)}-y^{(i)}})^{2} $。负号使得该函数为一效用函数(utility function)，其评分是**负值**，在数值上越大，表示模型的效果越好。我们在计算RMSE时，需要将其**取相反数，再开平方**，得到的结果是正值，在数值上越**小**表示模型的效果越好。

In [5]:
from sklearn.model_selection import cross_val_score
lin_scores = cross_val_score(lin_reg, copy_encoded, copy_label, scoring="neg_mean_squared_error", cv=10)
lin_rmse_scores = np.sqrt(-lin_scores)

def display_scores(scores):
    print("分数:", scores)
    print("分数的平均数:", scores.mean())
    print("分数的标准差:", scores.std())

display_scores(lin_rmse_scores)

分数: [13.86476839 12.50785019 14.62681739 12.91934874 12.96122592 12.90951671
 12.68097805 13.0419986  13.08220808 13.75356814]
分数的平均数: 13.234828021152273
分数的标准差: 0.6147752353702693


In [6]:
tree_scores = cross_val_score(tree_reg, copy_encoded, copy_label, scoring="neg_mean_squared_error", cv=10)
tree_rmse_scores = np.sqrt(-tree_scores)
display_scores(tree_rmse_scores)

分数: [16.4220277  15.368354   16.19494722 14.27132169 14.67742071 15.02671621
 15.28389519 15.84505636 15.26430145 15.8269942 ]
分数的平均数: 15.418103473054373
分数的标准差: 0.6341826086754263


In [7]:
forest_scores = cross_val_score(forest_reg, copy_encoded, copy_label, scoring="neg_mean_squared_error", cv=10)
forest_rmse_scores = np.sqrt(-forest_scores)
display_scores(forest_rmse_scores)

  estimator.fit(X_train, y_train, **fit_params)
  estimator.fit(X_train, y_train, **fit_params)
  estimator.fit(X_train, y_train, **fit_params)
  estimator.fit(X_train, y_train, **fit_params)
  estimator.fit(X_train, y_train, **fit_params)
  estimator.fit(X_train, y_train, **fit_params)
  estimator.fit(X_train, y_train, **fit_params)


分数: [15.98621183 14.96093774 16.04342478 14.109643   14.07993973 15.17919601
 14.32486223 15.11302014 14.56494372 15.4995962 ]
分数的平均数: 14.986177538066334
分数的标准差: 0.6811590755181388


  estimator.fit(X_train, y_train, **fit_params)
  estimator.fit(X_train, y_train, **fit_params)
  estimator.fit(X_train, y_train, **fit_params)


比较三个分数的平均值及标准差，我们发现模型的效果上，线性回归最优，随机森林次之，回归树最差。我们接下来需要对模型进行超参数的调参，来进一步优化我们的模型。

## 2.模型调优&给出解决方案

## 3.上传、监控与维护你的系统

## 参考资料：
* “Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd edition”  作者：Aurélien Géron
