## Numpy数据输入给Sklearn实现模型训练

***本视频的目的，向大家演示：***  
Numpy的数组怎样与sklearn模型交互，包括训练测试集拆分、输入给模型、评估模型、模型预估

对于大家自己的任务，可以提前处理成这样的Numpy格式，然后输入给sklearn模型

In [1]:
import numpy as np
# 使用sklearn自带的数据集，这些数据集都是Numpy的形式
# 我们自己的数据，也可以处理成这种格式，然后就可以输入给模型
from sklearn import datasets
# 用train_test_split可以拆分训练集和测试集
from sklearn.model_selection import train_test_split
# 使用LinearRegression训练线性回归模型
from sklearn.linear_model import LinearRegression

### 1. 加载波斯顿房价数据集

In [2]:
# 加载数据集，存入特征矩阵data、预测结果向量target
data, target = datasets.load_boston(return_X_y=True)

In [3]:
type(data), type(target)

(numpy.ndarray, numpy.ndarray)

In [4]:
data.shape, target.shape

((506, 13), (506,))

In [5]:
# 查看前三条房子的特征信息
data[:3]

array([[6.3200e-03, 1.8000e+01, 2.3100e+00, 0.0000e+00, 5.3800e-01,
        6.5750e+00, 6.5200e+01, 4.0900e+00, 1.0000e+00, 2.9600e+02,
        1.5300e+01, 3.9690e+02, 4.9800e+00],
       [2.7310e-02, 0.0000e+00, 7.0700e+00, 0.0000e+00, 4.6900e-01,
        6.4210e+00, 7.8900e+01, 4.9671e+00, 2.0000e+00, 2.4200e+02,
        1.7800e+01, 3.9690e+02, 9.1400e+00],
       [2.7290e-02, 0.0000e+00, 7.0700e+00, 0.0000e+00, 4.6900e-01,
        7.1850e+00, 6.1100e+01, 4.9671e+00, 2.0000e+00, 2.4200e+02,
        1.7800e+01, 3.9283e+02, 4.0300e+00]])

In [6]:
# 查看前三条房价结果
target[:3]

array([24. , 21.6, 34.7])

### 2. 拆分训练集和测试集

In [7]:
# 拆分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(data, target)

In [8]:
# 训练集的数据
X_train.shape, y_train.shape

((379, 13), (379,))

In [9]:
# 测试集的数据
X_test.shape, y_test.shape

((127, 13), (127,))

### 3. 训练线性回归模型

In [10]:
# 构造线性回归对象，使用默认参数即可
clf = LinearRegression()

In [11]:
# 执行训练
clf.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [12]:
# 在训练集上的打分
clf.score(X_train, y_train)

0.7290997955432121

### 4. 评估模型和使用模型

In [13]:
# 在测试集上打分评估
clf.score(X_test, y_test)

0.7658281007291711

In [14]:
# 只取前三条数据，实现房价预估
clf.predict(X_test[:3])

array([36.1889043 , 17.05681981, 26.1238293 ])

In [15]:
# 看下实际的房价
y_test[:3]

array([50. , 23.1, 22.8])