# 可选实验室：使用Scikit-Learn进行线性回归


有一个名为[scikit-learn](https://scikit-learn.org/stable/index.html)的开源、商业可用的机器学习工具包。这个工具包包含了许多你将在本课程中使用的算法的实现。


## 目标
在这个实验室中，你将：
- 利用scikit-learn实现使用基于正规方程的封闭形式解决方案的线性回归


## 工具
你将利用scikit-learn的函数以及matplotlib和NumPy。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from lab_utils_multi import load_house_data
plt.style.use('./deeplearning.mplstyle')
np.set_printoptions(precision=2)


# 线性回归，封闭形式解决方案
Scikit-learn有[线性回归模型](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression)，它实现了封闭形式的线性回归。

让我们使用早期实验室的数据 - 一个1000平方英尺的房子卖了30万美元，一个2000平方英尺的房子卖了50万美元。

| 大小（1000平方英尺）  | 价格（千美元） |
| ----------------| ------------------------ |
| 1               | 300                      |
| 2               | 500                      |


### 加载数据集

In [None]:

X_train = np.array([1.0, 2.0])   #特征
y_train = np.array([300, 500])   #目标值


### 创建并拟合模型
下面的代码使用scikit-learn执行回归。
第一步创建了一个回归对象。
第二步利用与该对象关联的方法之一，`fit`，执行回归，将参数拟合到输入数据。工具包期望一个二维的X矩阵。


In [None]:

linear_model = LinearRegression()
# X必须是一个二维矩阵
linear_model.fit(X_train.reshape(-1, 1), y_train)




In [None]:
b = linear_model.intercept_
w = linear_model.coef_
print(f"w = {w:}, b = {b:0.2f}")
print(f"'manual' prediction: f_wb = wx+b : {1200*w + b}")



    w = [200.], b = 100.00
    'manual' prediction: f_wb = wx+b : [240100.00]


### 进行预测

调用`predict`函数生成预测。

In [None]:
y_pred = linear_model.predict(X_train.reshape(-1, 1))

print("Prediction on training set:", y_pred)

X_test = np.array([[1200]])
print(f"Prediction for 1200 sqft house: ${linear_model.predict(X_test)[0]:0.2f}")


     Prediction on training set: [300. 500.]
    Prediction for 1200 sqft house: $240100.00

## 第二个示例
第二个示例来自较早的一个具有多个特征的实验室。最终的参数值和预测结果与该实验室中的未标准化“长期运行”的结果非常接近。该未标准化运行需要几小时才能生成结果，而这个几乎是瞬时的。封闭形式的解决方案在这些较小的数据集上效果很好，但在较大的数据集上可能需要更多计算资源。
>封闭形式的解决方案不需要标准化。


In [None]:
# 加载数据集
X_train, y_train = load_house_data()
X_features = ['size(sqft)','bedrooms','floors','age']

In [None]:
linear_model = LinearRegression()
linear_model.fit(X_train, y_train)





    LinearRegression()




In [None]:
b = linear_model.intercept_
w = linear_model.coef_
print(f"w = {w:}, b = {b:0.2f}")

In [None]:


print(f"在训练集上的预测:\n {linear_model.predict(X_train)[:4]}" )
print(f"使用w,b进行预测:\n {(X_train @ w + b)[:4]}")
print(f"目标值 \n {y_train[:4]}")

x_house = np.array([1200, 3,1, 40]).reshape(-1,4)
x_house_predict = linear_model.predict(x_house)[0]
print(f" 预测一所面积为1200平方英尺，3间卧室，1层，40岁的房子的价格 = ${x_house_predict*1000:0.2f}")




    在训练集上的预测:
     [295.18 485.98 389.52 492.15]
    使用w,b进行预测:
     [295.18 485.98 389.52 492.15]
    目标值 
     [300.  509.8 394.  540. ]
     预测一所面积为1200平方英尺，3间卧室，1层，40岁的房子的价格 = $318709.09



## 祝贺你！
在这个实验室中，你：
- 利用了一个开源的机器学习工具包，scikit-learn
- 实现了使用该工具包的封闭形式解决方案的线性回归。