# 可选实验：使用 Scikit-Learn 进行线性回归

有一个名为 [scikit-learn](https://scikit-learn.org/stable/index.html) 的开源、商业可用的机器学习工具包。此工具包包含您将在本课程中使用的许多算法的实现。



## 目标
在本实验中，您将：
- 利用 scikit-learn 使用基于正规方程的闭式解实现线性回归

## 工具
您将利用 scikit-learn 的函数以及 matplotlib 和 NumPy。 

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from lab_utils_multi import load_house_data
plt.style.use('./deeplearning.mplstyle')
np.set_printoptions(precision=2)

<a name="toc_40291_2"></a>
# 线性回归，闭式解
Scikit-learn 有一个[线性回归模型](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression)，它实现了闭式线性回归。

让我们使用早期实验中的数据 - 一栋 1000 平方英尺的房屋以 30 万美元售出，一栋 2000 平方英尺的房屋以 50 万美元售出。

| 面积（1000 平方英尺）     | 价格（千美元） |
| ----------------| ------------------------ |
| 1               | 300                      |
| 2               | 500                      |


### 加载数据集

In [2]:
X_train = np.array([1.0, 2.0])   #features
y_train = np.array([300, 500])   #target value

### 创建并拟合模型
下面的代码使用 scikit-learn 执行回归。
第一步创建一个回归对象。
第二步利用与对象关联的方法之一 `fit`。这执行回归，将参数拟合到输入数据。工具包期望一个二维 X 矩阵。

In [3]:
linear_model = LinearRegression()
#X must be a 2-D Matrix
linear_model.fit(X_train.reshape(-1, 1), y_train) 

LinearRegression()

### 查看参数
$\mathbf{w}$ 和 $\mathbf{b}$ 参数在 scikit-learn 中被称为"系数"和"截距"。

In [4]:
b = linear_model.intercept_
w = linear_model.coef_
print(f"w = {w:}, b = {b:0.2f}")
print(f"'manual' prediction: f_wb = wx+b : {1200*w + b}")

w = [200.], b = 100.00
'manual' prediction: f_wb = wx+b : [240100.]


### 进行预测

调用 `predict` 函数生成预测。

In [5]:
y_pred = linear_model.predict(X_train.reshape(-1, 1))

print("Prediction on training set:", y_pred)

X_test = np.array([[1200]])
print(f"Prediction for 1200 sqft house: ${linear_model.predict(X_test)[0]:0.2f}")

Prediction on training set: [300. 500.]
Prediction for 1200 sqft house: $240100.00


## 第二个示例
第二个示例来自具有多个特征的早期实验。最终参数值和预测与该实验中未归一化的"长运行"结果非常接近。那个未归一化的运行需要几个小时才能产生结果，而这几乎是即时的。闭式解在这些较小的数据集上效果很好，但在较大的数据集上可能计算要求很高。
>闭式解不需要归一化。

In [6]:
# load the dataset
X_train, y_train = load_house_data()
X_features = ['size(sqft)','bedrooms','floors','age']

In [7]:
linear_model = LinearRegression()
linear_model.fit(X_train, y_train) 

LinearRegression()

In [8]:
b = linear_model.intercept_
w = linear_model.coef_
print(f"w = {w:}, b = {b:0.2f}")

w = [  0.27 -32.62 -67.25  -1.47], b = 220.42


In [9]:
print(f"Prediction on training set:\n {linear_model.predict(X_train)[:4]}" )
print(f"prediction using w,b:\n {(X_train @ w + b)[:4]}")
print(f"Target values \n {y_train[:4]}")

x_house = np.array([1200, 3,1, 40]).reshape(-1,4)
x_house_predict = linear_model.predict(x_house)[0]
print(f" predicted price of a house with 1200 sqft, 3 bedrooms, 1 floor, 40 years old = ${x_house_predict*1000:0.2f}")

Prediction on training set:
 [295.18 485.98 389.52 492.15]
prediction using w,b:
 [295.18 485.98 389.52 492.15]
Target values 
 [300.  509.8 394.  540. ]
 predicted price of a house with 1200 sqft, 3 bedrooms, 1 floor, 40 years old = $318709.09


## 恭喜！
在本实验中，您：
- 使用了开源机器学习工具包 scikit-learn
- 使用该工具包的闭式解实现了线性回归