# 可选实验室：模型表示法

<figure>
 <img src="../../images/C1_W1_L3_S1_Lecture_b.png"   style="width:600px;height:200px;">
</figure>

## 目标

在本实验室中，您将

- 学习如何使用单变量线性回归模型$f_{w,b}$

## 工具

在本实验室中，您将使用 

- NumPy，一种流行的科学计算库
- Matplotlib - 用于绘制数据的流行库

In [1]:
import numpy as np
import matplotlib.pyplot as plt

plt.style.use('deeplearning.mplstyle')

# 问题陈述

<img align="left" src="../../images/C1_W1_L3_S1_trainingdata.png" style=" width:380px; padding： 10px; " /> 

与讲座中一样，您将使用住房价格预测这一激励性示例。

本实验将使用一个简单的数据集，其中只有两个数据点——一栋1000平方英尺的房子售价为300,000美元和一栋2000平方英尺的房子，售价为500,000美元。这两个点将构成我们的*数据集或训练集*。

在这个实验室中，面积单位是1000平方英尺，价格单位是1000美元。

| 面积（1000平方英尺） | 价格（1000美元） |
|--------------|------------|
| 1.0          | 300        |
| 2.0          | 500        |

您想通过这两点拟合一个线性回归模型（如上图蓝色直线所示），这样您就可以预测其他房屋的价格，例如，面积为1200平方英尺的房屋。

请运行以下代码单元来创建`x_train`和`y_train`变量。数据存储在一维NumPy数组中。

In [2]:
x_train = np.array([1.0, 2.0])
y_train = np.array([300.0, 500.0])
print(f"x_train = {x_train}")
print(f"y_train = {y_train}")

>**注意**： 本课程在打印时将经常使用[此处](https://docs.python.org/3/tutorial/inputoutput.html)所描述的python“f-string”输出格式。输出时将对大括号之间的内容进行评估。

### 训练示例数`m`

您将使用`m`表示训练示例的数量。Numpy数组有一个`.shape`参数。`x_train.shape`返回一个python元组，每个维度都有一个条目。如下所示，`x_train.shape[0]`是数组的长度和示例数。

In [3]:
print(f"x_train.shape: {x_train.shape}")
m = x_train.shape[0]
print(f"Number of training examples is: {m}")

也可以使用Python的`len()`函数，如下所示。

In [4]:
m = len(x_train)
print(f"Number of training examples is: {m}")

### 训练示例`x_i, y_i`

您将使用(x$^{(i)}$, y$^{(i)}$)表示$i^{th}$训练示例。由于Python是零索引的，所以(x$^{(0)}$, y$^{(0)}$)是(1.0, 300.0)，而(x$^{(1)}$, y$^{(1)}$)是(2.0, 500.0)。

要访问Numpy数组中的值，需要用所需的偏移量对数组进行索引。例如，访问`x_train`的第0个位置的语法是`x_train[0]`。

运行下面的代码块，获取$i^{th}$训练示例。

In [5]:
i = 0
x_i = x_train[i]
y_i = y_train[i]
print(f"(x^({i}), y^({i})) = ({x_i}, {y_i})")

### 绘制数据图

您可以使用`matplotlib`库中的`scatter()`函数绘制这两点，如下图所示。

- 函数参数`marker`和`c`将点显示为红色十字（默认为蓝点）。

您可以使用`matplotlib`库中的其他函数来设置要显示的标题和标签

In [6]:
plt.scatter(x_train, y_train, marker='x', c='r')
plt.title("Housing Prices")
plt.ylabel('Price (in 1000s of dollars)')
plt.xlabel('Size (1000 sqft)')
plt.show()

## 模型功能

<img align="left" src="../../images/C1_W1_L3_S1_model.png"     style=" width:380px; padding: 10px; " >

如讲座所述，线性回归的模型函数（即从`x`映射到`y`的函数）表示为

$$ f_{w,b}(x^{(i)}) = wx^{(i)} + b \tag{1}$$

上面的公式就是表示直线的方法——不同的$w$和$b$值会在图上显示出不同的直线。

让我们通过下面的代码块来更好地理解这一点。让我们从$w = 100$和$b = 100$开始。

**注：您可以返回该单元格调整模型的w和b参数**。

In [7]:
w = 100
b = 100
print(f"w: {w}")
print(f"b: {b}")

现在，我们来计算两个数据点的$f_{w,b}(x^{(i)})$值。您可以将每个数据点的计算结果明确写成

对于$x^{(0)}$，`f_wb = w * x[0] + b`

对于$x^{(1)}$, `f_wb = w * x[1] + b`

对于大量数据点，这种方法可能会变得笨重和重复。因此，可以在一个 `for` 循环中计算函数输出，如下面的 `compute_model_output`
函数所示。

> **注意**： 参数说明 `(ndarray (m,))` 描述了一个形状为(m,)的Numpy n维数组。标量描述了一个没有维数，只有大小的参数。

> **注意**： np.zero(n)`将返回一个有 $n$ 条目的一维numpy数组。

In [8]:
def compute_model_output(x, f_w, f_b):
    f_m = x.shape[0]
    f_wb = np.zeros(f_m)
    for f_i in range(f_m):
        f_wb[f_i] = f_w * x[f_i] + f_b
    return f_wb

现在，让我们调用`compute_model_output`函数并绘制输出结果。

In [9]:
tmp_f_wb = compute_model_output(x_train, w, b, )
plt.plot(x_train, tmp_f_wb, c='b', label='Our Prediction')
plt.scatter(x_train, y_train, marker='x', c='r', label='Actual Values')
plt.title("Housing Prices")
plt.ylabel('Price (in 1000s of dollars)')
plt.xlabel('Size (1000 sqft)')
plt.legend()
plt.show()

如您所见，设置$w = 100$和$b = 100$**并不能**得到一条符合数据的直线。

### 挑战

尝试使用不同的$w$和$b$值。要得到符合数据的直线，这些值应该是多少？

#### 提示：

您可以用鼠标点击下面绿色“提示”左侧的三角形，显示一些选择b和w。

<details>
<summary>
    <font size='3', color='darkgreen'><b>提示</b></font>
</summary>
<p>
    <ul>
        <li>尝试$w = 200$和$b = 100$</li>
    </ul>
</p>

### 预测

现在我们有了一个模型，可以用它来进行最初的预测。让我们预测一栋1200平方英尺的房子的价格。由于$x$的单位是1000平方英尺，所以$x$是1.2。


In [10]:
w = 200
b = 100
x_i = 1.2
cost_1200sqft = w * x_i + b
print(f"${cost_1200sqft:.0f} thousand dollars")

# 恭喜你！

在本实验室中，您学到了

- 线性回归建立模型，在特征和目标之间建立关系
  - 在上面的例子中，特征是房屋大小，目标是房屋价格
  - 对于简单的线性回归，模型有两个参数$w$和$b$，其值使用*训练数据*“拟合”。
  - 一旦确定了模型的参数，就可以使用该模型对新数据进行预测。