# 可选实验：逻辑回归的成本函数

## 目标

在本实验室中，您将：

- 检查实施并利用逻辑回归的成本函数。

In [1]:
import numpy as np
%matplotlib widget
import matplotlib.pyplot as plt
from lab_utils_common import plot_data, sigmoid, dlc

plt.style.use('./deeplearning.mplstyle')

## 数据集

让我们从决策边界实验室中使用的相同数据集开始。

In [2]:
X_train = np.array([[0.5, 1.5], [1, 1], [1.5, 0.5], [3, 0.5], [2, 2], [1, 2.5]])
y_train = np.array([0, 0, 0, 1, 1, 1])

我们将使用辅助函数来绘制这些数据。标签$y=1$的数据点显示为红色十字，而标签$y=0$的数据点显示为蓝色圆圈。

In [3]:
fig, ax = plt.subplots(1, 1, figsize=(4, 4))
plot_data(X_train, y_train, ax)
ax.axis([0, 4, 0, 3.5])
ax.set_ylabel('$x_1$', fontsize=12)
ax.set_xlabel('$x_0$', fontsize=12)
plt.show()

## 成本函数

在之前的实验中，您开发了*逻辑损失*函数。回想一下，损失的定义适用于一个例子。在这里，您将损失合并起来形成**成本**，其中包括所有示例。

回想一下，对于逻辑回归，成本函数的形式为

$$J(\mathbf{w},b)=\frac{1}{m}\sum_{i=0}^{m-1}\left[loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}),y^{(i)})\right]\tag{1}$$

在哪里

* $loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}),y^{(i)})$是单个数据点的成本，即：

  $$loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}),y^{(i)})=-y^{(i)}\log\left(f_{\mathbf{w},b}\left(\mathbf{x}^{(i)}\right)\right)-\left(1-y^{(i)}\right)\log\left(1-f_{\mathbf{w},b}\left(\mathbf{x}^{(i)}\right)\right)\tag{2}$$
    
* 其中m是数据集中训练样本的数量，并且：
  
  $$
  \begin{align}
    f_{\mathbf{w},b}(\mathbf{x^{(i)}}) &= g(z^{(i)})\tag{3} \\
    z^{(i)} &= \mathbf{w} \cdot \mathbf{x}^{(i)}+ b\tag{4} \\
    g(z^{(i)}) &= \frac{1}{1+e^{-z^{(i)}}}\tag{5} 
  \end{align}
  $$

#### 代码说明

`compute_cost_logistic`算法循环遍历所有示例，计算每个示例求和的损失。

请注意，变量X和y不是标量值，而是形状分别为`(m, n)`和`(m,)`的矩阵，其中$𝑛$是特征数量，$𝑚$是训练样本数量。

In [4]:
def compute_cost_logistic(X, y, w, b):
    m = X.shape[0]
    cost = 0.0
    for i in range(m):
        z_i = np.dot(X[i], w) + b
        f_wb_i = sigmoid(z_i)
        cost += -y[i] * np.log(f_wb_i) - (1 - y[i]) * np.log(1 - f_wb_i)
    cost = cost / m
    return cost

使用下面的单元格检查成本函数的实现。

In [5]:
w_tmp = np.array([1, 1])
b_tmp = -3
print(compute_cost_logistic(X_train, y_train, w_tmp, b_tmp))

**预期输出**：0.3668667864055175

## 例子

现在，让我们看看不同$w$值的成本函数输出是什么。

* 在之前的实验中，您绘制了$b=-3,w_0=1,w_1=1$的决策边界。也就是说，你有`w = np.array([-3,1,1])`。
* 假设您想查看$b=-4,w_0=1,w_1=1$或`w=np.array([-4,1,1])`是否提供了更好的模型。

我们首先绘制这两个不同$b$值的决策边界，看看哪一个更适合数据。

* 对于$b=-3,w_0=1,w_1=1$，我们将绘制$-3+x_0+x_1=0$（以蓝色显示）
* 对于$b=-4,w_0=1,w_1=1$，我们将绘制$-4+x_0+x_1=0$（以洋红色显示）

In [6]:
import matplotlib.pyplot as plt

x0 = np.arange(0, 6)
x1 = 3 - x0
x1_other = 4 - x0
fig, ax = plt.subplots(1, 1, figsize=(4, 4))
ax.plot(x0, x1, c=dlc["dlblue"], label="$b$=-3")
ax.plot(x0, x1_other, c=dlc["dlmagenta"], label="$b$=-4")
ax.axis([0, 4, 0, 4])
plot_data(X_train, y_train, ax)
ax.axis([0, 4, 0, 4])
ax.set_ylabel('$x_1$', fontsize=12)
ax.set_xlabel('$x_0$', fontsize=12)
plt.legend(loc="upper right")
plt.title("Decision Boundary")
plt.show()

从该图中可以看出，`w = np.array([-4,1,1])`对于训练数据来说是一个更差的模型。让我们看看成本函数的实现是否反映了这一点。

In [7]:
w_array1 = np.array([1, 1])
b_1 = -3
w_array2 = np.array([1, 1])
b_2 = -4
print("Cost for b = -3 : ", compute_cost_logistic(X_train, y_train, w_array1, b_1))
print("Cost for b = -4 : ", compute_cost_logistic(X_train, y_train, w_array2, b_2))

**预期输出**

Cost for b = -3 :  0.3668667864055175

Cost for b = -4 :  0.5036808636748461

您可以看到成本函数的行为符合预期，并且`w = np.array([-4,1,1])`的成本确实高于`w = np.array([-3,1, 1])`

## 恭喜！

在本实验中，您检查并利用了逻辑回归的成本函数。