# 可选实验：使用逻辑回归进行分类

在本实验中，您将对比回归和分类。

In [1]:
import numpy as np
%matplotlib widget
import matplotlib.pyplot as plt
from Classification.Concept.lab_utils_common import dlc, plot_data
from Classification.Concept.plt_one_addpt_onclick import plt_one_addpt_onclick

plt.style.use('deeplearning.mplstyle')

## 分类问题

<img align="left" src="../../images/C1_W3_Classification.png" style="width:380px; padding: 10px; " >

分类问题的示例如下：将电子邮件识别为垃圾邮件或非垃圾邮件或确定肿瘤是恶性还是良性。特别是，这些是*二元*分类的示例，其中有两种可能的结果。结果可以用成对的“正”/“负”来描述，例如“是”/“否”、“真”/“假”或“1”/“0”。

分类数据集的图通常使用符号来指示示例的结果。在下图中，“X”用于表示正值，而“O”表示负结果。

In [2]:
x_train = np.array([0., 1, 2, 3, 4, 5])
y_train = np.array([0, 0, 0, 1, 1, 1])
X_train2 = np.array([[0.5, 1.5], [1, 1], [1.5, 0.5], [3, 0.5], [2, 2], [1, 2.5]])
y_train2 = np.array([0, 0, 0, 1, 1, 1])

In [3]:
pos = y_train == 1
neg = y_train == 0
fig, ax = plt.subplots(1, 2, figsize=(8, 3))
ax[0].scatter(x_train[pos], y_train[pos], marker='x', s=80, c='red', label="y=1")
ax[0].scatter(x_train[neg], y_train[neg], marker='o', s=100, label="y=0", facecolors='none',
              edgecolors=dlc["dlblue"], lw=3)
ax[0].set_ylim(-0.08, 1.1)
ax[0].set_ylabel('y', fontsize=12)
ax[0].set_xlabel('x', fontsize=12)
ax[0].set_title('one variable plot')
ax[0].legend()
plot_data(X_train2, y_train2, ax[1])
ax[1].axis([0, 4, 0, 4])
ax[1].set_ylabel('$x_1$', fontsize=12)
ax[1].set_xlabel('$x_0$', fontsize=12)
ax[1].set_title('two variable plot')
ax[1].legend()
plt.tight_layout()
plt.show()

请注意上图中：

- 在单变量图中，阳性结果显示为红色“X”且y=1。阴性结果为蓝色“O”，位于y=0处。
    - 回想一下，在线性回归的情况下，y不会被限制为两个值，而是可以是任何值。
- 在二变量图中，y轴不可用。阳性结果显示为红色“X”，而阴性结果则使用蓝色“O”符号。
    - 回想一下，在具有多个变量的线性回归的情况下，y不会被限制为两个值，并且类似的图将是三维的。

## 线性回归方法

上周，您应用了线性回归来构建预测模型。让我们使用讲座中描述的简单示例来尝试这种方法。该模型将根据肿瘤大小预测肿瘤是良性还是恶性。请尝试以下操作：

- 单击“Run Linear Regression”以查找给定数据的最佳线性回归模型。
    - 请注意，生成的线性模型与数据**不**匹配。
      改善结果的一种选择是应用*阈值*。
- 勾选“Toggle 0.5 threshold”框以显示应用阈值时的预测。
    - 这些预测看起来不错，预测与数据相符
- *重要*：现在，在最右侧的大肿瘤尺寸范围（接近 10）中添加更多“恶性”数据点，然后重新运行线性回归。
    - 现在，模型预测了更大的肿瘤，但 x=3 处的数据点被错误预测！
- 要清除/更新绘图，请重新运行包含绘图命令的单元格。

In [6]:
w_in = np.zeros(1)
b_in = 0
plt.close('all')
addpt = plt_one_addpt_onclick(x_train, y_train, w_in, b_in, logistic=False)

上面的示例表明线性模型不足以对分类数据进行建模。该模型可以按照以下实验中的描述进行扩展。

## 恭喜！

在本实验室中，您：

- 探索分类数据集和绘图
- 确定线性回归不足以进行逻辑回归。