# 可选实验 - 多分类


## 1.1 目标
在本实验中，您将探索使用神经网络进行多分类的示例。
<figure>
 <img src="./images/C2_W2_mclass_header.png"   style="width500px;height:200px;">
</figure>


## 1.2 工具
您将使用一些绘图例程。这些存储在此目录中的 `lab_utils_multiclass_TF.py` 中。

In [1]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib widget
from sklearn.datasets import make_blobs
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
np.set_printoptions(precision=2)
from lab_utils_multiclass_TF import *
import logging
logging.getLogger("tensorflow").setLevel(logging.ERROR)
tf.autograph.set_verbosity(0)

# 2.0 多分类
神经网络经常用于对数据进行分类。神经网络的示例包括：
- 接收照片并将照片中的主题分类为 {狗,猫,马,其他}
- 接收一个句子并对其元素的"词性"进行分类：{名词,动词,形容词等}  

这种类型的网络在其最后一层将有多个单元。每个输出都与一个类别相关联。当将输入示例应用于网络时，具有最高值的输出是预测的类别。如果将输出应用于 softmax 函数，softmax 的输出将提供输入属于每个类别的概率。 

在本实验中，您将看到在 Tensorflow 中构建多分类网络的示例。然后我们将看看神经网络如何进行预测。

让我们首先创建一个四类数据集。

## 2.1 准备和可视化我们的数据
我们将使用 Scikit-Learn 的 `make_blobs` 函数创建一个包含 4 个类别的训练数据集，如下面的图所示。

In [2]:
# make 4-class dataset for classification
classes = 4
m = 100
centers = [[-5, 2], [-2, -2], [1, 2], [5, -2]]
std = 1.0
X_train, y_train = make_blobs(n_samples=m, centers=centers, cluster_std=std,random_state=30)

In [3]:
plt_mc(X_train,y_train,classes, centers, std=std)

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

每个点代表一个训练样本。轴 (x0,x1) 是输入，颜色表示样本关联的类别。训练后，模型将接收一个新示例 (x0,x1)，并预测类别。  

虽然是生成的，但这个数据集代表了许多现实世界的分类问题。有多个输入特征 (x0,...,xn) 和多个输出类别。模型被训练为使用输入特征来预测正确的输出类别。

In [4]:
# show classes in data set
print(f"unique classes {np.unique(y_train)}")
# show how classes are represented
print(f"class representation {y_train[:10]}")
# show shapes of our dataset
print(f"shape of X_train: {X_train.shape}, shape of y_train: {y_train.shape}")

unique classes [0 1 2 3]
class representation [3 3 3 0 3 3 3 3 2 0]
shape of X_train: (100, 2), shape of y_train: (100,)


## 2.2 模型
<img align="Right" src="./images/C2_W2_mclass_lab_network.PNG"  style=" width:350px; padding: 10px 20px ; ">
本实验将使用如图所示的 2 层网络。
与二分类网络不同，此网络有四个输出，每个类别一个。给定一个输入示例，具有最高值的输出是输入的预测类别。   

下面是在 Tensorflow 中构建此网络的示例。请注意，输出层使用 `linear` 而不是 `softmax` 激活。虽然可以在输出层中包含 softmax，但在训练期间将线性输出传递给损失函数在数值上更稳定。如果模型用于预测概率，可以在那时应用 softmax。

In [5]:
tf.random.set_seed(1234)  # applied to achieve consistent results
model = Sequential(
    [
        Dense(2, activation = 'relu',   name = "L1"),
        Dense(4, activation = 'linear', name = "L2")
    ]
)

下面的语句编译并训练网络。将 `from_logits=True` 设置为损失函数的参数，指定输出激活是线性的而不是 softmax。

In [6]:
model.compile(
    loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    optimizer=tf.keras.optimizers.Adam(0.01),
)

model.fit(
    X_train,y_train,
    epochs=200
)

Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78

Epoch 104/200
Epoch 105/200
Epoch 106/200
Epoch 107/200
Epoch 108/200
Epoch 109/200
Epoch 110/200
Epoch 111/200
Epoch 112/200
Epoch 113/200
Epoch 114/200
Epoch 115/200
Epoch 116/200
Epoch 117/200
Epoch 118/200
Epoch 119/200
Epoch 120/200
Epoch 121/200
Epoch 122/200
Epoch 123/200
Epoch 124/200
Epoch 125/200
Epoch 126/200
Epoch 127/200
Epoch 128/200
Epoch 129/200
Epoch 130/200
Epoch 131/200
Epoch 132/200
Epoch 133/200
Epoch 134/200
Epoch 135/200
Epoch 136/200
Epoch 137/200
Epoch 138/200
Epoch 139/200
Epoch 140/200
Epoch 141/200
Epoch 142/200
Epoch 143/200
Epoch 144/200
Epoch 145/200
Epoch 146/200
Epoch 147/200
Epoch 148/200
Epoch 149/200
Epoch 150/200
Epoch 151/200
Epoch 152/200
Epoch 153/200
Epoch 154/200
Epoch 155/200
Epoch 156/200
Epoch 157/200
Epoch 158/200
Epoch 159/200
Epoch 160/200
Epoch 161/200
Epoch 162/200
Epoch 163/200
Epoch 164/200
Epoch 165/200
Epoch 166/200
Epoch 167/200
Epoch 168/200
Epoch 169/200
Epoch 170/200
Epoch 171/200
Epoch 172/200
Epoch 173/200
Epoch 174/200
Epoch 

<keras.callbacks.History at 0x7fd95c610950>

模型训练完成后，我们可以看到模型如何对训练数据进行分类。

In [7]:
plt_cat_mc(X_train, y_train, model, classes)

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

上面，决策边界显示了模型如何划分输入空间。这个非常简单的模型在分类训练数据方面没有问题。它是如何做到这一点的？让我们更详细地看看网络。 

下面，我们将从模型中提取训练好的权重，并用它来绘制每个网络单元的函数。再往下，有对结果的更详细解释。您不需要知道这些细节就可以成功使用神经网络，但了解层如何组合来解决分类问题可能有助于获得更多直觉。

In [8]:
# gather the trained parameters from the first layer
l1 = model.get_layer("L1")
W1,b1 = l1.get_weights()

In [9]:
# plot the function of the first layer
plt_layer_relu(X_train, y_train.reshape(-1,), W1, b1, classes)

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

In [10]:
# gather the trained parameters from the output layer
l2 = model.get_layer("L2")
W2, b2 = l2.get_weights()
# create the 'new features', the training examples after L1 transformation
Xl2 = np.maximum(0, np.dot(X_train,W1) + b1)

plt_output_layer_linear(Xl2, y_train.reshape(-1,), W2, b2, classes,
                        x0_rng = (-0.25,np.amax(Xl2[:,0])), x1_rng = (-0.25,np.amax(Xl2[:,1])))

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

## 解释
#### 第 1 层 <img align="Right" src="./images/C2_W2_mclass_layer1.png"  style=" width:600px; padding: 10px 20px ; ">
这些图显示了网络第一层中单元 0 和 1 的函数。输入是轴上的 ($x_0,x_1$)。单元的输出由背景的颜色表示。这在每个图的右侧的颜色条中指示。请注意，由于这些单元使用 ReLu，输出不一定在 0 和 1 之间，在这种情况下，峰值大于 20。 
此图中的等高线显示输出 $a^{[1]}_j$ 为零和非零之间的过渡点。回想一下 ReLu 的图：<img align="right" src="./images/C2_W2_mclass_relu.png"  style=" width:200px; padding: 10px 20px ; "> 图中的等高线是 ReLu 中的拐点。

单元 0 已将类别 0 和 1 与类别 2 和 3 分开。线左侧的点（类别 0 和 1）将输出零，而右侧的点将输出大于零的值。  
单元 1 已将类别 0 和 2 与类别 1 和 3 分开。线上方的点（类别 0 和 2）将输出零，而线下方的点将输出大于零的值。让我们看看这在下一层中是如何工作的！

#### 第 2 层，输出层  <img align="Right" src="./images/C2_W2_mclass_layer2.png"  style=" width:600px; padding: 10px 20px ; ">

这些图中的点是第一层转换后的训练样本。一种思考方式是，第一层创建了一组新特征供第二层评估。这些图中的轴是前一层的输出 $a^{[1]}_0$ 和 $a^{[1]}_1$。正如上面预测的，类别 0 和 1（蓝色和绿色）的 $a^{[1]}_0 = 0$，而类别 0 和 2（蓝色和橙色）的 $a^{[1]}_1 = 0$。  
再次，背景颜色的强度表示最高值。  
单元 0 将在接近 (0,0) 的值处产生其最大值，其中类别 0（蓝色）已被映射。    
单元 1 在左上角产生其最高值，选择类别 1（绿色）。  
单元 2 针对右下角，类别 2（橙色）所在的位置。  
单元 3 在右上角产生其最高值，选择我们的最终类别（紫色）。  

从图中不明显的另一个方面是，值已在单元之间协调。单元为其选择的类别产生最大值是不够的，它还必须是在该类别中的点的所有单元中的最高值。这是通过作为损失函数（`SparseCategoricalCrossEntropy`）一部分的隐含 softmax 函数完成的。与其他激活函数不同，softmax 在所有输出上工作。

您可以在不知道每个单元具体做什么的情况下成功使用神经网络。希望这个示例提供了一些关于底层发生的事情的直觉。

## 恭喜！
您已经学会了构建和操作用于多分类的神经网络。
