# 可选实验 - ReLU 激活

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.gridspec import GridSpec
plt.style.use('./deeplearning.mplstyle')
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, LeakyReLU
from tensorflow.keras.activations import linear, relu, sigmoid
%matplotlib widget
from matplotlib.widgets import Slider
from lab_utils_common import dlc
from autils import plt_act_trio
from lab_utils_relu import *
import warnings
warnings.simplefilter(action='ignore', category=UserWarning)


<a name="2"></a>
## 2 - ReLU 激活
本周，引入了一种新的激活函数，即修正线性单元（ReLU）。 
$$ a = max(0,z) \quad\quad\text {# ReLU 函数} $$

In [2]:
plt_act_trio()

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

<img align="right" src="./images/C2_W2_ReLu.png"     style=" width:380px; padding: 10px 20px; " >
右侧讲座中的示例显示了 ReLU 的应用。在此示例中，派生的"意识"特征不是二元的，而是具有连续的值范围。Sigmoid 最适合开/关或二元情况。ReLU 提供连续的线性关系。此外，它有一个"关闭"范围，其中输出为零。     
"关闭"特性使 ReLU 成为非线性激活。为什么需要这个？让我们在下面检查一下。 

### 为什么需要非线性激活？  
<img align="left" src="./images/C2_W2_ReLU_Graph.png"     style=" width:250px; padding: 10px 20px; " > 显示的函数由线性片段组成（分段线性）。斜率在线性部分保持一致，然后在过渡点突然改变。在过渡点，添加一个新的线性函数，当添加到现有函数时，将产生新的斜率。新函数在过渡点添加，但在该点之前不会对输出做出贡献。非线性激活函数负责在过渡点之前（有时之后）禁用输入。下面的练习提供了一个更具体的示例。

该练习将在回归问题中使用下面的网络，您必须对分段线性目标进行建模：
<img align="center" src="./images/C2_W2_ReLU_Network.png"     style=" width:650px; padding: 10px 20px; ">  
网络在第一层有 3 个单元。每个单元都需要形成目标。单元 0 是预编程的并固定为映射第一段。您将修改单元 1 和 2 中的权重和偏置以建模第二段和第三段。输出单元也是固定的，只是对第一层的输出求和。  

使用下面的滑块，修改权重和偏置以匹配目标。 
提示：从 `w1` 和 `b1` 开始，将 `w2` 和 `b2` 保持为零，直到您匹配第二段。点击而不是滑动更快。如果您遇到困难，不要担心，下面的文本将更详细地描述这一点。

In [3]:
_ = plt_relu_ex()

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

 
本练习的目标是理解 ReLU 的非线性行为如何提供在需要之前关闭函数所需的能力。让我们看看这在这个示例中是如何工作的。
<img align="right" src="./images/C2_W2_ReLU_Plot.png"     style=" width:600px; padding: 10px 20px; "> 
右侧的图包含第一层中单元的输出。   
从顶部开始，单元 0 负责标记为 1 的第一段。显示了线性函数 $z$ 和 ReLU 之后的函数 $a$。您可以看到 ReLU 在区间 [0,1] 之后切断了函数。这很重要，因为它防止单元 0 干扰后续段。 

单元 1 负责第二段。在这里，ReLU 使该单元保持安静，直到 x 大于 1。由于第一个单元没有贡献，单元 1 的斜率 $w^{[1]}_1$ 就是目标线的斜率。必须调整偏置以保持输出为负，直到 x 达到 1。请注意，单元 1 的贡献也延伸到第三段。

单元 2 负责第三段。ReLU 再次将输出置零，直到 x 达到正确的值。单元的斜率 $w^{[1]}_2$ 必须设置，使得单元 1 和 2 的总和具有所需的斜率。再次调整偏置以保持输出为负，直到 x 达到 2。 

ReLU 激活的"关闭"或禁用功能使模型能够将线性段拼接在一起，以建模复杂的非线性函数。


## 恭喜！
您现在更熟悉 ReLU 及其非线性行为的重要性。