# <font style="color:rgb(50,120,229)"> Funciones de activación </font>

In [None]:
import tensorflow as tf
import matplotlib.pyplot as plt

block_plot = False
plt.style.use('ggplot')
plt.rcParams["figure.figsize"] = (12, 6)

In [None]:
def plot_activation(x, y, y_label, title):
    plt.figure
    plt.plot(x, y, color='b')
    plt.xlabel('x')
    plt.ylabel(y_label)
    plt.title(title)
    plt.show(block=block_plot)
    plt.close()

## <font style="color:rgb(50,120,229)"> Función Sigmoid </font>

La función Sigmoide se define como:

$$
y' = \sigma(z) = \frac{1}{1 + e^{-z}}
$$

Es más adecuada para la **clasificación binaria**. Por lo tanto, podemos inferir algunas cosas de lo siguiente:

- Si $sigmoid(z) > 0.5$, entonces la entrada pertenece a la clase positiva o clase `1`.
- Si $sigmoid(z) < 0.5$, entonces la entrada pertenece a la clase negativa o clase `0`.

La salida `sigmoid` $y'$ se puede pensar como la probabilidad de que el punto de datos pertenezca a la clase `1`. Entonces, la probabilidad de que pertenezca a la clase `0` será $1-y'$.

Se usa principalmente en la capa final de una red neuronal.

Una de las mayores desventajas de la activación Sigmoide es el **problema de desvanecimiento del gradiente**.


In [None]:
# Plot sigmoid activation function.
x = tf.linspace(-10, 10, 1000)
y = tf.nn.sigmoid(x)
print(y[:10])

plot_activation(x, y, 'sigmoid(x)', 'Sigmoid Activation')

<font style="color:rgb(8,133,37)"> **Sintaxis en Keras** </font>

```python
tf.keras.activations.sigmoid(x)
```

## <font style="color:rgb(50,120,229)"> Función ReLU </font>

Para cualquier entrada dada, la función de activación ReLU (Rectified Linear Unit) devuelve 0 o el mismo valor que la entrada. La fórmula es la siguiente:

$$
ReLU(x) = max(0, x)
$$

**Entonces, ¿cuándo devuelve 0?** *Siempre que el valor de entrada sea menor que 0, devuelve 0, de lo contrario siempre devuelve el mismo valor que la entrada*.

Desglosando la explicación anterior en una simple declaración $if$, se verá algo así:

$$
   ReLU(x) = 
\begin{cases}
    0,& \text{si } x < 0\\
    x,              & \text{en otro caso}
\end{cases}
$$

**Es la función de activación más utilizada en la actualidad**.

Ahora, implementemos ReLU.

In [None]:
# Plot relu activation function.
x = tf.linspace(-10, 10, 1000)
y = tf.nn.relu(x)
print(y[:10])

plot_activation(x, y, 'relu(x)', 'ReLU Activation')

<font style="color:rgb(8,133,37)"> **Sintaxis en Keras** </font>

```python
tf.keras.activations.relu(x)
```

## <font style="color:rgb(50,120,229)"> Función Tanh </font>

La función de activación tangente hiperbólica (tanh) es algo similar a la función de activación sigmoide, al menos en cuanto a la gráfica.

Pero en lugar del rango de salida siendo entre 0 y 1, varía de -1 a 1.

Y lo siguiente da la fórmula para la activación tanh:

$$
tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}
$$

El siguiente bloque de código muestra la implementación.

**Problemas**:

- Presenta desvanecimiento del gradiente.
- Es computacionalmente costosa.

In [None]:
# Plot tanh activation function.
x = tf.linspace(-10, 10, 1000)
y = tf.nn.tanh(x)
print(y[:10])

plot_activation(x, y, 'tanh(x)', 'Tanh Activation')

<font style="color:rgb(8,133,37)"> **Sintaxis en Keras** </font>

```python
tf.keras.activations.tanh(x)
```

## <font style="color:rgb(50,120,229)"> Función ELU </font>

ELU significa Unidad Lineal Exponencial. En comparación con ReLU, esto también tiene una constante alfa ($\alpha$) que aplica un poco de no linealidad cuando los valores son negativos.

Podemos calcular ELU como:

$$
   ELU(x) = 
\begin{cases}
    \alpha(e^x - 1),& \text{si } x < 0\\
    x,              & \text{en otro caso}
\end{cases}
$$

Tiene algunas ventajas sobre ReLU, como:
* ELU es menos propenso a tener un problema de gradiente explosivo como a veces puede ser el caso con ReLU.
* Además, ELU no sufre del problema de *relu muerto* como lo hace ReLU.

Aún así, una gran desventaja de ELU es que es más lento de calcular porque también aplica no linealidad a las entradas negativas.

In [None]:
# Plot elu activation function.
x = tf.linspace(-10, 10, 1000)
y = tf.nn.elu(x)
print(y[:10])

plot_activation(x, y, 'elu(x)', 'ELU Activation')

<font style="color:rgb(8,133,37)"> **Sintaxis en Keras** </font>

```python
tf.keras.activations.elu(x, alpha=1.0)
```

## <font style="color:rgb(50,120,229)"> Función Softmax </font>

Aunque podemos llamar a Softmax una función de activación, *realmente no es una función de activación*.

La función Softmax devuelve la distribución de probabilidad de las entradas dadas. Típicamente, las entradas pueden ser valores de -∞ a +∞. Pero después de que se haya aplicado la activación Softmax, los valores de salida están entre 0 y 1.

Y se usa principalmente en la última capa de la red neuronal para **problemas de clasificación multiclase**. 

La función Softmax toma los logitos (salidas directas de la red neuronal) y los convierte en una distribución de probabilidad para operaciones posteriores.

Echemos un vistazo a la fórmula:

$$
Softmax(x_i) = \frac{exp(x_i)}{\sum_{i=0}^{n}exp(x_i)}
$$

Ahora, implementemos lo mismo usando Python.


<font style="color:rgb(8,133,37)"> **Sintaxis en Keras** </font>

```python
tf.keras.activations.softmax(x)
```

In [None]:
# Plot softmax activation function.
x = tf.constant([-3, 5, 1], dtype=tf.float32)
y = tf.nn.softmax(x)
print(y)

<center>
    <img src="./images/softmax.webp" width=600>
</center>