# Clase 21: Introducción a Redes Neuronales

**MDS7202: Laboratorio de Programación Científica para Ciencia de Datos**

**Profesor: Matías Rojas**



Tal como las aves nos inspiraron a volar, es lógico poner atención al cerebro humano para inspirarnos en la creación de máquinas inteligentes. Así es como se crearon las primeras Redes Neuronales Artificiales (ANNs, por sus siglas en Inglés), modelos inspirados en las redes de neuronas encontradas en nuestro cerebro y que nos permiten resolver problemas tan complejos como los que típicamente resuelven los humanos.

Entre otras aplicaciones, estas redes nos permiten clasificar imágenes con una gran precisión, crear poderosos sistema de reconocimiento de voz y obtener excelentes recomendaciones de videos en Youtube.

¿Pero que son realmente estas redes neuronales y cómo podemos programar uno de estos modelos?

----

## Perceptron

Si bien existen estudios desde los años 40, la introducción más sólida al concepto de redes neuronales aparece bajo el nombre de **perceptrón**, uno de los modelos más simples de ANNs, propuesto por [Rosenblatt en 1957](http://www.ling.upenn.edu/courses/cogs501/Rosenblatt1958.pdf). 

El perceptron está basado en el concepto de Threshold Logic Unit (TLU), es decir, la utilización de un umbral para la toma de decisiones. Como se ve en la figura, este es un modelo donde los inputs y outputs son números (no necesariamente valores binarios), y cada conexión se encuentra asociada a un peso, que es el grado de importancia de cada valor de entrada. Luego, se calcula la suma ponderada de los valores de entrada y los pesos, y utilizando una función de activación/salto se entrega el valor 0 o 1 dependiendo el valor de la suma acumulada. Adicionalmente a los pesos de cada entrada, se agrega un parámetro llamado bias que afecta en el computo de la función de activación.

<div align='center'>
    <img src='https://i.ibb.co/nBr5PC6/perceptron.png' width=600/>
</div>
    
<div align='center'>
Fuente:
    <a href='https://www.javatpoint.com/single-layer-perceptron-in-tensorflow'>javatpoint</a>.
</div>

<div align='center'>
<img src='https://i.ibb.co/NYYPSdW/step.png' width='400' />
</div>

Podrán notar que el principal problema de los perceptrones es su poca expresibilidad, pues solo permite hacer separaciones lineales. El clásico ejemplo de esta limitación es el problema del XOR, donde no es posible trazar una única recta que pueda dividir ambas clases.



    
    


### Ejemplo a mano

En este ejemplo haremos un perceptrón que clasifique si un vector representa o no a un gato. El vector está compuesto por 4 valores binarios que responden a las siguientes preguntas:

- ¿Tiene cola?
- ¿Tiene dos orejas?
- ¿Son adoptados como mascotas?
- ¿Maulla?

Si el vector está compuesto sólo de 1s, entonces corresponde a un gato.

Generamos entonces nuestros datos artificiales:

In [None]:
import numpy as np

gato = [1, 1, 1, 1]
persona = [0, 1, 0, 0]
arbol = [0, 0, 0, 0]
perro = [1, 1, 1, 0]

In [None]:
entradas = np.array([gato, persona, arbol, perro])
etiquetas = np.array([1, 0, 0, 0])

Seleccionamos un ejemplo a predecir

In [None]:
ejemplo = gato

Definimos nuestros pesos

In [None]:
pesos = np.array([0.0, -0.01, 0.0, 0.03])
sesgo = -0.01

Calculamos la suma ponderada de los pesos por la entrada y añadimos el valor de sesgo. Comunmente a esto le llamamos *acumulación de información* o *carga*.

In [None]:
np.dot(pesos, ejemplo) + sesgo  

Noten que el sesgo define que hace el perceptrón en el caso que toda la entrada vale 0. En general, desplaza la función de entrada hacia arriba o hacia abajo.

Otra forma de verlo (cuando es negativo) es cuanta información acumulada mínima requiero para activar la neurona.

In [None]:
acumulacion_de_informacion = np.dot(pesos, ejemplo) + sesgo
acumulacion_de_informacion

Por último, clasificamos. 

- Si la suma es mayor que 0, retornamos 1.
- Si no, retornamos 0

In [None]:
def funcion_de_activacion(x):
    return 1 if x > 0 else 0

In [None]:
prediccion = funcion_de_activacion(acumulacion_de_informacion)
prediccion

### Aprendizaje en un Perceptrón y Descenso del Gradiente

Entrenar un perceptron consiste en ir ajustando los pesos a medida que vemos los datos de entrenamiento. Comunmente, esto se logra a través del descenso del gradiente.

Para explicar esta idea, primero definimos una función de pérdida o loss $\mathcal{L}$. Esta función se encarga de cuantificar cuanto nos equivocamos al predecir nuestros ejemplos de entrenamiento.

El descenso del gradiente simplemente es un **método para minimizar una función de pérdida** a partir de datos de entrenamiento:

$$w_{n+1} = w_{n} - \alpha \cdot \Delta \mathcal{L} $$

En este caso:
- $w_n$ representa los pesos actuales. $w_{n+1}$ los pesos actualizados.
- $\alpha$ se denomina como tasa de aprendizaje o Learning Rate. Es un hiperparámetro que ajusta tanto se mueven los pesos en cada iteración de entrenamiento.
- $\Delta\mathcal{L}$ es el gradiente de la función de pérdida $\mathcal{L}$ (i.e., su derivada con respecto cada parámetro)





#### Paréntesis: Tasa de Aprendizaje

<div align='center'>
<img src='https://i.ibb.co/YZ1M54w/learning-rates.png' width=900/>
</div>

<div align='center'>
    Fuente: <a href='http://www.bdhammel.com/learning-rates/'>http://www.bdhammel.com/learning-rates/</a>
</div>

Veamos que sucede caso a caso. Una tasa de aprendizaje...

- muy baja tomará mucho tiempo en converger.
- alta saltará las mejores configuraciones 
- muy alta incluso podría diverger.



#### Relacionado: Proyecciones de Funciones de Loss de Distintas Redes Neuronales

<div align='center'>
<img alt='Proyecciones de Funciones de Loss de Distintas Redes Neuronales' src='https://i.ibb.co/ys24LHg/proyecciones-loss.png' />
</div>
    
<div align='center'>
    Fuente: <a href='https://www.cs.umd.edu/~tomg/projects/landscapes/'>https://www.cs.umd.edu/~tomg/projects/landscapes/</a>
</div>
    
    


> **Pregunta:** Viendo las imágenes anteriores, ¿es posible que el descenso del gradiente no encuentre el optimo global?

#### Siguiendo con el Descenso del Gradiente


El descenso del gradiente simplemente es un método para minimizar una función de pérdida a partir de datos de entrenamiento:

$$w_{n+1} = w_{n} - \alpha \cdot \Delta \mathcal{L} $$

En este caso:
- $w_n$ representa los pesos actuales. $w_{n+1}$ los pesos actualizados.
- $\alpha$ se denomina como tasa de aprendizaje o Learning Rate. Es un hiperparámetro que ajusta tanto se mueven los pesos en cada iteración de entrenamiento.
- $\Delta\mathcal{L}$ es el gradiente de la función de pérdida $\mathcal{L}$ (i.e., su derivada con respecto cada parámetro)



En nuestro caso, usaremos la función de pérdida *suma de los errores cuadráticos* o *sum of squared errors* **SSE**: 

$$\mathcal{L} = \frac{1}{2}\sum_i (y - \hat{y})^2$$

Además, recordemos que tenemos la siguiente expresión:

$$\mathcal{L} = \frac{1}{2}\sum_i (y - (wx + b))^2$$

Por lo tanto (suponiendo que en cada iteración solo vemos un ejemplo (i.e., omitimos la sumatoria)), su gradiente (para cualquier peso $j$) es:



$$\frac{\partial}{\partial w_{j}}\mathcal{L} = - (y - \hat{y}) \cdot x$$


Así, el descenso del gradiente para entrenar nuestro perceptrón es:

$$w_{n+1} = w_{n} + \alpha \cdot (y - \hat{y}) \cdot x$$

Para ejemplificar lo dicho anteriormente, implementaremos un perceptrón:

In [None]:
# basado en # https://medium.com/@thomascountz/19-line-line-by-line-python-perceptron-b6f113b161f3

import numpy as np


def funcion_de_activacion(x):
    return 1 if x > 0 else 0


class Perceptron(object):
    def __init__(self, dimensiones_input, epocas=100, tasa_aprendizaje=0.01):
        self.epocas = epocas
        self.tasa_aprendizaje = tasa_aprendizaje
        # los pesos los guardamos como un arreglo que contiene el sesgo en el índice 0 y
        # los pesos que multiplican al input desde el índice 1.
        self.pesos = np.zeros(dimensiones_input + 1)

    def predict(self, inputs):
        acumulacion_de_informacion = np.dot(inputs, self.pesos[1:]) + self.pesos[0]
        return funcion_de_activacion(acumulacion_de_informacion)

    def fit(self, datos_entrenamiento, etiquetas):
        # Una época es una pasada completa sobre el dataset de entrenamiento.
        for _ in range(self.epocas):
            for entrada, etiqueta in zip(datos_entrenamiento, etiquetas):
                prediccion = self.predict(entrada)
                self.pesos[1:] += (
                    self.tasa_aprendizaje * (etiqueta - prediccion) * entrada
                )
                self.pesos[0] += self.tasa_aprendizaje * (etiqueta - prediccion)

In [None]:
p = Perceptron(4)

In [None]:
p.fit(entradas, etiquetas)

In [None]:
p.predict(gato)

In [None]:
p.predict(perro)

In [None]:
p.pesos

> **Nota**: Una época es una pasada completa sobre el dataset de entrenamiento.

> **Pregunta:** ¿Cuales son los hiperparámetros de nuestro perceptrón? ¿Podemos variar la función de pérdida? ¿Podemos también variar la forma en que entrenamos?

### Cantidad de datos que le entregamos al Descenso del Gradiente:

El entrenamiento por medio del descenso del gradiente puede variar según la cantidad de datos que le entregamos en cada iteración. A continuación se muestran 3 enfoques:


- Descenso del gradiente en lotes (o **batch**): En este caso entregamos todos los datos en una sola pasada. Puede estancar el aprendizaje debido a que siempre usaremos todas las muestras.


- Descenso del Gradiente Estocástico (Stochastic Gradient Descent o **SGD**): Usamos una muestra aleatoria en cada iteración. El gradiente y la actualización de pesos se calcula en relación a esa muestra en particular, lo que dificulta el estancamiento. Sin embargo, implica lentitud en el proceso.

- Descenso del gradiente Estocástico en mini-lotes (**mini-batch**): Mezcla entre las opciones anteriores. Ingresa un pequeño batch y actualiza los pesos sobre el gradiente calculado a partir de ese batch. Los ejemplos del batch son elegidos aleatoriamente.


> **Pregunta**: ¿Por qué se usa descenso de gradiente y no otros métodos de optimización (como derivar e igualar a cero...)?

---

## Perceptrón Multicapa


Sobre el modelo anterior, podemos construir uno más complejo llamado *perceptron multicapa* o *MultiLayer Perceptron* (**MLP**). Un MLP consiste en múltiples modelos de perceptron intecomunicadas. Cada uno de estos modelos se denota como *unidad* (*unit*) y se organizan en capas secuenciales.

<div align='center'>
<img alt='MLP esquema simple' src='https://i.ibb.co/QF01fGB/mlp-simple.png' width=600/>
</div>


<div align='center'>
    Fuente: <a href='https://becominghuman.ai/multi-layer-perceptron-mlp-models-on-real-world-banking-data-f6dd3d7e998f/'>https://becominghuman.ai/multi-layer-perceptron-mlp-models-on-real-world-banking-data-f6dd3d7e998f/</a>
</div>
    

En la figura:

- La *capa input* corresponde a un conjunto de perceptrones que operan sobre el vector de entrada que distribuyen los valores del vector a la siguiente capa.

- Las siguientes capas se denotan como *capas ocultas* y se contruyen de manera análoga a la capa input (o inicial). La primera capa oculta consiste en un conjunto de percetrones que operan sobre el output de la capa input. Sobre esta primera capa oculta pueden haber multiples capas ocultas que operan sobre el output de la capa oculta anterior. 


#### Propagación Hacia Adelante o *Feedforward*


El proceso de generar una salida sobre la entrada de una capa anterior se denota *propagación hacia adelante* (*feedforward*) la propagación termina en una última capa denominada *capa output* que entrega el resultado final de la clasificación. 

Bajo el punto de vista del aprendizaje automático, las capas ocultas de un perceptron multicapa (red neuronal) generan abstracciones o características a partir de los datos sobre los cuales operan. 



---

### `Pytorch`

<div align='center'>
<img alt='Pytorch logo' src='https://i.ibb.co/9V93Pbn/pytorch-logo.png' width=600/>
</div>

<br>

Para trabajar con redes neuronales haremos uso de la librería **`Pytorch`**. Esta librería consiste en un conjunto de herramientas diseñadas para generar modelos basados en redes neuronales utilizando las capacidades de computo distribuido que ofrecen las GPU (unidades de procesamiento gráfico / tarjetas de video). Esto permite operaciones de vectorización aceleradas y distribuidas. Esta librería se importa como `torch`.

**Ejemplo**

Se implementa una red neuronal simple utilizando Pytorch. Para esto, se importa el módulo y se indica una semilla aleatoria.

In [None]:
import torch

# Se asigna un valor de reproductibilidad
torch.manual_seed(6202)

#### Dataset de Ejemplo: Vino 🍷

Se carga el dataset sobre el cual trabajaremos, en este caso será un conjunto de datos de vinos. Este conjunto consta de 13 atributos continuos, cada vino posee un identificador dentro de 3 clases. La idea es asignar un tipo de vino a cada observación. 

In [None]:
import pandas as pd

names = [
    "class",
    "Alcohol",
    "Malic acid",
    "Ash",
    "Alcalinity of ash",
    "Magnesium",
    "Total phenols",
    "Flavanoids",
    "Nonflavanoid phenols",
    "Proanthocyanins",
    "Color intensity",
    "Hue",
    "OD280/OD315 of diluted wines",
    "Proline",
]

wine_data = pd.read_csv(
    "http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data",
    names=names,
)

wine_data.head()

Se procede a hacer una separación en entrenamiento y test, se hará es una codificación dummy para la variable de respuesta y se estandarizan las variables numéricas

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OrdinalEncoder, StandardScaler

response = ["class"]
num_cols = wine_data.loc[:, "Alcohol":].columns.values

data_transform = ColumnTransformer(
    transformers=[
        ("normaliza", StandardScaler(), num_cols),
        ("codifica", OrdinalEncoder(), response),
    ]
)

Para evitar fuga de información, se hace una separación en train y test para luego transformar los datos

In [None]:
from sklearn.model_selection import train_test_split

data_train, data_test = train_test_split(wine_data, test_size=0.2)

Se aplica el preprocesamiento sobre el conjunto train

In [None]:
data = data_transform.fit_transform(data_train)

# Se obtienen las variables numericas y de respuesta

X_train = data[:, :-1].copy()
y_train = data[:, -1:].copy()

In [None]:
X_train.shape

In [None]:
y_train.shape

#### MLP en `Pytorch`

El perceptron multicapa que crearemos consiste en 2 capas ocultas y su función de activación tiene la forma:
$$f(x) = max(0,x)$$

Esta es una función de activación conocida y se denota como **ReLU (Rectified Linear Unit)**. 

Se definen los parámetros, para la función de activación se utiliza el módulo de redes neuronales de Pytorch, se puede acceder a este módulo por medio de `torch.nn`.

In [None]:
# primero, definimos el tamaño de la  capa de entrada que es igual al tamaño del vector de la entrada
# y el tamaño de la salida, que es igual al número de clases.
input_dim, output_dim = (X_train.shape[1], 3)

# Equivalente al output de la capa input
input_dim_capas_ocultas = 5

# por último definimos la función de activación.
f_activation = torch.nn.ReLU()

#### Capa de Entrada

Para definir la primera capa, tenemos que tener en cuenta que buscamos una transformación de la forma $x \mapsto w^t x$ que luego es clasificada por medio de $f(w^t x)$. Esto quiere decir que los parámetros a entrenar serán los vectores de peso $w$ asociados a cada unidad (perceptron) de cada capa (input, ocultas y output).

`Pytorch` ofrece una abstracción para capas formadas por perceptrones de la forma $f(w^t x)$. Esta abstracción es la clase `Linear` (observe que $x \mapsto w^t x$ es una transformación lineal).

A continuación definimos la capa de entrada:

In [None]:
from torch.nn import Linear

# in_features: tamaño del vector de entrada.
# out_features: tamaño de la primera capa oculta.
capa_input = Linear(in_features=input_dim, out_features=input_dim_capas_ocultas)

#### Capas Ocultas

Luego se definen las capas ocultas, estas también corresponden a transformaciones lineales sobre sus capas predecesoras. En este caso, cada capa oculta tendrá dimensión 5 como input y output. A continuación, definimos como ejemplo una capa oculta:

In [None]:
Linear(input_dim_capas_ocultas, input_dim_capas_ocultas)

### Arquitectura de la Red


```
X  -> capa input -> ReLU() -> Co_1 -> ReLU() -> Co_2 -> ReLU() -> capa output -> predicción
```



Para programar el esquema anterior se hace uso de un diccionario ordenado `OrderedDict` de la librería `collections`. Este tipo de objetos opera de manera similar a las Pipelines de Scikit-learn, pues reciben un conjunto de tuplas del tipo `(identificador,objeto)`. Se procede a generar la arquitectura de la red:

In [None]:
from collections import OrderedDict

n_capas_ocultas = 2

# capa input
input_ = ("capa input", capa_input)
relu = ("relu", f_activation)

# etapas (similar al pipeline)
steps = [input_]

# capas ocultas
for i in range(n_capas_ocultas):

    capa_i = (
        f"capa oculta_{i}",
        Linear(input_dim_capas_ocultas, input_dim_capas_ocultas),
    )
    relu_i = (f"relu_{i}", f_activation)

    steps += [capa_i, relu_i]

# capa output
output = ("capa output", Linear(input_dim_capas_ocultas, output_dim))

steps.extend([(output), ("Softmax", torch.nn.Softmax(dim=1))])

# Se utiliza la estructura de diccionario ordenado
steps = OrderedDict(steps)

steps

Luego, cuando ya se posee la arquitectura, se inicializa un objeto `Sequential` del módulo `nn`, este objeto permite modelar una red neuronal multicapa recibiendo como input los componentes de la arquitectura de manera ordenada.

In [None]:
from torch.nn import Sequential

# MLP -> multi layer perceptron
mlp = Sequential(steps)
mlp

El resultado entregado por la capa output corresponde a un vector de tres dimensiones, se asigna la clase predicha a aquella componente con el mayor valor. 

### Funciones de Pérdida y Entropía Cruzada

Luego de definir la red, es necesario definir la función de perdida. Al igual que las funciones de activación, también tenemos una serie de funciones de pérdida recomendadas para ciertos problemas en particular.

<div align='center'>
<img alt='MLP esquema simple' src='https://i.ibb.co/mFVpnyh/tipos-de-funciones-loss.png' width=600/>
</div>

<div align='center'>
Fuente: <a href='https://towardsdatascience.com/deep-learning-which-loss-and-activation-functions-should-i-use-ac02f1c56aa8'>https://towardsdatascience.com/deep-learning-which-loss-and-activation-functions-should-i-use-ac02f1c56aa8</a>
</div>

<br>

En este caso se utiliza la entropía cruzada. Este criterio permite comparar dos distribuciones de probabilidad $q$ (aproximación) y $p$ (real) en términos de la diferencia de información esperada (en bits por ejemplo) al utilizar la distribución $q$ para describir un eventos codificados, optimizados para $p$. Dado que se trabaja en un problema de clasificación (supervisado) se conoce la distribución real $p$ para una etiqueta  (ej: etiqueta (1,0,0), distribución (100%, 0, 0) ), por otra parte, la distribución aproximada viene dada por nuestro modelo. La entropía cruzada entre $p$ y $q$ se expresa según:
$$
H(p, q)=-\sum_{x \in \mathcal{X}} p(x) \log q(x)
$$

Se implementa mediante:

In [None]:
criterio = torch.nn.CrossEntropyLoss()

Se debe seleccionar el optimizador a utilizar, en este caso será **descenso de gradiente estocástico**.  Se inicializa entregando dichos parámetros y los coeficientes sobre los que opera, en este caso, los parámetros de la red `mpl` a los cuales se acceede por medio del método `.parameters()`

In [None]:
optimizador = torch.optim.SGD(mlp.parameters(), lr=0.05, momentum=0.1)

Finalmente, se puede entrenar la red definida, para ello se define una cantidad de *épocas* (*epochs*), esto se refiere a la cantidad de veces que se entrena utilizando el conjunto de entrenamiento. Este proceso tiene el siguiente orden:

1. Genera un conjunto de inputs en un formato compatible.
2. En cada época:
    1. Inicializa los gradientes asociados al optimizador, esto evita que se acumulen gradientes entre épocas.
    2. Se opera sobre los inputs para obtener las predicciones.
    3. Se calcula la función de loss.
    4. Se calcula el gradiente para cada parámetro. Este proceso se denomina como *propagación hacia atrás* (*backpropagation*).
    5. Se actualizan los parámetros según los gradientes usados.
    
Se implementa el esquema anterior:

In [None]:
# Paso A - Inicializa los gradientes asociados al optimizador
datos_input = torch.autograd.Variable(torch.Tensor(X_train))
labels = torch.autograd.Variable(torch.Tensor(y_train.reshape([-1,])).long())

In [None]:
datos_input.shape

In [None]:
labels.shape

In [None]:
epocas = 100
for ep in range(epocas):
    # Paso A - Reiniciar los gradientes almacenados en el caso que existan
    optimizador.zero_grad()
    for i in range(20):
        # Paso B - Calcular etiquetas según los pesos actuales
        out = mlp(datos_input)
        out.requires_grad_(True)
        
        # Paso C - Se calcula la función de loss.
        loss = criterio(out, labels)

        # Paso D - Ejecutar Backpropagation: Se calcula cuanto debe cambiar cada parámetro.
        # según el valor de la loss.
        loss.backward()
        
        # Paso E - Se actualizan los parámetros.
        optimizador.step()

    if ((ep + 1) % 10) == 0:
        print("Epoca: ", ep + 1, "Loss: ", loss.data)

Se estudia el rendimiento en train y test

In [None]:
import numpy as np
from sklearn.metrics import classification_report

dt_test = data_transform.transform(data_test)

X_test = dt_test[:, :-1]
y_test = dt_test[:, -1:]

f = lambda x: torch.argmax(mlp(x), dim=1)

# Train error
datos_input = torch.Tensor(X_train).float()
preds_train = f(datos_input)

print("Reporte train : \n", classification_report(y_train.reshape([-1,]), preds_train))

In [None]:
# Test Error
datos_input = torch.Tensor(X_test).float()
preds_test = f(datos_input)

print("Reporte test : \n", classification_report(y_test.reshape([-1,]), preds_test))

Viendo estos resultados, se puede decir que el clasificador entrenado fue un éxito.

Las redes neuronales pueden ser descritas como un modelo matemático de procesamiento de información. En general, una red neuronal puede considerarse como un sistema con las siguientes características:

1. El procesamiento de la información ocurre en unidades llamadas neuronas.
2. Las neuronas están conectadas e intercambian información (o señales) por medio de sus conexiones.
3. Las conexiones entre neuronas pueden ser fuertes o débiles, dependiendo de como se procesa la información.
4. Cada neurona tiene un estado interno determinado por todas las conexiones que posee.
5. Cada neurina tiene una función de activación que opera sobre su estado, esta función determina la información que se comparte a otras neuronas.

En términos operativos, una red neuronal posee una **arquitectura** que describe el conjunto de conexiones entre neurona y un proceso de **aprendizaje** asociado, que describe el proceso entrenamiento.



Las **neuronas** por tanto, pueden ser definidas por medio de la siguiente relación:
$$
y=f\left(\sum_{i} x_{i} w_{i}+b\right)
$$

Acá se hace el calculó $w^t x + b = \sum_i x_i w_i + b$ sobre los inputs $x_i$ y los pesos $w_i$. Estos últimos, son valores numéricos que representan las conexiones entre neuronas, el peso $b$ se denomina *bias*. Luego se calcula el resultado de aplicar la función de activación $f(\cdot)$. Existen distintos tipos de funciones de activación dentro de estas se pueden nombrar:

* $f(x)=x$ la función identidad.
* $f(x)=\left\{\begin{array}{l}1 \text { if } x \geq 0 \\ 0 \text { if } x<0\end{array}\right.$ la función de activación de umbral.
* $f(x)=\frac{1}{1+\exp (-x)}$ la función sigmoide logistica, es una de las más utilizadas.
* $f(x) =\frac{1-\exp (-x)}{1+\exp (-x)}$ la función sigmoide bipolar, esta corresponde a una sigmoide escalada a $(-1,1)$.
* $f(x) = \frac{1-\exp (-2 x)}{1+\exp (-2 x)}$ la tangente hiperbólica. 

* $f(x)=\left\{\begin{array}{l}x\text { if } x \geq 0 \\ 0 \text { if } x<0\end{array}\right.$ La función de activación ReLU.

**Ejercicio**

1. Existen variantes de la función de activación ReLU, investigue al menos 3 y compare sus diferencias.