## Regularización: Dropout

- ### Es una técnica de regularización utilizada en redes neuronales para reducir el riesgo de sobreajuste (overfitting). 
- ### Es una forma de regularizar una red neuronal añadiendo ruido a sus unidades ocultas.
- ### Es evitar que la red neuronal dependa demasiado de ciertos nodos o combinaciones de nodos durante el entrenamiento, promoviendo la generalización y mejorando el desempeño en datos nuevos.
- ### Se puede interpretar como una forma de promediar el modelo.

- ### En el entrenamiento, las activaciones se escalan por un factor de $\frac{1}{1-p}$
- ### En la evaluación, las activaciones se multiplican por $p$ 



### Definición de una capa Dropout

In [None]:
import torch
import numpy as np

#Establecer la semilla para la generación de números aleatorios
np.random.seed(42)
torch.manual_seed(42)

def dropout_layer(X, dropout):
    assert 0 <= dropout <= 1, "El parámetro dropout debe estar en el rango [0, 1]"    
    if dropout == 0:  # Sin dropout
        return X
    if dropout == 1:  # Apaga todas las neuronas
        return torch.zeros_like(X)
    
    # Generar la máscara de dropout con distribución de Bernoulli
    mask = torch.bernoulli((1 - dropout) * torch.ones_like(X))
    
    # Aplicar la máscara y escalar
    return mask * X / (1.0 - dropout)

X = torch.arange(16, dtype = torch.float32).reshape((2, 8)) 
print("tensor: ", X)

In [None]:
(1 - 0.5) * torch.ones_like(X)

In [None]:
# Ejemplo de máscara 
mask = torch.bernoulli((1 - 0.5) * torch.ones_like(X))
print(mask)

### Capa Dropout con p=0

In [None]:
print("tensor: ", X)
print('dropout_p = 0:', dropout_layer(X, 0)) 


### Capa Dropout con p=0.25

In [None]:
print("tensor: ", X)
print('dropout_p = 0.25:', dropout_layer(X, 0.25)) 

### Capa Dropout con p=0.5

In [None]:
print("tensor: ", X)
print('dropout_p = 0.5:', dropout_layer(X, 0.5)) 


### Capa Dropout con p=1

In [None]:
print("tensor: ", X)
print('dropout_p = 1:', dropout_layer(X, 1))


### Implementación de capa Dropout con Pytorch

### Capa Dropout con p=0.25

In [None]:
import torch.nn as nn
# Definir una capa de Dropout con 50% de probabilidad de apagar neuronas
X = torch.arange(16, dtype = torch.float32).reshape((2, 8)) 
dropout = nn.Dropout(p=0.25)
output = dropout(X)
print("tensor: ", X)
print(output)

### Capa Dropout con p=0.5

In [None]:
import torch.nn as nn
# Definir una capa de Dropout con 50% de probabilidad de apagar neuronas
X = torch.arange(16, dtype = torch.float32).reshape((2, 8)) 
dropout = nn.Dropout(p=0.5)
output = dropout(X)
print("tensor: ", X)
print(output)

### Ejemplo en una red neuronal con 2 capas de dropout con diferentes probabilidades

In [None]:
import torch
import torch.nn as nn

class NeuralNet(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc1 = nn.Linear(784, 256)  # Capa completamente conectada
        self.dropout1 = nn.Dropout(p=0.5)  # Apagar 50% de las neuronas
        self.fc2 = nn.Linear(256, 10)
        self.dropout2 = nn.Dropout(p=0.2)  # Apagar 20% de las neuronas
        self.output = nn.Linear(10, 3)
        self.act1 = nn.ReLU()
        self.act2 = nn.ReLU()

    def forward(self, x):
        x = self.fc1(x)
        x = self.act1(x)
        x = self.dropout1(x)  # Aplicar Dropout1
        x = self.fc2(x)
        x = self.act2(x)
        x = self.dropout2(x)  # Aplicar Dropout2
        x = self.output(x)
        return x
    

### Propagación hacia adelante de la red (forward pass)

In [None]:
input_size = 784
batch_size = 3
input_tensor = torch.rand(batch_size, input_size)
model = NeuralNet()
y_pred = model(input_tensor)
print(y_pred)

# Ejercicios

# Ejercicio 1 
- ## Para la arquitectura de red sobre el conjunto de datos de agresividad y representación con word embeddings: 
    ### 1. Aplicar una capa de dropout (50%) a la primer capa oculta
    ### 2. Evaluar el desempeño 

# Ejercicio 2
- ## Para la arquitectura de red sobre el conjunto de datos de agresividad y representación con word embeddings: 
    ### 1. Aplicar una capa de dropout a cada una de las capas ocultas. Recordar que los valores recomendables para p de la capa dropout están entre 0.2 y 0.5
    ### 2. Evaluar el desempeño 

# Ejercicio 3

- ## Para la arquitectura de red sobre el conjunto de datos de agresividad y representación con word embeddings: 

    ### 1. Aplicar una capa de dropout al tensor  de datos de entrada.  Recordar que los valores recomendables para p de la capa dropout están entre 0.2 y 0.5
    ### 2. Aplicar una capa de dropout a cada una de las capas ocultas.  Recordar que los valores recomendables para p de la capa dropout están entre 0.2 y 0.5
    ### 3. Evaluar el desempeño 