### Ejercicios


**1. Implementación de perceptrón multicapa desde cero**  

*Enunciado:*  
Desarrolla una red neuronal feedforward simple utilizando únicamente NumPy. La red debe incluir al menos una capa oculta, implementar la función de activación sigmoide (o ReLU), y utilizar el algoritmo de backpropagation para actualizar los pesos. Incorpora además técnicas de regularización, como el dropout o regularización L2, para prevenir el sobreajuste.  

*Código de referencia:*
```python
import numpy as np

# Funciones de activación y sus derivadas
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def sigmoid_deriv(x):
    s = sigmoid(x)
    return s * (1 - s)

# Datos de entrenamiento (por ejemplo, operación XOR)
X = np.array([[0, 0],
              [0, 1],
              [1, 0],
              [1, 1]])
y = np.array([[0],
              [1],
              [1],
              [0]])

# Inicialización de parámetros
np.random.seed(42)
W1 = np.random.randn(2, 3)    # Capa oculta: 3 neuronas
b1 = np.zeros((1, 3))
W2 = np.random.randn(3, 1)    # Capa de salida: 1 neurona
b2 = np.zeros((1, 1))

learning_rate = 0.1
epocas = 10000

for epoca in range(epocas):
    # Forward pass
    z1 = np.dot(X, W1) + b1
    a1 = sigmoid(z1)
    z2 = np.dot(a1, W2) + b2
    a2 = sigmoid(z2)
    
    # Cálculo del error y retropropagación
    error = y - a2
    delta2 = error * sigmoid_deriv(z2)
    error_hidden = np.dot(delta2, W2.T)
    delta1 = error_hidden * sigmoid_deriv(z1)
    
    # Actualización de pesos (con posible incorporación de L2: agregar término lambda*W)
    W2 += learning_rate * np.dot(a1.T, delta2)
    b2 += learning_rate * np.sum(delta2, axis=0, keepdims=True)
    W1 += learning_rate * np.dot(X.T, delta1)
    b1 += learning_rate * np.sum(delta1, axis=0, keepdims=True)
    
    # (Opcional) Aplicar dropout en a1 durante el entrenamiento

if epoca % 1000 == 0:
    print(f"epoca {epoca}, Error: {np.mean(np.abs(error))}")

print("Predicciones finales:", a2)
```


**2. Optimización en redes feedforward con técnicas avanzadas**  
*Enunciado:*  
Crea una red neuronal de múltiples capas utilizando PyTorch y experimenta con diferentes optimizadores (por ejemplo, Adam, RMSProp) y funciones de activación (ReLU, LeakyReLU, etc.). Realiza un seguimiento del desempeño en cada caso y comenta las diferencias en la convergencia.  

*Código de referencia:*
```python
import torch
import torch.nn as nn
import torch.optim as optim

# Definición del modelo
class FeedforwardNN(nn.Module):
    def __init__(self):
        super(FeedforwardNN, self).__init__()
        self.fc1 = nn.Linear(10, 50)
        self.act1 = nn.ReLU()
        self.fc2 = nn.Linear(50, 1)
    
    def forward(self, x):
        x = self.act1(self.fc1(x))
        return self.fc2(x)

modelo = FeedforwardNN()
criterion = nn.MSELoss()
optimizer = optim.Adam(modelo.parameters(), lr=0.001)

# Datos de ejemplo
x = torch.randn(100, 10)
y = torch.randn(100, 1)

# Bucle de entrenamiento
for epoca in range(100):
    optimizer.zero_grad()
    outputs = modelo(x)
    loss = criterion(outputs, y)
    loss.backward()
    optimizer.step()
    if epoca % 10 == 0:
        print(f'epoca {epoca+1}, Loss: {loss.item()}')
```


**3. Construcción de una red neuronal básica sin librerías de deep learning**  
*Enunciado:*  
Implementa una red neuronal para clasificación utilizando únicamente operaciones de NumPy, sin apoyarte en frameworks como TensorFlow o PyTorch. La red deberá incluir propagación hacia adelante, cálculo manual del gradiente y actualización de pesos mediante descenso del gradiente.  



**4. Implementación manual de una CNN básica**  
*Enunciado:*  
Programa desde cero las operaciones de convolución y pooling para construir una red neuronal convolucional simple. El ejercicio debe incluir la implementación de una función de convolución 2D, una función de pooling (por ejemplo, max pooling) y la integración de estas operaciones en una red capaz de clasificar imágenes simples (por ejemplo, del dataset MNIST).  

*Código de referencia:*
```python
import numpy as np

def conv2d(image, kernel):
    # Suponiendo imagen cuadrada y kernel de tamaño 3x3
    kernel = np.flipud(np.fliplr(kernel))  # rotación del kernel
    output = np.zeros_like(image)
    image_padded = np.pad(image, pad_width=1, mode='constant')
    for x in range(image.shape[0]):
        for y in range(image.shape[1]):
            output[x, y] = (kernel * image_padded[x:x+3, y:y+3]).sum()
    return output

def max_pooling(image, size=2, stride=2):
    output_shape = (image.shape[0] // size, image.shape[1] // size)
    pooled = np.zeros(output_shape)
    for i in range(0, image.shape[0], stride):
        for j in range(0, image.shape[1], stride):
            pooled[i//stride, j//stride] = np.max(image[i:i+size, j:j+size])
    return pooled

# Ejemplo de uso:
image = np.random.rand(5, 5)
kernel = np.array([[1, 0, -1],
                   [1, 0, -1],
                   [1, 0, -1]])
conv_result = conv2d(image, kernel)
pool_result = max_pooling(conv_result)
print("Convolución:\n", conv_result)
print("Max Pooling:\n", pool_result)
```


**5. Replicación de la arquitectura LeNet**  
*Enunciado:*  
Utilizando PyTorch, implementa la arquitectura clásica LeNet para clasificación de imágenes (por ejemplo, en MNIST). Asegúrate de definir las capas convolucionales, de pooling y las capas totalmente conectadas de acuerdo con la arquitectura original.  

*Código de referencia:*
```python
import torch.nn as nn
import torch.nn.functional as F

class LeNet(nn.Module):
    def __init__(self):
        super(LeNet, self).__init__()
        # Capa convolucional 1: de 1 canal a 6 canales, kernel de 5x5
        self.conv1 = nn.Conv2d(1, 6, 5)
        # Capa convolucional 2: de 6 a 16 canales
        self.conv2 = nn.Conv2d(6, 16, 5)
        # Capas totalmente conectadas
        self.fc1 = nn.Linear(16*4*4, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)
    
    def forward(self, x):
        x = F.relu(self.conv1(x))
        x = F.avg_pool2d(x, 2)
        x = F.relu(self.conv2(x))
        x = F.avg_pool2d(x, 2)
        x = x.view(-1, 16*4*4)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x
```


**6. Desarrollo de una versión simplificada de AlexNet**  
*Enunciado:*  
Implementa una versión simplificada de AlexNet utilizando PyTorch. El modelo debe incluir varias capas convolucionales con funciones de activación ReLU, capas de pooling y una sección de clasificador totalmente conectado, incorporando técnicas de regularización como dropout.  

*Código de referencia:*
```python
import torch.nn as nn

class SimpleAlexNet(nn.Module):
    def __init__(self, num_classes=10):
        super(SimpleAlexNet, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 64, kernel_size=11, stride=4, padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.Conv2d(64, 192, kernel_size=5, padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.Conv2d(192, 384, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(384, 256, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 256, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
        )
        self.classifier = nn.Sequential(
            nn.Dropout(),
            nn.Linear(256 * 6 * 6, 4096),
            nn.ReLU(inplace=True),
            nn.Dropout(),
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),
            nn.Linear(4096, num_classes),
        )

    def forward(self, x):
        x = self.features(x)
        x = x.view(x.size(0), 256 * 6 * 6)
        x = self.classifier(x)
        return x
```

**7. Implementación de modelos inspirados en VGG y ResNet**  

*Enunciado:*  

Diseña dos modelos:  

- Uno inspirado en la arquitectura VGG (por ejemplo, VGG16 simplificado) que utilice bloques de convolución y pooling secuenciales.  
- Otro basado en ResNet (por ejemplo, ResNet18) que incorpore bloques residuales para facilitar el entrenamiento en arquitecturas profundas.  

Compara el desempeño de ambos modelos en una tarea de clasificación de imágenes.

*Código de referencia (VGG simplificado):*
```python
import torch.nn as nn

class VGG16(nn.Module):
    def __init__(self, num_classes=10):
        super(VGG16, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 64, kernel_size=3, padding=1), nn.ReLU(inplace=True),
            nn.Conv2d(64, 64, kernel_size=3, padding=1), nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2),
            # Se pueden agregar más bloques similares para aumentar la profundidad
        )
        self.classifier = nn.Sequential(
            nn.Linear(64 * 16 * 16, 4096),  # Ajustar según el tamaño de entrada
            nn.ReLU(inplace=True),
            nn.Linear(4096, num_classes),
        )
    
    def forward(self, x):
        x = self.features(x)
        x = x.view(x.size(0), -1)
        x = self.classifier(x)
        return x
```

*Código de referencia (ResNet18 simplificado):*
```python
import torch.nn as nn
import torch.nn.functional as F

class BasicBlock(nn.Module):
    expansion = 1
    def __init__(self, in_channels, out_channels, stride=1, downsample=None):
        super(BasicBlock, self).__init__()
        self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1, bias=False)
        self.bn1 = nn.BatchNorm2d(out_channels)
        self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, padding=1, bias=False)
        self.bn2 = nn.BatchNorm2d(out_channels)
        self.downsample = downsample

    def forward(self, x):
        identity = x
        out = F.relu(self.bn1(self.conv1(x)))
        out = self.bn2(self.conv2(out))
        if self.downsample is not None:
            identity = self.downsample(x)
        out += identity
        return F.relu(out)

class ResNet18(nn.Module):
    def __init__(self, num_classes=10):
        super(ResNet18, self).__init__()
        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False)
        self.bn1 = nn.BatchNorm2d(64)
        self.pool = nn.MaxPool2d(3, stride=2, padding=1)
        self.layer1 = self._make_layer(64, 64, 2)
        self.layer2 = self._make_layer(64, 128, 2, stride=2)
        self.layer3 = self._make_layer(128, 256, 2, stride=2)
        self.layer4 = self._make_layer(256, 512, 2, stride=2)
        self.avgpool = nn.AdaptiveAvgPool2d((1, 1))
        self.fc = nn.Linear(512, num_classes)
    
    def _make_layer(self, in_channels, out_channels, blocks, stride=1):
        downsample = None
        if stride != 1 or in_channels != out_channels:
            downsample = nn.Sequential(
                nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=stride, bias=False),
                nn.BatchNorm2d(out_channels)
            )
        layers = [BasicBlock(in_channels, out_channels, stride, downsample)]
        for _ in range(1, blocks):
            layers.append(BasicBlock(out_channels, out_channels))
        return nn.Sequential(*layers)
    
    def forward(self, x):
        x = F.relu(self.bn1(self.conv1(x)))
        x = self.pool(x)
        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        x = self.layer4(x)
        x = self.avgpool(x)
        x = x.view(x.size(0), -1)
        return self.fc(x)
```


**8. Desarrollo de una RNN básica para series temporales**  

*Enunciado:*  
Implementa una red neuronal recurrente simple utilizando PyTorch para predecir series temporales. La red debe manejar secuencias de datos y abordar problemas asociados al desvanecimiento o explosión del gradiente (por ejemplo, mediante la normalización de gradientes).  

*Código de referencia:*

```python
import torch
import torch.nn as nn

class SimpleRNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(SimpleRNN, self).__init__()
        self.rnn = nn.RNN(input_size, hidden_size, batch_first=True)
        self.fc = nn.Linear(hidden_size, output_size)
    
    def forward(self, x):
        out, _ = self.rnn(x)
        # Se utiliza la última salida de la secuencia
        out = self.fc(out[:, -1, :])
        return out

# Ejemplo de uso:
modelo = SimpleRNN(input_size=1, hidden_size=10, output_size=1)
print(modelo)
```

**9. Aplicación de RNN en procesamiento de lenguaje natural**  

*Enunciado:*  
Diseña una RNN que procese secuencias de texto para tareas de clasificación (por ejemplo, análisis de sentimientos o detección de spam). El modelo debe incluir una capa de embedding para transformar las palabras a vectores y luego procesar la secuencia con una capa recurrente.  

*Código de referencia:*
```python
import torch
import torch.nn as nn

class TextRNN(nn.Module):
    def __init__(self, vocab_size, embed_size, hidden_size, num_classes):
        super(TextRNN, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.rnn = nn.RNN(embed_size, hidden_size, batch_first=True)
        self.fc = nn.Linear(hidden_size, num_classes)
    
    def forward(self, x):
        x = self.embedding(x)
        out, _ = self.rnn(x)
        out = self.fc(out[:, -1, :])
        return out

# Ejemplo de uso:
modelo = TextRNN(vocab_size=5000, embed_size=128, hidden_size=64, num_classes=2)
print(modelo)
```

**10. Creación de una red LSTM desde cero**

*Enunciado:*  

Implementa una red LSTM utilizando PyTorch. La red debe incluir la definición de la capa LSTM y una capa de salida que se utilice para tareas de predicción en series temporales o clasificación de secuencias. Explica el rol de las puertas (entrada, olvido y salida).  

*Código de referencia:*
```python
import torch
import torch.nn as nn

class LSTMModel(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers, num_classes):
        super(LSTMModel, self).__init__()
        self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True)
        self.fc = nn.Linear(hidden_size, num_classes)
    
    def forward(self, x):
        out, _ = self.lstm(x)
        out = self.fc(out[:, -1, :])
        return out

# Ejemplo de uso:
modelo = LSTMModel(input_size=10, hidden_size=50, num_layers=2, num_classes=1)
print(modelo)
```


**11. Implementación y comparación de una red GRU**  

*Enunciado:*  
Desarrolla una red GRU para la predicción o clasificación de secuencias, utilizando PyTorch. Compara su rendimiento y eficiencia computacional con una red LSTM (usando arquitecturas similares y el mismo conjunto de datos).  

*Código de referencia:*

```python
import torch
import torch.nn as nn

class GRUModel(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers, num_classes):
        super(GRUModel, self).__init__()
        self.gru = nn.GRU(input_size, hidden_size, num_layers, batch_first=True)
        self.fc = nn.Linear(hidden_size, num_classes)
    
    def forward(self, x):
        out, _ = self.gru(x)
        out = self.fc(out[:, -1, :])
        return out

# Ejemplo de uso:
modelo = GRUModelo(input_size=10, hidden_size=50, num_layers=2, num_classes=1)
print(modelo)
```


**12. Desarrollo de una RNN bidireccional para análisis de sentimientos**  

*Enunciado:*  

Crea una red neuronal recurrente bidireccional utilizando PyTorch para una tarea de análisis de sentimientos. El modelo debe incluir una capa de embedding, una capa recurrente bidireccional y una capa totalmente conectada para la clasificación final. Se debe resaltar la ventaja de procesar la información en ambas direcciones.  

*Código de referencia:*
```python
import torch
import torch.nn as nn

class BiRNN(nn.Module):
    def __init__(self, vocab_size, embed_size, hidden_size, num_classes):
        super(BiRNN, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embed_size)
        # La capa RNN bidireccional duplica el tamaño del estado oculto
        self.rnn = nn.RNN(embed_size, hidden_size, batch_first=True, bidirectional=True)
        self.fc = nn.Linear(hidden_size * 2, num_classes)
    
    def forward(self, x):
        x = self.embedding(x)
        out, _ = self.rnn(x)
        out = self.fc(out[:, -1, :])
        return out

# Ejemplo de uso:
modelo = BiRNN(vocab_size=5000, embed_size=128, hidden_size=64, num_classes=2)
print(modelo)
```

In [None]:
## Tus respuestas