# Lab 02: Primera Red Neuronal - Práctica

En este notebook construiremos nuestra primera red neuronal completa desde cero, conectando múltiples capas de neuronas.

## Objetivos
1. Construir una red neuronal con múltiples capas
2. Entender el flujo de datos (forward propagation)
3. Trabajar con diferentes arquitecturas
4. Visualizar activaciones de las capas

In [None]:
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(42)

## Parte 1: Red de Dos Capas

Empezaremos con una red simple: Entrada → Capa Oculta → Salida

In [None]:
# Ejemplo 1: Red neuronal de 2 capas

# Entrada: 3 muestras, cada una con 4 características
X = np.array([
    [1.0, 2.0, 3.0, 2.5],
    [2.0, 5.0, -1.0, 2.0],
    [-1.5, 2.7, 3.3, -0.8]
])

print(f"Entrada X shape: {X.shape}")
print(f"X:\n{X}\n")

# Capa 1: 4 entradas → 5 neuronas
weights1 = np.random.randn(4, 5) * 0.01
biases1 = np.zeros(5)

print(f"Capa 1 - Pesos shape: {weights1.shape}")
print(f"Capa 1 - Biases shape: {biases1.shape}\n")

# Forward pass capa 1
layer1_output = np.dot(X, weights1) + biases1
print(f"Salida Capa 1 shape: {layer1_output.shape}")
print(f"Salida Capa 1:\n{layer1_output}\n")

# Capa 2: 5 entradas → 2 neuronas (salida)
weights2 = np.random.randn(5, 2) * 0.01
biases2 = np.zeros(2)

print(f"Capa 2 - Pesos shape: {weights2.shape}")
print(f"Capa 2 - Biases shape: {biases2.shape}\n")

# Forward pass capa 2
layer2_output = np.dot(layer1_output, weights2) + biases2
print(f"Salida Final shape: {layer2_output.shape}")
print(f"Salida Final:\n{layer2_output}")

### Ejercicio 2.1
Observa las dimensiones en cada paso. ¿Cómo se transforman los datos a medida que pasan por la red?

## Parte 2: Clase RedNeuronal

Ahora creemos una clase flexible que pueda manejar cualquier arquitectura.

In [None]:
class RedNeuronal:
    """Red neuronal multicapa simple."""
    
    def __init__(self, arquitectura):
        """
        Inicializa la red neuronal.
        
        Args:
            arquitectura: lista con el número de neuronas por capa
                         ej: [4, 5, 3, 2] significa:
                         - 4 características de entrada
                         - capa oculta con 5 neuronas
                         - capa oculta con 3 neuronas  
                         - capa de salida con 2 neuronas
        """
        self.arquitectura = arquitectura
        self.num_capas = len(arquitectura) - 1
        self.capas = []
        
        # Inicializar pesos y biases para cada capa
        for i in range(self.num_capas):
            n_entradas = arquitectura[i]
            n_neuronas = arquitectura[i + 1]
            
            capa = {
                'pesos': np.random.randn(n_entradas, n_neuronas) * 0.01,
                'biases': np.zeros(n_neuronas),
                'salida': None  # Guardaremos las activaciones
            }
            self.capas.append(capa)
        
        print(f"Red creada: {arquitectura}")
        print(f"Número de capas: {self.num_capas}")
        self._mostrar_parametros()
    
    def _mostrar_parametros(self):
        """Muestra información sobre los parámetros de la red."""
        total_params = 0
        for i, capa in enumerate(self.capas):
            params = capa['pesos'].size + capa['biases'].size
            total_params += params
            print(f"  Capa {i+1}: {params} parámetros")
        print(f"  Total: {total_params} parámetros\n")
    
    def forward(self, X, guardar_activaciones=False):
        """
        Propagación hacia adelante.
        
        Args:
            X: datos de entrada (batch_size, n_features)
            guardar_activaciones: si True, guarda las salidas intermedias
        
        Returns:
            salida final de la red
        """
        activacion = X
        
        for i, capa in enumerate(self.capas):
            # Operación lineal
            z = np.dot(activacion, capa['pesos']) + capa['biases']
            
            # Por ahora, sin función de activación (identidad)
            activacion = z
            
            if guardar_activaciones:
                capa['salida'] = activacion
        
        return activacion
    
    def obtener_activaciones(self):
        """Retorna las activaciones guardadas de cada capa."""
        return [capa['salida'] for capa in self.capas if capa['salida'] is not None]

# Probamos nuestra clase
red = RedNeuronal([4, 8, 3])

# Datos de prueba
X_test = np.array([
    [1.0, 2.0, 3.0, 2.5],
    [2.0, 5.0, -1.0, 2.0]
])

salida = red.forward(X_test)
print(f"Entrada shape: {X_test.shape}")
print(f"Salida shape: {salida.shape}")
print(f"Salida:\n{salida}")

### Ejercicio 2.2
Crea una red con arquitectura [10, 20, 15, 5] y calcula cuántos parámetros tiene en total.

In [None]:
# Tu código aquí


## Parte 3: Experimentando con Diferentes Arquitecturas

In [None]:
# Generamos datos sintéticos
np.random.seed(0)
X_data = np.random.randn(100, 10)  # 100 muestras, 10 características

print("Probando diferentes arquitecturas:\n")

arquitecturas = [
    [10, 5, 1],           # Red pequeña
    [10, 20, 10, 1],      # Red mediana
    [10, 50, 30, 10, 1],  # Red profunda
]

for arq in arquitecturas:
    print(f"\nArquitectura: {arq}")
    red = RedNeuronal(arq)
    salida = red.forward(X_data)
    print(f"Salida shape: {salida.shape}")
    print(f"Ejemplo de salida (primeras 3): {salida[:3].flatten()}")

## Parte 4: Visualización de Activaciones

Veamos cómo se transforman los datos a medida que pasan por la red.

In [None]:
# Creamos una red y guardamos activaciones
red_visual = RedNeuronal([10, 8, 6, 4, 2])

# Generamos una muestra
X_sample = np.random.randn(1, 10)

# Forward pass guardando activaciones
salida = red_visual.forward(X_sample, guardar_activaciones=True)
activaciones = red_visual.obtener_activaciones()

# Visualización
fig, axes = plt.subplots(1, len(activaciones) + 1, figsize=(15, 3))

# Entrada
axes[0].bar(range(len(X_sample[0])), X_sample[0])
axes[0].set_title('Entrada')
axes[0].set_xlabel('Característica')
axes[0].grid(True, alpha=0.3)

# Cada capa
for i, act in enumerate(activaciones):
    axes[i+1].bar(range(len(act[0])), act[0])
    axes[i+1].set_title(f'Capa {i+1}')
    axes[i+1].set_xlabel('Neurona')
    axes[i+1].grid(True, alpha=0.3)

plt.tight_layout()
plt.suptitle('Activaciones a través de la red', y=1.02, fontsize=14)
plt.show()

print("Observa cómo la dimensionalidad cambia en cada capa:")
print(f"Entrada: {X_sample.shape}")
for i, act in enumerate(activaciones):
    print(f"Capa {i+1}: {act.shape}")

## Parte 5: Red para Clasificación de Dígitos (MNIST)

Ahora diseñemos una red apropiada para clasificar dígitos escritos a mano.

In [None]:
# Arquitectura típica para MNIST
# Input: 28x28 = 784 píxeles
# Output: 10 clases (dígitos 0-9)

red_mnist = RedNeuronal([784, 128, 64, 10])

# Simulamos imágenes de dígitos (normalmente vendrían del dataset MNIST)
batch_size = 32
imagenes_simuladas = np.random.rand(batch_size, 784)

print(f"\nProcesando batch de {batch_size} imágenes...")
predicciones = red_mnist.forward(imagenes_simuladas)

print(f"Predicciones shape: {predicciones.shape}")
print(f"\nEjemplo de predicción para la primera imagen:")
print(f"Scores por clase: {predicciones[0]}")
print(f"\nNota: Estos son scores crudos. En Lab 03 aprenderemos a ")
print(f"convertirlos en probabilidades usando Softmax.")

## Parte 6: Comparación de Redes Profundas vs Anchas

In [None]:
# Red profunda (muchas capas, pocas neuronas)
red_profunda = RedNeuronal([100, 50, 40, 30, 20, 10, 1])

print("\n" + "="*50)

# Red ancha (pocas capas, muchas neuronas)
red_ancha = RedNeuronal([100, 200, 1])

# Comparación
X_comp = np.random.randn(10, 100)

print("\nComparación de salidas:")
salida_profunda = red_profunda.forward(X_comp)
salida_ancha = red_ancha.forward(X_comp)

print(f"Salida red profunda (primeras 3): {salida_profunda[:3].flatten()}")
print(f"Salida red ancha (primeras 3): {salida_ancha[:3].flatten()}")

### Ejercicio 2.3 (Desafío)
Crea dos redes diferentes con aproximadamente el mismo número de parámetros:
- Una red profunda (4+ capas)
- Una red ancha (2 capas)

Compara sus arquitecturas y el número total de parámetros.

In [None]:
# Tu código aquí
# Pista: Para ~10,000 parámetros podrías usar:
# Profunda: [10, 30, 25, 20, 10]
# Ancha: [10, 100, 10]


## Parte 7: Entendiendo el Problema de la Linealidad

In [None]:
# Demostramos que sin activación, la red es lineal

# Red de 3 capas
np.random.seed(0)
W1 = np.random.randn(2, 3) * 0.01
b1 = np.zeros(3)
W2 = np.random.randn(3, 4) * 0.01
b2 = np.zeros(4)
W3 = np.random.randn(4, 1) * 0.01
b3 = np.zeros(1)

X = np.array([[1.0, 2.0]])

# Forward pass capa por capa
h1 = np.dot(X, W1) + b1
h2 = np.dot(h1, W2) + b2
y = np.dot(h2, W3) + b3

print("Red de 3 capas:")
print(f"Salida: {y}")

# Equivalente a una sola capa
W_combined = np.dot(np.dot(W1, W2), W3)
b_combined = np.dot(np.dot(b1, W2) + b2, W3) + b3
y_combined = np.dot(X, W_combined) + b_combined

print("\nEquivalente a 1 capa:")
print(f"Salida: {y_combined}")

print(f"\n¿Son iguales? {np.allclose(y, y_combined)}")
print("\n¡Por eso necesitamos funciones de activación no lineales!")

## Resumen

En este laboratorio hemos aprendido:

1. ✅ Cómo conectar múltiples capas de neuronas
2. ✅ Forward propagation en redes profundas
3. ✅ Diseñar arquitecturas para diferentes problemas
4. ✅ Calcular y entender el número de parámetros
5. ✅ Visualizar activaciones a través de la red
6. ✅ El problema de la linealidad sin funciones de activación

## Próximos Pasos

En el Lab 03:
- Introduciremos funciones de activación (ReLU, Sigmoid, Tanh, Softmax)
- Veremos cómo añaden no-linealidad a la red
- Entenderemos cuándo usar cada función de activación

## Preguntas de Reflexión

1. ¿Por qué necesitamos funciones de activación no lineales?
2. ¿Qué ventajas tiene una red profunda sobre una ancha?
3. ¿Cómo elegir el número de capas y neuronas por capa?
4. ¿Qué pasa si inicializamos todos los pesos a cero?