# Lab 03: Funciones de Activaci√≥n - Pr√°ctica Interactiva

En este notebook implementaremos y experimentaremos con diferentes funciones de activaci√≥n.

## Objetivos
1. Implementar funciones de activaci√≥n desde cero
2. Visualizar su comportamiento
3. Entender sus derivadas
4. Comparar su desempe√±o en redes neuronales

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import sys
sys.path.append('codigo/')

# Configuraci√≥n de matplotlib
plt.style.use('seaborn-v0_8-darkgrid')
%matplotlib inline

## Parte 1: Implementaci√≥n de Funciones de Activaci√≥n

### Ejercicio 1.1: Implementar Sigmoid

In [None]:
def sigmoid(x):
    """
    Implementa la funci√≥n sigmoid.
    
    F√≥rmula: œÉ(x) = 1 / (1 + e^(-x))
    """
    # TU C√ìDIGO AQU√ç
    return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):
    """
    Implementa la derivada de sigmoid.
    
    F√≥rmula: œÉ'(x) = œÉ(x) * (1 - œÉ(x))
    """
    # TU C√ìDIGO AQU√ç
    s = sigmoid(x)
    return s * (1 - s)

# Probar implementaci√≥n
x_test = np.array([0, 1, -1, 2, -2])
print("Sigmoid(x):", sigmoid(x_test))
print("Sigmoid'(x):", sigmoid_derivative(x_test))

### Ejercicio 1.2: Implementar ReLU

In [None]:
def relu(x):
    """
    Implementa ReLU.
    
    F√≥rmula: ReLU(x) = max(0, x)
    """
    # TU C√ìDIGO AQU√ç
    return np.maximum(0, x)

def relu_derivative(x):
    """
    Implementa la derivada de ReLU.
    """
    # TU C√ìDIGO AQU√ç
    return (x > 0).astype(float)

# Probar implementaci√≥n
print("ReLU(x):", relu(x_test))
print("ReLU'(x):", relu_derivative(x_test))

### Ejercicio 1.3: Implementar Tanh

In [None]:
def tanh(x):
    """Implementa tanh usando NumPy."""
    return np.tanh(x)

def tanh_derivative(x):
    """
    Implementa la derivada de tanh.
    
    F√≥rmula: tanh'(x) = 1 - tanh¬≤(x)
    """
    # TU C√ìDIGO AQU√ç
    t = tanh(x)
    return 1 - t**2

# Probar implementaci√≥n
print("Tanh(x):", tanh(x_test))
print("Tanh'(x):", tanh_derivative(x_test))

## Parte 2: Visualizaci√≥n de Funciones de Activaci√≥n

In [None]:
# Crear rango de valores
x = np.linspace(-5, 5, 1000)

# Calcular valores
y_sigmoid = sigmoid(x)
y_tanh = tanh(x)
y_relu = relu(x)

# Visualizar
plt.figure(figsize=(12, 4))

plt.subplot(1, 3, 1)
plt.plot(x, y_sigmoid, 'b-', linewidth=2, label='Sigmoid')
plt.grid(True, alpha=0.3)
plt.xlabel('x')
plt.ylabel('œÉ(x)')
plt.title('Funci√≥n Sigmoid')
plt.axhline(y=0, color='k', linestyle='--', alpha=0.3)
plt.axhline(y=1, color='r', linestyle='--', alpha=0.3)
plt.axvline(x=0, color='k', linestyle='--', alpha=0.3)

plt.subplot(1, 3, 2)
plt.plot(x, y_tanh, 'g-', linewidth=2, label='Tanh')
plt.grid(True, alpha=0.3)
plt.xlabel('x')
plt.ylabel('tanh(x)')
plt.title('Funci√≥n Tanh')
plt.axhline(y=0, color='k', linestyle='--', alpha=0.3)
plt.axhline(y=1, color='r', linestyle='--', alpha=0.3)
plt.axhline(y=-1, color='r', linestyle='--', alpha=0.3)
plt.axvline(x=0, color='k', linestyle='--', alpha=0.3)

plt.subplot(1, 3, 3)
plt.plot(x, y_relu, 'r-', linewidth=2, label='ReLU')
plt.grid(True, alpha=0.3)
plt.xlabel('x')
plt.ylabel('ReLU(x)')
plt.title('Funci√≥n ReLU')
plt.axhline(y=0, color='k', linestyle='--', alpha=0.3)
plt.axvline(x=0, color='k', linestyle='--', alpha=0.3)

plt.tight_layout()
plt.show()

## Parte 3: An√°lisis de Derivadas

In [None]:
# Calcular derivadas
dy_sigmoid = sigmoid_derivative(x)
dy_tanh = tanh_derivative(x)
dy_relu = relu_derivative(x)

# Visualizar derivadas
plt.figure(figsize=(12, 4))

plt.subplot(1, 3, 1)
plt.plot(x, dy_sigmoid, 'b-', linewidth=2)
plt.grid(True, alpha=0.3)
plt.xlabel('x')
plt.ylabel("œÉ'(x)")
plt.title('Derivada de Sigmoid')
plt.axhline(y=0, color='k', linestyle='--', alpha=0.3)
plt.axvline(x=0, color='k', linestyle='--', alpha=0.3)

plt.subplot(1, 3, 2)
plt.plot(x, dy_tanh, 'g-', linewidth=2)
plt.grid(True, alpha=0.3)
plt.xlabel('x')
plt.ylabel("tanh'(x)")
plt.title('Derivada de Tanh')
plt.axhline(y=0, color='k', linestyle='--', alpha=0.3)
plt.axvline(x=0, color='k', linestyle='--', alpha=0.3)

plt.subplot(1, 3, 3)
plt.plot(x, dy_relu, 'r-', linewidth=2)
plt.grid(True, alpha=0.3)
plt.xlabel('x')
plt.ylabel("ReLU'(x)")
plt.title('Derivada de ReLU')
plt.axhline(y=0, color='k', linestyle='--', alpha=0.3)
plt.axvline(x=0, color='k', linestyle='--', alpha=0.3)
plt.ylim(-0.1, 1.1)

plt.tight_layout()
plt.show()

print("Observaciones:")
print("1. Sigmoid: Derivada m√°xima en x=0 (~0.25), se acerca a 0 en extremos")
print("2. Tanh: Derivada m√°xima en x=0 (1.0), se acerca a 0 en extremos")
print("3. ReLU: Derivada constante (1) para x>0, 0 para x‚â§0")

## Parte 4: Problema del Gradiente que Desaparece

Simulemos c√≥mo los gradientes se propagan en una red profunda.

In [None]:
def simular_backprop(activacion_func, derivative_func, num_capas=10):
    """
    Simula backpropagation a trav√©s de m√∫ltiples capas.
    """
    # Valor de entrada aleatorio
    x = np.random.randn()
    
    # Forward pass
    activaciones = [x]
    for _ in range(num_capas):
        x = activacion_func(x)
        activaciones.append(x)
    
    # Backward pass (gradientes)
    gradientes = [1.0]  # Gradiente inicial
    for i in range(num_capas, 0, -1):
        grad = gradientes[-1] * derivative_func(activaciones[i-1])
        gradientes.append(grad)
    
    return gradientes[::-1]

# Simular para diferentes funciones
num_capas = 20
grad_sigmoid = simular_backprop(sigmoid, sigmoid_derivative, num_capas)
grad_tanh = simular_backprop(tanh, tanh_derivative, num_capas)
grad_relu = simular_backprop(relu, relu_derivative, num_capas)

# Visualizar
plt.figure(figsize=(12, 5))
capas = range(num_capas + 1)

plt.semilogy(capas, np.abs(grad_sigmoid), 'b-o', label='Sigmoid', markersize=4)
plt.semilogy(capas, np.abs(grad_tanh), 'g-s', label='Tanh', markersize=4)
plt.semilogy(capas, np.abs(grad_relu), 'r-^', label='ReLU', markersize=4)

plt.xlabel('Profundidad de la Capa', fontsize=12)
plt.ylabel('Magnitud del Gradiente (escala log)', fontsize=12)
plt.title('Gradiente que Desaparece en Redes Profundas', fontsize=14, fontweight='bold')
plt.legend(fontsize=10)
plt.grid(True, alpha=0.3)
plt.show()

print("\n‚ö†Ô∏è Observaci√≥n Clave:")
print("- Sigmoid y Tanh: Los gradientes DESAPARECEN r√°pidamente")
print("- ReLU: Mantiene gradientes constantes (m√°s estable)")
print("\nEsto explica por qu√© ReLU es preferida en redes profundas.")

## Parte 5: Softmax para Clasificaci√≥n Multiclase

In [None]:
def softmax(x):
    """
    Implementa softmax de manera num√©ricamente estable.
    
    Args:
        x: array de forma (n_samples, n_classes)
    """
    # Restar el m√°ximo para estabilidad num√©rica
    exp_x = np.exp(x - np.max(x, axis=1, keepdims=True))
    return exp_x / np.sum(exp_x, axis=1, keepdims=True)

# Ejemplo: 3 muestras, 4 clases
scores = np.array([
    [3.2, 1.5, 0.8, 2.1],  # Muestra 1
    [0.5, 2.8, 1.2, 0.9],  # Muestra 2
    [1.1, 0.7, 3.5, 1.3]   # Muestra 3
])

probabilidades = softmax(scores)

print("Scores originales:")
print(scores)
print("\nProbabilidades (despu√©s de Softmax):")
print(np.round(probabilidades, 3))
print("\nSuma por fila (debe ser 1.0):")
print(np.sum(probabilidades, axis=1))
print("\nClase predicha para cada muestra:")
print(np.argmax(probabilidades, axis=1))

# Visualizar
fig, axes = plt.subplots(1, 2, figsize=(12, 4))

# Scores
im1 = axes[0].imshow(scores, cmap='viridis', aspect='auto')
axes[0].set_xlabel('Clases')
axes[0].set_ylabel('Muestras')
axes[0].set_title('Scores Originales')
plt.colorbar(im1, ax=axes[0])

# Probabilidades
im2 = axes[1].imshow(probabilidades, cmap='viridis', aspect='auto')
axes[1].set_xlabel('Clases')
axes[1].set_ylabel('Muestras')
axes[1].set_title('Probabilidades (Softmax)')
plt.colorbar(im2, ax=axes[1])

plt.tight_layout()
plt.show()

## Parte 6: Ejercicio Pr√°ctico - Red con Diferentes Activaciones

Implementa una red neuronal simple y compara el desempe√±o con diferentes funciones.

In [None]:
# Generar datos sint√©ticos (XOR problem)
np.random.seed(42)
n_samples = 200

# Crear datos XOR
X = np.random.randn(n_samples, 2)
y = (X[:, 0] * X[:, 1] > 0).astype(int)

# Visualizar datos
plt.figure(figsize=(6, 6))
plt.scatter(X[y==0, 0], X[y==0, 1], c='blue', label='Clase 0', alpha=0.6)
plt.scatter(X[y==1, 0], X[y==1, 1], c='red', label='Clase 1', alpha=0.6)
plt.xlabel('X1')
plt.ylabel('X2')
plt.title('Problema XOR (No Linealmente Separable)')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print("Este es un problema NO LINEALMENTE SEPARABLE.")
print("Necesitamos funciones de activaci√≥n no lineales para resolverlo.")

In [None]:
class RedNeuronalSimple:
    def __init__(self, input_size, hidden_size, output_size, activacion='relu'):
        # Inicializaci√≥n de pesos
        self.W1 = np.random.randn(input_size, hidden_size) * 0.1
        self.b1 = np.zeros((1, hidden_size))
        self.W2 = np.random.randn(hidden_size, output_size) * 0.1
        self.b2 = np.zeros((1, output_size))
        self.activacion = activacion
    
    def forward(self, X):
        # Capa 1
        self.z1 = np.dot(X, self.W1) + self.b1
        
        # Activaci√≥n
        if self.activacion == 'relu':
            self.a1 = relu(self.z1)
        elif self.activacion == 'sigmoid':
            self.a1 = sigmoid(self.z1)
        elif self.activacion == 'tanh':
            self.a1 = tanh(self.z1)
        
        # Capa 2 (salida)
        self.z2 = np.dot(self.a1, self.W2) + self.b2
        self.a2 = sigmoid(self.z2)  # Sigmoid para clasificaci√≥n binaria
        
        return self.a2
    
    def calcular_perdida(self, y_pred, y_true):
        # Binary cross-entropy
        m = y_true.shape[0]
        loss = -np.mean(y_true * np.log(y_pred + 1e-8) + (1 - y_true) * np.log(1 - y_pred + 1e-8))
        return loss

# Entrenar con diferentes activaciones
activaciones = ['relu', 'sigmoid', 'tanh']
historias = {}

for act in activaciones:
    print(f"\nEntrenando con {act.upper()}...")
    red = RedNeuronalSimple(2, 10, 1, activacion=act)
    
    perdidas = []
    epochs = 1000
    learning_rate = 0.1
    
    for epoch in range(epochs):
        # Forward
        y_pred = red.forward(X)
        perdida = red.calcular_perdida(y_pred, y.reshape(-1, 1))
        perdidas.append(perdida)
        
        if epoch % 200 == 0:
            print(f"  Epoch {epoch}: P√©rdida = {perdida:.4f}")
    
    historias[act] = perdidas

# Comparar curvas de aprendizaje
plt.figure(figsize=(10, 6))
for act, perdidas in historias.items():
    plt.plot(perdidas, label=act.upper(), linewidth=2)

plt.xlabel('√âpoca', fontsize=12)
plt.ylabel('P√©rdida', fontsize=12)
plt.title('Comparaci√≥n de Funciones de Activaci√≥n', fontsize=14, fontweight='bold')
plt.legend(fontsize=10)
plt.grid(True, alpha=0.3)
plt.show()

print("\n‚úì Observa c√≥mo diferentes activaciones afectan la velocidad de convergencia.")

## Parte 7: Desaf√≠o - Implementa Leaky ReLU

Implementa Leaky ReLU y comp√°rala con ReLU.

In [None]:
def leaky_relu(x, alpha=0.01):
    """
    Implementa Leaky ReLU.
    
    TU C√ìDIGO AQU√ç
    """
    return np.where(x > 0, x, alpha * x)

def leaky_relu_derivative(x, alpha=0.01):
    """
    Implementa la derivada de Leaky ReLU.
    
    TU C√ìDIGO AQU√ç
    """
    dx = np.ones_like(x)
    dx[x <= 0] = alpha
    return dx

# Comparar ReLU vs Leaky ReLU
x = np.linspace(-5, 5, 1000)
y_relu = relu(x)
y_leaky = leaky_relu(x)

plt.figure(figsize=(12, 4))

plt.subplot(1, 2, 1)
plt.plot(x, y_relu, 'r-', linewidth=2, label='ReLU')
plt.plot(x, y_leaky, 'b-', linewidth=2, label='Leaky ReLU', alpha=0.7)
plt.xlabel('x')
plt.ylabel('f(x)')
plt.title('ReLU vs Leaky ReLU')
plt.legend()
plt.grid(True, alpha=0.3)

plt.subplot(1, 2, 2)
plt.plot(x, relu_derivative(x), 'r-', linewidth=2, label="ReLU'")
plt.plot(x, leaky_relu_derivative(x), 'b-', linewidth=2, label="Leaky ReLU'", alpha=0.7)
plt.xlabel('x')
plt.ylabel("f'(x)")
plt.title('Derivadas')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("\nVentaja de Leaky ReLU: Permite gradientes peque√±os para valores negativos.")
print("Esto evita el problema de 'neuronas muertas' de ReLU.")

## Resumen y Conclusiones

### Lo que aprendimos:

1. **Funciones de Activaci√≥n son Esenciales**: Sin ellas, la red es lineal

2. **ReLU es el Est√°ndar**: Simple, eficiente, efectiva para redes profundas

3. **Gradientes Importan**: Sigmoid/Tanh saturan, ReLU mantiene gradientes

4. **Elecci√≥n por Capa**:
   - Capas ocultas ‚Üí ReLU/Leaky ReLU
   - Clasificaci√≥n binaria ‚Üí Sigmoid
   - Clasificaci√≥n multiclase ‚Üí Softmax

5. **Experimentaci√≥n es Clave**: Prueba diferentes opciones

### Pr√≥ximos pasos:

En el siguiente laboratorio exploraremos **Funciones de P√©rdida** que cuantifican qu√© tan bien (o mal) est√° aprendiendo nuestra red.

---

**¬°Excelente trabajo! üéâ**