<a href="https://colab.research.google.com/github/jcmachicao/deep_learning_2025_curso/blob/main/NN___funciones_activacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Código pedagógico sobre algebra lineal básica, derivadas/gradientes y funciones de activación.
# Ejecuta todo en un cuaderno o script para ver resultados y gráficos.
import numpy as np
import matplotlib.pyplot as plt

# -----------------------------
# 1) Vectores, matrices, producto punto
# -----------------------------

def demo_vectors_matrices():
    print("=== VECTORES Y MATRICES ===")
    # vectores (1-D arrays)
    v = np.array([1.0, 2.0, -1.0])
    w = np.array([0.5, -1.0, 2.0])
    print("v =", v)
    print("w =", w)

    # producto punto (dot)
    dot_vw = np.dot(v, w)
    print("Producto punto v · w =", dot_vw)

    # matrices (2-D arrays)
    A = np.array([[2.0, 0.0, -1.0],
                  [1.0, 3.0,  2.0]])
    B = np.array([[1.0, -1.0],
                  [0.0,  2.0],
                  [3.0,  1.0]])
    print("A shape:", A.shape)
    print("B shape:", B.shape)

    # producto matricial (matmul)
    C = A @ B   # equivalente a np.matmul(A, B)
    print("A @ B =\n", C)

    # multiplicación elemento a elemento (Hadamard)
    # requiere shapes iguales (broadcasting posible)
    x = np.array([[1.0, 2.0],
                  [3.0, 4.0]])
    y = np.array([[2.0, 0.5],
                  [0.0, -1.0]])
    print("Hadamard x * y =\n", x * y)

    # operaciones útiles
    print("Transpuesta de A:\n", A.T)
    print("Suma de vectores v + w =", v + w)

demo_vectors_matrices()

# -----------------------------
# 2) Derivadas y gradientes
# -----------------------------

# a) Derivada de funciones escalares simples
def derivative_scalar(f, x, eps=1e-6):
    """Aproximación numérica de la derivada usando diferencia central"""
    return (f(x + eps) - f(x - eps)) / (2 * eps)

# ejemplo: f(x) = x^2  => f'(x) = 2x
def demo_derivative_scalar():
    print("\n=== DERIVADAS (ESCALAR) ===")
    f = lambda x: x**2
    for x in [0.0, 1.0, -2.0, 3.5]:
        num = derivative_scalar(f, x)
        exact = 2*x
        print(f"x={x:4.1f} | deriv.num={num: .6f} | deriv.exact={exact: .6f}")

demo_derivative_scalar()

# b) Gradiente de funciones vectoriales
# Ejemplo: f(x) = x^T A x  (A es matriz n x n)
# grad f = (A + A^T) x
def grad_quadratic(A, x):
    return (A + A.T) @ x

def numerical_gradient(f, x, eps=1e-6):
    """Calcula gradiente numérico para función f: R^n -> R en punto x"""
    x = x.astype(float)
    grad = np.zeros_like(x)
    for i in range(len(x)):
        x_plus = x.copy(); x_minus = x.copy()
        x_plus[i] += eps
        x_minus[i] -= eps
        grad[i] = (f(x_plus) - f(x_minus)) / (2*eps)
    return grad

def demo_gradients():
    print("\n=== GRADIENTES ===")
    A = np.array([[2.0, 1.0, 0.0],
                  [1.0, 3.0, 2.0],
                  [0.0, 2.0, 4.0]])
    x = np.array([1.0, -1.0, 0.5])
    f = lambda z: z.T @ A @ z  # escalar
    analytic = grad_quadratic(A, x)
    numeric = numerical_gradient(f, x)
    print("x =", x)
    print("gradiente analítico =", analytic)
    print("gradiente numérico     =", numeric)
    print("diferencia (norm) =", np.linalg.norm(analytic - numeric))

demo_gradients()

# -----------------------------
# 3) Funciones de activación: Sigmoid, ReLU, Tanh (y sus derivadas)
# -----------------------------

def sigmoid(x):
    """Sigmoid estable numéricamente"""
    x = np.array(x, dtype=float)
    # evitar overflow: manejar positivos y negativos
    pos = x >= 0
    neg = ~pos
    out = np.empty_like(x, dtype=float)
    out[pos] = 1.0 / (1.0 + np.exp(-x[pos]))
    # para valores negativos, usar exp(x) / (1+exp(x))
    out[neg] = np.exp(x[neg]) / (1.0 + np.exp(x[neg]))
    return out

def sigmoid_prime(x):
    s = sigmoid(x)
    return s * (1 - s)

def relu(x):
    x = np.array(x, dtype=float)
    return np.maximum(0, x)

def relu_prime(x):
    x = np.array(x, dtype=float)
    # subgradiente: derivada 0 para x<0, 1 para x>0, asignamos 0 en x==0 (es una convención)
    grad = np.zeros_like(x)
    grad[x > 0] = 1.0
    return grad

def tanh(x):
    return np.tanh(x)

def tanh_prime(x):
    t = np.tanh(x)
    return 1 - t**2

# pruebas rápidas
def demo_activations():
    print("\n=== ACTIVACIONES ===")
    xs = np.array([-4.0, -1.0, -0.1, 0.0, 0.2, 1.0, 3.0])
    print("x:", xs)
    print("sigmoid(x):", sigmoid(xs))
    print("sigmoid'(x):", sigmoid_prime(xs))
    print("ReLU(x):", relu(xs))
    print("ReLU'(x):", relu_prime(xs))
    print("tanh(x):", tanh(xs))
    print("tanh'(x):", tanh_prime(xs))

demo_activations()

# -----------------------------
# 4) Graficar funciones de activación y derivadas
# -----------------------------

x_plot = np.linspace(-6, 6, 501)

# Sigmoid plot (función y derivada en la misma figura)
plt.figure(figsize=(6,4))
plt.plot(x_plot, sigmoid(x_plot), label="sigmoid(x)")
plt.plot(x_plot, sigmoid_prime(x_plot), label="sigmoid'(x)", linestyle='--')
plt.title("Sigmoid y su derivada")
plt.xlabel("x")
plt.legend()
plt.grid(True)
plt.show()

# ReLU plot
plt.figure(figsize=(6,4))
plt.plot(x_plot, relu(x_plot), label="ReLU(x)")
plt.plot(x_plot, relu_prime(x_plot), label="ReLU'(x)", linestyle='--')
plt.title("ReLU y su derivada (subgradiente)")
plt.xlabel("x")
plt.legend()
plt.grid(True)
plt.show()

# Tanh plot
plt.figure(figsize=(6,4))
plt.plot(x_plot, tanh(x_plot), label="tanh(x)")
plt.plot(x_plot, tanh_prime(x_plot), label="tanh'(x)", linestyle='--')
plt.title("Tanh y su derivada")
plt.xlabel("x")
plt.legend()
plt.grid(True)
plt.show()

# -----------------------------
# 5) Mini-ejercicio sugerido para estudiantes
# -----------------------------
exercise_text = """
EJERCICIO (sugerido):
1) Implementa numéricamente la derivada de sigmoid usando diferencia central y compara con
   sigmoid_prime en varios puntos (p.ej. x = -10, -2, -0.5, 0, 0.5, 2, 10).
2) Considera la función f(x) = log(1 + exp(w^T x + b)) (softplus de un escalar).
   - Implementa f y calcula su gradiente respecto a x analíticamente.
   - Comprueba con gradiente numérico.
3) Toma un pequeño dataset de imágenes (p.ej. MNIST o un subconjunto) y crea un clasificador
   muy simple con una capa lineal + softmax. Entrena pocas épocas y observa pérdida y accuracy.
"""

print(exercise_text)
