# Matemáticas para Redes Neuronales

Este notebook contiene ejemplos prácticos para entender los conceptos matemáticos detrás de las redes neuronales, incluyendo:

- Operaciones lineales en una neurona
- Cálculo de la función de coste y gradient descent
- Funciones de activación y la introducción de no linealidad
- Manejo de hiperparámetros (tasa de aprendizaje y batch size)

Cada sección incluye ejemplos en Python para visualizar y experimentar con estos conceptos.

## 1. Operación Lineal en una Neurona

Una neurona calcula una combinación lineal de sus entradas y añade un sesgo. La fórmula es:

\( z = x_1 \cdot w_1 + x_2 \cdot w_2 + b \)

Luego, se aplica una función de activación (por ejemplo, sigmoide) para obtener la salida.

In [None]:
import numpy as np

# Definir entrada, pesos y sesgo
x = np.array([1.0, 2.0])  # x1 = 1, x2 = 2
w = np.array([0.5, -0.3]) # w1 = 0.5, w2 = -0.3
b = 0.1                  # Sesgo

# Operación lineal
z = np.dot(x, w) + b
print('Valor de z:', z)

In [None]:
# Función de activación sigmoide
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

a = sigmoid(z)
print('Salida de la neurona (a):', a)

## 2. Gradient Descent y Cálculo de la Función de Coste

En un modelo de regresión lineal, la función de coste (MSE) se define como:

\( J(w, b) = \frac{1}{2n}\sum_{i=1}^{n} (y_i - (Xw + b))^2 \)

El gradiente descendente actualiza los parámetros según:

\( w := w - \eta \frac{\partial J}{\partial w} \) y \( b := b - \eta \frac{\partial J}{\partial b} \)

El siguiente ejemplo implementa gradient descent en un dataset sintético.

In [None]:
import matplotlib.pyplot as plt

# Generar datos sintéticos
np.random.seed(42)
n_samples = 50
X = np.random.rand(n_samples, 2)
true_w = np.array([2.0, -3.0])
true_b = 1.0
y = X.dot(true_w) + true_b + np.random.randn(n_samples) * 0.5

# Inicializar parámetros
np.random.seed(1)
w = np.random.randn(2)
b = np.random.randn()

learning_rate = 0.05
epochs = 100

loss_history = []

for epoch in range(epochs):
    y_pred = X.dot(w) + b
    loss = np.mean((y - y_pred)**2) / 2
    loss_history.append(loss)
    
    error = y_pred - y
    grad_w = (1/n_samples) * X.T.dot(error)
    grad_b = (1/n_samples) * np.sum(error)
    
    w = w - learning_rate * grad_w
    b = b - learning_rate * grad_b

print('Pesos finales:', w)
print('Sesgo final:', b)

plt.figure(figsize=(8,5))
plt.plot(range(epochs), loss_history, marker='o')
plt.xlabel('Época')
plt.ylabel('Loss (MSE)')
plt.title('Evolución del Loss durante el Entrenamiento')
plt.grid(True)
plt.show()

## 3. Funciones de Activación y No Linealidad

Las funciones de activación introducen no linealidad, lo que permite a la red aprender patrones complejos. Sin ellas, una red neuronal se reduciría a una única transformación lineal. Se pueden usar funciones como sigmoide, ReLU o tanh. El siguiente ejemplo grafica estas funciones.

In [None]:
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

def relu(z):
    return np.maximum(0, z)

def tanh(z):
    return np.tanh(z)

z = np.linspace(-5, 5, 100)

plt.figure(figsize=(10,6))
plt.plot(z, sigmoid(z), label='Sigmoide')
plt.plot(z, relu(z), label='ReLU')
plt.plot(z, tanh(z), label='Tanh')
plt.xlabel('Entrada (z)')
plt.ylabel('Salida')
plt.title('Comparación de Funciones de Activación')
plt.legend()
plt.grid(True)
plt.show()

## 4. Manejo de Hiperparámetros: Tasa de Aprendizaje y Batch Size

La tasa de aprendizaje \(\eta\) controla el tamaño de los pasos en la actualización de pesos. Un valor muy alto puede causar inestabilidad, mientras que un valor muy bajo puede ralentizar el entrenamiento.

El tamaño del batch determina cuántas muestras se usan para calcular el gradiente en cada actualización. Un batch pequeño puede introducir ruido, mientras que un batch grande proporciona una estimación más estable del gradiente.

En el siguiente ejemplo se entrenan modelos con diferentes tasas de aprendizaje y se observa la evolución del loss.

In [None]:
# Generar un dataset sintético (100 muestras, 2 características)
np.random.seed(42)
n_samples = 100
X = np.random.rand(n_samples, 2)
true_w = np.array([2.0, -3.0])
true_b = 1.0
y = X.dot(true_w) + true_b + np.random.randn(n_samples) * 0.5

# Probar con diferentes tasas de aprendizaje
learning_rates = [0.001, 0.01, 0.1]
losses_lr = {}

epochs = 100

for lr in learning_rates:
    np.random.seed(1)
    w = np.random.randn(2)
    b = np.random.randn()
    loss_history = []
    for epoch in range(epochs):
        y_pred = X.dot(w) + b
        loss = np.mean((y - y_pred)**2) / 2
        loss_history.append(loss)
        error = y_pred - y
        grad_w = (1/n_samples) * X.T.dot(error)
        grad_b = (1/n_samples) * np.sum(error)
        w = w - lr * grad_w
        b = b - lr * grad_b
    losses_lr[lr] = loss_history

plt.figure(figsize=(10,6))
for lr, loss_history in losses_lr.items():
    plt.plot(range(epochs), loss_history, label=f'Learning Rate: {lr}')
plt.xlabel('Época')
plt.ylabel('Loss (MSE)')
plt.title('Evolución del Loss para Diferentes Tasas de Aprendizaje')
plt.legend()
plt.grid(True)
plt.show()

## Conclusión

En este notebook hemos visto cómo se aplican conceptos matemáticos fundamentales en machine learning:

- **Operación lineal:** Producto punto y suma de sesgos en una neurona.
- **Gradient descent:** Cálculo del error (MSE) y actualización de pesos y sesgos.
- **Funciones de activación:** Introducen no linealidad para aprender relaciones complejas.
- **Hiperparámetros:** Tasa de aprendizaje y tamaño del batch y su efecto en la convergencia.

¡Experimenta modificando los parámetros para ver cómo cambian los resultados y refuerza tu comprensión de estos conceptos fundamentales!