# **Backpropagation y Algoritmo de Descenso de Gradiente**

## **¿Qué es el Backpropagation?**
El **Backpropagation** (retropropagación) es un algoritmo de optimización utilizado en redes neuronales para **ajustar los pesos** y minimizar el error de predicción. Funciona propagando el error desde la capa de salida hacia las capas anteriores, ajustando los pesos mediante **descenso del gradiente**.

Se basa en dos fases:
1. **Forward Pass (Propagación hacia adelante):** La red genera una predicción.
2. **Backward Pass (Retropropagación del error):** Calculamos el error y ajustamos los pesos.

---

## **¿Qué es el Descenso de Gradiente?**
El **Descenso de Gradiente** es un algoritmo que encuentra los valores óptimos de los pesos minimizando una función de costo $( J(W))$. Se basa en calcular la derivada (gradiente) de la función de costo con respecto a los pesos y actualizar los valores en la dirección opuesta al gradiente.

### **Fórmula general del Descenso de Gradiente**
$$
W := W - \alpha \frac{\partial J}{\partial W}
$$
Donde:
- $ ( W ) $ son los pesos del modelo.
- $ ( \alpha )$ es la tasa de aprendizaje (learning rate).
- $ ( \frac{\partial J}{\partial W} ) $ es el gradiente de la función de costo respecto a $( W )$ .

---

## **Matemática del Backpropagation**
### **Paso 1: Forward Pass**
Dado un conjunto de datos de entrada $( X )$ y pesos $( W )$, la salida de una neurona en la capa oculta es:

$$
Z = W X + b
$$

Aplicamos la **función de activación** $( f(Z) )$ para obtener la salida de la neurona:

$$
A = f(Z)
$$

En la capa de salida, se obtiene una predicción $( \hat{y} )$:

$$
\hat{y} = f(W^{(2)} A + b^{(2)})
$$

### **Paso 2: Cálculo del Error**
Definimos una función de pérdida $( J(W) )$, por ejemplo, el error cuadrático medio (MSE) en regresión:

$$
J(W) = \frac{1}{m} \sum_{i=1}^{m} (\hat{y}_i - y_i)^2
$$

o la entropía cruzada en clasificación:

$$
J(W) = - \frac{1}{m} \sum_{i=1}^{m} \left[ y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i) \right]
$$

### **Paso 3: Backpropagation - Cálculo del Gradiente**
Usamos la **regla de la cadena** para calcular la derivada de la pérdida respecto a cada peso:

1. **Error en la salida:**
   $$
   \delta^{(2)} = \frac{\partial J}{\partial \hat{y}} \cdot f'(Z^{(2)})
   $$

2. **Error en la capa oculta:**
   $$
   \delta^{(1)} = (\delta^{(2)} W^{(2)}) \cdot f'(Z^{(1)})
   $$

3. **Gradiente de los pesos:**
   $$
   \frac{\partial J}{\partial W^{(2)}} = A^{(1)} \delta^{(2)}
   $$
   $$
   \frac{\partial J}{\partial W^{(1)}} = X \delta^{(1)}
   $$

### **Paso 4: Actualización de Pesos**
$$
W^{(l)} := W^{(l)} - \alpha \frac{\partial J}{\partial W^{(l)}}
$$

---

## **Resumen del Algoritmo de Backpropagation**
1. **Propagación hacia adelante:** Calculamos la salida de la red.
2. **Cálculo del error:** Evaluamos la diferencia entre la salida esperada y la salida real.
3. **Retropropagación del error:** Calculamos el gradiente en cada capa usando la regla de la cadena.
4. **Actualización de pesos:** Usamos el descenso de gradiente para ajustar los pesos.

---

## **Conclusión**
📌 **Backpropagation** permite que las redes neuronales aprendan ajustando los pesos para minimizar el error.  
📌 **El Descenso de Gradiente** es el método clave para actualizar los pesos en la dirección correcta.  
📌 **El uso de derivadas parciales** y la regla de la cadena son esenciales para calcular los ajustes.  
