# Gradiente descendente y backpropagation

**Autor:** Jazna Meza Hidalgo

**Correo Electrónico:** ja.meza@profesor.duoc.cl

**Fecha de Creación:**  Febrero de 2025  
**Versión:** 1.0  

---

## Descripción

En este notebook se explica la relación de gradiente descendente y backpropagation y su importancia en el entrenamiento de una red neuronal.

Previamente, se entrega una explicación simple de la regla de la cadena.

Se implementa una red con la siguiente arquitectura:

+ Una capa oculta
+ Una neurona de salida

Se va a usar backpropagation para ajustar los pesos.

El objetivo de la red es aprender la función XOR
---

## Requisitos de Software

Este notebook fue desarrollado con Python 3.9. A continuación se listan las bibliotecas necesarias:

- numpy (1.26.4)
- matplotlib (3.7.1)

Para verificar la versión instalada ejecutar usando el nombre del paquete del cual quieres saber la versión; por ejemplo, si quieres saber la versión de sklearn usas:

```bash
import numpy
print(numpy.__version__)
````

#Concepto previo: la regla de la cadena

Es un principio fundamental en cálculo que permite derivar funciones compuestas.

En el contexto de redes neuronales y backpropagation se usa para calcular cómo un cambio en los pesos afecta a la función de pérdida.

**Explicación matemática**

Sea $z=f(g(x))$ una función compuesta, su derivada aplicando la regla de la cadena es:

$\frac{dz}{dx}=f'(g(x)) \cdot g'(x)$

**Ejemplo numérico**
Sea $f(x)=(3x+2)^2$ entonces $g(x) = 3x+2$ y $f(u)=u^2$ donde $u=g(x)$

Usando la regla de la cadena:

$\frac{df}{dx}=\frac{df}{du}\cdot\frac{du}{dx}$

Se calculan las derivadas:

$\frac{du}{dx}$ = 3

$\frac{df}{du}=2u=2(3x+2)$

Por lo tanto, se tiene:

$\frac{df}{dx}=2(3x+2)\cdot3=6(3x+2)$

# Gradiente descendente

Algoritmo de optimización que ajusta los parámetros ($θ$) de un modelo para minimizar una función de pérdida (J($θ$)).

Se basa en calcular el gradiente de la funciçon de pérdida respecto a los parámetros y actualizar los parámetros de esta forma:

$\theta = θ - α\nabla J(θ)$

donde:

$\alpha$ es la tasa de aprendizaje
$∇ J(\theta)$ es el gradiente de la función de pérdida respecto a $\theta$

**En redes neuronales, $θ$ representa los pesos y sesgos de las capas.**


# Backpropagation

Es un método para calcular el gradiente de la función de pérdida respecto de los pesos de la red neuronal.

**Funcionamiento**

**1. Forward pass (propagación hacia adelante)**
+ Se pasa una entrada *X* a través de la red y se obtiene una predicción $\hat{y}$
+ Se calcula la pérdida $J(\theta)$ comparando $\hat{y}$ con *y*

**2. Backward pass (propagación hacia atrás)**
+ Se usa la **regla de la cadena** para calcular como cambia $J(\theta)$ con cada peso de la red.
+ Se propagan estos gradientes entre la capa de salida hasta las capas ocultas.

**3. Actualziación de pesos (gradiente descendente)**

+ Con los gradientes calculados en Backpropagation, se aplcia **Gradiente Descendente** para ajustar los pesos:

$W^{(l)}=W^{(l)}-α\frac{δJ}{\delta W^{(l)}}$

donde:
$W^{(l)}$ representa los pesos de la capa *l*
$frac{δJ}{\delta W^{(l)}}$ es el gradiente calculado en la propagación hacia atrás

#Cómo trabajan juntos

**Bakpropagation** es la técnica que permite calcular los gradientes de la función de pérdida respecto de los pesos.

**Gradiente descendente** usa estos gradientes para actualizar los pesos y minimizar la pérdida.



---


*Sin backpropagation no sería posible aplicar gradiente descendente en redes profundas*.


---



In [1]:
import numpy as np

In [3]:
# Función sigmoide y su derivada
def sigmoid(x):
  return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):
  return x * (1 - x)  # Regla de la cadena aplicada a la sigmoide

# Datos de entrada
x = np.array([[0.5]])  # Una característica
W = np.array([[0.8]])  # Peso inicial
b = np.array([[0.2]])  # Sesgo
y_real = np.array([[1]])  # Valor esperado

# Forward propagation
z = np.dot(x, W) + b  # Entrada a la neurona
a = sigmoid(z)         # Activación
loss = (y_real - a)    # Error

# Backpropagation con regla de la cadena
dL_da = -1  # Derivada de la pérdida respecto a 'a' (asumiendo error cuadrático)
da_dz = sigmoid_derivative(a)  # Derivada de 'a' respecto a 'z'
dz_dW = x                      # Derivada de 'z' respecto a 'W'

# Aplicando la regla de la cadena
dL_dW = dL_da * da_dz * dz_dW

# Gradiente para actualizar el peso
learning_rate = 0.1
W -= learning_rate * dL_dW  # Actualización del peso

print("Nuevo peso ajustado:", W)


Nuevo peso ajustado: [[0.81143921]]


❓**Por qué la derivada $\frac{dL}{da}$ es -1**

✅ Respuesta

La función de pérdida cuadrática media (MSE) es:

$L=\frac{1}{2}(y_{real} - a)^2$

donde:

$y_{real}$ es el valor real

$a$ es la salida de la neurona (predicción)

Para aplicar backpropagation es necesario derivar la pérdida con respecto a la salida de la neurona ($a$):

$\frac{\delta L}{\delta a}=\frac{\delta}{\delta a}(\frac{1}{2}(y_{real}-a)^2)$

Aplicando la regla de la cadena:

$\frac{\delta L}{\delta a}=\frac{1}{2}\cdot2(y_{real}-a)\cdot(-1)$

$\frac{\delta L}{\delta a}=-(y_{real}-a)$


---
**Comentarios**

---

✅ La regla de la cadena permite propagar los gradientes en backpropagation.

✅ Se aplica desde la capa de salida hasta la capa de entrada, ajustando los pesos usando gradiente descendente.

✅ Cada derivada representa cómo cambia la pérdida respecto a los parámetros de la red.

⭐ **¡Esto es la base del aprendizaje profundo en redes neuronales!** ⭐









#El problema del XOR

In [2]:
# Función de activación Sigmoide y su derivada
def sigmoid(x: float):
    return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x: float):
    return x * (1 - x)  # Derivada de la sigmoide

# Datos de entrada (XOR)
X = np.array([[0,0], [0,1], [1,0], [1,1]])  # 4 ejemplos, 2 características
y = np.array([[0], [1], [1], [0]])  # Salidas esperadas

# Inicialización de pesos y sesgos aleatorios
np.random.seed(42)
W1 = np.random.rand(2, 2)  # Pesos de la capa oculta (2x2)
b1 = np.random.rand(1, 2)  # Sesgo de la capa oculta
W2 = np.random.rand(2, 1)  # Pesos de la capa de salida (2x1)
b2 = np.random.rand(1, 1)  # Sesgo de la capa de salida

# Hiperparámetros
alpha = 0.5  # Tasa de aprendizaje
epochs = 10000  # Número de iteraciones

# Entrenamiento con backpropagation y gradiente descendente
for epoch in range(epochs):
    # FORWARD PROPAGATION
    Z1 = np.dot(X, W1) + b1  # Entrada de la capa oculta
    A1 = sigmoid(Z1)         # Activación de la capa oculta
    Z2 = np.dot(A1, W2) + b2 # Entrada de la capa de salida
    A2 = sigmoid(Z2)         # Salida de la red

    # Cálculo del error
    error = y - A2

    # BACKPROPAGATION
    dA2 = error * sigmoid_derivative(A2)  # Gradiente en la capa de salida
    dW2 = np.dot(A1.T, dA2)               # Gradiente respecto a W2
    db2 = np.sum(dA2, axis=0, keepdims=True)

    dA1 = np.dot(dA2, W2.T) * sigmoid_derivative(A1)  # Gradiente en la capa oculta
    dW1 = np.dot(X.T, dA1)                            # Gradiente respecto a W1
    db1 = np.sum(dA1, axis=0, keepdims=True)

    # ACTUALIZACIÓN DE PESOS (Gradiente Descendente)
    W2 += alpha * dW2
    b2 += alpha * db2
    W1 += alpha * dW1
    b1 += alpha * db1

    # Mostrar error cada 1000 iteraciones
    if epoch % 1000 == 0:
        loss = np.mean(np.abs(error))
        print(f"Epoch {epoch}: Error {loss:.4f}")

# RESULTADOS
print("\nSalida final después del entrenamiento:")
print(A2)


Epoch 0: Error 0.4978
Epoch 1000: Error 0.1119
Epoch 2000: Error 0.0504
Epoch 3000: Error 0.0366
Epoch 4000: Error 0.0300
Epoch 5000: Error 0.0259
Epoch 6000: Error 0.0231
Epoch 7000: Error 0.0211
Epoch 8000: Error 0.0195
Epoch 9000: Error 0.0182

Salida final después del entrenamiento:
[[0.01890475]
 [0.98371361]
 [0.98369334]
 [0.01686123]]
