$RNN$

$h_t = Activation(W_hh_{t-1}+W_xx_t+b)$

$y_t = W_yh_t + c$

**Significado :**

* $h_t$ : estado oculto en el momento $t$, es una especie de memoria de RNN
* $x_t$ : es la entrada en el momento $t$
* $W_h$ es el peso para el estado oculto anterior (memoria) y $W_x$ es el peso para la entrada actual
* $W_y$ es el peso para la salida 
* $b$ es el sesgo y $c$ es un posible ajuste de salida

Imagina que tienes una secuencia de entradas de palabras, y queremos que nuestra RNN prediga si cada palabra es positiva o negativa. Usaremos un caso muy simplificado, con solo tres palabras: "me", "gusta", "mucho". Asumimos que cada palabra es representada por un número (su codificación), y el objetivo es que la red aprenda a clasificar si la secuencia es positiva o negativa. Aquí es cómo lo haríamos:

* 'me' ->  $x_1$  = 0.1
* 'gusta' ->  $x_2$  = 0.5
* 'mucho' ->  $x_3$  = 0.7

Cada palabra tiene una representacion numerica



>   Paso 1

Estado oculto $h_0=0$ ya que al principio no tenemos ninguna memoria.

>   Paso 2 ($t=1$)

$h_t = Activation(W_hh_{t-1}+W_xx_t+b)$

Primer paso, la RNN recibe de entrada una $X1 = 0.1$ t actualiza su estado oculto $h_1$

se simplica y se usa una $f(x)$ de activacion lineal como ejemplo de simplicidad, y unos valores arbitrarios de pesos:

* $W_h =  0.8$ (peso para el estado oculto anterior) 
* $W_x =  0.5$ (peso para la entrada actual) 
* $b = 0.1$ (sesgo)

$h_1 = Activation(0.8⋅h_{0}+0.5⋅x_1+0.1)$

sustituyendo:

$h_1 = Activation(0.8⋅0+0.5⋅0.1+0.1) = 0.15$

Entonces el estado oculto despues del primer paso es $h_1 = 0.15$

>   Paso 3 ($t_2$)

Ahora, en el segundo paso, la RNN recibe la entrada $x_2=0.5$ (la palabra 'gusta'), y actualiza su estado oculto 

$h_2 = Activation(0.8⋅h_{1}+0.5⋅x_2+0.1)$

sustituyendo:

$h_2 = Activation(0.8⋅0.15+0.5⋅0.5+0.1) = 0.47$

>   Paso 4 ($t_3$)

Ahora en el tercer paso, l aRNN recibe $x_3 = 0.7$ (la palabra  'mucho' ) y actualiza el estado oculto $h_3$ utilizando el estado anterior $h_2 = 0.47$:

$h_3 = Activation(0.8⋅h_{2}+0.5⋅x_3+0.1)$

sustituyendo:

$h_3 = Activation(0.8⋅0.47+0.5⋅0.7+0.1) = 0.826$

>       Paso 5 - Prediccon

Finalmente podemos hacer una prediccion de la salida usando el estado oculto final $h_3 = 0.826$. Supongamos que la salida se calcula de la sig manera:

$y_t=W_y⋅h_t + c$

Donde usamos un peso $W_y=1.2$ y yn sesgo $c=0.2$:

$y_3 = 1.2⋅h_3+0.2=1.2⋅0.826+0.2=0.9912+0.2=1.1912$

Si tomamos una salida mayor que $0.5$ como positiva, la salida es positiva.


Backpropagation Through Time (BPTT)

en lugar de hacer la retropropagación solo para la salida final, se hace a través de todos los pasos de tiempo. Esto significa que el gradiente se calcula y se actualizan los pesos de la red considerando todas las secuencias pasadas (a través de los $h_t$)

>       Ejemplo 1

*Definicion y notaciones*

Se usara la secuencia simple:

$x_1 = 1,x_2 = 2,x_3 = 3$

lo cual queremos predecir que la RNN prediga 4 despues de la secuencia $x_1,x_2,x_3$

1. Pesos iniciales ($arbitriarios$):

* $W_h=0.5$ 
* $W_x=0.8$ 
* $W_y=1.0$ 
* $Sesgo:b=0.2$ 
* Tasa de aprendizaje : $\eta=0.1$ 

2. Estado oculto inicial $h_0=0$



> Paso 1 : *Propagacion hacia delante (Forwrd Pass)*

La propagacion hacia delante seran 3 pasos:  $x_1,x_2,x_3$. Para cada uno de estos pasos, calculeremos el estado oculto y la salida.

> > *iteracion 1* : $t=1$(Para $x_1=1$)
1. Estado oculto $h_1$:

$h_1: Activacion(W_h⋅h_0+W_x⋅x_1+b)$

Sustituimos valores:

$h_1: Activacion(0.5⋅0.0+0.8⋅1.0+0.2)$ = *Activacion*($1.0$) 

Si usamos una activacion lineal (para simplicar), entonces:

$h_1 = 1.0$


2. Salida $y_1$

$y_1 = W_y⋅h_1=1.0⋅1.0=1.0$

> > *iteracion 2* : $t=2$(Para $x_2=2$)
1. Estado oculto $h_2$:

$h_2: Activacion(W_h⋅h_1+W_x⋅x_2+b)$

Sustituimos valores:

$h_1: Activacion(0.5⋅0.1+0.8⋅2.0+0.2)$ = *Activacion*($2.3$) 

Si usamos una activacion lineal (para simplicar), entonces:

$h_2 = 2.3$


2. Salida $y_2$

$y_2 = W_y⋅h_2=1.0⋅2.3=2.3$

> > *iteracion 3* : $t=3$(Para $x_3=3$)
1. Estado oculto $h_3$:

$h_3: Activacion(W_h⋅h_2+W_x⋅x_3+b)$

Sustituimos valores:

$h_3: Activacion(0.5⋅2.3+0.8⋅3.0+0.2)$ = *Activacion*($3.75$) 

Si usamos una activacion lineal (para simplicar), entonces:

$h_3 = 3.75$


2. Salida $y_2$

$y_3 = W_y⋅h_2=1.0⋅3.75=3.75$


> > Paso 2 : *Cálculo del Error* $(Loss)$

$Error: \frac{1}{2}⋅(y_{deseado}-y_3)^2$

Sustituyendo los valores

$Error: \frac{1}{2}⋅(4-3.75)^2=0.03125$

> > Paso 3 :  *Backpropagation Through Time (BPTT)*

Usaremos *BPTT* para ajustar los pesos. Empezaremos por calcular el gradiante del error respecto a la salida $y_3$

Gradiante de *Error* respecto a $y_3$ : 

$\frac{\partial Error}{\partial y_3} = (y_3-y_{deseado}) = 3.75 -4 = -0.25$

Gradiante de *Error* respecto a $W_y$ :

$\frac{\partial y_3}{\partial W_y} = h_3$

Por lo que:

$\frac{\partial Error}{\partial W_y}=\frac{\partial Error}{\partial y_3}⋅\frac{\partial y_3}{\partial W_y} = -0.25 ⋅ 3.75 = -0.9375$ 

Actualizacion de $W_y$ : 

Utilizando la tasa de aprendizaje $\eta = 0.1$ actualizaremos el peso de $W_y$:

$W_y \leftarrow W_y - \eta ⋅ \frac{\partial Error}{\partial W_y}$

Sustituimos

$W_y \leftarrow 1.0 - 0.1 ⋅ (-0.9375) = 1.0 + 0.09375 = 1.09375$

Gradiante de *Error* respecto a $h_3$

Ahora, propagamos el error hacia atras a $h_3$

$\frac{\partial Error}{\partial h_3} = \frac{\partial Error}{\partial y_3}⋅\frac{\partial y_3}{\partial h_3} = -0.25 ⋅ 1.0 = -0.25$

Gradiante Error respecto a $W_h$ y $W_x$

Para continuar con el *BPTT*, necesitamos calcular como el error se propaga hacia atras atraves de $h_2$ y $x_3$

1. Gradiante de $h_3$ respecto a $h_2$ 

$\frac{\partial h_3}{\partial h_2} = W_h$



*first test to uso merge in main*

In [None]:
import numpy as np

# Inicialización de parámetros
W_h = 0.5  # Peso entre el estado oculto anterior y el actual
W_x = 0.8  # Peso entre la entrada y el estado oculto
W_y = 1.0  # Peso entre el estado oculto y la salida
b = 0.2    # Sesgo
eta = 0.01  # Tasa de aprendizaje
h_0 = 0     # Estado oculto inicial

# Función de activación (usamos una activación lineal simple)
def activation(x):
    return x

# Función de pérdida (error cuadrático medio)
def loss(y_pred, y_true):
    return 0.5 * (y_pred - y_true)**2

# Propagación hacia adelante
def forward_pass(x, h_prev):
    h = activation(W_h * h_prev + W_x * x + b)  # Cálculo del estado oculto
    y = W_y * h  # Cálculo de la salida
    return h, y

# Cálculo del gradiente de la pérdida con respecto a los pesos
def backward_pass(x, h_prev, h, y_pred, y_true):
    # Gradiente del error respecto a la salida
    dL_dy = y_pred - y_true
    
    # Gradientes respecto a los pesos
    dL_dW_y = dL_dy * h
    dL_dh = dL_dy * W_y  # Propagación hacia atrás a través de h
    
    # Gradientes respecto a los otros pesos
    dL_dW_h = dL_dh * h_prev
    dL_dW_x = dL_dh * x
    dL_db = dL_dh
    
    return dL_dW_y, dL_dW_h, dL_dW_x, dL_db, dL_dh

# Actualización de los pesos
def update_weights(W_y, W_h, W_x, b, dL_dW_y, dL_dW_h, dL_dW_x, dL_db):
    W_y -= eta * dL_dW_y
    W_h -= eta * dL_dW_h
    W_x -= eta * dL_dW_x
    b -= eta * dL_db
    return W_y, W_h, W_x, b

# Datos de entrada (secuencia de 3 pasos)
X = [1, 2, 3]  # Entrada
y_true = 4  # Valor deseado para la predicción final

# Entrenamiento - Iteraciones
for epoch in range(100):  # Número de épocas
    h_prev = h_0
    total_loss = 0

    # Propagación hacia adelante y Backpropagation para cada paso de tiempo
    for t in range(len(X)):
        x_t = X[t]
        
        # Paso hacia adelante
        h, y_pred = forward_pass(x_t, h_prev)
        
        # Calcular la pérdida
        total_loss += loss(y_pred, y_true)
        
        # Backpropagation
        dL_dW_y, dL_dW_h, dL_dW_x, dL_db, dL_dh = backward_pass(x_t, h_prev, h, y_pred, y_true)
        
        # Actualizar los pesos
        W_y, W_h, W_x, b = update_weights(W_y, W_h, W_x, b, dL_dW_y, dL_dW_h, dL_dW_x, dL_db)
        
        # Actualizar el estado oculto
        h_prev = h
    
    print(f"Epoch {epoch+1}, Loss: {total_loss}")

# Predicción final al terminar el entrenamiento
y_pred_final = W_y * h_prev  # h_prev es el último estado oculto calculado
print(f"Predicción final: {y_pred_final}")



Epoch 1, Loss: 5.739329289302358
Epoch 2, Loss: 5.13651660232748
Epoch 3, Loss: 4.907406089141977
Epoch 4, Loss: 4.750404289693494
Epoch 5, Loss: 4.603041240434077
Epoch 6, Loss: 4.458242679530893
Epoch 7, Loss: 4.315698359326397
Epoch 8, Loss: 4.175477303627954
Epoch 9, Loss: 4.037600841513564
Epoch 10, Loss: 3.9020829750544954
Epoch 11, Loss: 3.7689526254652765
Epoch 12, Loss: 3.638256881145232
Epoch 13, Loss: 3.5100587127471794
Epoch 14, Loss: 3.384433765648229
Epoch 15, Loss: 3.2614673383448944
Epoch 16, Loss: 3.1412517156972464
Epoch 17, Loss: 3.023883828577013
Epoch 18, Loss: 2.909463188743182
Epoch 19, Loss: 2.798090055853711
Epoch 20, Loss: 2.689863802300356
Epoch 21, Loss: 2.58488144714694
Epoch 22, Loss: 2.483236333731033
Epoch 23, Loss: 2.3850169275825683
Epoch 24, Loss: 2.290305712982898
Epoch 25, Loss: 2.199178168209307
Epoch 26, Loss: 2.1117018015877216
Epoch 27, Loss: 2.0279352331115934
Epoch 28, Loss: 1.9479273097022738
Epoch 29, Loss: 1.8717162462404084
Epoch 30, Loss: