# Consigna: Pr√°ctica 7 Ejercicio 4

### Implementaci√≥n y evaluaci√≥n con GRU

Modifique la implementaci√≥n previa para **usar GRU (Gated Recurrent Units)**.
Luego, ejecute una serie de **experimentos** para evaluar las diferencias en desempe√±o respecto de la implementaci√≥n anterior.

# Resolucion

En este ejercicio se implement√≥ una red neuronal recurrente (RNN) desde cero, tomando como base el repositorio de Andrej Karpathy, con el objetivo de entender el funcionamiento interno de este tipo de redes.
La RNN fue entrenada sobre un conjunto de texto para predecir el siguiente car√°cter en una secuencia, lo que permiti√≥ observar c√≥mo el modelo aprende dependencias temporales.
Luego, la implementaci√≥n se extendi√≥ a una versi√≥n GRU (Gated Recurrent Unit), reemplazando las operaciones b√°sicas de la RNN por las ecuaciones que incorporan puertas de actualizaci√≥n y reinicio, lo que mejora la capacidad de mantener informaci√≥n a largo plazo (ventaja principal de las GRU) y evita en parte el problema del gradiente desvanecido.

In [1]:
import numpy as np

# Entrada/Salida de datos
data = open('input.txt', 'r').read() # archivo de texto plano de entrada, MINIMO 1MB (1.000.000 caracteres aprox), para ver mejoria en GRU.
chars = list(set(data)) # caracteres unicos en el archivo de entrada
data_size, vocab_size = len(data), len(chars) # calcula la cantidad total de caracteres y el tama√±o del vocabulario
print('data has %d characters, %d unique.' % (data_size, vocab_size))
char_to_ix = { ch:i for i,ch in enumerate(chars) } # diccionario: caracter -> indice
ix_to_char = { i:ch for i,ch in enumerate(chars) } # diccionario: indice -> caracter

data has 128960 characters, 121 unique.


In [2]:
# Hiperparametros comunes a RNN y GRU
hidden_size = 256 # tama√±o de la capa oculta (cantidad de neuronas) POSIBLE CAMBIO
seq_length = 200 # numero de pasos para desenrollar la RNN (longitud de secuencia), POSIBLE CAMBIO
learning_rate = 0.001 # POSIBLE CAMBIO
np.random.seed(42) # semilla fija para reproducibilidad

In [3]:
# Parametros del modelo RNN
rnn_Wxh = np.random.randn(hidden_size, vocab_size)*0.01 # pesos: entrada -> capa oculta
rnn_Whh = np.random.randn(hidden_size, hidden_size)*0.01 # pesos: capa oculta -> capa oculta (memoria)
rnn_Why = np.random.randn(vocab_size, hidden_size)*0.01 # pesos: capa oculta -> salida
rnn_bh = np.zeros((hidden_size, 1)) # sesgo de la capa oculta
rnn_by = np.zeros((vocab_size, 1)) # sesgo de la capa de salida

# Memoria Adagrad para RNN
# Se usan para acumular los cuadrados de los gradientes y modificar la tasa de aprendizaje
rnn_mWxh = np.zeros_like(rnn_Wxh)
rnn_mWhh = np.zeros_like(rnn_Whh)
rnn_mWhy = np.zeros_like(rnn_Why)
rnn_mbh = np.zeros_like(rnn_bh)
rnn_mby = np.zeros_like(rnn_by)

In [4]:
# Funciones para el modelo RNN
def rnn_lossFun(inputs, targets, hprev):
    """
    Calcula la p√©rdida y los gradientes de una RNN simple.

    Par√°metros:
        inputs (list[int]): √≠ndices de los caracteres de entrada.
        targets (list[int]): √≠ndices esperados como salida.
        hprev (ndarray): estado oculto previo (hidden_size, 1).

    Retorna:
        loss (float): p√©rdida total.
        dWxh, dWhh, dWhy, dbh, dby (ndarray): gradientes de los par√°metros.
        hprev (ndarray): √∫ltimo estado oculto.
    """
    xs, hs, ys, ps = {}, {}, {}, {}
    hs[-1] = np.copy(hprev)
    loss = 0
    
    # Forward pass
    # Recorre la secuencia de entrada, actualizando el estado oculto y calculando las probabilidades de salida.
    for t in range(len(inputs)):
        xs[t] = np.zeros((vocab_size, 1)) # vector one-hot para el caracter de entrada
        xs[t][inputs[t]] = 1
        hs[t] = np.tanh( # estado oculto actual
            np.dot(rnn_Wxh, xs[t]) + # influencia de la entrada actual
            np.dot(rnn_Whh, hs[t-1]) + # influencia del estado anterior
            rnn_bh # sesgo/bias
        )
        ys[t] = np.dot(rnn_Why, hs[t]) + rnn_by # salida sin normalizar
        ps[t] = np.exp(ys[t]) / np.sum(np.exp(ys[t])) # probabilidades (softmax)
        loss += -np.log(ps[t][targets[t], 0]) # perdida de entropia cruzada acumulada
    
    # Backward pass
    # Calcula los gradientes de todos los parametros mediante retropropagacion en el tiempo (BPTT)
    dWxh, dWhh, dWhy = np.zeros_like(rnn_Wxh), np.zeros_like(rnn_Whh), np.zeros_like(rnn_Why)
    dbh, dby = np.zeros_like(rnn_bh), np.zeros_like(rnn_by)
    dhnext = np.zeros_like(hs[0])
    
    for t in reversed(range(len(inputs))):
        dy = np.copy(ps[t])
        dy[targets[t]] -= 1 # gradiente de la perdida
        dWhy += np.dot(dy, hs[t].T)
        dby += dy
        dh = np.dot(rnn_Why.T, dy) + dhnext # gradiente del estado oculto
        dhraw = (1 - hs[t] * hs[t]) * dh # derivada de tanh
        dbh += dhraw
        dWxh += np.dot(dhraw, xs[t].T)
        dWhh += np.dot(dhraw, hs[t-1].T)
        dhnext = np.dot(rnn_Whh.T, dhraw) # propaga el gradiente hacia atras en el tiempo

    # Limita los gradientes para evitar explosion de gradientes
    for dparam in [dWxh, dWhh, dWhy, dbh, dby]:
        np.clip(dparam, -5, 5, out=dparam)
    
    return loss, dWxh, dWhh, dWhy, dbh, dby, hs[len(inputs)-1]

def rnn_sample(h, seed_ix, n):
    """
    Genera una secuencia de caracteres con la RNN.

    Par√°metros:
        h (ndarray): estado oculto inicial.
        seed_ix (int): √≠ndice del caracter inicial.
        n (int): cantidad de caracteres a generar.

    Retorna:
        list[int]: √≠ndices de los caracteres generados.
    """
    x = np.zeros((vocab_size, 1))
    x[seed_ix] = 1
    ixes = []

    # Genera n caracteres de salida uno por uno
    for t in range(n):
        h = np.tanh(np.dot(rnn_Wxh, x) + np.dot(rnn_Whh, h) + rnn_bh) # actualiza el estado oculto
        y = np.dot(rnn_Why, h) + rnn_by # calcula la salida
        p = np.exp(y) / np.sum(np.exp(y)) # convierte a probabilidad (softmax)
        ix = np.random.choice(range(vocab_size), p=p.ravel()) # muestra el siguiente caracter segun p
        x = np.zeros((vocab_size, 1))
        x[ix] = 1 # actualiza la entrada con el nuevo caracter
        ixes.append(ix)
    
    return ixes

In [5]:
# Parametros del modelo GRU

# Compuerta de actualizacion (update gate)
# Controla cuanto del estado anterior se conserva
gru_Wxz = np.random.randn(hidden_size, vocab_size)*0.01 # pesos: entrada -> z
gru_Whz = np.random.randn(hidden_size, hidden_size)*0.01 # pesos: estado oculto -> z
gru_bz = np.zeros((hidden_size, 1)) # sesgo de la compuerta z

# Compuerta de reset (reset gate)
# Decide cuanto del estado anterior se ignora al calcular el nuevo candidato
gru_Wxr = np.random.randn(hidden_size, vocab_size)*0.01 # pesos: entrada -> r
gru_Whr = np.random.randn(hidden_size, hidden_size)*0.01 # pesos: estado oculto -> r
gru_br = np.zeros((hidden_size, 1)) # seesgo de la compuerta r

# Candidato de estado oculto
# Representa la posible nueva informacion a incorporar en el estado
gru_Wxh = np.random.randn(hidden_size, vocab_size)*0.01 # pesos: entrada -> ƒ•
gru_Whh = np.random.randn(hidden_size, hidden_size)*0.01 # pesos: estado oculto -> ƒ•
gru_bh = np.zeros((hidden_size, 1)) # sesgo del candidato ƒ•

# Capa de salida
gru_Why = np.random.randn(vocab_size, hidden_size)*0.01 # pesos: estado oculto -> salida
gru_by = np.zeros((vocab_size, 1)) # sesgo de la salida

# Memoria Adagrad
# Acumulan los cuadrados de los gradientes para ajustar la tasa de aprendizaje
gru_mWxz = np.zeros_like(gru_Wxz)
gru_mWhz = np.zeros_like(gru_Whz)
gru_mbz = np.zeros_like(gru_bz)
gru_mWxr = np.zeros_like(gru_Wxr)
gru_mWhr = np.zeros_like(gru_Whr)
gru_mbr = np.zeros_like(gru_br)
gru_mWxh = np.zeros_like(gru_Wxh)
gru_mWhh = np.zeros_like(gru_Whh)
gru_mbh = np.zeros_like(gru_bh)
gru_mWhy = np.zeros_like(gru_Why)
gru_mby = np.zeros_like(gru_by)

In [6]:
# Funciones para el modelo GRU
def gru_sigmoid(x):
    """Funci√≥n sigmoide para las compuertas"""
    return 1 / (1 + np.exp(-x))

def gru_lossFun(inputs, targets, hprev):
    """
    Calcula p√©rdida y gradientes para una GRU (forward + backward).

    Par√°metros:
        inputs (list[int]): √≠ndices de entrada.
        targets (list[int]): √≠ndices objetivo.
        hprev (ndarray): estado oculto previo (hidden_size, 1).

    Devuelve:
        loss (float): p√©rdida total
        dWxz, dWhz, dbz,
        dWxr, dWhr, dbr,
        dWxh, dWhh, dbh,
        dWhy, dby (ndarray): gradientes en ese orden,
        hprev (ndarray): √∫ltimo estado oculto.
    """
    xs, hs, hs_tilde, zs, rs, ys, ps = {}, {}, {}, {}, {}, {}, {}
    hs[-1] = np.copy(hprev)
    loss = 0
    
    # Forward pass
    # Recorre la secuencia, calcula compuertas, candidato, nuevo estado y probabilidades
    for t in range(len(inputs)):
        xs[t] = np.zeros((vocab_size, 1)) # vector one-hot de entrada
        xs[t][inputs[t]] = 1
        
        # Compuerta de actualizaci√≥n z
        zs[t] = gru_sigmoid(np.dot(gru_Wxz, xs[t]) + np.dot(gru_Whz, hs[t-1]) + gru_bz)
        
        # Compuerta de reset r
        rs[t] = gru_sigmoid(np.dot(gru_Wxr, xs[t]) + np.dot(gru_Whr, hs[t-1]) + gru_br)
        
        # Candidato de estado oculto ƒ•
        hs_tilde[t] = np.tanh(
            np.dot(gru_Wxh, xs[t]) +
            np.dot(gru_Whh, rs[t] * hs[t-1]) +
            gru_bh
        )
        
        # Nuevo estado oculto (interpolacion entre estado anterior y candidato)
        hs[t] = (1 - zs[t]) * hs[t-1] + zs[t] * hs_tilde[t]
        
        # Calcular salida
        ys[t] = np.dot(gru_Why, hs[t]) + gru_by # puntiaciones sin normalizar
        ps[t] = np.exp(ys[t]) / np.sum(np.exp(ys[t])) # probabilidades (softmax)
        
        # Calcular p√©rdida
        loss += -np.log(ps[t][targets[t], 0])
    
    # Backward pass (BPTT)
    dWxz = np.zeros_like(gru_Wxz)
    dWhz = np.zeros_like(gru_Whz)
    dbz = np.zeros_like(gru_bz)
    dWxr = np.zeros_like(gru_Wxr)
    dWhr = np.zeros_like(gru_Whr)
    dbr = np.zeros_like(gru_br)
    dWxh = np.zeros_like(gru_Wxh)
    dWhh = np.zeros_like(gru_Whh)
    dbh = np.zeros_like(gru_bh)
    dWhy = np.zeros_like(gru_Why)
    dby = np.zeros_like(gru_by)
    dhnext = np.zeros_like(hs[0])
    
    for t in reversed(range(len(inputs))):
        # Gradiente de la salida
        dy = np.copy(ps[t])
        dy[targets[t]] -= 1
        dWhy += np.dot(dy, hs[t].T)
        dby += dy
        
        dh = np.dot(gru_Why.T, dy) + dhnext # gradiente respecto al estado oculto actual
        
        # Gradiente del candidato ƒ•
        dh_tilde = dh * zs[t] # la parte que paso por la compuerta z
        dh_tilde_raw = (1 - hs_tilde[t] * hs_tilde[t]) * dh_tilde # derivada de la tanh
        dbh += dh_tilde_raw
        dWxh += np.dot(dh_tilde_raw, xs[t].T)
        dWhh += np.dot(dh_tilde_raw, (rs[t] * hs[t-1]).T)
        
        # Gradiente de la compuerta de reset r
        dr = np.dot(gru_Whh.T, dh_tilde_raw) * hs[t-1]
        dr_raw = dr * rs[t] * (1 - rs[t]) # derivada sigmoide
        dbr += dr_raw
        dWxr += np.dot(dr_raw, xs[t].T)
        dWhr += np.dot(dr_raw, hs[t-1].T)
        
        # Gradiente de la compuerta de actualizaci√≥n z
        dz = dh * (hs_tilde[t] - hs[t-1])
        dz_raw = dz * zs[t] * (1 - zs[t]) # derivada sigmoide
        dbz += dz_raw
        dWxz += np.dot(dz_raw, xs[t].T)
        dWhz += np.dot(dz_raw, hs[t-1].T)
        
        # Gradiente hacia el estado oculto anterior
        dhnext = dh * (1 - zs[t]) # parte que viene por la interpolacion
        dhnext += np.dot(gru_Whz.T, dz_raw) # contribucion via z
        dhnext += np.dot(gru_Whr.T, dr_raw) # contribucion via r
        dhnext += np.dot(gru_Whh.T, dh_tilde_raw) * rs[t] # contribucion via el candidato
    
    # Recortar gradientes para prevenir explosion
    for dparam in [dWxz, dWhz, dbz, dWxr, dWhr, dbr, dWxh, dWhh, dbh, dWhy, dby]:
        np.clip(dparam, -5, 5, out=dparam)
    
    return loss, dWxz, dWhz, dbz, dWxr, dWhr, dbr, dWxh, dWhh, dbh, dWhy, dby, hs[len(inputs)-1]

def gru_sample(h, seed_ix, n):
    """
    Genera una secuencia de √≠ndices usando la GRU.

    Par√°metros:
        h (ndarray): estado oculto inicial.
        seed_ix (int): √≠ndice inicial.
        n (int): longitud de secuencia a generar.

    Retorna:
        list[int]: √≠ndices generados.
    """
    x = np.zeros((vocab_size, 1))
    x[seed_ix] = 1
    ixes = []

    # Genera n indices uno por uno
    for t in range(n):
        z = gru_sigmoid(np.dot(gru_Wxz, x) + np.dot(gru_Whz, h) + gru_bz)
        r = gru_sigmoid(np.dot(gru_Wxr, x) + np.dot(gru_Whr, h) + gru_br)
        h_tilde = np.tanh(np.dot(gru_Wxh, x) + np.dot(gru_Whh, r * h) + gru_bh)
        h = (1 - z) * h + z * h_tilde
        
        y = np.dot(gru_Why, h) + gru_by
        p = np.exp(y) / np.sum(np.exp(y))
        ix = np.random.choice(range(vocab_size), p=p.ravel())
        
        x = np.zeros((vocab_size, 1))
        x[ix] = 1
        ixes.append(ix)
    
    return ixes

In [7]:
# Entrenamiento RNN
rnn_n = 0 # contador de iteraciones
rnn_p = 0 # puntero a la posicion de los datos
rnn_smooth_loss = -np.log(1.0/vocab_size)*seq_length # perdida inicial estimada
rnn_num_iterations = 10000 # numero total de iteraciones de entrenamiento , POSIBLE CAMBIO

while rnn_n < rnn_num_iterations:
    # Reiniciar estado al llegar al final del texto o en la primera iteracion
    if rnn_p + seq_length + 1 >= len(data) or rnn_n == 0:
        rnn_hprev = np.zeros((hidden_size, 1)) # estado oculto inicial cero
        rnn_p = 0

    # Preparar la secuencia de entrada y sus targets (desplazada 1 paso)
    inputs = [char_to_ix[ch] for ch in data[rnn_p:rnn_p+seq_length]]
    targets = [char_to_ix[ch] for ch in data[rnn_p+1:rnn_p+seq_length+1]]
    
    # Generar y mostrar una muestra de texto cada 100 iteraciones
    if rnn_n % 100 == 0:
        sample_ix = rnn_sample(rnn_hprev, inputs[0], 200)
        txt = ''.join(ix_to_char[ix] for ix in sample_ix)
        print('----\n %s \n----' % (txt,))
    
    # Calcular p√©rdida y gradientes por BPTT
    loss, dWxh, dWhh, dWhy, dbh, dby, rnn_hprev = rnn_lossFun(inputs, targets, rnn_hprev)
    rnn_smooth_loss = rnn_smooth_loss * 0.999 + loss * 0.001
    
    if rnn_n % 100 == 0:
        print('iter %d, loss: %f' % (rnn_n, rnn_smooth_loss))
    
    # Actualizar par√°metros con Adagrad
    for param, dparam, mem in zip(
        [rnn_Wxh, rnn_Whh, rnn_Why, rnn_bh, rnn_by],
        [dWxh, dWhh, dWhy, dbh, dby],
        [rnn_mWxh, rnn_mWhh, rnn_mWhy, rnn_mbh, rnn_mby]
    ):
        mem += dparam * dparam
        param += -learning_rate * dparam / np.sqrt(mem + 1e-8)

    # Avanzar el puntero y el contador
    rnn_p += seq_length
    rnn_n += 1

----
 _G!‚ãÖh{‚Ä¶UrüôèÔºå¬≤gv¬©3Â§ço?püèªÂõûÂ∑≤>M‚Äî‚àíUb3Á≠î 
‚ãÖ)HÁ≠îË¶Å=Á¥ØbX-aS%FY¬≤O_Gn-ÔºåÔºåAp&‚Ä¶Â∫¶‚äôÊ¢Ø7üèªEb}LU4Ëá™f'TÂä†!=}&OÔºÅ*¬≤P0<roC0nWÂà∞Xn:JbZ>_+NPGnApUy/ÔºÅÔºÅ_g/‚äóxSU}q}‚àÇhÂõûÂà∞Y.YÁöÑ+Âä®SdZÁ¥ØSËá™Âä®
üèªs1LvGN-wF@ÔºÅ>VW9YÂ∫¶z‚ãÖomd@\‚àíp1ÔºÅ‚àÇ@iW%‚àíIb9UÂä®EhÊî∂ÔºåÂä®SzÂ§ç5D‚ãÖsJr‚ÄîÂ∑≤ZÂ∑≤ 
----
iter 0, loss: 959.158113
----
 d‚äótydTa
 Ieoar,n]sSsltcdttQ xzizo iba
tu( hhr thu
 ÔºÅi Â∫¶ lee m s_o I  itihteE\ 
nshdli /aQnrnx 8 xOd
 elv  l him 5  m,si
herntbIearT] mf  rusoheoyseiIri
e=ielÊ¢Øhmnedp
ao atws.rlm xoor'
r hNt0ia tparrwir 
----
iter 100, loss: 936.012429
----
 bnv9ps_sseirihrwo d 6y t   wset reeensa)e (orin)
sso  s-WbTL y J)rÂä†t.alsnS li ra¬©e  hi hys ]onmWofhLfeoeLsdx.e
et i
rletee.t. aittph1nti
ysc  a=lvpo 
<toeaiee .peÁ≠î"r n

 ‚äôeehpa] 
eLasl
2i_brvft:Wd oet 
----
iter 200, loss: 912.915176
----
  se lest
o._aeosob,  otfi
rptogc=i‚Ä¶%e I iohh tl  ye lsy‚Ä≤oisopahevd5as drndSueao
nd  aa cn. mgepha  ndn.o  "it  a stf    nuxg  r we asd 
yyde 

In [8]:
# Entrenamiento GRU
gru_n = 0
gru_p = 0
gru_smooth_loss = -np.log(1.0/vocab_size)*seq_length
gru_num_iterations = 10000 # POSIBLE CAMBIO

while gru_n < gru_num_iterations:
    # Reiniciar estado al llegar al final del texto o en la primera iteracion
    if gru_p + seq_length + 1 >= len(data) or gru_n == 0:
        gru_hprev = np.zeros((hidden_size, 1))
        gru_p = 0

    # Preparar la secuencia de entrada y sus targets (desplazada 1 paso)
    inputs = [char_to_ix[ch] for ch in data[gru_p:gru_p+seq_length]]
    targets = [char_to_ix[ch] for ch in data[gru_p+1:gru_p+seq_length+1]]
    
    # Generar y mostrar una muestra de texto cada 100 iteraciones
    if gru_n % 100 == 0:
        sample_ix = gru_sample(gru_hprev, inputs[0], 200)
        txt = ''.join(ix_to_char[ix] for ix in sample_ix)
        print('----\n %s \n----' % (txt,))
    
    # Calcular p√©rdida y gradientes por BPTT
    loss, dWxz, dWhz, dbz, dWxr, dWhr, dbr, dWxh, dWhh, dbh, dWhy, dby, gru_hprev = \
        gru_lossFun(inputs, targets, gru_hprev)
    gru_smooth_loss = gru_smooth_loss * 0.999 + loss * 0.001
    
    if gru_n % 100 == 0:
        print('iter %d, loss: %f' % (gru_n, gru_smooth_loss))
    
    # Actualizar par√°metros con Adagrad
    params = [gru_Wxz, gru_Whz, gru_bz, gru_Wxr, gru_Whr, gru_br,
             gru_Wxh, gru_Whh, gru_bh, gru_Why, gru_by]
    dparams = [dWxz, dWhz, dbz, dWxr, dWhr, dbr, dWxh, dWhh, dbh, dWhy, dby]
    mems = [gru_mWxz, gru_mWhz, gru_mbz, gru_mWxr, gru_mWhr, gru_mbr,
           gru_mWxh, gru_mWhh, gru_mbh, gru_mWhy, gru_mby]
    
    for param, dparam, mem in zip(params, dparams, mems):
        mem += dparam * dparam
        param += -learning_rate * dparam / np.sqrt(mem + 1e-8)

    # Avanzar el puntero y el contador
    gru_p += seq_length
    gru_n += 1

UnboundLocalError: cannot access local variable 'y' where it is not associated with a value

In [None]:
# Comparacion
print(f"Loss final RNN: {rnn_smooth_loss:.4f}")
print(f"Loss final GRU: {gru_smooth_loss:.4f}")

# Muestra final generada por la RNN (estado inicial cero y semilla aleatoria)
h = np.zeros((hidden_size, 1))
sample_ix = rnn_sample(h, np.random.randint(vocab_size), 300)
txt = ''.join(ix_to_char[ix] for ix in sample_ix)
print("Muestra final RNN\n")
print(txt)
print("\n");

# Muestra final generada por la GRU (estado inicial cero y semilla aleatoria)
h = np.zeros((hidden_size, 1))
sample_ix = gru_sample(h, np.random.randint(vocab_size), 300)
txt = ''.join(ix_to_char[ix] for ix in sample_ix)
print("Muestra final GRU\n")
print(txt)

# Conclusion

