## Ejemplo Modelo Seq2Seq Sin atención

In [56]:
def quitarchar(texto):
  texto = texto.replace("¡", "").replace("¿", "")
  return texto.strip()

with open('spa.txt','r',encoding='utf8') as f:
  datos=[(quitarchar(x.split('\t')[0]),quitarchar(x.split('\t')[1])) for x in f.readlines()]

In [57]:
datos[:10]

[('Go.', 'Ve.'),
 ('Go.', 'Vete.'),
 ('Go.', 'Vaya.'),
 ('Go.', 'Váyase.'),
 ('Hi.', 'Hola.'),
 ('Run!', 'Corre!'),
 ('Run!', 'Corran!'),
 ('Run!', 'Huye!'),
 ('Run!', 'Corra!'),
 ('Run!', 'Corred!')]

In [58]:
import numpy as np
np.random.shuffle(datos)
palabras_ingles, palabras_español = zip(*datos)
long_vocab_ingles = len(palabras_ingles)
long_vocab_español = len(palabras_español)

In [59]:
print(f'Longitud Vocab Español: {long_vocab_ingles}')
print(f'Logitud Vocab Inglés: {long_vocab_español}')

Longitud Vocab Español: 141543
Logitud Vocab Inglés: 141543


In [60]:
for i in range(5):
    print(palabras_ingles[i], "=>", palabras_español[i])

I'm single again. => Estoy solo otra vez.
Don't leave your belongings unattended at the beach. => No dejes tus pertenencias desatendidas en el playa.
You're joking, aren't you? => Estás bromeando, verdad?
Why take a chance? => Para qué correr el riesgo?
There are many more students in the classroom today than yesterday. => Hoy hay muchos más estudiantes en la sala que ayer.


In [61]:
long_ing_max = max(len(linea.split()) for linea in palabras_ingles)
long_esp_max = max(len(linea.split()) for linea in palabras_español)
long_secuencia = max(long_ing_max, long_esp_max)

print(f'Max Longitud Frases en Inglés: {long_ing_max}')
print(f'Max Longitud Frases en Español: {long_esp_max}')
print(f'Logitud de la secuencia: {long_secuencia}')

Max Longitud Frases en Inglés: 70
Max Longitud Frases en Español: 68
Logitud de la secuencia: 70


In [62]:
import tensorflow as tf
from keras.layers import TextVectorization

tam_voc = 1000
long_max = 70
capa_vect_ing = tf.keras.layers.TextVectorization(
    tam_voc, output_sequence_length=long_max)
capa_vect_esp = tf.keras.layers.TextVectorization(
    tam_voc, output_sequence_length=long_max)
capa_vect_ing.adapt(palabras_ingles)
capa_vect_esp.adapt([f"startseq {s} endseq" for s in palabras_español])

In [63]:
print("Inglés:")
print(capa_vect_ing.get_vocabulary()[:10])

print("\nEspañol:")
print(capa_vect_esp.get_vocabulary()[:10])

Inglés:
['', '[UNK]', 'i', 'the', 'to', 'you', 'tom', 'a', 'is', 'he']

Español:
['', '[UNK]', 'startseq', 'endseq', 'de', 'que', 'no', 'tom', 'a', 'la']


In [64]:
X_train = tf.constant(palabras_ingles[:120_000])
X_valid = tf.constant(palabras_ingles[120_000:])
X_train_dec = tf.constant([f"startseq {s}" for s in palabras_español[:120_000]])
X_valid_dec = tf.constant([f"startseq {s}" for s in palabras_español[120_000:]])
Y_train = capa_vect_esp([f"{s} endseq" for s in palabras_español[:120_000]])
Y_valid = capa_vect_esp([f"{s} endseq" for s in palabras_español[120_000:]])

In [65]:
ent_cod = tf.keras.layers.Input(shape=[], dtype=tf.string)
ent_dec = tf.keras.layers.Input(shape=[], dtype=tf.string)

In [66]:
tam_emb = 128
ids_ent_cod = capa_vect_ing(ent_cod)
ids_ent_dec = capa_vect_esp(ent_dec)

capa_embedding_cod = tf.keras.layers.Embedding(tam_voc, tam_emb,
                                                    mask_zero=True)
capa_embedding_dec = tf.keras.layers.Embedding(tam_voc, tam_emb,
                                                    mask_zero=True)
embeddings_cod = capa_embedding_cod(ids_ent_cod)
embeddings_dec = capa_embedding_dec(ids_ent_dec)

In [67]:
#creamos el codificador
codificador = tf.keras.layers.LSTM(512, return_state=True)
salidas_cod, *estado_cod = codificador(embeddings_cod)

In [68]:
#creamos el decodificador
decodificador = tf.keras.layers.LSTM(512, return_sequences=True)
salidas_dec = decodificador(embeddings_dec, initial_state=estado_cod)

In [70]:
capa_salida = tf.keras.layers.Dense(tam_voc, activation="softmax")
Y_proba = capa_salida(salidas_dec)

In [72]:
modelo = tf.keras.Model(inputs=[ent_cod, ent_dec],
                       outputs=[Y_proba])
modelo.compile(loss="sparse_categorical_crossentropy", optimizer="nadam",
              metrics=["accuracy"])
modelo.summary()

In [73]:
modelo.fit((X_train, X_train_dec), Y_train, epochs=5,
          validation_data=((X_valid, X_valid_dec), Y_valid))

Epoch 1/5
[1m3750/3750[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m103s[0m 27ms/step - accuracy: 0.0375 - loss: 3.4009 - val_accuracy: 0.0549 - val_loss: 2.0048
Epoch 2/5
[1m3750/3750[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m100s[0m 27ms/step - accuracy: 0.0576 - loss: 1.8417 - val_accuracy: 0.0633 - val_loss: 1.5206
Epoch 3/5
[1m3750/3750[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m142s[0m 27ms/step - accuracy: 0.0658 - loss: 1.3808 - val_accuracy: 0.0665 - val_loss: 1.3532
Epoch 4/5
[1m3750/3750[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m147s[0m 28ms/step - accuracy: 0.0707 - loss: 1.1399 - val_accuracy: 0.0678 - val_loss: 1.2969
Epoch 5/5
[1m3750/3750[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m106s[0m 28ms/step - accuracy: 0.0742 - loss: 0.9726 - val_accuracy: 0.0682 - val_loss: 1.2909


<keras.src.callbacks.history.History at 0x7e600d3beb60>

In [108]:
def traducir(oracion_ingles):
    traduccion = ""
    for id_palabra in range(long_max):
        X = tf.constant([oracion_ingles])  # codificar entrada
        X_dec = tf.constant(["startseq " + traduccion])  # decodificar entrada
        y_proba = modelo.predict((X, X_dec))[0, id_palabra]  # probabilidad del último token
        id_palabra_predicha = np.argmax(y_proba)
        palabra_predicha = capa_vect_esp.get_vocabulary()[id_palabra_predicha]
        if palabra_predicha == "endseq":
            break
        traduccion += " " + palabra_predicha
    return traduccion.strip()

In [75]:
traducir("I like soccer")

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 355ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 21ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 21ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 21ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 21ms/step


'me gusta el fútbol'

## Ejemplo Modelo Seq2Seq con atención

In [81]:
#Usamos una capa Bidireccional para el codificador
codificador = tf.keras.layers.Bidirectional(
    tf.keras.layers.LSTM(256, return_sequences=True, return_state=True))

In [82]:
# Asegúrate de que salidas_cod tenga la forma adecuada
salidas_cod_exp = tf.keras.layers.Lambda(
    lambda x: tf.expand_dims(x, axis=1),  # Expande para tener una dimensión de secuencia
    output_shape=(1, salidas_cod.shape[-1])  # Define la forma de salida
)(salidas_cod)

salidas_dec_exp = tf.keras.layers.Lambda(
    lambda x: tf.expand_dims(x, axis=1),
    output_shape=(1, salidas_dec.shape[-1])
)(salidas_dec)

# Capa de atención
capa_atencion = tf.keras.layers.Attention()

# Calcula la salida de atención
salida_atencion = capa_atencion([salidas_dec_exp, salidas_cod_exp])

# Agrega la capa de salida
capa_salida = tf.keras.layers.Dense(tam_voc, activation="softmax")
Y_proba = capa_salida(salida_atencion)




In [88]:
traducir("I like play soccer with my friends")

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 32ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 35ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 57ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 41ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 30ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 36ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 30ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 35ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 32ms/step


'me gusta jugar al tenis con mis amigos'

## Transformer

### Incrustación de palabras

In [65]:
from gensim.models import Word2Vec
from gensim.models.word2vec import Text8Corpus  # Puedes usar tu propio corpus

# Corpus de ejemplo
oraciones = [
    ["I", "am", "strong",'today'],
    ["I", "am", "sad",'today'],
    ["She", "is", "happy",'always'],
    ["He", "likes", "reading","books"],    
    ["I", "am", "strong",'friend'],
    ["I", "am", "strong",'forever'],
]

# Entrenar el modelo Word2Vec
modelo = Word2Vec(oraciones, vector_size=4, window=2, sg=0, min_count=1, epochs=100)

# Obtener los embeddings de las palabras
vectores_palabras = modelo.wv

# Obtenemos los embeddings para "I", "am", "strong"
embedding_i = vectores_palabras["I"]
embedding_am = vectores_palabras["am"]
embedding_strong = vectores_palabras["strong"]

print("Embedding para 'I':", embedding_i) 
print("Embedding para 'am':", embedding_am)
print("Embedding para 'strong':", embedding_strong)

Embedding para 'I': [-0.23227006 -0.17839591  0.16077961  0.22499053]
Embedding para 'am': [-0.01326084  0.00521127  0.12721364  0.22602785]
Embedding para 'strong': [-0.12546264 -0.09407401  0.1838298  -0.03889734]


In [66]:
import numpy as np
X = np.array([embedding_i,embedding_am,embedding_strong])
print(X)

[[-0.23227006 -0.17839591  0.16077961  0.22499053]
 [-0.01326084  0.00521127  0.12721364  0.22602785]
 [-0.12546264 -0.09407401  0.1838298  -0.03889734]]


In [67]:
from sklearn.metrics.pairwise import cosine_similarity
print("Similitud entre embeddings de I y am:", cosine_similarity(embedding_i.reshape(1, -1), embedding_am.reshape(1, -1))[0][0])

Similitud entre embeddings de I y am: 0.7020716


In [68]:
# dimensión de las incrustaciones y la cantidad de palabras a procesar
embedding_dim=4
dk=3

### Codificación Posicional (Positional Encoding)

In [69]:
def codificacion_posicional(seq_len, d_model):
    PE = np.zeros((seq_len, d_model))
    for pos in range(seq_len):
        for i in range(0, d_model, 2):
            PE[pos, i] = np.sin(pos / (10000 ** (i / d_model)))
            if i + 1 < d_model:
                PE[pos, i + 1] = np.cos(pos / (10000 ** (i / d_model)))
    return PE

cod_pos = codificacion_posicional(len(X), embedding_dim)
X += cod_pos

print("Codificación posicional:")
print(cod_pos)
print("Embeddings con codificación posicional:")
print(X)

Codificación posicional:
[[ 0.          1.          0.          1.        ]
 [ 0.84147098  0.54030231  0.00999983  0.99995   ]
 [ 0.90929743 -0.41614684  0.01999867  0.99980001]]
Embeddings con codificación posicional:
[[-0.23227006  0.8216041   0.16077961  1.2249905 ]
 [ 0.8282101   0.5455136   0.13721347  1.2259779 ]
 [ 0.7838348  -0.5102208   0.20382847  0.9609027 ]]


### Auto-Atención (Self-Attention)

In [70]:
#se crean 3 matrices Q,K y V de 4x4. Las cuales tienen valores que se consiguen con el entrenamiento.
W_Q = np.random.rand(embedding_dim, dk)
W_K = np.random.rand(embedding_dim, dk)
W_V = np.random.rand(embedding_dim, dk)

Q = X @ W_Q
K = X @ W_K
V = X @ W_V

In [71]:
print(Q, "\n"), print(K, "\n"), print(V)

[[0.71913102 1.66648306 0.83114777]
 [1.4334741  1.8154474  0.94406603]
 [1.07814215 0.57159013 0.0024822 ]] 

[[1.53919814 0.97260947 1.21558353]
 [2.26464446 1.14081689 2.03522851]
 [1.09853186 0.27237031 1.34744961]] 

[[0.42430665 1.04209421 0.56534287]
 [0.56583229 1.35927576 0.60996333]
 [0.29281406 0.9436194  0.3191888 ]]


(None, None, None)

### Cálculo de las puntuaciones y normalización

In [72]:
import math
puntajes_atencion = Q @ K.T / math.floor(np.sqrt(dk))

# Aplicar Softmax
pesos_atención = np.exp(puntajes_atencion) / np.sum(np.exp(puntajes_atencion), axis=1, keepdims=True)
print("Matriz de atención (Z):\n", pesos_atención)

Matriz de atención (Z):
 [[0.17666947 0.77862724 0.0447033 ]
 [0.10534776 0.87685887 0.01779337]
 [0.2611982  0.62992073 0.10888107]]


### Obtener la Salida de Atención

In [73]:
Z = pesos_atención @ V
print("Salida de atención (Z):\n", Z)

Salida de atención (Z):
 [[0.52862422 1.28465826 0.58908168]
 [0.54606497 1.31846547 0.60008881]
 [0.49913953 1.2311714  0.56664871]]


### Capa Feedforward

In [75]:
W1 = np.random.rand(dk, 2 * embedding_dim)
b1 = np.random.rand(2 * embedding_dim)
W2 = np.random.rand(2 * embedding_dim, embedding_dim)
b2 = np.random.rand(embedding_dim)

def propagacion(x):
    return np.maximum(0, x @ W1 + b1) @ W2 + b2

Z_salida = propagacion(Z)
print("Salida de la red:\n", Z_salida)

Salida de la red:
 [[10.20958739  6.60023588  6.99729101 10.00462157]
 [10.35935582  6.70236674  7.10295769 10.16127688]
 [ 9.95360495  6.42520503  6.8162129   9.73666035]]


## Ejemplo Modelo con Transformer

In [110]:
from tensorflow.keras.layers import Input, Embedding, Dense
from tensorflow.keras.models import Model

In [111]:
long_max = 70  # maxima longitud de palabra
tam_emb = 128
tf.random.set_seed(42)
pos_capa_emb = tf.keras.layers.Embedding(long_max, tam_emb)
max_long_lote_cod = tf.keras.backend.int_shape(embeddings_cod)[1]

ent_codif = embeddings_cod + pos_capa_emb(tf.range(max_long_lote_cod))
max_long_lote_dec = tf.keras.backend.int_shape(embeddings_dec)[1]

ent_decodif = embeddings_cod + pos_capa_emb(tf.range(max_long_lote_dec))

In [112]:
# Funciones auxiliares para codificación posicional
def obtener_angulos(pos, i, d_model):
    angulos = 1 / np.power(10000, (2 * (i // 2)) / np.float32(d_model))
    return pos * angulos

def codificacion_posicional(posicion, d_model):
    radianes = obtener_angulos(np.arange(posicion)[:, np.newaxis], np.arange(d_model)[np.newaxis, :], d_model)
    radianes[:, 0::2] = np.sin(radianes[:, 0::2])
    radianes[:, 1::2] = np.cos(radianes[:, 1::2])
    pos_codificacion = radianes[np.newaxis, ...]
    return tf.cast(pos_codificacion, dtype=tf.float32)

In [113]:
#d_model = 128
entradas = Input(shape=(None,))
etiquetas = Input(shape=(None,))

# Embedding y codificación posicional para el codificador
cod_pos_cod = codificacion_posicional(long_max, tam_emb)
embeddings_cod += cod_pos_cod[:tf.keras.backend.int_shape(embeddings_cod)[1], :]

# Embedding y codificación posicional para el decodificador
dec_pos_encoding = codificacion_posicional(long_max, tam_emb)
embeddings_dec += dec_pos_encoding[:tf.keras.backend.int_shape(embeddings_dec)[1], :]

In [114]:
#Codificador
N = 2
num_cabezas = 8
tasa_dropout = 0.1
n_unidades = 128

# se encapsula la operación en una capa landa que es compatible con un modelo simbólica
masc_cod = tf.keras.layers.Lambda(
    lambda x: tf.math.not_equal(x, 0)[:, tf.newaxis]
)(ids_ent_cod)

Z = embeddings_cod
for _ in range(N):
    salto = Z
    capa_atencion = tf.keras.layers.MultiHeadAttention(
        num_heads=num_cabezas, key_dim=tam_emb, dropout=tasa_dropout)
    Z = capa_atencion(Z, value=Z, attention_mask=masc_cod)
    Z = tf.keras.layers.LayerNormalization()(tf.keras.layers.Add()([Z, salto]))
    salto = Z
    Z = tf.keras.layers.Dense(n_unidades, activation="relu")(Z)
    Z = tf.keras.layers.Dense(tam_emb)(Z)
    Z = tf.keras.layers.Dropout(tasa_dropout)(Z)
    Z = tf.keras.layers.LayerNormalization()(tf.keras.layers.Add()([Z, salto]))

In [115]:
#decoder_pad_mask = tf.math.not_equal(decoder_input_ids, 0)[:, tf.newaxis]
masc_dec = tf.keras.layers.Lambda(
    lambda x: tf.math.not_equal(x, 0)[:, tf.newaxis]
)(ids_ent_dec)

causal_mask = tf.linalg.band_part(  # Matriz triangular inferior
    tf.ones((max_long_lote_dec, max_long_lote_cod), tf.bool), -1, 0)

In [116]:
# Decodificador
salida_cod = Z  # Se almacena la salida final de codificador
Z = embeddings_dec  # El decodificador inicar con su entrada propia
for _ in range(N):
    salto = Z
    capa_atencion = tf.keras.layers.MultiHeadAttention(
        num_heads=num_cabezas, key_dim=tam_emb, dropout=tasa_dropout)
    Z = capa_atencion(Z, value=Z, attention_mask=causal_mask & masc_dec)
    Z = tf.keras.layers.LayerNormalization()(tf.keras.layers.Add()([Z, salto]))
    salto = Z
    capa_atencion = tf.keras.layers.MultiHeadAttention(
        num_heads=num_cabezas, key_dim=tam_emb, dropout=tasa_dropout)
    Z = capa_atencion(Z, value=salida_cod, attention_mask=masc_cod)
    Z = tf.keras.layers.LayerNormalization()(tf.keras.layers.Add()([Z, salto]))
    salto = Z
    Z = tf.keras.layers.Dense(n_unidades, activation="relu")(Z)
    Z = tf.keras.layers.Dense(tam_emb)(Z)
    Z = tf.keras.layers.LayerNormalization()(tf.keras.layers.Add()([Z, salto]))

In [117]:
Y_proba = tf.keras.layers.Dense(tam_voc, activation="softmax")(Z)
modelo = tf.keras.Model(inputs=[ent_cod, ent_dec],
                       outputs=[Y_proba])
modelo.compile(loss="sparse_categorical_crossentropy", optimizer="nadam",
              metrics=["accuracy"])

In [118]:
modelo.fit((X_train, X_train_dec), Y_train, epochs=10,
          validation_data=((X_valid, X_valid_dec), Y_valid))

Epoch 1/10
[1m3750/3750[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m277s[0m 69ms/step - accuracy: 0.9402 - loss: 0.3696 - val_accuracy: 0.9641 - val_loss: 0.1562
Epoch 2/10
[1m3750/3750[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m259s[0m 69ms/step - accuracy: 0.9646 - loss: 0.1531 - val_accuracy: 0.9681 - val_loss: 0.1339
Epoch 3/10
[1m3750/3750[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m263s[0m 69ms/step - accuracy: 0.9678 - loss: 0.1344 - val_accuracy: 0.9695 - val_loss: 0.1269
Epoch 4/10
[1m3750/3750[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m262s[0m 70ms/step - accuracy: 0.9694 - loss: 0.1250 - val_accuracy: 0.9707 - val_loss: 0.1212
Epoch 5/10
[1m3750/3750[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m261s[0m 69ms/step - accuracy: 0.9706 - loss: 0.1186 - val_accuracy: 0.9711 - val_loss: 0.1176
Epoch 6/10
[1m3750/3750[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m269s[0m 71ms/step - accuracy: 0.9715 - loss: 0.1136 - val_accuracy: 0.9720 - val_loss: 0.113

<keras.src.callbacks.history.History at 0x7e5fddf6dae0>

In [120]:
traducir("I like soccer and studying at home")

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 119ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 175ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 114ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 102ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 152ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 91ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 91ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 69ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 86ms/step


'me gusta el fútbol y estudiar en casa'