# Proyecto I. Desarrollar un Modelo de Lenguaje desde Cero usando PyTorch

## Resumen

El presente proyecto invita a los interesados a embarcarse en la construcción de modelos de lenguaje desde cero, empleando técnicas accesibles para generar texto de manera creativa. Se utilizará un conjunto de datos de nombres para demostrar cómo distintos modelos pueden producir resultados realistas y atractivos. El proyecto inicia con modelos básicos de bigramas y trigramas para comprender sus capacidades y avanza hacia una Red Neuronal Recurrente (RNN) más sofisticada, ampliando así las posibilidades creativas.

**Fase I. Construcción de un Modelo Básico de Bigrama**

En esta fase, se desarrollará un modelo básico de bigramas para generar y optimizar nombres utilizando trigramas, permitiendo apreciar las ventajas de modelos de n-gramas más complejos.

**Fase II. Implementación de Redes Neuronales**

En esta fase, se implementarán redes neuronales para perfeccionar el modelo. Se diseñará una RNN personalizada que capture patrones profundos en los nombres. Después de entrenarla, se utilizará esta RNN para generar nombres que demuestren la potencia de las redes neuronales en la creación de textos naturales y coherentes.

## Fase I. Fundamentos de la Modelización del Lenguaje

### 1.1 Introducción

En este innovador proyecto, los interesados diseñarán modelos de bigramas y trigramas, así como un avanzado modelo generador de nombres basado en redes neuronales. Se aprovecharán potentes bibliotecas de Python en cada etapa del desarrollo, desde el procesamiento de datos hasta la construcción y optimización meticulosa de la red neuronal.

El repositorio de [GitHub](https://github.com/Jeshua-Romero-Guadarrama/LinkedIn-Jeshua-Romero-Guadarrama/tree/main/Data_Science_Projects/Proyecto_I) contiene los archivos esenciales para completar el proyecto:

- [/Proyecto_I/nombres.txt](https://github.com/Jeshua-Romero-Guadarrama/LinkedIn-Jeshua-Romero-Guadarrama/blob/main/Data_Science_Projects/Proyecto_I/nombres.txt): Archivo que contiene los nombres que se utilizarán para entrenar el modelo.
- [/Proyecto_I/proyecto.ipynb](https://github.com/Jeshua-Romero-Guadarrama/LinkedIn-Jeshua-Romero-Guadarrama/blob/main/Data_Science_Projects/Proyecto_I/proyecto.ipynb): Cuaderno de Python donde se implementará el modelo. Cada sección del proyecto está asociada a una o varias celdas en el cuaderno, identificadas por su encabezado correspondiente.

Al finalizar este proyecto, los participantes adquirirán un profundo conocimiento sobre la creación de modelos de lenguaje basados en bigramas y trigramas para generar texto a partir de secuencias de caracteres. Además, serán capaces de construir una Red Neuronal Recurrente personalizada en PyTorch para generar nombres únicos y aprenderán a optimizar el rendimiento del modelo mediante técnicas avanzadas de optimización.

### 1.2 Importar los Módulos Necesarios

En esta sección, se configura el entorno y cuaderno de Jupyter proporcionado para construir el modelo de lenguaje desde cero. El cuaderno [/Proyecto_I/proyecto.ipynb](https://github.com/Jeshua-Romero-Guadarrama/LinkedIn-Jeshua-Romero-Guadarrama/blob/main/Data_Science_Projects/Proyecto_I/proyecto.ipynb) será el espacio de trabajo principal para implementar las secciones del proyecto.

En principio, se importan los módulos de Python necesarios, incluyendo `torch`, `torch.nn`, `torch.optim`, `matplotlib.pyplot` y `random`. Dichos módulos se utilizan de manera extensiva a lo largo del proyecto para desarrollar y visualizar el modelo de lenguaje.

- `numpy`: Biblioteca que se emplea para realizar cálculos matemáticos y manipulaciones en arreglos y matrices, entre otros.
- `torch`: Biblioteca principal de PyTorch, utilizada para el cálculo de tensores y la construcción de redes neuronales.
- `torch.nn`: Submódulo de PyTorch que proporciona clases y funciones para construir capas y arquitecturas de redes neuronales.
- `torch.optim`: Submódulo de PyTorch que se utiliza para la optimización de algoritmos.
- `matplotlib.pyplot`: Biblioteca de gráficos que se emplea para crear visualizaciones estáticas, interactivas y animadas en Python.
- `random`:  Módulo que ofrece funciones para generar números aleatorios y realizar operaciones aleatorias.

Ejecutar el siguiente código en el archivo [/Proyecto_I/proyecto.ipynb](https://github.com/Jeshua-Romero-Guadarrama/LinkedIn-Jeshua-Romero-Guadarrama/blob/main/Data_Science_Projects/Proyecto_I/proyecto.ipynb) para importar los módulos necesarios:

In [None]:
# Importar módulos necesarios
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
import random
import matplotlib.pyplot as plt

> **Nota:** Utilizar `Shift + Enter` para ejecutar una sola celda en el cuaderno.

### 1.3 Cargar y Preprocesar los Datos de Texto

En esta sección, se carga un conjunto de datos de nombres desde un archivo de texto y se preprocesa convirtiéndolos a minúsculas y añadiendo marcadores de inicio y fin. Luego, se calcula la frecuencia de bigramas (secuencias de dos caracteres consecutivos) en el conjunto de datos, realizando las siguientes operaciones en esta sección:

1. Se abre el archivo [/Proyecto_I/nombres.txt](https://github.com/Jeshua-Romero-Guadarrama/LinkedIn-Jeshua-Romero-Guadarrama/blob/main/Data_Science_Projects/Proyecto_I/nombres.txt) que contiene el conjunto de datos de nombres y se divide su contenido en una lista de nombres individuales.
2. Se itera a través de cada nombre y se preprocesa convirtiéndolo a minúsculas y añadiendo marcadores de inicio y fin (`<`, `>`).

Ejecutar el siguiente código para cargar los datos desde el archivo de texto:

In [None]:
# Cargar los datos
with open('nombres.txt', 'r') as archivo:
    nombres = archivo.read().splitlines()

Ejecutar el siguiente código para preprocesar los nombres convirtiéndolos a minúsculas y añadiendo marcadores de inicio y fin:

In [None]:
# Preprocesamiento de nombres
nombres = ['<' + nombre.lower() + '>' for nombre in nombres]

> **Nota:** El conjunto de datos para este proyecto es una lista de nombres ubicada en [/Proyecto_I/nombres.txt](https://github.com/Jeshua-Romero-Guadarrama/LinkedIn-Jeshua-Romero-Guadarrama/blob/main/Data_Science_Projects/Proyecto_I/nombres.txt) y obtenida del enlace asociado a la [Seguridad Social](https://www.ssa.gov/oact/babynames/limits.html).

### 1.4 Construir y Visualizar la Tabla de Bigramas

En esta sección, se crea una tabla de búsqueda para analizar la ocurrencia de bigramas en el conjunto de datos de nombres. La tabla de búsqueda se construye y visualiza la frecuencia de ocurrencia de bigramas, realizando las siguientes operaciones en esta sección:

1. Se inicializa la `tabla_busqueda` para contar las ocurrencias de bigramas. Tiene tamaño 28×28 e incluye 26 letras del alfabeto inglés y 2 caracteres especiales.
2. Después de inicializar la tabla de búsqueda, se crea un codificador `char_a_int` para mapear cada carácter a un entero.
3. Se itera a través de la lista de nombres para contar las ocurrencias de cada bigrama y se almacenan esos conteos en la tabla de búsqueda.
4. Se grafica la tabla de búsqueda mediante un diagrama de dispersión para visualizar la frecuencia de ocurrencia de bigramas.

Ejecutar el siguiente código para inicializar y ordenar el vocabulario:

In [None]:
# Inicializar y ordenar el vocabulario
vocabulario    = set(''.join(nombres))
vocabulario    = ''.join(sorted(vocabulario))
tabla_busqueda = torch.zeros((len(vocabulario), len(vocabulario)), dtype = torch.int32)

> **Nota:** En vez de codificar los valores manualmente, se computa el vocabulario (alfabeto en este caso) a partir del texto, para que funcione en cualquier otro idioma con un alfabeto diferente.

Se crea el codificador:

In [None]:
# Crear un codificador
char_a_int = {char: i for i, char in enumerate(vocabulario)}

Se calculan las transiciones de bigramas:

In [None]:
# Calcular las transiciones de bigramas
for nombre in nombres:
    for i in range(len(nombre) - 1):
        ix1 = char_a_int[nombre[i]]
        ix2 = char_a_int[nombre[i + 1]]
        tabla_busqueda[ix1, ix2] += 1

Se visualizan los conteos de bigramas:

In [None]:
# Preparar x, y y conteos para el diagrama de dispersión
x       = [i for i in range(len(tabla_busqueda)) for _ in range(len(tabla_busqueda[0]))]
y       = [j for _ in range(len(tabla_busqueda)) for j in range(len(tabla_busqueda[0]))]
conteos = [tabla_busqueda[i][j] for i in range(len(tabla_busqueda)) for j in range(len(tabla_busqueda[0]))]

# Visualizar los conteos de bigramas
plt.figure(figsize = (10, 8))
dispersion = plt.scatter(x, y, s = conteos, c = conteos, cmap = 'Blues', alpha = 0.7)
plt.xticks(ticks = np.arange(len(vocabulario)), labels = vocabulario)
plt.yticks(ticks = np.arange(len(vocabulario)), labels = vocabulario)
plt.xlabel('Primer Carácter')
plt.ylabel('Segundo Carácter')
plt.title('Conteos de Bigrama')
plt.colorbar(dispersion, label = 'Conteo')
plt.grid(True)
plt.show()

> **Nota:** En este gráfico, las burbujas más grandes en la parte inferior izquierda, correspondientes a la primera mitad del alfabeto, indican que estos pares de caracteres ocurren con mayor frecuencia en el conjunto de datos. Lo anterior sugiere que los bigramas con letras del inicio del alfabeto son más comunes.

### 1.5 Generar Nombres con el Modelo de Bigramas

En esta sección, se crea la función `generar_nombre()` para generar nombres a partir de un modelo de lenguaje basado en bigramas. La función utiliza un enfoque probabilístico para seleccionar cada carácter en el nombre de acuerdo con la distribución de probabilidad que surge del carácter anterior en la tabla de búsqueda. El proceso continúa hasta encontrar el carácter de fin `>`, realizando las siguientes operaciones en esta sección:

1. Se inicializa cada nombre con `<` y una `cadena_inicio` opcional.
2. Se selecciona cada carácter sucesivo basándose en las probabilidades de bigramas hasta llegar al carácter de fin `>`.
3. Se asegura que los nombres generados sean únicos y tengan al menos tres caracteres.
4. Se generan e imprimen al menos 10 nombres únicos mediante `generar_nombre()`.

Ejecutar el siguiente código para generar nombres con el Modelo de Bigrama:

In [None]:
# Generar nombres con el Modelo de Lenguaje de Bigrama
def generar_nombre(cadena_inicio = ''):
    nombre = '<' + cadena_inicio.lower()
    while True:
        ix1 = char_a_int[nombre[-1]]
        probabilidades_siguiente = tabla_busqueda[ix1]
        peso_total = sum(probabilidades_siguiente)
        if peso_total > 0:
            siguiente_caracter = random.choices(vocabulario, weights = probabilidades_siguiente, k = 1)[0]
        else:
            siguiente_caracter = random.choice(vocabulario)
        if siguiente_caracter == '>':
            break
        nombre += siguiente_caracter
    return nombre[1:].capitalize()

# Generar e imprimir 10 nombres únicos usando el Modelo de Lenguaje de Bigrama
nombres_unicos = set()
while len(nombres_unicos) < 10:
    nombre = generar_nombre('Joe')    
    if '<' + nombre.lower() + '>' not in nombres:
        nombres_unicos.add(nombre)

for nombre in nombres_unicos:
    print(nombre)

> **Nota**: Se puede reemplazar `random.choices(vocabulario, weights = probabilidades_siguiente, k = 1)[0]` por `random.choices(vocabulario, k = 1)[0]` y comparar los nombres generados antes y después de este cambio para apreciar el efecto de diferentes esquemas de ponderación en el modelo de lenguaje.

### 1.6 Generar Nombres Utilizando Trigramas

En esta sección, se extiende el modelo de lenguaje previo para generar nombres utilizando trigramas, con el fin de lograr que el modelo capture patrones más complejos al considerar secuencias de tres caracteres en lugar de dos, realizando las siguientes operaciones en esta sección:

1. Se crea una tabla de búsqueda llamada `tabla_busqueda_trigrama` con una tercera dimensión para almacenar los conteos de transiciones de trigramas.
2. Se actualiza la función de generación previa; es decir, se debe crear `generar_nombre_trigrama()`, que selecciona el siguiente carácter de forma probabilística basándose en los dos caracteres previos.
3. Se generan e imprimen al menos 10 nombres únicos utilizando `generar_nombre_trigrama()`, para observar patrones más realistas.

Ejecutar el siguiente código para generar nombres con el Modelo de Trigrama:

In [None]:
# Ajustar las dimensiones de la tabla de búsqueda para trigramas
tabla_busqueda_trigrama = torch.zeros((len(vocabulario), len(vocabulario), len(vocabulario)), dtype = torch.int32)

# Calcular las transiciones de trigramas
for nombre in nombres:
    for i in range(len(nombre) - 2):
        ix1 = char_a_int[nombre[i]]  
        ix2 = char_a_int[nombre[i + 1]]
        ix3 = char_a_int[nombre[i + 2]]
        tabla_busqueda_trigrama[ix1, ix2, ix3] += 1
        
# Función del Modelo de Trigrama
def generar_nombre_trigrama(cadena_inicio = ''):
    nombre = '<' + cadena_inicio
    while True:
        if len(nombre) < 2:
            siguiente_caracter = random.choice(vocabulario)
        else:
            ix1 = char_a_int[nombre[-2]]
            ix2 = char_a_int[nombre[-1]]
            probabilidades_siguiente = tabla_busqueda_trigrama[ix1, ix2]
            peso_total = sum(probabilidades_siguiente)
            if peso_total > 0:
                siguiente_caracter = random.choices(vocabulario, weights = probabilidades_siguiente, k = 1)[0]
            else:
                siguiente_caracter = random.choice(vocabulario)
        if siguiente_caracter == '>':
            break
        nombre += siguiente_caracter
    return nombre[1:].capitalize()

# Generar e imprimir 10 nombres únicos usando el Modelo de Lenguaje de Trigrama
nombres_unicos = set()
while len(nombres_unicos) < 10:
    nombre = generar_nombre_trigrama('Joe')    
    if '<' + nombre.lower() + '>' not in nombres:
        nombres_unicos.add(nombre)

for nombre in nombres_unicos:
    print(nombre)

## Fase II. Mejorar los Modelos de Lenguaje con Redes Neuronales

### 2.1 Definir un Decodificador y Convertir Caracteres a Tensores

En esta sección, se definen los componentes esenciales para el procesamiento de datos necesario antes de entrenar el modelo de Red Neuronal Recurrente (RNN), realizando las siguientes operaciones en esta sección:

1. **Diccionario `int_a_char`**: Decodificador que mapea los índices enteros a caracteres del alfabeto.
2. **Función `char_a_tensor(texto)`**: Convierte una cadena de caracteres en una representación tensorial. Las redes neuronales operan con datos numéricos, y los tensores son la estructura de datos base en PyTorch.

Ejecutar el siguiente código para completar esta sección:

In [None]:
# Decodificador
int_a_char = {idx: char for idx, char in enumerate(vocabulario)}

# Convertir una cadena de caracteres a un tensor de índices enteros
def char_a_tensor(texto):
    return torch.tensor([char_a_int[char] for char in texto], dtype = torch.long)

### 2.2 Diseñar la Arquitectura de la RNN para la Modelización del Lenguaje

En esta sección, se define un modelo de Red Neuronal Recurrente (RNN) personalizado con PyTorch. En consecuencia, se implementa la clase `RNNPersonalizada`, que hereda de `nn.Module` e incluye:

1. Una capa de embedding
2. Una capa GRU (Unidad Recurrente Gated)
3. Una capa totalmente conectada (lineal) para la salida

Las **GRU** abordan problemas de gradientes que desaparecen, lo que las hace efectivas para capturar dependencias en secuencias más largas al actualizar u 'olvidar' información de manera selectiva, realizando las siguientes operaciones en esta sección:

1. El método `__init__`:
- Define la capa de embedding para convertir los índices de entrada en vectores densos.
- Define la capa **GRU** para procesar datos de secuencia con la dimensión oculta especificada.
- Define la capa totalmente conectada para mapear la salida de la GRU al tamaño de salida deseado.
2. En atención a lo cual, el método `__init__` toma los siguientes parámetros:
- Tamaño de entrada (`tamaño_entrada`): El tamaño del vocabulario, que define el número de tokens únicos que pueden ser embebidos.
- Tamaño de embedding (`tamaño_embed`): La dimensionalidad de la capa de embedding, que convierte cada token de entrada en una representación vectorial densa de este tamaño.
- Dimensión oculta (`dim_oculta`): El número de características en el estado oculto de la **GRU**, lo que determina la capacidad de la RNN para capturar dependencias de secuencias.
- Tamaño de la salida (`tamaño_salida`): El número de clases de salida o dimensiones objetivo utilizadas por la capa totalmente conectada para generar la salida final.
3. El método `forward()`:
- Determina cómo se procesan los datos de entrada a través de las capas para generar predicciones de salida.
4. En atención a lo cual, en el método `forward()` se:
- Aplica la capa de embedding a la entrada $x$. Así pues, se reestructura para su procesamiento por la **GRU**. Por lo tanto, la entrada termina pasanda a través de la **GRU**.
- Utiliza la capa totalmente conectada para generar la salida final

Ejecutar el siguiente código para completar esta sección:

In [None]:
# RNN Personalizada
class RNNPersonalizada(nn.Module):
    def __init__(self, tamaño_entrada, tamaño_embed, dim_oculta, tamaño_salida):
        super(RNNPersonalizada, self).__init__()
        self.embedding  = nn.Embedding(num_embeddings = tamaño_entrada, embedding_dim = tamaño_embed)
        self.gru        = nn.GRU(input_size = tamaño_embed, hidden_size = dim_oculta)
        self.fc         = nn.Linear(dim_oculta, tamaño_salida)
        self.dim_oculta = dim_oculta

    def forward(self, x, oculto):
        x               = self.embedding(x).view(1, 1, -1)
        salida, oculto  = self.gru(x, oculto)
        salida          = self.fc(salida.view(1, -1))
        return salida, oculto

### 2.3  Escribir Funciones para Generar el Texto

En esta sección, se implementan funciones para generar nombres usando un modelo RNN. La función comienza por inicializar el estado oculto con el contexto de la cadena de inicio proporcionada (`cadena_inicio`), preparando el modelo para generar texto que fluya naturalmente a partir de la secuencia inicial. Luego, genera secuencialmente caracteres pasando el último carácter y el estado oculto al modelo, actualizando el estado oculto en cada paso, hasta que se genera el token de fin `>` o se alcanza la `longitud` especificada, realizando las siguientes operaciones en esta sección:

1. Se define la función `generar_nombre_rnn()` para generar nombres usando un modelo RNN preentrenado. Dicha función recibe como parámetros de entrada o argumentos el `modelo`, la `cadena_inicio`, la `longitud` y la `temperatura`. Finalmente, genera texto de la siguiente manera:

- Se inicializa el nombre con `cadena_inicio`, precedido por un token de inicio `<`, y lo convierte en un tensor usando la función `char_a_tensor()` definida previamente.  
- Se crea un estado oculto inicial para la RNN usando `torch.zeros` con dimensiones que coincidan con el tamaño oculto del modelo.  
- Se itera a través de `cadena_inicio` para inicializar el estado oculto, pasando cada tensor de carácter al modelo y estado oculto.  
- Se comienza a generar caracteres de uno en uno hasta alcanzar la `longitud` especificada:  
    a) Se usa el modelo para predecir el siguiente carácter en función del tensor de carácter actual y el estado oculto.  
    b) Se aplica escalado de temperatura para controlar la aleatoriedad en la selección de caracteres. A continuación, selecciona el siguiente carácter de forma probabilística a partir de la distribución de salida.  
    c) Se anexa el carácter predicho al texto generado, deteniéndote si se alcanza el token de fin `>`.  
- Se devuelve el nombre final generado como una cadena en mayúscula inicial y sin el token de inicio.

2. Se define la función `generar_nombres_unicos()` para generar e imprimir un conjunto de nombres únicos, usando `generar_nombre_rnn()` con el objetivo de crear cada uno. Dicha función recibe como parámetros de entrada o argumentos el `model`, `cadena_inicio` y  `n` como la cantidad de nombres que se desean generar. Finalmente, procede de la siguiente manera:

- Se inicializa un conjunto vacío para almacenar los nombres únicos.  
- En un bucle, se llama a la función `generar_nombre_rnn()` para generar un nuevo nombre usando la cadena de inicio proporcionada y longitud máxima `MAX_LONGITUD_NOMBRE`.  
- Agrega cada nombre generado al conjunto. El uso de un conjunto garantiza que no se dupliquen nombres.  
- Se continúa generando nombres hasta que se hayan reunido `n` nombres únicos.  
- Se imprime cada nombre único generado por el modelo.

Ejecutar el siguiente código para completar esta sección:

In [None]:
MAX_LONGITUD_NOMBRE         = 32

# Generar texto con el modelo
def generar_nombre_rnn(modelo, cadena_inicio = '', longitud = MAX_LONGITUD_NOMBRE, temperatura = 0.8):
    cadena_inicio           = '<' + cadena_inicio.lower()
    tensor_entrada          = char_a_tensor(cadena_inicio)
    oculto                  = torch.zeros(1, 1, modelo.dim_oculta)
    
    for i in range(len(cadena_inicio) - 1):
        _, oculto           = modelo(tensor_entrada[i].unsqueeze(0), oculto)
    texto_generado          = cadena_inicio[1:]
    caracter_entrada        = tensor_entrada[-1].unsqueeze(0)
    
    for _ in range(longitud):
        salida, oculto      = modelo(caracter_entrada.unsqueeze(0), oculto)
        distribucion_salida = salida.data.view(-1).div(temperatura).exp()
        indice_top          = torch.multinomial(distribucion_salida, 1)[0]
        siguiente_caracter  = int_a_char[indice_top.item()]
        if siguiente_caracter == '>':
            break
        texto_generado      += siguiente_caracter
        caracter_entrada    = char_a_tensor(siguiente_caracter)
    
    return texto_generado.capitalize()

# Generar e imprimir n nombres únicos usando el Modelo de Lenguaje RNN
def generar_nombres_unicos(modelo, cadena_inicio, n):
    nombres_unicos = set()
    while len(nombres_unicos) < n:
        nombre = generar_nombre_rnn(modelo, cadena_inicio, MAX_LONGITUD_NOMBRE)
        if '<' + nombre.lower() + '>' not in nombres:
            nombres_unicos.add(nombre)
    
    for nombre in nombres_unicos:
        print(nombre)

### 2.4 Entrenar el Modelo RNN Personalizado

En esta sección, se entrena un modelo RNN personalizado usando el conjunto de datos proporcionado para aprender los patrones y la estructura subyacentes de los datos de texto, realizando las siguientes operaciones en esta sección:

1. Se definen los parámetros de entrenamiento para el tamaño de embedding, la dimensión oculta y el número total de épocas.  
2. Se inicializa el modelo, el optimizador y la función de pérdida para configurar el entrenamiento.  
3. Se implementa un bucle de entrenamiento para iterar en cada época:  
    - Se baraja el conjunto de datos de nombres al inicio de cada época para garantizar un orden de entrenamiento variado. Ahora bien, por cada nombre en el conjunto de datos:  
    - Se convierte el nombre a tensores de entrada y objetivo usando `char_a_tensor()`.  
    - Se inicializa el estado oculto para cada nombre nuevo.  
    - Se reinician los gradientes acumulados en el optimizador.  
    - Por cada carácter en el tensor de entrada:  
        a) Se realiza un paso hacia adelante (forward pass) a través del modelo para obtener predicciones.  
        b) Se calcula y acumula la pérdida comparando las predicciones con los objetivos.  
    - Se procesa el nombre completo, retropropaga la pérdida acumulada y actualizan los parámetros del modelo.  
4. Se registra y almacena la pérdida promedio de cada época; esto es, al final de cada época el progreso se agrega a una lista e imprime.  
5. Se usa `generar_nombres_unicos()` después de cada época para generar nombres de ejemplo, lo cual permite observar el progreso del modelo.  
6. Al completar todas las épocas, se grafica la pérdida registrada para visualizar el progreso del entrenamiento.

Ejecutar el siguiente código para completar esta sección:

In [None]:
# Definir los parámetros de entrenamiento
TAMAÑO_EMBED = 32
DIM_OCULTA   = 32
EPOCAS       = 3

# Configuración del entrenamiento
modelo       = RNNPersonalizada(len(vocabulario), TAMAÑO_EMBED, DIM_OCULTA, MAX_LONGITUD_NOMBRE)
optimizador  = optim.Adam(modelo.parameters(), lr=0.005)
criterio     = nn.CrossEntropyLoss()

# Bucle de entrenamiento
perdidas     = []

for epoca in range(EPOCAS):
    perdida_total = 0
    random.shuffle(nombres)  # Mezclar el conjunto de datos para asegurar un orden diferente en cada época
    
    for nombre in nombres:
        entradas  = char_a_tensor(nombre[:-1])
        objetivos = char_a_tensor(nombre[1:])
        oculto    = torch.zeros(1, 1, DIM_OCULTA)
        optimizador.zero_grad()
        perdida   = 0
    
        for i in range(len(entradas)):
            salida, oculto = modelo(entradas[i].unsqueeze(0), oculto)
            perdida        += criterio(salida, objetivos[i].unsqueeze(0))
        
        perdida.backward()
        optimizador.step()
        perdida_total += perdida.item() / len(entradas)
    
    perdidas.append(perdida_total / len(nombres))
    print(f'Época {epoca+1}, Pérdida: {perdida_total:.4f}')
    generar_nombres_unicos(modelo, 'Joe', 10)
    print('=' * 50)

# Graficar la curva de pérdida
plt.plot(range(1, EPOCAS + 1), perdidas)
plt.xlabel('Épocas')
plt.ylabel('Pérdida')
plt.title('Pérdida de Entrenamiento')
plt.show()

> **Nota**: Se comparan los nombres generados con los obtenidos a través de bigramas y trigramas. Además, se observa el desempeño con distintas cadenas de inicio.

## Conclusiones

Aplicar habilidades mediante proyectos prácticos como este es una excelente manera de familiarizarse con nuevas técnicas y tecnologías. En consecuencia, para continuar experimentando con lo desarrollado, intente crear y optimizar otros modelos y validarlos en diversos conjuntos de datos de prueba.