# Proyecto I. Desarrollar un Modelo de Lenguaje desde Cero usando PyTorch

## Resumen

El presente proyecto invita a los interesados a embarcarse en la construcción de modelos de lenguaje desde cero, empleando técnicas accesibles para generar texto de manera creativa. Se utilizará un conjunto de datos de nombres para demostrar cómo distintos modelos pueden producir resultados realistas y atractivos. El proyecto inicia con modelos básicos de bigramas y trigramas para comprender sus capacidades y avanza hacia una Red Neuronal Recurrente (RNN) más sofisticada, ampliando así las posibilidades creativas.

**Fase I. Construcción de un Modelo Básico de Bigrama**

En esta fase, se desarrollará un modelo básico de bigramas para generar y optimizar nombres utilizando trigramas, permitiendo apreciar las ventajas de modelos de n-gramas más complejos.

**Fase II. Implementación de Redes Neuronales**

En esta fase, se implementarán redes neuronales para perfeccionar el modelo. Se diseñará una RNN personalizada que capture patrones profundos en los nombres. Después de entrenarla, se utilizará esta RNN para generar nombres que demuestren la potencia de las redes neuronales en la creación de textos naturales y coherentes.

## Fase I. Fundamentos de la Modelización del Lenguaje

### 1.1 Iniciar

En este innovador proyecto, los interesados diseñarán modelos de bigramas y trigramas, así como un avanzado modelo generador de nombres basado en redes neuronales. Se aprovecharán potentes bibliotecas de Python en cada etapa del desarrollo, desde el procesamiento de datos hasta la construcción y optimización meticulosa de la red neuronal.

El repositorio de [GitHub](https://github.com/Jeshua-Romero-Guadarrama/LinkedIn-Jeshua-Romero-Guadarrama/tree/main/Data_Science_Projects/Proyecto_I) contiene los archivos esenciales para completar el proyecto:

- [/Proyecto_I/nombres.txt](https://github.com/Jeshua-Romero-Guadarrama/LinkedIn-Jeshua-Romero-Guadarrama/blob/main/Data_Science_Projects/Proyecto_I/nombres.txt): Archivo que contiene los nombres que se utilizarán para entrenar el modelo.
- [/Proyecto_I/proyecto.ipynb](https://github.com/Jeshua-Romero-Guadarrama/LinkedIn-Jeshua-Romero-Guadarrama/blob/main/Data_Science_Projects/Proyecto_I/proyecto.ipynb): Cuaderno de Python donde se implementará el modelo. Cada sección del proyecto está asociada a una o varias celdas en el cuaderno, identificadas por su encabezado correspondiente.

Al finalizar este proyecto, los participantes adquirirán un profundo conocimiento sobre la creación de modelos de lenguaje basados en bigramas y trigramas para generar texto a partir de secuencias de caracteres. Además, serán capaces de construir una Red Neuronal Recurrente personalizada en PyTorch para generar nombres únicos y aprenderán a optimizar el rendimiento del modelo mediante técnicas avanzadas de optimización.

### 1.2 Importar los Módulos Necesarios

En esta sección, se configurará el entorno y familiarizará con el cuaderno de Jupyter proporcionado para construir el modelo de lenguaje desde cero. El cuaderno [/Proyecto_I/proyecto.ipynb](https://github.com/Jeshua-Romero-Guadarrama/LinkedIn-Jeshua-Romero-Guadarrama/blob/main/Data_Science_Projects/Proyecto_I/proyecto.ipynb) será el espacio de trabajo principal para implementar las secciones del proyecto.

En principio, se importarán los módulos de Python necesarios, incluyendo ```torch```, ```torch.nn```, ```torch.optim```, ```matplotlib.pyplot``` y ```random```. Dichos módulos se utilizarán extensivamente a lo largo del proyecto para desarrollar y visualizar el modelo de lenguaje.

- ```numpy```: Biblioteca utilizada para realizar cálculos matemáticos y manipulaciones en arreglos, matrices, etc.
- ```torch```: Biblioteca principal de PyTorch, utilizada para el cálculo de tensores y la construcción de redes neuronales.
- ```torch.nn```: Submódulo de PyTorch que proporciona clases y funciones para construir capas y arquitecturas de redes neuronales.
- ```torch.optim```: Submódulo de PyTorch utilizado para la optimización de algoritmos.
- ```matplotlib.pyplot```: Biblioteca de gráficos utilizada para crear visualizaciones estáticas, interactivas y animadas en Python.
- ```random```: Módulo que proporciona funciones para generar números aleatorios y realizar operaciones aleatorias.

Ejecute el siguiente código en el archivo [/Proyecto_I/proyecto.ipynb](https://github.com/Jeshua-Romero-Guadarrama/LinkedIn-Jeshua-Romero-Guadarrama/blob/main/Data_Science_Projects/Proyecto_I/proyecto.ipynb) para importar los módulos necesarios:

In [None]:
# Importar módulos necesarios
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
import random
import matplotlib.pyplot as plt

> **Nota:** Utilizar ```Shift + Enter``` para ejecutar una sola celda en el cuaderno.

### 1.3 Cargar y Preprocesar los Datos de Texto

En esta sección, se cargará un conjunto de datos de nombres desde un archivo de texto y se preprocesará convirtiéndolos a minúsculas y añadiendo marcadores de inicio y fin. Luego, se calculará la frecuencia de bigramas (secuencias de dos caracteres consecutivos) en el conjunto de datos.

Realice las siguientes operaciones en esta sección:

1. Abra el archivo [/Proyecto_I/nombres.txt](https://github.com/Jeshua-Romero-Guadarrama/LinkedIn-Jeshua-Romero-Guadarrama/blob/main/Data_Science_Projects/Proyecto_I/nombres.txt) que contiene el conjunto de datos de nombres y divida su contenido en una lista de nombres individuales.
2. Itere a través de cada nombre en el conjunto de datos y preprocéselo convirtiéndolo a minúsculas y añadiendo marcadores de inicio y fin (```<```, ```>```).

Ejecute el siguiente código para cargar los datos desde el archivo de texto:

In [None]:
# Cargar los datos
with open('nombres.txt', 'r') as archivo:
    nombres = archivo.read().splitlines()

Ejecute el siguiente código para preprocesar los nombres convirtiéndolos a minúsculas y añadiendo marcadores de inicio y fin:

In [None]:
# Preprocesamiento de nombres
nombres = ['<' + nombre.lower() + '>' for nombre in nombres]

> **Nota:** El conjunto de datos para este proyecto es una lista de nombres ubicada en [/Proyecto_I/nombres.txt](https://github.com/Jeshua-Romero-Guadarrama/LinkedIn-Jeshua-Romero-Guadarrama/blob/main/Data_Science_Projects/Proyecto_I/nombres.txt) y obtenida de un sitio web sobre [Seguridad Social](https://www.ssa.gov/oact/babynames/limits.html).

### 1.4 Construir y Visualizar la Tabla de Bigramas

En esta sección, se creará una tabla de búsqueda para analizar la ocurrencia de bigramas dentro del conjunto de datos de nombres. Se construirá la tabla de búsqueda y se visualizará la frecuencia de ocurrencia de bigramas.

Se realizarán las siguientes operaciones en esta sección:

1. Inicializar la ```tabla_busqueda``` para contar las ocurrencias de bigramas. Será de tamaño 28 por 28 e incluirá 26 letras del alfabeto inglés y 2 caracteres especiales.
2. Después de inicializar la tabla de búsqueda, cree un codificador ```char_a_int``` para mapear caracteres del alfabeto a enteros.
3. Itere a través del conjunto de nombres para contar las ocurrencias de cada bigrama y almacene estos conteos en la tabla de búsqueda.
4. Grafique la tabla de búsqueda para visualizar la frecuencia de ocurrencia de bigramas utilizando un diagrama de dispersión.

Utilizar el siguiente código para inicializar y ordenar el vocabulario:

In [None]:
# Inicializar y ordenar el vocabulario
vocabulario    = set(''.join(nombres))
vocabulario    = ''.join(sorted(vocabulario))
tabla_busqueda = torch.zeros((len(vocabulario), len(vocabulario)), dtype = torch.int32)

>  **Nota**: En lugar de codificar los valores manualmente, intentar computar el vocabulario (alfabeto en este caso) a partir del texto, para que funcione en cualquier otro idioma con un alfabeto diferente.

Utilizar el siguiente código para crear un codificador:

In [None]:
# Crear un codificador
char_a_int = {char: i for i, char in enumerate(vocabulario)}

Realizar el cálculo de las transiciones de bigramas utilizando el siguiente código:

In [None]:
# Calcular las transiciones de bigramas
for nombre in nombres:
    for i in range(len(nombre) - 1):
        ix1 = char_a_int[nombre[i]]
        ix2 = char_a_int[nombre[i + 1]]
        tabla_busqueda[ix1, ix2] += 1

Visualizar los conteos de bigramas utilizando el siguiente código:

In [None]:
# Preparar x, y y conteos para el diagrama de dispersión
x       = [i for i in range(len(tabla_busqueda)) for _ in range(len(tabla_busqueda[0]))]
y       = [j for _ in range(len(tabla_busqueda)) for j in range(len(tabla_busqueda[0]))]
conteos = [tabla_busqueda[i][j] for i in range(len(tabla_busqueda)) for j in range(len(tabla_busqueda[0]))]

# Visualizar los conteos de bigramas
plt.figure(figsize = (10, 8))
dispersion = plt.scatter(x, y, s = conteos, c = conteos, cmap = 'Reds', alpha = 0.7)
plt.xticks(ticks = np.arange(len(vocabulario)), labels = vocabulario)
plt.yticks(ticks = np.arange(len(vocabulario)), labels = vocabulario)
plt.xlabel('Primer Carácter')
plt.ylabel('Segundo Carácter')
plt.title('Conteos de Bigrama')
plt.colorbar(dispersion, label = 'Conteo')
plt.grid(True)
plt.show()

>  **Nota**: En este gráfico, las burbujas más grandes en la parte inferior izquierda del gráfico, correspondientes a la primera mitad del alfabeto, indican que estos pares de caracteres ocurren con mayor frecuencia en el conjunto de datos. Esto sugiere que los bigramas con letras del inicio del alfabeto son más comunes.

### 1.5 Generar Nombres con el Modelo de Bigramas

En esta sección, se creará una función ```generar_nombre()``` para generar nombres utilizando un modelo de lenguaje de bigramas. Esta función empleará un enfoque probabilístico para seleccionar cada carácter en el nombre generado basado en la distribución de probabilidad del carácter precedente desde una tabla de búsqueda. El proceso continuará hasta que se alcance un carácter final.

Siga estos pasos para completar la función:

1. Inicialice cada nombre con un carácter de inicio ```<``` y una ```cadena_inicio``` opcional. Seleccione cada carácter subsiguiente basado en las probabilidades de bigramas, continuando hasta alcanzar el carácter de fin ```>```.
2. Asegure que los nombres generados sean únicos y tengan al menos tres caracteres.
3. Genere e imprima al menos 10 nombres únicos utilizando la función ```generar_nombre()``` (para imprimir un nombre significativo, incluya nombres con al menos tres caracteres de longitud).

Ejecute el siguiente código para completar esta sección:

In [None]:
# Generar nombres con el Modelo de Lenguaje de Bigrama
def generar_nombre(cadena_inicio = ''):
    nombre = '<' + cadena_inicio.lower()
    while True:
        ix1 = char_a_int[nombre[-1]]
        probabilidades_siguiente = tabla_busqueda[ix1]
        peso_total = sum(probabilidades_siguiente)
        if peso_total > 0:
            siguiente_caracter = random.choices(vocabulario, weights = probabilidades_siguiente, k = 1)[0]
        else:
            siguiente_caracter = random.choice(vocabulario)
        if siguiente_caracter == '>':
            break
        nombre += siguiente_caracter
    return nombre[1:].capitalize()

# Generar e imprimir 10 nombres únicos usando el Modelo de Lenguaje de Bigrama
nombres_unicos = set()
while len(nombres_unicos) < 10:
    nombre = generar_nombre('Joe')    
    if '<' + nombre.lower() + '>' not in nombres:
        nombres_unicos.add(nombre)

for nombre in nombres_unicos:
    print(nombre)

>  **Nota**: Intente reemplazar ```random.choices(vocabulario, weights=probabilidades_siguiente, k=1)[0]``` con ```random.choices(vocabulario, k=1)[0]``` en el código. Compare los nombres generados antes y después de este cambio para apreciar el efecto de diferentes esquemas de ponderación en el modelo de lenguaje.

### 1.6 Generar Nombres Utilizando Trigramas

En esta sección, se extenderá el modelo de lenguaje previamente construido para generar nombres utilizando trigramas. El objetivo es mejorar la comprensión de los patrones de nombres por parte del modelo al considerar secuencias de tres caracteres en lugar de dos.

Para lograr esta sección, realice los siguientes pasos:

1. Crear una tabla de búsqueda, ```tabla_busqueda_trigrama```, ajustando la tabla de búsqueda anterior para acomodar trigramas mediante la introducción de una tercera dimensión para almacenar los conteos de transiciones de trigramas.
2. Actualizar la función de generación de nombres a una nueva función ```generar_nombre_trigrama()``` que seleccione el siguiente carácter probabilísticamente basado en los dos caracteres precedentes (trigrama), asegurando que los nombres generados exhiban patrones más realistas.
3. Generar e imprimir al menos 10 nombres únicos con la función ```generar_nombre_trigrama()```, utilizando este modelo de trigramas para patrones más realistas.

Actualice la tabla de búsqueda para trigramas utilizando el siguiente código:

In [None]:
# Ajustar las dimensiones de la tabla de búsqueda para trigramas
tabla_busqueda_trigrama = torch.zeros((len(vocabulario), len(vocabulario), len(vocabulario)), dtype = torch.int32)

# Calcular las transiciones de trigramas
for nombre in nombres:
    for i in range(len(nombre) - 2):
        ix1 = char_a_int[nombre[i]]  
        ix2 = char_a_int[nombre[i + 1]]
        ix3 = char_a_int[nombre[i + 2]]
        tabla_busqueda_trigrama[ix1, ix2, ix3] += 1

Ejecute el siguiente código para generar nombres utilizando el Modelo de Lenguaje de Trigrama:

In [None]:
# Función del Modelo de Trigrama
def generar_nombre_trigrama(cadena_inicio = ''):
    nombre = '<' + cadena_inicio
    while True:
        if len(nombre) < 2:
            siguiente_caracter = random.choice(vocabulario)
        else:
            ix1 = char_a_int[nombre[-2]]
            ix2 = char_a_int[nombre[-1]]
            probabilidades_siguiente = tabla_busqueda_trigrama[ix1, ix2]
            peso_total = sum(probabilidades_siguiente)
            if peso_total > 0:
                siguiente_caracter = random.choices(vocabulario, weights = probabilidades_siguiente, k = 1)[0]
            else:
                siguiente_caracter = random.choice(vocabulario)
        if siguiente_caracter == '>':
            break
        nombre += siguiente_caracter
    return nombre[1:].capitalize()

# Generar e imprimir 10 nombres únicos usando el Modelo de Lenguaje de Trigrama
nombres_unicos = set()
while len(nombres_unicos) < 10:
    nombre = generar_nombre_trigrama('Joe')    
    if '<' + nombre.lower() + '>' not in nombres:
        nombres_unicos.add(nombre)

for nombre in nombres_unicos:
    print(nombre)

## Fase II. Mejorar los Modelos de Lenguaje con Redes Neuronales

### 2.1 Definir un Decodificador y Convertir Caracteres a Tensores

En esta sección, se definirán los componentes esenciales para el procesamiento de datos requeridos antes de entrenar el modelo de Red Neuronal Recurrente (RNN).

Defina lo siguiente para facilitar el procesamiento de datos:

1. **Diccionario ```int_a_char```**: Este es un decodificador que mapea caracteres del alfabeto a enteros.
2. **Función ```char_a_tensor(texto)```**: Esta función convierte una cadena de caracteres en una representación tensorial. Esta conversión es necesaria ya que las redes neuronales operan con datos numéricos, y los tensores son la estructura de datos fundamental para la manipulación de datos en PyTorch.

Ejecute el siguiente código para completar esta sección:

In [None]:
# Decodificador
int_a_char = {idx: char for idx, char in enumerate(vocabulario)}

# Convertir una cadena de caracteres a un tensor de índices enteros
def char_a_tensor(texto):
    return torch.tensor([char_a_int[char] for char in texto], dtype = torch.long)

### 2.2 Diseñar la Arquitectura de la RNN para la Modelización del Lenguaje

En esta sección, se definirá un modelo de Red Neuronal Recurrente (RNN) personalizado utilizando PyTorch. Se implementará la clase ```RNNPersonalizada```, que hereda de ```nn.Module```. Dicha clase incluirá una capa de embedding, una capa GRU (Unidad Recurrente Gated) y una capa totalmente conectada (lineal) para la salida. Las **GRU** son un tipo de capa RNN diseñada para manejar datos secuenciales mientras abordan los problemas de los gradientes que desaparecen, lo que las hace efectivas para capturar dependencias en secuencias más largas mediante la actualización o el olvido selectivo de información.

Completar las siguientes operaciones:

1. En el método ```__init__```, defina una capa de embedding para convertir los índices de entrada en vectores densos, una capa GRU para manejar los datos de secuencia con la dimensión oculta especificada, y una capa totalmente conectada para mapear la salida de la GRU al tamaño de salida deseado. El método ```__init__``` toma los siguientes parámetros:
- Tamaño de entrada (```input_size```): El tamaño del vocabulario, que define el número de tokens únicos que pueden ser embebidos.
- Tamaño de embedding (```embed_size```): La dimensionalidad de la capa de embedding, que convierte cada token de entrada en una representación vectorial densa de este tamaño.
- Dimensión oculta (```hidden_dim```): El número de características en el estado oculto de la GRU, lo que determina la capacidad de la RNN para capturar dependencias de secuencias.
- Tamaño de la salida (```output_size```): El número de clases de salida o dimensiones objetivo utilizadas por la capa totalmente conectada para generar la salida final.
2. Defina el método ```forward()``` que determina cómo se procesan los datos de entrada a través de estas capas para generar predicciones de salida. Específicamente, aplique la capa de embedding a la entrada ```x```, reestructúrela según sea necesario para su procesamiento por la capa GRU, pásela a través de la GRU y utilice la capa totalmente conectada para generar la salida.

Ejecute el siguiente código para completar esta sección:

In [None]:
# RNN Personalizada
class RNNPersonalizada(nn.Module):
    def __init__(self, tamaño_entrada, tamaño_embed, dim_oculta, tamaño_salida):
        super(RNNPersonalizada, self).__init__()
        self.embedding  = nn.Embedding(num_embeddings = tamaño_entrada, embedding_dim = tamaño_embed)
        self.gru        = nn.GRU(input_size = tamaño_embed, hidden_size = dim_oculta)
        self.fc         = nn.Linear(dim_oculta, tamaño_salida)
        self.dim_oculta = dim_oculta

    def forward(self, x, oculto):
        x               = self.embedding(x).view(1, 1, -1)
        salida, oculto  = self.gru(x, oculto)
        salida          = self.fc(salida.view(1, -1))
        return salida, oculto

### 2.3  Escribir Funciones para Generar el Texto

En esta sección, se implementarán funciones para generar nombres utilizando un modelo RNN. La función comienza inicializando el estado oculto con contexto de la ```cadena_inicio``` proporcionada, preparando el modelo para generar texto que fluya naturalmente desde la secuencia inicial. Luego, genera secuencialmente caracteres pasando el último carácter y el estado oculto al modelo, actualizando el estado oculto en cada paso, hasta que se genera el token de fin ```>``` o se alcanza la ```longitud``` especificada.

Complete las siguientes operaciones:

1. Implementar la función ```generar_nombre_rnn()``` para generar nombres utilizando un modelo RNN previamente entrenado. Esta función tomará como entradas el ```modelo```, una ```cadena_inicio```, la ```longitud``` y la ```temperatura```, y generará texto de la siguiente manera:
- Inicialice el nombre con la ```cadena_inicio```, precedida por un token de inicio ```<```, y conviértalo en un tensor utilizando la función ```char_a_tensor()``` definida anteriormente.
- Crear un estado oculto inicial para la RNN usando ```torch.zeros``` con dimensiones que coincidan con el tamaño oculto del modelo.
- Iterar a través de la ```cadena_inicio``` para inicializar el estado oculto pasando cada tensor de carácter al modelo y estado oculto.
- Comenzar a generar caracteres uno a uno hasta la ```longitud``` especificada:
    - Utilizar el modelo para predecir el siguiente carácter basado en el tensor de carácter actual y el estado oculto.
    - Aplicar una escala de temperatura para controlar la aleatoriedad en la selección de caracteres, y seleccione el siguiente carácter probabilísticamente desde la distribución de salida.
    - Añadir el carácter predicho al texto generado, deteniéndose si se alcanza el token de fin ```>```.
- Devolver el nombre final generado como una cadena capitalizada sin el token de inicio.
2. Definir una función ```generar_nombres_unicos()``` para generar e imprimir un conjunto de nombres únicos, utilizando ```generar_nombre_rnn()``` para crear cada uno. Esta función tomará como argumentos el ```modelo```, una ```cadena_inicio``` y ```n``` (número de nombres a generar), y procederá de la siguiente manera:
- Inicialice un conjunto vacío para almacenar nombres únicos.
- En un ciclo, llame a la función ```generar_nombre_rnn()``` para generar un nuevo nombre utilizando la ```cadena_inicio``` proporcionada y la longitud máxima ```MAX_LONGITUD_NOMBRE```.
- Añada cada nombre generado al conjunto. El uso de la estructura de datos set asegura que los nombres añadidos no se dupliquen.
- Continúe generando nombres hasta que se hayan recopilado ```n``` nombres únicos.
- Imprima cada nombre único generado por el modelo.

Ejecute el siguiente código para completar esta sección:

In [None]:
MAX_LONGITUD_NOMBRE         = 32

# Generar texto con el modelo
def generar_nombre_rnn(modelo, cadena_inicio = '', longitud = MAX_LONGITUD_NOMBRE, temperatura = 0.8):
    cadena_inicio           = '<' + cadena_inicio.lower()
    tensor_entrada          = char_a_tensor(cadena_inicio)
    oculto                  = torch.zeros(1, 1, modelo.dim_oculta)
    
    for i in range(len(cadena_inicio) - 1):
        _, oculto           = modelo(tensor_entrada[i].unsqueeze(0), oculto)
    texto_generado          = cadena_inicio[1:]
    caracter_entrada        = tensor_entrada[-1].unsqueeze(0)
    
    for _ in range(longitud):
        salida, oculto      = modelo(caracter_entrada.unsqueeze(0), oculto)
        distribucion_salida = salida.data.view(-1).div(temperatura).exp()
        indice_top          = torch.multinomial(distribucion_salida, 1)[0]
        siguiente_caracter  = int_a_char[indice_top.item()]
        if siguiente_caracter == '>':
            break
        texto_generado      += siguiente_caracter
        caracter_entrada    = char_a_tensor(siguiente_caracter)
    
    return texto_generado.capitalize()

# Generar e imprimir n nombres únicos usando el Modelo de Lenguaje RNN
def generar_nombres_unicos(modelo, cadena_inicio, n):
    nombres_unicos = set()
    while len(nombres_unicos) < n:
        nombre = generar_nombre_rnn(modelo, cadena_inicio, MAX_LONGITUD_NOMBRE)
        if '<' + nombre.lower() + '>' not in nombres:
            nombres_unicos.add(nombre)
    
    for nombre in nombres_unicos:
        print(nombre)

### 2.4 Entrenar el Modelo RNN Personalizado

En esta sección, se entrenará un modelo RNN personalizado utilizando el conjunto de datos proporcionado para aprender los patrones y la estructura subyacente de los datos de texto. Realice las siguientes operaciones en esta sección:

1. Defina los parámetros de entrenamiento para el tamaño del embedding, la dimensión oculta y el número total de épocas.
2. Inicialice el modelo, el optimizador y la función de pérdida para configurar el entrenamiento.
3. Implemente un bucle de entrenamiento para iterar sobre cada época:
- Mezcle el conjunto de datos de nombres al inicio de cada época para asegurar un orden de entrenamiento variado.
- Para cada nombre en el conjunto de datos:
    - Convierta el nombre en tensores de entrada y objetivo utilizando ```char_a_tensor()```.
    - Inicialice el estado oculto para cada nuevo nombre.
    - Reinicie los gradientes acumulados en el optimizador.
    - Para cada carácter en el tensor de entrada:
        - Realice una pasada hacia adelante a través del modelo para obtener predicciones.
        - Calcule y acumule la pérdida comparando las predicciones con los objetivos.
    - Después de procesar todo el nombre, retropropague la pérdida acumulada y actualice los parámetros del modelo.
4. Rastrear y almacenar la pérdida promedio para cada época, añadiéndola a una lista, e imprima el progreso al final de cada época.
5. Utilice ```generar_nombres_unicos()``` después de cada época para generar nombres de muestra, permitiendo observar el progreso del modelo.
6. Después de completar todas las épocas, grafique la pérdida registrada para visualizar el progreso del entrenamiento.

Ejecute el siguiente código para completar esta sección:

In [None]:
# Definir los parámetros de entrenamiento
TAMAÑO_EMBED = 32
DIM_OCULTA   = 32
EPOCAS       = 3

# Configuración del entrenamiento
modelo       = RNNPersonalizada(len(vocabulario), TAMAÑO_EMBED, DIM_OCULTA, MAX_LONGITUD_NOMBRE)
optimizador  = optim.Adam(modelo.parameters(), lr=0.005)
criterio     = nn.CrossEntropyLoss()

# Bucle de entrenamiento
perdidas     = []

for epoca in range(EPOCAS):
    perdida_total = 0
    random.shuffle(nombres)  # Mezclar el conjunto de datos para asegurar un orden diferente en cada época
    
    for nombre in nombres:
        entradas  = char_a_tensor(nombre[:-1])
        objetivos = char_a_tensor(nombre[1:])
        oculto    = torch.zeros(1, 1, DIM_OCULTA)
        optimizador.zero_grad()
        perdida   = 0
    
        for i in range(len(entradas)):
            salida, oculto = modelo(entradas[i].unsqueeze(0), oculto)
            perdida        += criterio(salida, objetivos[i].unsqueeze(0))
        
        perdida.backward()
        optimizador.step()
        perdida_total += perdida.item() / len(entradas)
    
    perdidas.append(perdida_total / len(nombres))
    print(f'Época {epoca+1}, Pérdida: {perdida_total:.4f}')
    generar_nombres_unicos(modelo, 'Joe', 10)
    print('=' * 50)

# Graficar la curva de pérdida
plt.plot(range(1, EPOCAS + 1), perdidas)
plt.xlabel('Épocas')
plt.ylabel('Pérdida')
plt.title('Pérdida de Entrenamiento')
plt.show()

>  **Nota**: Compare los nombres generados con los nombres generados anteriormente con bigramas y trigramas. Además, observe cómo el modelo se desempeña con diferentes cadenas de inicio.

## Conclusiones

¡Felicidades por completar el proyecto! Se ha realizado un excelente trabajo. Aplicar habilidades mediante proyectos prácticos como este es una excelente manera de familiarizarse con nuevas técnicas y tecnologías.

Para continuar experimentando con lo desarrollado, intente crear y optimizar otros modelos y validarlos en diversos conjuntos de datos de prueba.