# Taller 1 - Generative AI With Large Language Models
---

- En este taller se evaluarán los conceptos relacionados a la implementacion y entrenamiento de modelos del lenguaje aproximados
con redes neuronales.
- Éste taller lo pueden realizar en grupos de máximo dos (2) estudiantes.
- Debe completar el taller y entregarlo maximo hasta las **23:59 del 31 de Octubre de 2025**.
- El taller resuelto debe ser enviado por medio de [este formulario](https://forms.gle/3paSR9Tu6n9zrj8a7).

Comenzamos instalando las librerias necesarias para este taller:

In [None]:
!pip install uv
!uv pip install transformers[torch] xformers sentencepiece sacremoses datasets tokenizers

Ahora, importamos algunas utilidades necesarias:

In [None]:
from IPython.display import display
from datasets import Dataset
from torch.nn import Module

## 1. Carga de Datos
---

En este caso utilizaremos el conjunto de datos disponible en [éste enlace](https://huggingface.co/datasets/juselara1/mlds7_codedata).

Debe utilizar la librería `datasets` para cargar el conjunto de datos. Implemente la función `get_data`:

In [None]:
def get_data() -> Dataset:
    """
    Implemente esta función para descargar el conjunto de datos especificado utilizando la librería
    `datasets`.

    :return: Conjunto de datos cargado.
    :rtype: Dataset
    """
    ...

Utilice la siguiente celda para validar que su implementación funciona:

In [None]:
data = get_data()
display(data)

## 2. Preparación de los Datos
---

Implemente la función `prepare_data` para transformar el dataset de la siguiente forma:

1. Una los campos `instruction` y `output` en un único campo llamado `code`.
2. Filtre los documentos que contengan la palabra `python` (no debe importar si esta palabra se encuentra en mayúscula o minúscula)

In [None]:
def transform_data(ds: Dataset) -> Dataset:
    """
    Implemente esta función para transformar el conjunto de datos original en un nuevo conjunto de datos con las especificaciones dadas.
    El resultado debe ser un nuevo `Dataset`.

    :param ds: Dataset original.
    :type ds: Dataset
    :return: Dataset transformado.
    :rtype: Dataset
    """
    ...

Utilice la siguiente celda para validar que su implementación funciona:

In [None]:
transformed_data = transform_data(data)
display(transformed_data)

## 3. Tokenización
---

Implemente la función `tokenize` para obtener una versión tokenizada de los datos. Para esto debe utilizar la librería `tokenizers` y
cargar el modelo `Salesforce/codegen-350M-mono`. Tenga en cuenta las siguientes consideraciones:

1. Configure una longitud máxima de contexto de 128 tokens.
2. Debe obtener un nuevo dataset con el campo `input_ids` el cual contenga los tokens (en su version numérica) como arreglos en `torch`.

In [None]:
def tokenize(ds: Dataset) -> Dataset:
    """
    Implemente esta función para tokenizar el conjunto de datos en un nuevo conjunto de datos con las especificaciones dadas.
    El resultado debe ser un nuevo `Dataset`.

    :param ds: Dataset original.
    :type ds: Dataset
    :return: Dataset transformado.
    :rtype: Dataset
    """
    ...

Utilice la siguiente celda para validar que su implementación funciona:

In [None]:
tokenized_data = tokenize(transformed_data)
display(tokenized_data)

## 4. Modelo Pre-Entrenado
---

Implemente la función `load_model` para cargar el modelo `Salesforce/codegen-350M-mono` utilizando la librería `transformers`.

- Recuerde especificar el tamaño del contexto al momento de crear el modelo.
- El modelo lo debe cargar dentro de la GPU.

In [None]:
def load_model() -> Module:
    """
    Implemente esta función para cargar el modelo pre-entrenado usando `transformers` y `torch`.

    :return: Modelo cargado como un modulo de `torch`.
    :rtype: Module
    """
    ...

Utilice la siguiente celda para validar que su implementación funciona:

In [None]:
model = load_model()
display(model)

## 5. Entrenamiento.
---

Implemente la función `train_model` para entrenar el modelo con los datos dados. Experimente con los hiper-parámetros y utilice una precisión
numérica de 16bits. Recuerde guardar el modelo en una carpeta específica para su posterior uso.

In [None]:
def train_model(model: Module, data: Dataset) -> None:
    """
    Implemente esta función para entrenar el modelo con los datos preparados.

    :param model: Modelo a entrenar.
    :type model: Module
    :param data: Conjunto de datos a usar.
    :type data: Dataset.
    """
    ...

Utilice la siguiente celda para validar que su implementación funciona:

In [None]:
train_model(model, data)

## 6. Implementación
---

Utilice la librería `transformers` para cargar el modelo entrenado como un `pipeline. Implemente la función `generate`
para generar texto a partir de un texto base y del modelo entrenado.

In [None]:
def generate(text: str, model_path: str) -> str:
    """
    Implemente esta función para generar texto.

    :param text: Texto base para iniciar la generación.
    :type text: str
    :param model_path: Ruta del modelo a cargar.
    :type model_path: str
    :return: Texto generado.
    :rtype: str
    """
    ...

Utilice la siguiente celda para validar que su implementación funciona.

> **Nota**: cambie el model path de acuerdo a la ruta que usó para guardar el modelo.

In [None]:
print(generate("Write a Python function to convert a given string to lowercase.\n", "./model/checkpoint-585"))