# Fundamentos de los LLMs

*(Tomado y adaptado del [Deep Learning Notebook](https://colab.research.google.com/github/khipu-ai/practicals-2025/blob/main/notebooks/Foundations_of_LLMs.ipynb))*

<a href="https://colab.research.google.com/github/khipu-ai/practicals-2025/blob/main/notebooks/Foundations_of_LLMs.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Abrir en Colab"/></a>


## Introducci√≥n

En este tutorial, profundizar√°s en los principios fundamentales de los *transformers* y en la tecnolog√≠a de vanguardia detr√°s de modelos como GPT.  
Tambi√©n tendr√°s experiencia pr√°ctica entrenando tu propio Modelo de Lenguaje (*Language Model*).  
Prep√°rate para explorar c√≥mo estos impresionantes sistemas de IA generan texto tan realista y atractivo.  
¬°Emprendamos juntos este emocionante viaje y descubramos los secretos de los LLMs! üöÄüìö

A lo largo del tutorial hay una mezcla de ejemplos y ejercicios:
* Los ejercicios est√°n marcados con üõ†Ô∏è
* Los ejemplos y el c√≥digo necesario para ejecutar el tutorial est√°n marcados con ‚öôÔ∏è


## ¬øQu√© aprender√°s?

### Temas

- <font color='green'> üå± Introducci√≥n: demostraci√≥n usando Hugging Face</font>  
- <font color='orange'> ü™¥ Comprensi√≥n del mecanismo de atenci√≥n (*attention*)</font>  
- <font color='orange'> ü™¥ Arquitectura Transformer</font>  
- <font color='orange'> ü™¥ Objetivo de entrenamiento</font>  
- <font color='blue'> üå≥ Entrenamiento de tu propio LLM desde cero</font>  

- <font color='green'> üå± *Finetuning* de un LLM para Clasificaci√≥n de Texto</font>

Nivel: <font color='green'>Principiante</font>, <font color='orange'>Intermedio</font>, <font color='blue'>Avanzado</font>

### Objetivos de Aprendizaje

* Comprender la idea detr√°s de [Attention](https://arxiv.org/abs/1706.03762) y por qu√© se utiliza.
* Presentar y describir los componentes fundamentales de la [Arquitectura Transformer](https://arxiv.org/abs/1706.03762) y la intuici√≥n detr√°s de su dise√±o.
* Construir y entrenar un simple LLM inspirado en Shakespeare.

## <font color='orange'> ‚ö†Ô∏è **Antes de comenzar:** </font>

Para esta pr√°ctica, necesitar√°s usar una **GPU** para acelerar el entrenamiento.  
Para activarla en Colab:
1. Ve al men√∫ "Runtime".
2. Selecciona "Change runtime type".
3. En el men√∫ emergente, elige **GPU** en la casilla "Hardware accelerator".


# Explorando Hugging Face

Antes de entrar en la parte pr√°ctica, hagamos una breve parada en el fascinante mundo de [Hugging Face](https://huggingface.co/): una plataforma abierta y colaborativa que ha revolucionado la forma en que trabajamos con modelos de lenguaje. üåê

Para empezar a calentar motores, vamos a cargar un modelo de lenguaje **peque√±o** (comparado con los gigantes actuales) y darle una instrucci√≥n sencilla.  
Esto te ayudar√° a entender c√≥mo interactuar con estas bibliotecas tan potentes.  
Con solo unas pocas l√≠neas de c√≥digo, podr√°s descubrir todo el potencial que tienen los modelos de lenguaje. üí°

<img src="https://huggingface.co/datasets/huggingface/brand-assets/resolve/main/hf-logo.png" width="10%">

---

## ¬øQu√© es Hugging Face?

[Hugging Face](https://huggingface.co/) naci√≥ en 2016 con una misi√≥n muy clara:  
**"Hacer que el *machine learning* de calidad sea accesible para todos, un *commit* a la vez."**

Hoy en d√≠a es un recurso incre√≠ble para trabajar con modelos de lenguaje y no solo eso:  
- Han desarrollado varias bibliotecas de c√≥digo abierto.  
- Permiten usar f√°cilmente modelos *transformers* preentrenados (de texto, im√°genes, audio y m√°s).  
- Tambi√©n ofrecen datasets listos para entrenar o ajustar (*fine-tuning*) estos modelos.  

Su software se usa much√≠simo en la industria y en investigaci√≥n.  
Si quieres profundizar m√°s en su historia y en c√≥mo se usan, puedes revisar [este pr√°ctico de 2022 sobre atenci√≥n y transformers](https://colab.research.google.com/github/deep-learning-indaba/indaba-pracs-2022/blob/main/practicals/attention_and_transformers.ipynb#scrollTo=qFBw8kRx-4Mk).

---

### Entonces‚Ä¶ ¬ølisto/a para empezar?  
Vamos a dar nuestros primeros pasos con Hugging Face y a jugar un poco con un modelo de lenguaje. ¬°Manos a la obra!


In [None]:
#@title ‚öôÔ∏è Instalaci√≥n e importaci√≥n de librer√≠as

# Instalamos las librer√≠as necesarias para deep learning, NLP y visualizaci√≥n
!pip install transformers datasets      # Transformers y datasets: modelos y datos para tareas de NLP
!pip install seaborn umap-learn         # Seaborn para gr√°ficas, UMAP para reducci√≥n de dimensionalidad
!pip install livelossplot               # LiveLossPlot para monitorear el progreso del entrenamiento
!pip install -q transformers[torch]     # Transformers con backend de PyTorch
!pip install -q peft                    # PEFT: Fine-tuning eficiente en par√°metros
!pip install accelerate -U              # Accelerate: optimizaci√≥n de rendimiento en entrenamiento
!pip install gensim
# Herramientas adicionales para depuraci√≥n y formato en consola
!pip install -q ipdb                    # Depurador interactivo de Python
!pip install -q colorama                # Texto con colores en la terminal

# --- Importaci√≥n de librer√≠as y configuraciones ---

# Utilidades del sistema y matem√°ticas b√°sicas
import os
import math
import urllib.request

# Verificamos si hay aceleradores conectados (GPU o TPU)
if os.environ.get("COLAB_GPU") and int(os.environ["COLAB_GPU"]) > 0:
    print("Hay una GPU conectada.")
elif "COLAB_TPU_ADDR" in os.environ and os.environ["COLAB_TPU_ADDR"]:
    print("Hay una TPU conectada.")
    import jax.tools.colab_tpu
    jax.tools.colab_tpu.setup_tpu()
else:
    print("Solo hay CPU disponible.")

# Evitamos que JAX reserve toda la memoria de la GPU autom√°ticamente
os.environ['XLA_PYTHON_CLIENT_PREALLOCATE'] = "false"

# Librer√≠as para deep learning con JAX
import chex
import flax
import flax.linen as nn
import jax
import jax.numpy as jnp
from jax import grad, jit, vmap
import optax

# Librer√≠as para NLP y modelos preentrenados
import transformers
from transformers import pipeline, AutoTokenizer, AutoModel
import datasets
import peft

# Procesamiento de im√°genes y visualizaci√≥n
from PIL import Image
from livelossplot import PlotLosses
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

# Utilidades adicionales para trabajar con texto y modelos
import torch
import torchvision
import itertools
import random
import copy

# Descargamos una imagen de ejemplo para usar en el notebook
urllib.request.urlretrieve(
    "https://images.unsplash.com/photo-1529778873920-4da4926a72c2?ixlib=rb-1.2.1&ixid=MnwxMjA3fDB8MHxzZWFyY2h8MXx8Y3V0ZSUyMGNhdHxlbnwwfHwwfHw%3D&w=1000&q=80",
    "cat.png",
)

# Preprocesamiento de texto y modelos preentrenados (Word2Vec, etc.)
import gensim
from nltk.data import find
import nltk
nltk.download("word2vec_sample")

# Herramientas de Hugging Face y widgets para interacci√≥n en notebooks
import huggingface_hub
import ipywidgets as widgets
from IPython.display import display
import colorama

# Configuramos Matplotlib para generar gr√°ficas en formato SVG (mejor calidad)
%config InlineBackend.figure_format = 'svg'


Hay una GPU conectada.


[nltk_data] Downloading package word2vec_sample to /root/nltk_data...
[nltk_data]   Unzipping models/word2vec_sample.zip.


In [None]:
#@title ‚öôÔ∏è Funciones auxiliares para graficar

def plot_position_encodings(P, max_tokens, d_model):
    """
    Grafica la matriz de codificaciones posicionales.

    Par√°metros:
        P: Matriz de codificaciones posicionales (arreglo 2D).
        max_tokens: N√∫mero m√°ximo de tokens (filas) a graficar.
        d_model: Dimensionalidad del modelo (columnas) a graficar.
    """

    # Ajustamos el tama√±o de la figura seg√∫n el n√∫mero de tokens y dimensiones
    plt.figure(figsize=(20, np.min([8, max_tokens])))

    # Graficamos la matriz de codificaciones posicionales con un mapa de colores
    im = plt.imshow(P, aspect="auto", cmap="Blues_r")

    # Agregamos una barra de color para indicar los valores de las codificaciones
    plt.colorbar(im, cmap="blue")

    # Mostramos los √≠ndices de las dimensiones (ejes x) si la dimensionalidad es peque√±a
    if d_model <= 64:
        plt.xticks(range(d_model))

    # Mostramos los √≠ndices de las posiciones (eje y) si el n√∫mero de tokens es peque√±o
    if max_tokens <= 32:
        plt.yticks(range(max_tokens))

    # Etiquetamos los ejes
    plt.xlabel("√çndice de la incrustaci√≥n (embedding)")
    plt.ylabel("√çndice de la posici√≥n")

    # Mostramos la gr√°fica
    plt.show()


def plot_image_patches(patches):
    """
    Recibe una lista o arreglo de parches de imagen y los grafica.

    Par√°metros:
        patches: Lista o arreglo de parches de imagen a graficar.
    """

    # Configuramos la figura para graficar los parches
    fig = plt.figure(figsize=(25, 25))

    # Creamos un subplot para cada parche y lo mostramos
    axes = []
    for a in range(patches.shape[1]):
        axes.append(fig.add_subplot(1, patches.shape[1], a + 1))
        plt.imshow(patches[0][a])

    # Ajustamos el dise√±o para evitar superposici√≥n y mostramos la gr√°fica
    fig.tight_layout()
    plt.show()


def plot_projected_embeddings(embeddings, labels):
    """
    Proyecta embeddings de alta dimensi√≥n a un espacio 2D y los grafica.

    Par√°metros:
        embeddings: Vectores de alta dimensi√≥n a proyectar.
        labels: Etiquetas correspondientes a cada embedding para colorear los puntos.
    """

    # Importamos UMAP y Seaborn para reducci√≥n de dimensionalidad y graficado
    import umap
    import seaborn as sns

    # Reducimos la dimensionalidad a 2D usando UMAP
    projected_embeddings = umap.UMAP().fit_transform(embeddings)

    # Graficamos las proyecciones 2D con Seaborn para mejor est√©tica
    plt.figure(figsize=(15, 8))
    plt.title("Proyecci√≥n de los embeddings de texto")
    sns.scatterplot(
        x=projected_embeddings[:, 0], y=projected_embeddings[:, 1], hue=labels
    )

    # Mostramos la gr√°fica
    plt.show()


def plot_attention_weight_matrix(weight_matrix, x_ticks, y_ticks):
    """
    Grafica una matriz de pesos de atenci√≥n con etiquetas personalizadas en los ejes.

    Par√°metros:
        weight_matrix: Matriz de pesos de atenci√≥n a graficar.
        x_ticks: Etiquetas para el eje x (normalmente tokens de consulta o query).
        y_ticks: Etiquetas para el eje y (normalmente tokens clave o key).
    """

    # Ajustamos el tama√±o de la figura
    plt.figure(figsize=(15, 7))

    # Graficamos la matriz de pesos de atenci√≥n como un mapa de calor
    ax = sns.heatmap(weight_matrix, cmap="Blues")

    # Colocamos etiquetas personalizadas en los ejes
    plt.xticks(np.arange(weight_matrix.shape[1]) + 0.5, x_ticks)
    plt.yticks(np.arange(weight_matrix.shape[0]) + 0.5, y_ticks)

    # Etiquetamos la gr√°fica
    plt.title("Matriz de atenci√≥n")
    plt.xlabel("Puntaje de atenci√≥n")

    # Mostramos la gr√°fica
    plt.show()


In [None]:
#@title ‚öôÔ∏è Funciones auxiliares para procesamiento de texto

def get_word2vec_embedding(words):
    """
    Obtiene los embeddings de una lista de palabras usando un modelo
    preentrenado de word2vec.

    Par√°metros:
        words: Lista de palabras a convertir en embeddings.

    Retorna:
        embeddings: Arreglo con los vectores de embeddings.
        words_pass: Lista de palabras que fueron procesadas correctamente.
    """

    # Cargamos un modelo word2vec de ejemplo incluido en NLTK
    word2vec_sample = str(find("models/word2vec_sample/pruned.word2vec.txt"))
    model = gensim.models.KeyedVectors.load_word2vec_format(
        word2vec_sample, binary=False
    )

    output = []
    words_pass = []
    for word in words:
        try:
            # Si la palabra existe en el modelo, obtenemos su embedding
            output.append(jnp.array(model.word_vec(word)))
            words_pass.append(word)
        except:
            # Si la palabra no est√° en el vocabulario, la ignoramos
            pass

    embeddings = jnp.array(output)
    del model  # Liberamos memoria
    return embeddings, words_pass


def remove_punctuation(text):
    """
    Elimina todos los signos de puntuaci√≥n de un texto.

    Par√°metros:
        text: Cadena de texto de entrada.

    Retorna:
        Texto limpio sin puntuaci√≥n.
    """
    import re
    text = re.sub(r"[^\w\s]", "", text)
    return text


def print_sample(prompt: str, sample: str):
    """
    Imprime un ejemplo con el prompt y la respuesta del modelo,
    usando colores diferentes para distinguirlos visualmente.

    Par√°metros:
        prompt: Instrucci√≥n o entrada dada al modelo.
        sample: Respuesta generada por el modelo.
    """
    print(colorama.Fore.MAGENTA + prompt, end="")
    print(colorama.Fore.BLUE + sample)
    print(colorama.Fore.RESET)


### Demostraci√≥n de LLM: Cargar e interactuar con un modelo de Hugging Face

Veamos lo sencillo que es cargar e interactuar con un modelo desde Hugging Face.

Para este tutorial, hemos preconfigurado dos opciones de modelos:

- **`gpt-neo-125M`**: Un modelo peque√±o con 125 millones de par√°metros. Es r√°pido y consume poca memoria, ideal para empezar. Recomendamos probar este primero.
- **`gpt2-medium`**: Un modelo m√°s grande con 355 millones de par√°metros, √∫til si quieres respuestas un poco m√°s sofisticadas.

Si deseas cambiar de modelo, basta con reiniciar el kernel de Colab y actualizar el nombre del modelo en la celda correspondiente.

**Nota**: Estos pasos no solo funcionan con estos dos modelos, sino tambi√©n con [todos los modelos](https://huggingface.co/models?pipeline_tag=text-generation) de Hugging Face que soporten el pipeline de generaci√≥n de texto.


In [None]:
#@markdown En este Colab, imprimimos los *prompts* en <font color='HotPink'><b>rosa</b></font> y las respuestas generadas por el modelo en <font color='blue'><b>azul</b></font>, como en el ejemplo siguiente:

print_sample(prompt='Mi prompt falso', sample=' es genial!')


[35mMi prompt falso[34m es genial!
[39m


In [None]:
#@title ‚öôÔ∏è Demo
#@markdown Datasets Package - <font color='blue'>`Beginner`</font>

# Set the model name to "EleutherAI/gpt-neo-125M" (this can be changed via the dropdown options)
MODEL_NAME = "gpt2-medium"  # @param ["gpt2-medium", "EleutherAI/gpt-neo-125M"]

# Define the prompt for the text generation model
test_prompt = 'What is love?'  # @param {type: "string"}

# Create a text generation pipeline using the specified model
generator = transformers.pipeline('text-generation',
                                  model=MODEL_NAME)

# Generate text based on the provided prompt
# 'do_sample=True' enables sampling to introduce randomness in generation, and 'min_length=30' ensures at least 30 tokens are generated
model_output = generator(test_prompt, do_sample=True, min_length=30)

# Print the generated text sample, removing the original prompt from the output
print_sample(test_prompt, model_output[0]['generated_text'].split(test_prompt)[1].rstrip())

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/718 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.52G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Device set to use cuda:0
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[35mWhat is love?[34m What is happiness?"

"Love is the love of others and the love of the soul."

"Love is the freedom of the soul and the freedom of heart."

"Love is the love of the heart and the freedom of the body."

"Love is the love of the soul and the freedom of the body."

The Church has always taught that the essential aim of life is to attain to the unity of life, and that the life of the soul is a constant union with the life of the body in order to achieve the unity of life. The Church has always called love the supreme, the supreme goal of all human life.

"The Church believes that the greatest of all human aims is to attain to a union of the soul with the body, the union of the body with the soul, the union of the soul with God."

"The Church will never allow anything to stand in the way of that union."

"Whoever, however, desires to make a union of the body and the soul, it is not enough for the soul to love the body, but she must also love God."

"The love of God doe

**Consejo:** Prueba ejecutar el c√≥digo anterior con diferentes *prompts* o incluso con el mismo *prompt* varias veces.

**Para reflexionar:** ¬øPor qu√© crees que el texto generado cambia cada vez, incluso cuando usas el mismo *prompt*?  
Escribe tu respuesta en el campo de entrada de abajo y comparte tu opini√≥n con tu compa√±ero/a.


In [None]:
#@title ‚öôÔ∏è Personaliza tu pipeline de generaci√≥n de texto

def get_model_and_tokenizer(model_name: str):
    """
    Dado el nombre de un modelo, carga el modelo y el tokenizador correspondientes.

    Par√°metros:
        model_name: Nombre del modelo a cargar.

    Retorna:
        model: El modelo de lenguaje que usaremos para generar texto.
        tokenizer: El tokenizador que convierte texto en el formato que el modelo entiende.
    """
    match model_name:
        case 'gpt2-medium':
            # Cargamos el tokenizador y modelo GPT-2
            tokenizer = transformers.GPT2Tokenizer.from_pretrained(model_name)
            model = transformers.GPT2LMHeadModel.from_pretrained(model_name)
        case 'EleutherAI/gpt-neo-125M':
            tokenizer = transformers.AutoTokenizer.from_pretrained(model_name)
            model = transformers.AutoModelForCausalLM.from_pretrained(model_name)
        case _:
            raise NotImplementedError(f'El modelo {model_name} no est√° reconocido')

    # Si hay GPU disponible, movemos el modelo a la GPU para acelerar el procesamiento
    if torch.cuda.is_available():
        model = model.to("cuda")

    # Ajustamos el token de padding para que sea igual al token de fin de secuencia
    tokenizer.pad_token_id = tokenizer.eos_token_id

    return model, tokenizer


def run_sample(
    model_name: str,
    prompt: str,
    seed: int | None = None,
    temperature: float = 0.6,
    top_p: float = 0.9,
    max_new_tokens: int = 64,
) -> str:
    """
    Ejecuta el modelo para generar texto a partir de un prompt.

    Esta funci√≥n genera texto usando un modelo de lenguaje, con opciones para controlar
    la aleatoriedad, la cantidad m√°xima de tokens generados y la reproducibilidad.

    Par√°metros:
        model_name: Nombre del modelo a usar.
        prompt: Texto de entrada para que el modelo comience la generaci√≥n.
        seed: N√∫mero para fijar la semilla y hacer los resultados reproducibles (opcional).
        temperature: Controla la aleatoriedad en la generaci√≥n; valores bajos dan texto m√°s predecible.
        top_p: Controla la diversidad considerando solo las palabras m√°s probables hasta cubrir este porcentaje.
        max_new_tokens: M√°ximo n√∫mero de tokens a generar luego del prompt.

    Retorna:
        Texto generado por el modelo.
    """
    model, tokenizer = get_model_and_tokenizer(model_name)

    # Convertimos el texto del prompt a tokens que el modelo pueda procesar
    inputs = tokenizer(prompt, return_tensors="pt")

    # Extraemos los IDs de los tokens y la m√°scara de atenci√≥n
    input_ids = inputs["input_ids"]
    attention_mask = inputs["attention_mask"]

    # Movemos los tensores al dispositivo donde est√° el modelo (GPU o CPU)
    input_ids = input_ids.to(model.device)
    attention_mask = attention_mask.to(model.device)

    # Configuramos los par√°metros para la generaci√≥n de texto
    generation_config = transformers.GenerationConfig(
        do_sample=True,          # Permite que el modelo genere con aleatoriedad
        temperature=temperature, # Controla cu√°n aleatorio es el resultado (m√°s bajo = menos aleatorio)
        top_p=top_p,             # Considera solo el conjunto de palabras que cubren top_p de probabilidad
        pad_token_id=tokenizer.pad_token_id, # Token para padding
        top_k=0,                 # No limitamos la cantidad top_k de palabras
    )

    # Si se fija una semilla, la configuramos para que la generaci√≥n sea reproducible
    if seed is not None:
        torch.manual_seed(seed)

    # Generamos texto con el modelo y las configuraciones definidas
    generation_output = model.generate(
        input_ids=input_ids,
        attention_mask=attention_mask,
        return_dict_in_generate=True,
        output_scores=True,
        max_new_tokens=max_new_tokens,
        generation_config=generation_config,
    )

    # Nos aseguramos que solo se haya generado una secuencia para simplificar
    assert len(generation_output.sequences) == 1

    # Obtenemos la secuencia generada
    output_sequence = generation_output.sequences[0]

    # Decodificamos los tokens generados a texto legible
    output_string = tokenizer.decode(output_sequence)

    # Imprimimos el prompt y la respuesta generada con colores para distinguirlos
    print_sample(prompt, output_string)

    # Retornamos el texto generado
    return output_string


In [None]:
_ = run_sample(model_name=MODEL_NAME, prompt="What is love?", temperature = 0.5, seed=2)

[35mWhat is love?[34mWhat is love? It is the love that is given to another, the love that is given to you, the love that is given to me. I love you.

Love is the love that is given to another, the love that is given to you, the love that is given to me.

Love is the love
[39m


Es bastante impresionante, cierto? Prueba a jugar con los valores de **prompt**, **temperature** y **seed** en el c√≥digo anterior y observa las diferentes respuestas que obtienes. ¬øQu√© notas cuando aumentas la temperatura?

Aunque esto pudo parecer revolucionario en 2021, probablemente muchos de ustedes ya han interactuado con modelos de lenguaje grandes de alguna forma. Hoy vamos a dar un paso m√°s all√° y entrenaremos nuestro propio **modelo de lenguaje inspirado en Shakespeare**. Esto nos permitir√° entender de manera pr√°ctica c√≥mo funcionan estos modelos por dentro.

Pero antes de comenzar con el entrenamiento, construyamos una base s√≥lida sobre qu√© son los **Modelos de Lenguaje Grandes (LLMs)** y los conceptos clave de **Aprendizaje Autom√°tico** que hacen posible esta tecnolog√≠a innovadora. En el n√∫cleo de los modelos LLM de √∫ltima generaci√≥n est√°n el **Mecanismo de Atenci√≥n** y la **Arquitectura Transformer**. Exploraremos estos conceptos esenciales en las siguientes secciones de este tutorial.
