## Fundamentos de LLMs

### LLM: Una Máquina de Probabilidad de Alto Nivel

Un **LLM** es un modelo que ha aprendido las **reglas estadísticas** de cómo se relacionan las palabras. Su única función es la **predicción secuencial del *token* más probable** que sigue a una entrada dada.

- **Entrenamiento:** El modelo aprende de vastas cantidades de texto prediciendo la siguiente palabra. Esto le confiere una comprensión profunda de la gramática, el estilo y las relaciones conceptuales.
- **La Salida es Probabilidad:** Cuando introduces un *prompt*, el LLM genera una **distribución de probabilidad** sobre todos los posibles *tokens* para el siguiente paso. El texto final es la selección óptima de estos *tokens* a lo largo de muchos pasos.
- Utilizamos la arquitectura **Transformer** porque su mecanismo de **Atención (*Attention*)** permite que el modelo, al generar cada *token*, pese y le asigne importancia a **todos los *tokens* anteriores** en el *prompt*. Esto le permite manejar dependencias complejas y de larga distancia, capturando el verdadero **contexto**.

### Tokens: La Unidad de Computación

- **¿Qué son?** Los *tokens* son las unidades mínimas de texto que el modelo procesa. No siempre son palabras completas; a menudo son prefijos, sufijos o partes de palabras. Por ejemplo, "desconcertante" se puede dividir en: des, concer, tante.
- **¿Por qué Tokens?** Para manejar un **vocabulario más pequeño y eficiente**. Usar palabras completas haría el vocabulario del modelo gigantesco. Los *tokens* permiten representar virtualmente cualquier palabra, incluida jerga o palabras nuevas, con un conjunto finito y manejable de unidades.

### Embeddings: El Mapa Semántico

- **¿Qué son?** Son **vectores numéricos** (listas de números) que representan el **significado semántico** de una pieza de texto (un *token*, una palabra, una frase).
- Si dos conceptos son similares (ej., "perro" y "cachorro"), sus vectores de *embedding* estarán **cerca** en un espacio multidimensional. El LLM opera en este espacio matemático de significado.
- **Uso Práctico (Búsqueda):** Los *embeddings* permiten realizar **búsquedas semánticas**. En lugar de buscar la palabra exacta ("base de datos"), se busca el significado, encontrando resultados como "almacenamiento de información" o "repositorio". 

### La Limitación Fundamental: La Ventana de Contexto

#### A. El "Por Qué" de la Limitación (Costo Computacional)

La Ventana de Contexto (el máximo de *tokens* que el LLM puede ver y generar) existe debido al **costo computacional** del mecanismo de Atención del Transformer.

- **Crecimiento Cuadrático (O(n2)):** El tiempo y la memoria necesarios para procesar la atención crecen de forma **cuadrática** con la longitud del *prompt* (n). Duplicar el *prompt* cuadriplica la exigencia de recursos.
- **Implicación:** Esto impone un límite físico (ej., 128k *tokens*) que el modelo no puede superar en una sola llamada.

#### B. La Consecuencia: LLMs son Stateless

Debido a esta limitación, el LLM es inherentemente **sin estado (*stateless*)**. Cada llamada a la API es tratada como una nueva interacción, **olvidando** todo lo que se dijo en llamadas anteriores, a menos que se le **vuelva a pasar** el historial.

### Ejemplo: llamar a un LLM usando Groq

In [None]:
import os
from groq import Groq

client = Groq(
    api_key=os.environ.get("GROQ_API_KEY"),
)

chat_completion = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "Explain the attention mechanism in transformers",
        }
    ],
    model="llama-3.3-70b-versatile",
)

print(chat_completion.choices[0].message.content)

The attention mechanism in transformers is a key component that allows the model to focus on specific parts of the input sequence when generating output. It's a powerful tool for handling sequential data, such as text, images, or audio, and has become a standard component in many state-of-the-art models.

**What is attention?**

Attention is a technique that enables the model to allocate its "attention" (or weights) to different parts of the input sequence, depending on their relevance to the task at hand. This is different from traditional recurrent neural networks (RNNs), which process the input sequence one step at a time, using the previous steps to inform the next one.

**How does attention work in transformers?**

In transformers, attention is implemented through a mechanism called self-attention. Self-attention allows the model to attend to all positions in the input sequence simultaneously and weigh their importance. The self-attention mechanism consists of three main component

## Máquina de Estado

###  ¿Qué es una Máquina de Estado?

Una **Máquina de Estado Finito (MEF)** es un modelo que describe el comportamiento de un sistema que solo puede estar en un **número limitado de situaciones** o "modos de operación" llamados **estados**.

Ejemplo: un semáforo. El semáforo no puede estar en Rojo y en Verde al mismo tiempo; solo puede estar en uno de esos estados en cualquier instante temporal.

Una máquina de estados tiene tres elementos esenciales:

- **Estados (States):** Las condiciones o modos en los que puede encontrarse el sistema (Ej: Verde, Amarillo o Rojo).
- **Eventos (Inputs):** Algo que sucede (una entrada, una señal, un tiempo transcurrido) que impulsa el cambio de estado (Ej: Transcurrieron 120 segundos).
- **Transiciones (Transitions):** Las reglas que definen el paso de un estado a otro en respuesta a un evento (Ej: Si estás en Verde y ocurre el evento Transcurrieron 120 segundos, cambias al estado Amarillo).

## LangGraph

LangGraph es un framework de orquestación de bajo nivel para construir, gestionar y desplegar agentes (y workflows) con estado y de larga ejecución.

¿Qué lo diferencia de otros frameworks como CrewAI, AutoGen, LlamaIndex, etc? LangGraph, como su nombre indica, está basado en grafos y podemos verlo también como una máquina de estado.

En su núcleo, los flujos y agentes en LangGraph funcionan como grafos. Nosotros definimos su comportamiento usando tres componentes principales:

- **State** (Estado): Estructura de dato **compartida** que representa la snapshot actual de la aplicación. Puede ser cualquier tipo de dato.
- **Nodes** (Nodos): Funciones que codifican la lógica de los agentes o los flujos. Reciben el estado actual como entrada, realizan alguna operación computacional o alguna modificación y retorna un estado actualizado.
- **Edges** (Aristas): Funciones que determinan cuál nodo ejecutar a partir del estado actual. Pueden ser ramas condicionales o transiciones fijas.


![](https://img.notionusercontent.com/s3/prod-files-secure%2Fb546fe1d-7c90-4ed3-9bfc-b9277dba7d5f%2Fc832fade-a1ca-487f-a5f1-d628a3584a22%2Fimage.png/size/w=2000?exp=1760491798&sig=-zpx9bKTcpRJOX6ouIw3wou5hUeA4sg-_T6j-l1G-iA&id=284f806c-2f03-80fa-a836-f3b542f112f7&table=block&userId=2206c248-620a-47ed-be6d-56e04275be59)

Utilizando nodos y aristas podemos crear flujos complejos y repetitivos que van evolucionando el estado en el tiempo.

En resumen: los nodos hacen el trabajo, las aristas dicen qué hacer a continuación.

El verdadero poder de LangGraph viene de cómo maneja el estado.

¿Por qué LangGraph es una máquina de estado?

Tenemos el **State:** Almacena el **contexto compartido** (p. ej., el historial de la conversación, los datos recopilados, el resultado del LLM) que es visible para todos los agentes/nodos.

Los **nodos:** Son las unidades de trabajo que modifican el estado. Cada nodo representa una **tarea de IA** o lógica (p. ej., "Generar Respuesta con LLM", "Buscar Datos en DB", "Decidir Siguiente Paso").
Y las **aristas:** Son la **lógica de control de flujo**. Determinan dinámicamente qué agente o tarea debe ejecutarse a continuación, basándose en el contenido del **`State`** actual.

Que llevándolo a los términos de una máquina de estado, son, respectivamente, los estados, las acciones y las transiciones.

En esencia: LangGraph permite construir un sistema donde un LLM o un fragmento de código (el Node) lee el State, realiza una acción, actualiza el State, y luego una función de enrutamiento (Edge) lee ese nuevo State para decidir a qué otro nodo debe pasar la ejecución. Esto crea un ciclo iterativo y dinámico que es la base de los agentes de IA complejos y las conversaciones multi-turno.

Finalmente, el último concepto fundamental para comprender de LangGraph es que es **Stateful (con estado)** porque **recuerda y utiliza información de sus interacciones o pasos anteriores** para determinar su comportamiento actual y futuro.

Se puede interpretar "stateful" así:

1. **Memoria de Corto Plazo:** El sistema no trata cada paso o interacción como algo nuevo. El componente **`State`** de LangGraph actúa como la memoria central compartida.
2. **Impacto Secuencial:** El resultado de un nodo (una acción) se guarda en el **`State`** y afecta directamente al siguiente nodo y a las transiciones (`Edges`). Por ejemplo, si un nodo decide que la respuesta del LLM es insuficiente, esa decisión se guarda en el estado, lo que lleva a un nodo de "Investigación" en lugar de un nodo de "Respuesta Final".
3. **Flujo de Larga Duración:** Permite crear agentes que tienen un **"ciclo de vida"** complejo (long-running). Un agente puede pasar por varios nodos, volver a un nodo anterior (bucle), o pausarse y reanudarse más tarde, todo gracias a que el estado se mantiene y gestiona de forma coherente.

Un sistema **stateful** puede responder a la pregunta: *"Dado lo que acabo de hacer y la información que tengo ahora, ¿cuál es mi próximo paso?"*