# Como funcionan los LLM
Los LLM (Modelos de Lenguaje de Gran Tama√±o) son una clase de modelos de inteligencia artificial dise√±ados para comprender y generar texto en lenguaje natural. Funcionan gracias a una arquitectura llamada **Transformers**, introducida por Google en 2017.

## 1. **Entrenamiento con grandes cantidades de texto**
Un LLM es entrenado con billones de palabras extra√≠das de libros, art√≠culos, sitios web y otros documentos. Durante este proceso, el modelo aprende a **predecir la siguiente palabra** dado un contexto. Por ejemplo, si se le da "El cielo est√°", el modelo aprende que lo m√°s probable es que la siguiente palabra sea "azul".

## 2. **Tokens, no palabras**
En lugar de procesar palabras enteras, los LLM trabajan con *tokens*, que pueden ser palabras, fragmentos de palabras o incluso caracteres. Esto les permite manejar vocabularios m√°s amplios y comprender mejor estructuras gramaticales complejas.

## 3. **Representaci√≥n num√©rica**
Cada token es transformado en un vector de n√∫meros mediante una capa de *embedding*. Estos vectores permiten representar relaciones sem√°nticas: por ejemplo, los vectores de "rey" y "reina" estar√°n cerca en el espacio matem√°tico.

## 4. **Arquitectura Transformer**
La clave del √©xito de los LLM est√° en los *Transformers*. Su componente principal es el **self-attention**, que permite que el modelo considere todas las palabras del contexto al mismo tiempo, asignando distintos pesos a cada una dependiendo de su relevancia. Esto lo hace extremadamente eficaz para comprender el significado de una oraci√≥n en su totalidad.
## 5. **Generalizaci√≥n y generaci√≥n**
Una vez entrenado, el modelo puede generalizar a textos nunca vistos. Por ejemplo, puede generar respuestas, traducir idiomas, resumir textos o responder preguntas. Todo esto se logra simplemente prediciendo token por token cu√°l es la salida m√°s probable dada la entrada.

```mermaid
graph LR
    A(Prompt) --> B(Tokenizaci√≥n)
    B --> C1(Embeddings)
    C1 --> C2(Atenci√≥n)
    C2 --> C3(Transformers)
    C3 --> D[Distribuci√≥n de Probabilidad]
    D --> E(Selecci√≥n / Decodificaci√≥n)
    E --> F(Texto Generado)

    subgraph Magia_del_Modelo [Magia del Modelo]
        direction TB
        C1
        C2
        C3
    end

    style A fill:#f9f,stroke:#333,stroke-width:2px
    style F fill:#ccf,stroke:#333,stroke-width:2px
    style Magia_del_Modelo fill:#ff9,stroke:#333,stroke-width:2px,color:#000
    style D fill:#fec,stroke:#333,stroke-width:1px
    style E fill:#bfb,stroke:#333,stroke-width:1px
```

# Tipos de Modelos LLM, SLM y Modelos Locales

## üß† 1. **LLM (Large Language Models) en la nube**
Estos modelos son alojados por grandes empresas tecnol√≥gicas y requieren conexi√≥n a internet. Son potentes y ofrecen capacidades de razonamiento, generaci√≥n y comprensi√≥n avanzadas.

| Modelo        | Proveedor        | Observaciones |
|---------------|------------------|----------------|
| GPT-4 / GPT-3.5 | OpenAI (Azure o API directa) | GPT-4 es multimodal y m√°s preciso, pero m√°s costoso |
| Claude 3       | Anthropic        | Enfocado en seguridad, excelente en instrucciones complejas |
| Gemini 1.5     | Google (ex Bard) | Fuerte en tareas razonadas, multimodal |
| Mistral API    | Mistral.ai       | Modelos como Mistral 7B y Mixtral (MoE), ligeros y r√°pidos |
| Command R+     | Cohere           | Optimizado para RAG (Retrieval-Augmented Generation) |
| LLaMA 2/3      | Meta (a trav√©s de servicios como Together.ai) | Open-weight pero generalmente servidos v√≠a API |
| Jurassic       | AI21 Labs        | Compatible con tareas tipo GPT |

---

## üß™ 2. **SLM (Small Language Models)**
Modelos m√°s peque√±os, ideales para despliegue en entornos con recursos limitados o tareas espec√≠ficas.

| Modelo        | Tama√±o (Par√°metros) | Observaciones |
|---------------|---------------------|----------------|
| TinyLLaMA     | 1.1B                | Entrenado en bajo costo, ideal para m√≥viles o edge |
| Phi-2         | 2.7B                | Microsoft. Excelente rendimiento para su tama√±o |
| Gemma         | 2B / 7B             | Google. Enfocado en eficiencia y open-source |
| Mistral 7B    | 7B                  | Alta calidad y velocidad, muy vers√°til |
| Falcon 1B/7B  | 1B / 7B             | Modelos eficientes lanzados por TII (EAU) |
| Orca 2        | 7B+                 | Fine-tuned para habilidades de razonamiento |

---

## üè° 3. **Modelos Locales (para ejecutar en tu m√°quina)**
Perfectos para entornos sin conexi√≥n o donde necesitas control total. Se usan con herramientas como `llama.cpp`, `Ollama`, `LM Studio`, `Text Generation Web UI`, etc.

| Modelo        | Plataforma de soporte | Requisitos |
|---------------|------------------------|-------------|
| LLaMA 2 / 3    | `llama.cpp`, Ollama    | GPU recomendada para 13B+ |
| Mistral 7B     | Ollama, `gguf`, LM Studio | Muy popular y balanceado |
| Gemma          | Ollama, Hugging Face  | Puede correr sin GPU en CPUs modernas |
| TinyLLaMA      | `llama.cpp`, Web UI   | Extremadamente liviano |
| OpenHermes     | Web UI, Ollama        | Variante fine-tuned con instrucciones |
| Neural Chat    | Intel/OpenVINO        | Optimizados para CPUs Intel |
| Phi-2          | `transformers`, ONNX  | Muy r√°pido con aceleraci√≥n CPU |
| StarCoder      | Ollama, Web UI        | Ideal para tareas de codificaci√≥n |

---

**Nota:** Para correr modelos localmente de forma eficiente, se recomienda usar versiones en formato `GGUF` con `llama.cpp` o `Ollama`, que permite cargar modelos optimizados para tu CPU o GPU.



# üêç Librer√≠as en Python para usar LLMs
Aqu√≠ est√°n las principales librer√≠as para trabajar con modelos de lenguaje desde Python, ya sea conect√°ndote a servicios externos o ejecut√°ndolos localmente:
## üîå 1. **Uso de LLMs v√≠a API (OpenAI, Anthropic, Cohere, etc.)**

| Librer√≠a        | Descripci√≥n |
|-----------------|-------------|
| `openai`        | Cliente oficial para usar GPT-3.5 / GPT-4 con la API de OpenAI. |
| `anthropic`     | Cliente oficial para usar los modelos Claude (Claude 1, 2, 3). |
| `google.generativeai` | Cliente de Gemini (antes Bard). |
| `cohere`        | Cliente para los modelos Command-R, muy √∫til en RAG. |
| `transformers` (con `text-generation-inference`) | Puede conectarse a servidores remotos de modelos tipo Hugging Face. |
| `httpx` / `requests` | Para hacer llamadas directas a APIs REST de cualquier proveedor. |

---

## üß† 2. **Uso de modelos open-source y locales**

| Librer√≠a            | Descripci√≥n |
|---------------------|-------------|
| `transformers` (Hugging Face) | La librer√≠a m√°s completa para cargar y usar modelos como GPT-2, LLaMA, Falcon, etc. |
| `accelerate`        | Optimiza la carga y ejecuci√≥n de modelos grandes en CPU o GPU. |
| `llama-cpp-python`  | Python bindings para `llama.cpp`, permite correr modelos como LLaMA, Mistral en CPU o GPU. |
| `ollama`            | Usa modelos locales f√°cilmente con una API local (`http://localhost:11434/api`). |
| `ctransformers`     | Ejecuta modelos ligeros (como GGML/GGUF) sin necesidad de GPU. |
| `vllm`              | Ejecuta LLMs con alta eficiencia en GPU, ideal para servir modelos grandes. |
| `langchain`         | Framework para orquestar LLMs, hacer chains, memory, agentes, etc. |
| `llama-index` (ex GPT Index) | Facilita el uso de LLMs para RAG (b√∫squeda aumentada por recuperaci√≥n). |

---

## üõ†Ô∏è 3. **Complementos √∫tiles**

| Librer√≠a     | Uso |
|--------------|-----|
| `gradio`     | Crear interfaces web para probar modelos f√°cilmente. |
| `streamlit`  | Ideal para dashboards interactivos con LLMs. |
| `pydantic`   | Validaci√≥n de datos para entradas/salidas con LLMs. |
| `dotenv`     | Manejo de claves API de forma segura. |

---

# üìå Ejemplos pr√°cticos

A continuaci√≥n puedes consultar ejemplos pr√°cticos de c√≥mo interactuar con LLMs desde Python utilizando dos APIs diferentes:

- ü§ñ [Ejemplo usando la API de Gemini](./code_example/01_hello_world_gemini.ipynb)
- üß† [Ejemplo usando la API de OpenAI](./code_example/01_hello_world_openai.ipynb)

Tambi√©n puedes explorar c√≥mo manejar respuestas **en tiempo real (streaming)**:

- üì° [Streaming con OpenAI (respuesta progresiva)](./code_example/02_chat_stream_openai.ipynb)
- üö´ [Intento de streaming con Gemini (no soportado)](./code_example/02_chat_stream_gemini.ipynb)

Todos los ejemplos siguen la misma l√≥gica: configurar el modelo, enviar una entrada con una instrucci√≥n de sistema (prompt), y generar una respuesta. La diferencia est√° en la librer√≠a usada y el proveedor del modelo

---
# üõ†Ô∏è Maneras de mejorar el output de un LLM

## üéØ Prompt Engineering
## üé≠ Roles en la API de OpenAI

Cuando trabajas con `chat.completions` en la API de OpenAI (por ejemplo con modelos como GPT-3.5 o GPT-4), se utiliza una conversaci√≥n estructurada con distintos **roles**. Cada rol tiene un prop√≥sito espec√≠fico en el flujo del chat.

---

### üî∞ Roles disponibles

| Rol         | Descripci√≥n                                                                 |
|-------------|-----------------------------------------------------------------------------|
| `system`    | Define el comportamiento, tono o personalidad del modelo.                  |
| `user`      | Representa lo que el usuario est√° preguntando o solicitando.               |
| `assistant` | Representa la respuesta previa del modelo, √∫til para mantener el contexto. |

---

### üß© ¬øPara qu√© sirve cada uno?

#### üß† `system`
Este mensaje sirve para establecer el **contexto inicial**. Puedes definir el rol del modelo, su estilo de respuesta, conocimientos preferidos o su actitud.

```json
{ "role": "system", "content": "Eres un nutricionista que da consejos para una dieta saludable sin mencionar carne roja." }
```

---

## üåü Roles en la API de Gemini

Al trabajar con modelos de Gemini (como `gemini-1.5-pro`) a trav√©s de la librer√≠a `google.generativeai`, la estructura de los mensajes tambi√©n incluye roles, aunque con algunas diferencias respecto a OpenAI.

---

### üî∞ Roles disponibles

| Rol   | Descripci√≥n                                                           |
|--------|-----------------------------------------------------------------------|
| `user` | Mensajes enviados por el usuario, los que contienen las preguntas.    |
| `model` (opcional en input) | Mensajes generados por el modelo, √∫tiles si deseas mantener contexto.   |
| `system` | No es parte de los mensajes, sino una **instrucci√≥n separada** llamada `system_instruction`. |

---

### üß© ¬øPara qu√© sirve cada uno?

#### üßë‚Äçüíª `user`
Representa el texto de entrada o prompt enviado al modelo. Por ejemplo:

```python
contents = [{"role": "user", "parts": [{"text": "¬øCu√°l es la ra√≠z cuadrada de 144?"}]}]
```

## üß™ Few-shot Examples
Demostrarle al modelo c√≥mo deber√≠a verse la salida proporcionando uno o m√°s ejemplos dentro del prompt.

---

### ü§ñ En OpenAI

En la API de OpenAI, puedes usar el rol `assistant` para mostrar ejemplos previos junto con el usuario (`user`). Esto le ayuda al modelo a aprender el formato deseado.

```python
messages = [
    {"role": "system", "content": "Eres un traductor de espa√±ol a ingl√©s"},
    {"role": "user", "content": "¬øC√≥mo se dice 'hola' en ingl√©s?"},
    {"role": "assistant", "content": "Hello"},
    {"role": "user", "content": "¬øC√≥mo se dice 'gracias' en ingl√©s?"}
]
```
### ü§ñ En Gemini
Gemini no tiene un rol assistant, pero puedes lograr el mismo efecto usando el rol model para mostrar c√≥mo el modelo deber√≠a responder, y construir una conversaci√≥n similar.
```python
contents = [
    {"role": "user", "parts": [{"text": "¬øC√≥mo se dice 'hola' en ingl√©s?"}]},
    {"role": "model", "parts": [{"text": "Hello"}]},
    {"role": "user", "parts": [{"text": "¬øC√≥mo se dice 'gracias' en ingl√©s?"}]}
]
```
## üîó Llamadas Encadenadas
Implica dividir una tarea en m√∫ltiples pasos y hacer que el modelo los resuelva en cadena. Esto permite que el LLM reflexione, piense en voz alta o procese por partes.

üìå Ejemplo de flujo:
1. ‚ÄúAnaliza el problema‚Äù
2. ‚ÄúIdentifica pasos a seguir‚Äù
3. ‚ÄúResuelve paso a paso‚Äù

---

### üìö Otras t√©cnicas (ser√°n cubiertas en clases futuras)

- üß† **Recuperaci√≥n-Aumentada Generaci√≥n (RAG)**: Proveer contexto al modelo en tiempo real.
- üõ†Ô∏è **Llamada a funciones y salidas estructuradas**
- üß¨ **Fine-tuning**: Ense√±ar al modelo con nueva informaci√≥n alterando sus pesos.

