# Como funcionan los LLM
Los LLM (Modelos de Lenguaje de Gran Tamaño) son una clase de modelos de inteligencia artificial diseñados para comprender y generar texto en lenguaje natural. Funcionan gracias a una arquitectura llamada **Transformers**, introducida por Google en 2017.

## 1. **Entrenamiento con grandes cantidades de texto**
Un LLM es entrenado con billones de palabras extraídas de libros, artículos, sitios web y otros documentos. Durante este proceso, el modelo aprende a **predecir la siguiente palabra** dado un contexto. Por ejemplo, si se le da "El cielo está", el modelo aprende que lo más probable es que la siguiente palabra sea "azul".

## 2. **Tokens, no palabras**
En lugar de procesar palabras enteras, los LLM trabajan con *tokens*, que pueden ser palabras, fragmentos de palabras o incluso caracteres. Esto les permite manejar vocabularios más amplios y comprender mejor estructuras gramaticales complejas.

## 3. **Representación numérica**
Cada token es transformado en un vector de números mediante una capa de *embedding*. Estos vectores permiten representar relaciones semánticas: por ejemplo, los vectores de "rey" y "reina" estarán cerca en el espacio matemático.

## 4. **Arquitectura Transformer**
La clave del éxito de los LLM está en los *Transformers*. Su componente principal es el **self-attention**, que permite que el modelo considere todas las palabras del contexto al mismo tiempo, asignando distintos pesos a cada una dependiendo de su relevancia. Esto lo hace extremadamente eficaz para comprender el significado de una oración en su totalidad.
## 5. **Generalización y generación**
Una vez entrenado, el modelo puede generalizar a textos nunca vistos. Por ejemplo, puede generar respuestas, traducir idiomas, resumir textos o responder preguntas. Todo esto se logra simplemente prediciendo token por token cuál es la salida más probable dada la entrada.

```mermaid
graph LR
    A(Prompt) --> B(Tokenización)
    B --> C1(Embeddings)
    C1 --> C2(Atención)
    C2 --> C3(Transformers)
    C3 --> D[Distribución de Probabilidad]
    D --> E(Selección / Decodificación)
    E --> F(Texto Generado)

    subgraph Magia_del_Modelo [Magia del Modelo]
        direction TB
        C1
        C2
        C3
    end

    style A fill:#f9f,stroke:#333,stroke-width:2px
    style F fill:#ccf,stroke:#333,stroke-width:2px
    style Magia_del_Modelo fill:#ff9,stroke:#333,stroke-width:2px,color:#000
    style D fill:#fec,stroke:#333,stroke-width:1px
    style E fill:#bfb,stroke:#333,stroke-width:1px
```

# Tipos de Modelos LLM, SLM y Modelos Locales

## 🧠 1. **LLM (Large Language Models) en la nube**
Estos modelos son alojados por grandes empresas tecnológicas y requieren conexión a internet. Son potentes y ofrecen capacidades de razonamiento, generación y comprensión avanzadas.

| Modelo        | Proveedor        | Observaciones |
|---------------|------------------|----------------|
| GPT-4 / GPT-3.5 | OpenAI (Azure o API directa) | GPT-4 es multimodal y más preciso, pero más costoso |
| Claude 3       | Anthropic        | Enfocado en seguridad, excelente en instrucciones complejas |
| Gemini 1.5     | Google (ex Bard) | Fuerte en tareas razonadas, multimodal |
| Mistral API    | Mistral.ai       | Modelos como Mistral 7B y Mixtral (MoE), ligeros y rápidos |
| Command R+     | Cohere           | Optimizado para RAG (Retrieval-Augmented Generation) |
| LLaMA 2/3      | Meta (a través de servicios como Together.ai) | Open-weight pero generalmente servidos vía API |
| Jurassic       | AI21 Labs        | Compatible con tareas tipo GPT |

---

## 🧪 2. **SLM (Small Language Models)**
Modelos más pequeños, ideales para despliegue en entornos con recursos limitados o tareas específicas.

| Modelo        | Tamaño (Parámetros) | Observaciones |
|---------------|---------------------|----------------|
| TinyLLaMA     | 1.1B                | Entrenado en bajo costo, ideal para móviles o edge |
| Phi-2         | 2.7B                | Microsoft. Excelente rendimiento para su tamaño |
| Gemma         | 2B / 7B             | Google. Enfocado en eficiencia y open-source |
| Mistral 7B    | 7B                  | Alta calidad y velocidad, muy versátil |
| Falcon 1B/7B  | 1B / 7B             | Modelos eficientes lanzados por TII (EAU) |
| Orca 2        | 7B+                 | Fine-tuned para habilidades de razonamiento |

---

## 🏡 3. **Modelos Locales (para ejecutar en tu máquina)**
Perfectos para entornos sin conexión o donde necesitas control total. Se usan con herramientas como `llama.cpp`, `Ollama`, `LM Studio`, `Text Generation Web UI`, etc.

| Modelo        | Plataforma de soporte | Requisitos |
|---------------|------------------------|-------------|
| LLaMA 2 / 3    | `llama.cpp`, Ollama    | GPU recomendada para 13B+ |
| Mistral 7B     | Ollama, `gguf`, LM Studio | Muy popular y balanceado |
| Gemma          | Ollama, Hugging Face  | Puede correr sin GPU en CPUs modernas |
| TinyLLaMA      | `llama.cpp`, Web UI   | Extremadamente liviano |
| OpenHermes     | Web UI, Ollama        | Variante fine-tuned con instrucciones |
| Neural Chat    | Intel/OpenVINO        | Optimizados para CPUs Intel |
| Phi-2          | `transformers`, ONNX  | Muy rápido con aceleración CPU |
| StarCoder      | Ollama, Web UI        | Ideal para tareas de codificación |

---

**Nota:** Para correr modelos localmente de forma eficiente, se recomienda usar versiones en formato `GGUF` con `llama.cpp` o `Ollama`, que permite cargar modelos optimizados para tu CPU o GPU.



# 🐍 Librerías en Python para usar LLMs
Aquí están las principales librerías para trabajar con modelos de lenguaje desde Python, ya sea conectándote a servicios externos o ejecutándolos localmente:
## 🔌 1. **Uso de LLMs vía API (OpenAI, Anthropic, Cohere, etc.)**

| Librería        | Descripción |
|-----------------|-------------|
| `openai`        | Cliente oficial para usar GPT-3.5 / GPT-4 con la API de OpenAI. |
| `anthropic`     | Cliente oficial para usar los modelos Claude (Claude 1, 2, 3). |
| `google.generativeai` | Cliente de Gemini (antes Bard). |
| `cohere`        | Cliente para los modelos Command-R, muy útil en RAG. |
| `transformers` (con `text-generation-inference`) | Puede conectarse a servidores remotos de modelos tipo Hugging Face. |
| `httpx` / `requests` | Para hacer llamadas directas a APIs REST de cualquier proveedor. |

---

## 🧠 2. **Uso de modelos open-source y locales**

| Librería            | Descripción |
|---------------------|-------------|
| `transformers` (Hugging Face) | La librería más completa para cargar y usar modelos como GPT-2, LLaMA, Falcon, etc. |
| `accelerate`        | Optimiza la carga y ejecución de modelos grandes en CPU o GPU. |
| `llama-cpp-python`  | Python bindings para `llama.cpp`, permite correr modelos como LLaMA, Mistral en CPU o GPU. |
| `ollama`            | Usa modelos locales fácilmente con una API local (`http://localhost:11434/api`). |
| `ctransformers`     | Ejecuta modelos ligeros (como GGML/GGUF) sin necesidad de GPU. |
| `vllm`              | Ejecuta LLMs con alta eficiencia en GPU, ideal para servir modelos grandes. |
| `langchain`         | Framework para orquestar LLMs, hacer chains, memory, agentes, etc. |
| `llama-index` (ex GPT Index) | Facilita el uso de LLMs para RAG (búsqueda aumentada por recuperación). |

---

## 🛠️ 3. **Complementos útiles**

| Librería     | Uso |
|--------------|-----|
| `gradio`     | Crear interfaces web para probar modelos fácilmente. |
| `streamlit`  | Ideal para dashboards interactivos con LLMs. |
| `pydantic`   | Validación de datos para entradas/salidas con LLMs. |
| `dotenv`     | Manejo de claves API de forma segura. |

---

# 📌 Ejemplos prácticos

A continuación puedes consultar ejemplos prácticos de cómo interactuar con LLMs desde Python utilizando dos APIs diferentes:

- 🤖 [Ejemplo usando la API de Gemini](./code_example/01_hello_world_gemini.ipynb)
- 🧠 [Ejemplo usando la API de OpenAI](./code_example/01_hello_world_openai.ipynb)

También puedes explorar cómo manejar respuestas **en tiempo real (streaming)**:

- 📡 [Streaming con OpenAI (respuesta progresiva)](./code_example/02_chat_stream_openai.ipynb)
- 🚫 [Intento de streaming con Gemini (no soportado)](./code_example/02_chat_stream_gemini.ipynb)

Todos los ejemplos siguen la misma lógica: configurar el modelo, enviar una entrada con una instrucción de sistema (prompt), y generar una respuesta. La diferencia está en la librería usada y el proveedor del modelo

---
# 🛠️ Maneras de mejorar el output de un LLM

## 🎯 Prompt Engineering
## 🎭 Roles en la API de OpenAI

Cuando trabajas con `chat.completions` en la API de OpenAI (por ejemplo con modelos como GPT-3.5 o GPT-4), se utiliza una conversación estructurada con distintos **roles**. Cada rol tiene un propósito específico en el flujo del chat.

---

### 🔰 Roles disponibles

| Rol         | Descripción                                                                 |
|-------------|-----------------------------------------------------------------------------|
| `system`    | Define el comportamiento, tono o personalidad del modelo.                  |
| `user`      | Representa lo que el usuario está preguntando o solicitando.               |
| `assistant` | Representa la respuesta previa del modelo, útil para mantener el contexto. |

---

### 🧩 ¿Para qué sirve cada uno?

#### 🧠 `system`
Este mensaje sirve para establecer el **contexto inicial**. Puedes definir el rol del modelo, su estilo de respuesta, conocimientos preferidos o su actitud.

```json
{ "role": "system", "content": "Eres un nutricionista que da consejos para una dieta saludable sin mencionar carne roja." }
```

---

## 🌟 Roles en la API de Gemini

Al trabajar con modelos de Gemini (como `gemini-1.5-pro`) a través de la librería `google.generativeai`, la estructura de los mensajes también incluye roles, aunque con algunas diferencias respecto a OpenAI.

---

### 🔰 Roles disponibles

| Rol   | Descripción                                                           |
|--------|-----------------------------------------------------------------------|
| `user` | Mensajes enviados por el usuario, los que contienen las preguntas.    |
| `model` (opcional en input) | Mensajes generados por el modelo, útiles si deseas mantener contexto.   |
| `system` | No es parte de los mensajes, sino una **instrucción separada** llamada `system_instruction`. |

---

### 🧩 ¿Para qué sirve cada uno?

#### 🧑‍💻 `user`
Representa el texto de entrada o prompt enviado al modelo. Por ejemplo:

```python
contents = [{"role": "user", "parts": [{"text": "¿Cuál es la raíz cuadrada de 144?"}]}]
```

## 🧪 Few-shot Examples
Demostrarle al modelo cómo debería verse la salida proporcionando uno o más ejemplos dentro del prompt.

---

### 🤖 En OpenAI

En la API de OpenAI, puedes usar el rol `assistant` para mostrar ejemplos previos junto con el usuario (`user`). Esto le ayuda al modelo a aprender el formato deseado.

```python
messages = [
    {"role": "system", "content": "Eres un traductor de español a inglés"},
    {"role": "user", "content": "¿Cómo se dice 'hola' en inglés?"},
    {"role": "assistant", "content": "Hello"},
    {"role": "user", "content": "¿Cómo se dice 'gracias' en inglés?"}
]
```
### 🤖 En Gemini
Gemini no tiene un rol assistant, pero puedes lograr el mismo efecto usando el rol model para mostrar cómo el modelo debería responder, y construir una conversación similar.
```python
contents = [
    {"role": "user", "parts": [{"text": "¿Cómo se dice 'hola' en inglés?"}]},
    {"role": "model", "parts": [{"text": "Hello"}]},
    {"role": "user", "parts": [{"text": "¿Cómo se dice 'gracias' en inglés?"}]}
]
```
## 🔗 Llamadas Encadenadas
Implica dividir una tarea en múltiples pasos y hacer que el modelo los resuelva en cadena. Esto permite que el LLM reflexione, piense en voz alta o procese por partes.

📌 Ejemplo de flujo:
1. “Analiza el problema”
2. “Identifica pasos a seguir”
3. “Resuelve paso a paso”

---

### 📚 Otras técnicas (serán cubiertas en clases futuras)

- 🧠 **Recuperación-Aumentada Generación (RAG)**: Proveer contexto al modelo en tiempo real.
- 🛠️ **Llamada a funciones y salidas estructuradas**
- 🧬 **Fine-tuning**: Enseñar al modelo con nueva información alterando sus pesos.

