# Tutorial: LLMs en CrewAI

## Introducción

Los Large Language Models (LLMs) son el núcleo de inteligencia detrás de los agentes de CrewAI. Permiten a los agentes entender contexto, tomar decisiones y generar respuestas similares a las humanas.

### ¿Qué son los LLMs?

- **Definición**: Sistemas de IA entrenados en vastas cantidades de datos de texto
- **Función**: Proporcionan inteligencia a los agentes de CrewAI
- **Capacidades**: Entender y generar texto similar al humano

### Conceptos Clave

1. **Ventana de Contexto**: Determina cuánto texto puede procesar un LLM a la vez
   - Ventanas más grandes (ej: 128K tokens) = más contexto pero más caro y lento
   - Ventanas más pequeñas = más rápido pero menos contexto

2. **Temperatura** (0.0 a 1.0): Controla la aleatoriedad de las respuestas
   - Valores bajos (ej: 0.2) = respuestas más enfocadas y deterministas
   - Valores altos (ej: 0.8) = más creatividad y variabilidad

3. **Proveedores**: Cada proveedor (OpenAI, Anthropic, Google) ofrece diferentes modelos con capacidades, precios y características variadas

## Configuración de LLMs

Hay tres formas principales de configurar LLMs en CrewAI:

### 1. Configuración por Variables de Entorno

La forma más simple de comenzar:

In [None]:
# Ejemplo de archivo .env
MODEL=model-id  # ej: gpt-4o, gemini-2.0-flash, claude-3-sonnet-...

# Asegúrate de configurar también tus API keys
OPENAI_API_KEY=sk-...
ANTHROPIC_API_KEY=sk-ant-...
GEMINI_API_KEY=...

### 2. Configuración por YAML

Excelente para control de versiones y colaboración en equipo:

In [None]:
# agents.yaml
researcher:
  role: Research Specialist
  goal: Conduct comprehensive research and analysis
  backstory: A dedicated research professional with years of experience
  verbose: true
  llm: provider/model-id  # ej: openai/gpt-4o, google/gemini-2.0-flash, anthropic/claude...

### 3. Configuración Directa en Python

Para máxima flexibilidad:

In [None]:
from crewai import LLM

# Configuración básica
llm = LLM(model="model-id-here")  # gpt-4o, gemini-2.0-flash, anthropic/claude...

# Configuración avanzada con parámetros detallados
llm = LLM(
    model="model-id-here",  # gpt-4o, gemini-2.0-flash, anthropic/claude...
    temperature=0.7,        # Mayor para salidas más creativas
    timeout=120,            # Segundos para esperar respuesta
    max_tokens=4000,        # Longitud máxima de respuesta
    top_p=0.9,             # Parámetro de muestreo nucleus
    frequency_penalty=0.1,  # Reduce repetición
    presence_penalty=0.1,   # Fomenta diversidad de temas
    response_format={"type": "json"},  # Para salidas estructuradas
    seed=42                 # Para resultados reproducibles
)

## Explicación de Parámetros

- **temperature**: Controla aleatoriedad (0.0-1.0)
- **timeout**: Tiempo máximo de espera para respuesta
- **max_tokens**: Limita longitud de respuesta
- **top_p**: Alternativa a temperature para muestreo
- **frequency_penalty**: Reduce repetición de palabras
- **presence_penalty**: Fomenta nuevos temas
- **response_format**: Especifica estructura de salida
- **seed**: Asegura salidas consistentes

## Proveedores de LLMs

CrewAI soporta múltiples proveedores de LLMs. Aquí tienes ejemplos de configuración:

### OpenAI

Uno de los principales proveedores con amplia gama de modelos:

In [None]:
# Configuración de variables de entorno
OPENAI_API_KEY=sk-...
OPENAI_API_BASE=
OPENAI_ORGANIZATION=

# Uso en CrewAI
from crewai import LLM

llm = LLM(
    model="openai/gpt-4",  # llamar modelo por provider/model_name
    temperature=0.8,
    max_tokens=150,
    top_p=0.9,
    frequency_penalty=0.1,
    presence_penalty=0.1,
    stop=["END"],
    seed=42
)

#### Modelos de OpenAI

| Modelo | Ventana de Contexto | Mejor Para |
|--------|---------------------|------------|
| GPT-4 | 8,192 tokens | Tareas de alta precisión, razonamiento complejo |
| GPT-4 Turbo | 128,000 tokens | Contenido largo, análisis de documentos |
| GPT-4o & GPT-4o-mini | 128,000 tokens | Procesamiento de contexto grande coste-efectivo |
| o3-mini | 200,000 tokens | Razonamiento rápido, razonamiento complejo |
| o1-mini | 128,000 tokens | Razonamiento rápido, razonamiento complejo |
| o1-preview | 128,000 tokens | Razonamiento rápido, razonamiento complejo |
| o1 | 200,000 tokens | Razonamiento rápido, razonamiento complejo |

### Meta Llama

API de Meta que proporciona acceso a la familia de modelos Llama:

In [None]:
# Configuración de variables de entorno
LLAMA_API_KEY=LLM|your_api_key_here

# Uso en CrewAI
from crewai import LLM

llm = LLM(
    model="meta_llama/Llama-4-Scout-17B-16E-Instruct-FP8",
    temperature=0.8,
    stop=["END"],
    seed=42
)

#### Modelos de Meta Llama

| Model ID | Input context length | Output context length | Input Modalities | Output Modalities |
|----------|---------------------|----------------------|------------------|-------------------|
| `meta_llama/Llama-4-Scout-17B-16E-Instruct-FP8` | 128k | 4028 | Text, Image | Text |
| `meta_llama/Llama-4-Maverick-17B-128E-Instruct-FP8` | 128k | 4028 | Text, Image | Text |
| `meta_llama/Llama-3.3-70B-Instruct` | 128k | 4028 | Text | Text |
| `meta_llama/Llama-3.3-8B-Instruct` | 128k | 4028 | Text | Text |

### Anthropic (Claude)

Modelos avanzados de Anthropic:

In [None]:
# Configuración de variables de entorno
ANTHROPIC_API_KEY=sk-ant-...
ANTHROPIC_API_BASE=

# Uso en CrewAI
llm = LLM(
    model="anthropic/claude-3-sonnet-20240229-v1:0",
    temperature=0.7
)

### Google (Gemini)

Modelos de Google AI:

In [None]:
# Configuración de variables de entorno
GEMINI_API_KEY=

# Uso en CrewAI
llm = LLM(
    model="google/gemini-2.0-flash",
    temperature=0.7
)

### Otros Proveedores

CrewAI también soporta:

- **Cerebras**: Velocidades de inferencia rápidas, precios competitivos
- **OpenRouter**: Acceso a múltiples modelos a través de una API
- **Nebius**: Gran colección de modelos de código abierto
- **Groq**: Velocidades ultra-rápidas
- **Ollama**: Modelos locales
- **Together AI**: Modelos de código abierto
- **Cohere**: Modelos especializados
- **Fireworks AI**: Modelos de alto rendimiento
- **DeepSeek**: Modelos avanzados
- **Qwen**: Familia de modelos de Alibaba

## Respuestas en Streaming

CrewAI soporta respuestas en streaming desde LLMs, permitiendo recibir y procesar salidas en tiempo real:

In [None]:
from crewai import LLM

# Crear un LLM con streaming habilitado
llm = LLM(
    model="openai/gpt-4o",
    stream=True  # Habilitar streaming
)

### Eventos de Streaming

CrewAI emite eventos para cada chunk recibido durante el streaming:

In [None]:
from crewai.utilities.events import LLMStreamChunkEvent
from crewai.utilities.events.base_event_listener import BaseEventListener

class MyCustomListener(BaseEventListener):
    def setup_listeners(self, crewai_event_bus):
        @crewai_event_bus.on(LLMStreamChunkEvent)
        def on_llm_stream_chunk(self, event: LLMStreamChunkEvent):
            # Procesar cada chunk conforme llega
            print(f"Received chunk: {event.chunk}")

my_listener = MyCustomListener()

### Filtrado por Agente y Tarea

Todos los eventos de LLM en CrewAI incluyen información de agente y tarea:

In [None]:
from crewai import LLM, Agent, Task, Crew
from crewai.utilities.events import LLMStreamChunkEvent
from crewai.utilities.events.base_event_listener import BaseEventListener

class MyCustomListener(BaseEventListener):
    def setup_listeners(self, crewai_event_bus):
        @crewai_event_bus.on(LLMStreamChunkEvent)
        def on_llm_stream_chunk(source, event):
            if researcher.id == event.agent_id:
                print("\n==============\n Got event:", event, "\n==============\n")

my_listener = MyCustomListener()

llm = LLM(model="gpt-4o-mini", temperature=0, stream=True)

researcher = Agent(
    role="About User",
    goal="You know everything about the user.",
    backstory="""You are a master at understanding people and their preferences.""",
    llm=llm,
)

search = Task(
    description="Answer the following questions about the user: {question}",
    expected_output="An answer to the question.",
    agent=researcher,
)

crew = Crew(agents=[researcher], tasks=[search])

result = crew.kickoff(
    inputs={"question": "..."}
)

## Llamadas LLM Estructuradas

CrewAI soporta respuestas estructuradas de llamadas LLM permitiendo definir un `response_format` usando un modelo Pydantic:

In [None]:
from crewai import LLM
from pydantic import BaseModel

class Dog(BaseModel):
    name: str
    age: int
    breed: str

llm = LLM(model="gpt-4o", response_format=Dog)

response = llm.call(
    "Analyze the following messages and return the name, age, and breed. "
    "Meet Kona! She is 3 years old and is a black german shepherd."
)

print(response)
# Output:
# Dog(name='Kona', age=3, breed='black german shepherd')

## Características Avanzadas y Optimización

### Gestión Inteligente de Contexto

CrewAI incluye características de gestión de contexto inteligentes:

In [None]:
from crewai import LLM

# CrewAI maneja automáticamente:
# 1. Conteo y seguimiento de tokens
# 2. Resumen de contenido cuando es necesario
# 3. División de tareas para contextos grandes

llm = LLM(
    model="gpt-4",
    max_tokens=4000,  # Limitar longitud de respuesta
)

### Mejores Prácticas para Gestión de Contexto

1. **Elegir modelos con ventanas de contexto apropiadas**
2. **Pre-procesar entradas largas cuando sea posible**
3. **Usar chunking para documentos grandes**
4. **Monitorear uso de tokens para optimizar costos**

### Elegir la Ventana de Contexto Correcta

- **Tareas pequeñas** (hasta 4K tokens): Modelos estándar
- **Tareas medianas** (entre 4K-32K): Modelos mejorados
- **Tareas grandes** (más de 32K): Modelos de contexto grande

In [None]:
# Configurar modelo con configuraciones apropiadas
llm = LLM(
    model="openai/gpt-4-turbo-preview",
    temperature=0.7,    # Ajustar basado en la tarea
    max_tokens=4096,    # Establecer basado en necesidades de salida
    timeout=300         # Timeout más largo para tareas complejas
)

### Optimización de Costos

1. **Monitorear uso de tokens**
2. **Implementar rate limiting**
3. **Usar caching cuando sea posible**
4. **Establecer límites max_tokens apropiados**

### Configuración de Temperatura

- **Temperatura baja** (0.1 a 0.3) para respuestas factuales
- **Temperatura alta** (0.7 a 0.9) para tareas creativas

### Parámetros Opcionales

CrewAI usa internamente LiteLLM, permitiendo omitir parámetros adicionales que no necesites:

In [None]:
from crewai import LLM
import os

os.environ["OPENAI_API_KEY"] = ""

o3_llm = LLM(
    model="o3",
    drop_params=True,
    additional_drop_params=["stop"]
)

## Problemas Comunes y Soluciones

### Problemas de Autenticación

La mayoría de problemas de autenticación se resuelven verificando formato de API key y nombres de variables de entorno:

In [None]:
# OpenAI
OPENAI_API_KEY=sk-...

# Anthropic
ANTHROPIC_API_KEY=sk-ant-...

### Nombres de Modelos Incorrectos

Siempre incluir el prefijo del proveedor en nombres de modelos:

In [None]:
# Correcto
llm = LLM(model="openai/gpt-4")

# Incorrecto
llm = LLM(model="gpt-4")

### Problemas de Contexto

Usar modelos de contexto grande para tareas extensas:

In [None]:
# Modelo de contexto grande
llm = LLM(model="openai/gpt-4o")  # 128K tokens

## Resumen

En este tutorial hemos cubierto:

1. **Conceptos básicos de LLMs** en CrewAI
2. **Tres métodos de configuración**: variables de entorno, YAML y Python directo
3. **Múltiples proveedores**: OpenAI, Meta Llama, Anthropic, Google, y otros
4. **Características avanzadas**: streaming, respuestas estructuradas, gestión de contexto
5. **Optimización**: mejores prácticas para costos y rendimiento
6. **Solución de problemas**: problemas comunes y sus soluciones

### Próximos Pasos

- Experimenta con diferentes modelos y configuraciones
- Implementa streaming para aplicaciones en tiempo real
- Optimiza tus configuraciones basándote en tus necesidades específicas
- Monitorea el uso de tokens para optimizar costos

Recuerda revisar regularmente tu configuración de LLM y ajustarla según sea necesario para optimizar costos y rendimiento.