# CrewAI para Ciencia de Datos: Sistemas Multi-Agente

## Bootcamp de Data Science

---

## Tabla de Contenidos

1. [Introducción a CrewAI](#introduccion)
2. [¿Qué es un Agente?](#agente)
3. [¿Qué es un Sistema Multi-Agente?](#multiagente)
4. [Instalación y Configuración](#instalacion)
5. [Componentes Principales de CrewAI](#componentes)
6. [Ejemplo Práctico: Análisis de Datos](#ejemplo1)
7. [Ejemplo Avanzado: Pipeline de ML](#ejemplo2)
8. [Casos de Uso en Data Science](#casos-uso)
9. [Mejores Prácticas](#mejores-practicas)
10. [Ejercicios](#ejercicios)

---

## 1. Introducción a CrewAI <a name="introduccion"></a>

### ¿Qué es CrewAI?

CrewAI es un framework de orquestación de agentes de IA diseñado para crear y gestionar sistemas multi-agente colaborativos. Permite que múltiples agentes trabajen juntos de manera coordinada para resolver problemas complejos.

### ¿Por qué es relevante para Data Science?

En ciencia de datos, frecuentemente enfrentamos tareas complejas que requieren diferentes especializaciones:

- **Recolección de datos**: Web scraping, APIs, bases de datos
- **Análisis exploratorio**: Estadísticas, visualizaciones, detección de patrones
- **Modelado**: Selección de algoritmos, entrenamiento, validación
- **Interpretación**: Explicación de resultados, recomendaciones
- **Reporting**: Generación de informes, documentación

CrewAI permite crear equipos de agentes especializados donde cada uno maneja una parte específica del pipeline de datos.

### Ventajas de usar CrewAI

- **Modularidad**: Cada agente tiene responsabilidades específicas
- **Reutilización**: Los agentes pueden usarse en diferentes proyectos
- **Escalabilidad**: Fácil añadir nuevos agentes al sistema
- **Colaboración**: Los agentes comparten información y resultados
- **Especialización**: Cada agente puede optimizarse para su tarea

---

## 2. ¿Qué es un Agente? <a name="agente"></a>

### Definición

Un **agente** es una entidad autónoma de IA con las siguientes características:

1. **Objetivo (Goal)**: Una meta específica que debe alcanzar
2. **Contexto (Backstory)**: Historia o especialización que define su comportamiento
3. **Herramientas (Tools)**: Capacidades específicas que puede utilizar
4. **Memoria**: Capacidad de recordar interacciones previas
5. **Autonomía**: Puede tomar decisiones propias para alcanzar su objetivo

### Anatomía de un Agente en CrewAI

```
┌─────────────────────────────────┐
│         AGENTE                  │
├─────────────────────────────────┤
│ Role: Data Analyst              │
│ Goal: Analizar datos            │
│ Backstory: Experto en pandas    │
├─────────────────────────────────┤
│ Tools:                          │
│  - Python REPL                  │
│  - File Reader                  │
│  - Data Visualization           │
├─────────────────────────────────┤
│ LLM: GPT-4, Claude, etc.        │
└─────────────────────────────────┘
```

### Tipos de Agentes según su Rol en Data Science

1. **Agente Recolector**: Obtiene datos de diversas fuentes
2. **Agente Limpiador**: Preprocesa y limpia datos
3. **Agente Analista**: Realiza análisis estadísticos y exploratorios
4. **Agente Modelador**: Construye y entrena modelos de ML
5. **Agente Evaluador**: Valida y evalúa modelos
6. **Agente Reportero**: Genera informes y visualizaciones

---

## 3. ¿Qué es un Sistema Multi-Agente? <a name="multiagente"></a>

### Definición

Un **sistema multi-agente** es un conjunto de agentes que colaboran para resolver problemas complejos que serían difíciles de abordar con un solo agente.

### Características Clave

1. **Colaboración**: Los agentes trabajan juntos hacia un objetivo común
2. **Comunicación**: Intercambian información y resultados
3. **Coordinación**: Sus acciones están organizadas y sincronizadas
4. **Distribución de tareas**: Cada agente maneja partes específicas del problema

### Arquitectura de un Sistema Multi-Agente

```
                    ┌──────────────┐
                    │   CREW       │
                    │ (Coordinador)│
                    └──────┬───────┘
                           │
         ┌─────────────────┼─────────────────┐
         │                 │                 │
    ┌────▼────┐      ┌────▼────┐      ┌────▼────┐
    │ Agente 1│      │ Agente 2│      │ Agente 3│
    │ Task 1  │──────│ Task 2  │──────│ Task 3  │
    └─────────┘      └─────────┘      └─────────┘
         │                 │                 │
         └─────────────────┼─────────────────┘
                           │
                      ┌────▼────┐
                      │Resultado│
                      │  Final  │
                      └─────────┘
```

### Procesos de Ejecución en CrewAI

CrewAI soporta diferentes procesos de ejecución:

1. **Sequential (Secuencial)**: Las tareas se ejecutan una después de otra
   - Útil cuando una tarea depende del resultado de la anterior
   - Ejemplo: Recolección → Limpieza → Análisis → Modelado

2. **Hierarchical (Jerárquico)**: Un agente manager coordina a otros agentes
   - Útil para proyectos complejos con múltiples sub-tareas
   - El manager decide el orden y delegación de tareas

### Ejemplo de Flujo en Data Science

```
Data Collection → Data Cleaning → EDA → Feature Engineering → 
Model Training → Model Evaluation → Report Generation
     ↓                ↓            ↓           ↓
  Agente 1         Agente 2    Agente 3    Agente 4
```

---

## 4. Instalación y Configuración <a name="instalacion"></a>

### Requisitos Previos

- Python 3.10 o superior
- pip (gestor de paquetes de Python)
- API key de OpenAI, Anthropic u otro proveedor de LLM

### Instalación Básica

In [None]:
# Instalación de CrewAI y dependencias principales
#!pip install crewai crewai-tools

### Instalación de Herramientas Adicionales para Data Science

In [None]:
# Librerías comunes de data science
#!pip install pandas numpy matplotlib seaborn scikit-learn plotly

### Configuración de API Keys

CrewAI utiliza modelos de lenguaje (LLMs) para potenciar a los agentes. Necesitas configurar las credenciales:

In [None]:
import os
from getpass import getpass

# Configurar API key de OpenAI (o el proveedor que uses)
# En producción, usa variables de entorno o archivos .env

# Opción 1: Entrada manual (para testing)
# os.environ["OPENAI_API_KEY"] = getpass("Ingresa tu OpenAI API Key: ")

# Opción 2: Variable de entorno (recomendado)
# os.environ["OPENAI_API_KEY"] = "tu-api-key-aqui"

# Opción 3: Desde archivo .env (mejor práctica)
from dotenv import load_dotenv
load_dotenv()

print("Configuración completada")

### Verificación de la Instalación

In [None]:
# Verificar que CrewAI está instalado correctamente
import crewai
from crewai import Agent, Task, Crew, Process

print(f"CrewAI versión: {crewai.__version__}")
print("Importación exitosa")

---

## 5. Componentes Principales de CrewAI <a name="componentes"></a>

### 5.1 Agent (Agente)

El componente fundamental. Define el comportamiento y capacidades de un miembro del equipo.

**Parámetros clave:**
- `role`: El rol o título del agente
- `goal`: Objetivo principal del agente
- `backstory`: Contexto que moldea el comportamiento
- `tools`: Lista de herramientas que puede usar
- `verbose`: Mostrar logs detallados
- `allow_delegation`: Permitir delegar tareas a otros agentes
- `llm`: Modelo de lenguaje a utilizar

In [None]:
# Importa la clase Agent desde la librería crewai
from crewai import Agent

# Ejemplo: Crear un agente analista de datos
# Aquí se instancia un objeto Agent con parámetros personalizados
data_analyst = Agent(
    role='Analista de Datos Senior',  # Rol o título del agente
    goal='Extraer insights significativos de datasets complejos',  # Objetivo principal del agente
    backstory="""Eres un analista de datos experto con 10 años de experiencia.
    Dominas pandas, numpy y técnicas estadísticas avanzadas.
    Tu especialidad es encontrar patrones ocultos en los datos y 
    comunicar insights de forma clara y accionable.""",  # Historia o contexto del agente
    verbose=True,  # Si es True, el agente mostrará más detalles en su ejecución
    allow_delegation=False  # Impide que el agente delegue tareas a otros agentes
)

# Imprime un mensaje confirmando que el agente ha sido creado y muestra su rol
print("Agente creado:", data_analyst.role)


### 5.2 Task (Tarea)

Define una tarea específica que un agente debe completar.

**Parámetros clave:**
- `description`: Descripción detallada de la tarea
- `agent`: Agente asignado a la tarea
- `expected_output`: Descripción del output esperado
- `tools`: Herramientas específicas para esta tarea
- `context`: Tareas previas que proporcionan contexto
- `async_execution`: Ejecutar de forma asíncrona

In [None]:
# Importa la clase Task desde la librería crewai
from crewai import Task

# Ejemplo: Crear una tarea de análisis exploratorio
# Aquí se define una tarea que un agente deberá ejecutar
analysis_task = Task(
    description="""Realiza un análisis exploratorio completo del dataset.
    Debes:
    1. Calcular estadísticas descriptivas
    2. Identificar valores nulos y outliers
    3. Analizar correlaciones entre variables
    4. Detectar patrones relevantes
    5. Generar recomendaciones para el modelado
    """,  # Descripción detallada de lo que debe hacer la tarea
    agent=data_analyst,  # Agente responsable de ejecutar esta tarea
    expected_output="""Un informe detallado con:
    - Resumen estadístico
    - Lista de hallazgos principales
    - Recomendaciones para preprocesamiento
    - Sugerencias de features importantes
    """  # Resultado esperado que debe producir el agente
)

# Imprime un mensaje simple para confirmar que la tarea ha sido creada
print("Tarea creada")


### 5.3 Tools (Herramientas)

Las herramientas son funciones que los agentes pueden usar para realizar acciones específicas.

**Herramientas comunes en Data Science:**
- File tools: Leer/escribir archivos
- Search tools: Buscar información
- Code tools: Ejecutar código Python
- Web tools: Scraping, APIs
- Database tools: Queries SQL

In [None]:
# Importa herramientas para leer archivos y directorios desde crewai_tools
from crewai_tools import FileReadTool, DirectoryReadTool
# Importa la clase Agent desde la librería crewai
from crewai import Agent

# Herramientas para leer archivos
file_tool = FileReadTool()        # Crea una herramienta para leer el contenido de archivos
directory_tool = DirectoryReadTool()  # Crea una herramienta para listar o leer directorios

# Crear agente con herramientas
data_loader = Agent(
    role='Especialista en Carga de Datos',  # Rol del agente dentro del sistema
    goal='Cargar y validar datasets de diferentes fuentes',  # Objetivo principal del agente
    backstory='Experto en ETL y validación de datos',  # Contexto o historia del agente
    tools=[file_tool, directory_tool],  # Lista de herramientas que el agente puede usar
    verbose=True  # Modo detallado para mostrar más información durante la ejecución
)

# Mensaje de confirmación
print("Agente con herramientas creado")


### 5.4 Crew (Equipo)

Orquesta múltiples agentes y tareas para trabajar juntos.

**Parámetros clave:**
- `agents`: Lista de agentes en el equipo
- `tasks`: Lista de tareas a ejecutar
- `process`: Proceso de ejecución (Sequential o Hierarchical)
- `verbose`: Nivel de detalle en logs
- `memory`: Habilitar memoria compartida entre agentes

In [None]:
# Importa las clases Crew y Process desde la librería crewai
from crewai import Crew, Process

# Ejemplo: Crear un crew para análisis de datos
# (Usaremos los agentes y tareas que creamos antes: data_analyst y analysis_task)

# Nota: Este es un ejemplo simplificado
# En proyectos reales se suelen usar varios agentes y varias tareas coordinadas
analytics_crew = Crew(
    agents=[data_analyst],   # Lista de agentes que formarán parte del crew
    tasks=[analysis_task],   # Lista de tareas que el crew debe ejecutar
    process=Process.sequential,  # Indica que las tareas se ejecutarán de forma secuencial
    verbose=True  # Activa el modo detallado para mostrar el progreso y logs del crew
)

# Confirma que el crew ha sido creado correctamente
print("Crew creado con éxito")


---

## 6. Ejemplo Práctico: Sistema de Análisis de Datos <a name="ejemplo1"></a>

Vamos a crear un sistema completo para analizar un dataset de ventas.

### Escenario

Tenemos un dataset de ventas y queremos:
1. Validar la calidad de los datos
2. Realizar análisis exploratorio
3. Generar insights de negocio
4. Crear visualizaciones

### Paso 1: Crear Dataset de Ejemplo

In [None]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# Crear dataset sintético de ventas
np.random.seed(42)
n_records = 1000

dates = [datetime.now() - timedelta(days=x) for x in range(n_records)]
products = ['Producto A', 'Producto B', 'Producto C', 'Producto D']
regions = ['Norte', 'Sur', 'Este', 'Oeste']

data = {
    'fecha': dates,
    'producto': np.random.choice(products, n_records),
    'region': np.random.choice(regions, n_records),
    'cantidad': np.random.randint(1, 100, n_records),
    'precio_unitario': np.random.uniform(10, 500, n_records),
    'descuento': np.random.uniform(0, 0.3, n_records)
}

df = pd.DataFrame(data)
df['ingreso_total'] = df['cantidad'] * df['precio_unitario'] * (1 - df['descuento'])

# Introducir algunos valores nulos intencionalmente
df.loc[np.random.choice(df.index, 50), 'descuento'] = np.nan

# Guardar dataset
df.to_csv('ventas_ejemplo.csv', index=False)

print(f"Dataset creado: {len(df)} registros")
print("\nPrimeras filas:")
print(df.head())

### Paso 2: Definir Herramientas Personalizadas

In [None]:
# Importa el decorador 'tool' para crear herramientas personalizadas en CrewAI
from crewai.tools import tool
# Importa pandas para manipulación de datos
import pandas as pd
# Importa numpy, necesario para identificar columnas numéricas (np.number)
import numpy as np

# ---------------------------------------------------------
# HERRAMIENTA 1: LECTURA DE CSV
# ---------------------------------------------------------
@tool("Leer CSV")  # Registra esta función como una herramienta llamada "Leer CSV"
def read_csv_file(filepath: str) -> str:
    """Lee un archivo CSV y retorna información básica sobre el dataset."""
    try:
        # Carga el archivo CSV en un DataFrame
        df = pd.read_csv(filepath)

        # Construye una cadena con información general del dataset
        info = (
            "Dataset cargado exitosamente:\n"
            f"- Filas: {len(df)}\n"  # Número total de filas
            f"- Columnas: {len(df.columns)}\n"  # Número de columnas
            f"- Nombres de columnas: {', '.join(df.columns)}\n"  # Lista de columnas
            f"- Tipos de datos: {df.dtypes.to_dict()}\n"  # Dict con tipos de datos por columna
            f"- Valores nulos: {df.isnull().sum().to_dict()}\n\n"  # Cantidad de valores nulos por columna
            "Primeras 5 filas:\n"
            f"{df.head().to_string()}"  # Muestra las primeras 5 filas
        )
        return info

    except Exception as e:
        # Captura y retorna cualquier error
        return f"Error al leer archivo: {str(e)}"


# ---------------------------------------------------------
# HERRAMIENTA 2: ESTADÍSTICAS DESCRIPTIVAS
# ---------------------------------------------------------
@tool("Estadísticas Descriptivas")  # Registra esta herramienta
def get_descriptive_stats(filepath: str) -> str:
    """Calcula estadísticas descriptivas del dataset."""
    try:
        # Carga el dataset
        df = pd.read_csv(filepath)

        # Obtiene estadísticas descriptivas generales (incluye columnas no numéricas)
        stats = df.describe(include='all').to_string()

        return f"Estadísticas descriptivas:\n{stats}"

    except Exception as e:
        # Manejo de errores
        return f"Error: {str(e)}"


# ---------------------------------------------------------
# HERRAMIENTA 3: ANÁLISIS DE CORRELACIÓN
# ---------------------------------------------------------
@tool("Análisis de Correlación")  # Registra esta herramienta para CrewAI
def correlation_analysis(filepath: str) -> str:
    """Analiza correlaciones entre variables numéricas."""
    try:
        # Carga el dataset
        df = pd.read_csv(filepath)

        # Selecciona solo las columnas numéricas usando np.number
        numeric_cols = df.select_dtypes(include=[np.number]).columns

        # Si no hay columnas numéricas, no se puede hacer correlación
        if len(numeric_cols) == 0:
            return "No hay columnas numéricas para analizar correlaciones."

        # Calcula la matriz de correlación para las columnas numéricas
        corr = df[numeric_cols].corr().to_string()

        return f"Matriz de correlación:\n{corr}"

    except Exception as e:
        # Manejo de errores
        return f"Error: {str(e)}"


# Confirmación final
print("Herramientas personalizadas creadas")


### Paso 3: Crear Agentes Especializados

In [None]:
from crewai import Agent

# Agente 1: Validador de Datos
data_validator = Agent(
    role='Especialista en Calidad de Datos',
    goal='Validar la integridad y calidad del dataset',
    backstory="""Eres un experto en calidad de datos con experiencia en 
    detectar anomalías, valores faltantes y problemas de consistencia.
    Tu objetivo es asegurar que los datos sean confiables antes del análisis.""",
    tools=[read_csv_file],
    verbose=True,
    allow_delegation=False
)

# Agente 2: Analista Estadístico
statistical_analyst = Agent(
    role='Analista Estadístico Senior',
    goal='Realizar análisis estadístico profundo y encontrar patrones',
    backstory="""Eres un estadístico con PhD y 15 años de experiencia.
    Dominas técnicas estadísticas avanzadas y sabes extraer insights
    significativos de datos complejos. Tu análisis es riguroso y preciso.""",
    tools=[get_descriptive_stats, correlation_analysis],
    verbose=True,
    allow_delegation=False
)

# Agente 3: Consultor de Negocio
business_consultant = Agent(
    role='Consultor de Inteligencia de Negocio',
    goal='Traducir hallazgos técnicos en recomendaciones de negocio',
    backstory="""Eres un consultor de negocios con fuerte background técnico.
    Tu especialidad es conectar insights de datos con estrategias de negocio.
    Comunicas hallazgos complejos de forma clara y accionable para stakeholders.""",
    verbose=True,
    allow_delegation=False
)

print("Agentes creados:")
print(f"1. {data_validator.role}")
print(f"2. {statistical_analyst.role}")
print(f"3. {business_consultant.role}")

### Paso 4: Definir Tareas

In [None]:
# Importa la clase Task desde la librería crewai
from crewai import Task

# ---------------------------------------------------------
# TAREA 1: VALIDACIÓN DE DATOS
# ---------------------------------------------------------
validation_task = Task(
    description="""Analiza el archivo 'ventas_ejemplo.csv' y valida:
    1. Estructura del dataset (filas, columnas, tipos de datos)
    2. Valores nulos o faltantes en cada columna
    3. Posibles duplicados
    4. Rangos de valores anómalos
    5. Consistencia de los datos

    Genera un reporte de calidad con recomendaciones de limpieza.
    """,  # Descripción detallada de lo que el agente debe validar
    agent=data_validator,  # Agente responsable de realizar la validación
    expected_output="""Reporte de validación detallado que incluya:
    - Resumen de la estructura del dataset
    - Lista de problemas de calidad encontrados
    - Severidad de cada problema (baja, media, alta)
    - Recomendaciones específicas de limpieza
    """  # Formato esperado para el resultado de la tarea
)

# ---------------------------------------------------------
# TAREA 2: ANÁLISIS ESTADÍSTICO
# ---------------------------------------------------------
statistical_task = Task(
    description="""Realiza un análisis estadístico completo del archivo 'ventas_ejemplo.csv':
    1. Calcula estadísticas descriptivas para todas las variables
    2. Analiza la distribución de ventas por producto y región
    3. Identifica correlaciones significativas entre variables
    4. Detecta tendencias temporales en las ventas
    5. Identifica outliers y valores extremos

    Usa los resultados de la validación previa como contexto.
    """,  # Instrucciones para el análisis estadístico
    agent=statistical_analyst,  # Agente que ejecutará el análisis
    expected_output="""Informe estadístico que contenga:
    - Resumen estadístico de todas las variables numéricas
    - Top 3 hallazgos más relevantes
    - Análisis de correlaciones importantes
    - Identificación de patrones temporales
    - Lista de outliers detectados
    """,  # Qué debe entregar el agente como salida
    context=[validation_task]  # Usa como insumo la tarea de validación anterior
)

# ---------------------------------------------------------
# TAREA 3: RECOMENDACIONES DE NEGOCIO
# ---------------------------------------------------------
business_task = Task(
    description="""Basándote en los análisis previos de validación y estadístico,
    genera recomendaciones estratégicas de negocio:
    1. Identifica productos con mejor desempeño
    2. Detecta regiones con oportunidades de crecimiento
    3. Sugiere estrategias de pricing y descuentos
    4. Recomienda acciones para optimizar ingresos
    5. Identifica riesgos potenciales

    Las recomendaciones deben ser específicas, accionables y priorizadas.
    """,  # Descripción completa de la tarea de consultoría
    agent=business_consultant,  # Agente encargado de generar recomendaciones
    expected_output="""Documento de recomendaciones que incluya:
    - Executive Summary con top 3 insights
    - 5-7 recomendaciones específicas priorizadas
    - Impacto esperado de cada recomendación
    - Plan de implementación sugerido
    - Métricas para medir el éxito
    """,  # Estructura esperada del documento final
    context=[validation_task, statistical_task]  # Usa insumos de tareas anteriores
)

# Imprime los nombres de las tareas creadas
print("Tareas definidas:")
print(f"1. Validación de Datos")
print(f"2. Análisis Estadístico")
print(f"3. Recomendaciones de Negocio")


### Paso 5: Crear y Ejecutar el Crew

In [None]:
# Importa las clases Crew y Process desde la librería crewai
from crewai import Crew, Process

# Crear el crew con todos los agentes y tareas
analytics_crew = Crew(
    agents=[data_validator, statistical_analyst, business_consultant],  # Lista de agentes que participarán en el flujo
    tasks=[validation_task, statistical_task, business_task],  # Las 3 tareas definidas en orden secuencial
    process=Process.sequential,  # Indica que las tareas se ejecutarán una después de otra
    verbose=True  # Activa el modo detallado para mostrar logs durante la ejecución
)

# Mensajes informativos sobre el crew creado
print("Crew de análisis creado")
print(f"Agentes: {len(analytics_crew.agents)}")  # Muestra cuántos agentes tiene el crew
print(f"Tareas: {len(analytics_crew.tasks)}")    # Muestra cuántas tareas tiene el crew
print(f"Proceso: {analytics_crew.process}")      # Muestra el tipo de proceso configurado


In [None]:
# EJECUTAR EL CREW
# Nota: Esto requiere tener configurada una API key válida
# La ejecución puede tomar varios minutos dependiendo de la complejidad

#para ejecutar
result = analytics_crew.kickoff()



---

## 7. Ejemplo Avanzado: Pipeline de Machine Learning <a name="ejemplo2"></a>

Ahora crearemos un sistema más complejo que automatiza un pipeline completo de ML.

### Arquitectura del Sistema

```
Data Preparation → Feature Engineering → Model Training → 
Model Evaluation → Hyperparameter Tuning → Model Deployment
```

### Paso 1: Agentes para el Pipeline de ML

In [None]:
from crewai import Agent

# Agente 1: Data Preprocessor
data_preprocessor = Agent(
    role='Ingeniero de Datos ML',
    goal='Preparar y limpiar datos para machine learning',
    backstory="""Eres un ingeniero de datos especializado en ML.
    Tu expertise incluye manejo de missing values, encoding de variables
    categóricas, normalización, y detección de outliers. Conoces las
    mejores prácticas de preparación de datos para diferentes algoritmos.""",
    verbose=True
)

# Agente 2: Feature Engineer
feature_engineer = Agent(
    role='Especialista en Feature Engineering',
    goal='Crear features relevantes que mejoren el rendimiento del modelo',
    backstory="""Eres un experto en feature engineering con habilidad para
    identificar y crear features que capturen patrones complejos en los datos.
    Conoces técnicas avanzadas como polynomial features, interactions,
    binning, y feature selection.""",
    verbose=True
)

# Agente 3: Model Trainer
model_trainer = Agent(
    role='Científico de Datos - Modelado',
    goal='Entrenar y optimizar modelos de machine learning',
    backstory="""Eres un científico de datos con profundo conocimiento de
    algoritmos de ML. Dominas scikit-learn, XGBoost, LightGBM y técnicas
    de ensemble. Sabes seleccionar el algoritmo apropiado para cada problema.""",
    verbose=True
)

# Agente 4: Model Evaluator
model_evaluator = Agent(
    role='Evaluador de Modelos',
    goal='Evaluar rigurosamente el rendimiento de los modelos',
    backstory="""Eres un experto en evaluación de modelos y métricas de ML.
    Conoces las métricas apropiadas para cada tipo de problema, técnicas
    de cross-validation, y cómo detectar overfitting y underfitting.
    Tu evaluación es rigurosa y objetiva.""",
    verbose=True
)

# Agente 5: ML Strategist
ml_strategist = Agent(
    role='Estratega de ML',
    goal='Sintetizar resultados y definir próximos pasos',
    backstory="""Eres un líder técnico en ML con visión estratégica.
    Analizas resultados, identificas limitaciones y oportunidades de mejora,
    y defines roadmaps para optimizar modelos. Balanceas rendimiento técnico
    con consideraciones de negocio.""",
    verbose=True
)

print("Agentes del pipeline ML creados:")
print(f"1. {data_preprocessor.role}")
print(f"2. {feature_engineer.role}")
print(f"3. {model_trainer.role}")
print(f"4. {model_evaluator.role}")
print(f"5. {ml_strategist.role}")

### Paso 2: Tareas del Pipeline ML

In [None]:
from crewai import Task

# Tarea 1: Preprocesamiento
preprocessing_task = Task(
    description="""Prepara el dataset 'ventas_ejemplo.csv' para modelado ML:
    
    **Objetivo**: Predecir 'ingreso_total' basado en otras variables
    
    Pasos requeridos:
    1. Identificar y documentar la variable objetivo y features
    2. Manejar valores faltantes (estrategia: imputación o eliminación)
    3. Convertir variables categóricas (producto, región) a numéricas
    4. Detectar y manejar outliers en variables numéricas
    5. Dividir datos en train/test (80/20)
    6. Aplicar normalización/estandarización según sea necesario
    
    Documenta cada decisión tomada y su justificación.
    """,
    agent=data_preprocessor,
    expected_output="""Reporte de preprocesamiento con:
    - Resumen de transformaciones aplicadas
    - Estrategias de manejo de missing values
    - Método de encoding usado y razón
    - Tratamiento de outliers
    - Estadísticas de train/test splits
    - Recomendaciones para feature engineering
    """
)

# Tarea 2: Feature Engineering
feature_engineering_task = Task(
    description="""Crea features adicionales para mejorar el modelo:
    
    1. Features temporales (día de la semana, mes, trimestre)
    2. Features de interacción (producto x región)
    3. Features agregadas (promedios, sumas por categoría)
    4. Features derivadas (ratios, diferencias)
    5. Aplicar feature selection para eliminar features redundantes
    
    Explica la intuición detrás de cada feature creado.
    """,
    agent=feature_engineer,
    expected_output="""Documento de feature engineering con:
    - Lista de features creados y su justificación
    - Análisis de importancia de features
    - Features seleccionados para el modelo
    - Features descartados y razones
    - Dimensionalidad final del dataset
    """,
    context=[preprocessing_task]
)

# Tarea 3: Entrenamiento de Modelos
model_training_task = Task(
    description="""Entrena múltiples modelos y selecciona el mejor:
    
    Algoritmos a probar:
    1. Linear Regression (baseline)
    2. Ridge/Lasso Regression
    3. Random Forest
    4. Gradient Boosting (XGBoost o LightGBM)
    
    Para cada modelo:
    - Entrena con datos de training
    - Usa cross-validation (5-fold)
    - Registra hiperparámetros usados
    - Calcula métricas de entrenamiento
    
    Identifica el modelo con mejor rendimiento promedio.
    """,
    agent=model_trainer,
    expected_output="""Reporte de entrenamiento con:
    - Tabla comparativa de todos los modelos
    - Métricas de CV para cada modelo (MSE, RMSE, R², MAE)
    - Hiperparámetros utilizados
    - Tiempo de entrenamiento de cada modelo
    - Recomendación del mejor modelo
    """,
    context=[preprocessing_task, feature_engineering_task]
)

# Tarea 4: Evaluación de Modelos
model_evaluation_task = Task(
    description="""Evalúa rigurosamente el mejor modelo en test set:
    
    1. Calcular métricas en test set
    2. Análisis de residuales
    3. Detección de overfitting/underfitting
    4. Análisis de errores por segmento (producto, región)
    5. Intervalos de confianza de las métricas
    6. Identificar casos donde el modelo falla
    
    Proporciona una evaluación honesta y crítica.
    """,
    agent=model_evaluator,
    expected_output="""Informe de evaluación detallado:
    - Métricas finales en test set
    - Comparación train vs test (overfitting check)
    - Análisis de residuales (normalidad, heterocedasticidad)
    - Segmentos donde el modelo funciona mejor/peor
    - Limitaciones del modelo identificadas
    - Nivel de confianza para deployment
    """,
    context=[model_training_task]
)

# Tarea 5: Estrategia y Próximos Pasos
ml_strategy_task = Task(
    description="""Sintetiza todos los resultados y define estrategia:
    
    1. Resume el rendimiento del modelo final
    2. Evalúa si el modelo cumple requisitos de negocio
    3. Identifica oportunidades de mejora
    4. Define próximos experimentos a realizar
    5. Propone estrategia de deployment
    6. Establece métricas de monitoreo
    
    Proporciona una visión estratégica clara y accionable.
    """,
    agent=ml_strategist,
    expected_output="""Documento estratégico con:
    - Executive Summary del proyecto ML
    - Decisión: ¿Proceder con deployment?
    - Top 3-5 acciones para mejorar el modelo
    - Roadmap de próximos experimentos (priorizado)
    - Plan de deployment y monitoreo
    - Riesgos y consideraciones
    """,
    context=[preprocessing_task, feature_engineering_task, 
             model_training_task, model_evaluation_task]
)

print("Tareas del pipeline ML definidas")

### Paso 3: Crear y Configurar el ML Crew

In [None]:
from crewai import Crew, Process

# Crear el crew de ML
ml_pipeline_crew = Crew(
    agents=[
        data_preprocessor,
        feature_engineer,
        model_trainer,
        model_evaluator,
        ml_strategist
    ],
    tasks=[
        preprocessing_task,
        feature_engineering_task,
        model_training_task,
        model_evaluation_task,
        ml_strategy_task
    ],
    process=Process.sequential,
    verbose=True
)

print("ML Pipeline Crew creado")
print(f"\nResumen:")
print(f"- Agentes: {len(ml_pipeline_crew.agents)}")
print(f"- Tareas: {len(ml_pipeline_crew.tasks)}")
print(f"- Proceso: Secuencial")
print(f"\nPipeline:")
print("  1. Preprocesamiento de Datos")
print("  2. Feature Engineering")
print("  3. Entrenamiento de Modelos")
print("  4. Evaluación de Modelos")
print("  5. Estrategia ML")

In [None]:
# EJECUTAR EL ML PIPELINE
# Nota: Este es un pipeline complejo que puede tomar tiempo considerable

print("Para ejecutar el pipeline ML, descomenta el código siguiente:")
print("\n" + "=" * 80)

# Descomentar para ejecutar
# print("Iniciando ML Pipeline...\n")
# ml_result = ml_pipeline_crew.kickoff()
#
# print("\n" + "=" * 80)
# print("RESULTADO FINAL DEL ML PIPELINE:")
# print("=" * 80)
# print(ml_result)
#
# # Guardar resultado
# with open('ml_pipeline_result.txt', 'w', encoding='utf-8') as f:
#     f.write(str(ml_result))
# print("\nResultado guardado en 'ml_pipeline_result.txt'")

print("\nNota: Asegúrate de tener configurada tu API key antes de ejecutar")

---

## 8. Casos de Uso en Data Science <a name="casos-uso"></a>

### 8.1 Análisis Automatizado de A/B Tests

**Agentes necesarios:**
- Statistical Tester: Ejecuta tests de hipótesis
- Effect Size Analyst: Calcula tamaños de efecto
- Business Impact Evaluator: Estima impacto en negocio
- Recommendation Engine: Genera recomendaciones

**Flujo:**
```
Data Collection → Statistical Testing → Effect Size Analysis → 
Business Impact → Recommendation
```

### 8.2 Pipeline de NLP para Análisis de Sentimientos

**Agentes necesarios:**
- Text Preprocessor: Limpieza y tokenización
- Feature Extractor: TF-IDF, embeddings
- Sentiment Analyzer: Clasificación de sentimientos
- Topic Modeler: Extracción de tópicos
- Insights Generator: Resumen de hallazgos

### 8.3 Sistema de Detección de Anomalías

**Agentes necesarios:**
- Data Monitor: Recolecta métricas en tiempo real
- Anomaly Detector: Identifica patrones anómalos
- Root Cause Analyzer: Investiga causas
- Alert Manager: Prioriza y notifica alertas

### 8.4 Automated Feature Store Management

**Agentes necesarios:**
- Feature Generator: Crea nuevas features
- Feature Validator: Valida calidad de features
- Feature Selector: Selecciona features óptimas
- Documentation Agent: Documenta el feature store

### 8.5 Explicabilidad de Modelos (XAI)

**Agentes necesarios:**
- SHAP Analyzer: Calcula SHAP values
- LIME Explainer: Genera explicaciones locales
- Feature Impact Analyzer: Analiza importancia global
- Report Generator: Crea reportes de explicabilidad

---

## 9. Mejores Prácticas <a name="mejores-practicas"></a>

### 9.1 Diseño de Agentes

**DO:**
- Define roles específicos y bien delimitados
- Escribe backstories detallados que guíen el comportamiento
- Asigna herramientas relevantes para cada rol
- Establece goals claros y medibles
- Usa nombres descriptivos para los agentes

**DON'T:**
- Crear agentes con responsabilidades demasiado amplias
- Sobrecargar un agente con demasiadas herramientas
- Usar goals vagos o ambiguos
- Ignorar el backstory (es crucial para el comportamiento)

### 9.2 Diseño de Tareas

**DO:**
- Escribe descripciones detalladas y específicas
- Define claramente el output esperado
- Usa el parámetro `context` para dependencias entre tareas
- Divide tareas complejas en subtareas más simples
- Especifica criterios de éxito claros

**DON'T:**
- Descripciones de tareas vagas o ambiguas
- Omitir el expected_output
- Crear tareas demasiado grandes o complejas
- Ignorar dependencias entre tareas

### 9.3 Orquestación del Crew

**DO:**
- Usa Process.sequential para tareas dependientes
- Usa Process.hierarchical para proyectos muy complejos
- Habilita verbose=True durante desarrollo para debugging
- Implementa manejo de errores robusto
- Monitorea costos de API

**DON'T:**
- Mezclar tareas independientes y dependientes sin planificación
- Ignorar el orden de ejecución de las tareas
- Ejecutar en producción sin pruebas previas

### 9.4 Herramientas Personalizadas

**DO:**
- Crea herramientas específicas para tu dominio
- Escribe docstrings claros (los agentes los leen)
- Maneja errores apropiadamente
- Retorna strings descriptivos y estructurados
- Valida inputs de las herramientas

**DON'T:**
- Herramientas que hacen demasiadas cosas
- Omitir manejo de errores
- Retornar objetos complejos (usa strings)
- Docstrings ambiguos o faltantes

### 9.5 Optimización de Costos

**Estrategias:**
1. Usa modelos más pequeños para tareas simples
2. Implementa caching de resultados
3. Limita el número de iteraciones de los agentes
4. Desactiva verbose en producción
5. Usa herramientas específicas en lugar de dar libertad total

### 9.6 Testing y Validación

**Recomendaciones:**
1. Prueba cada agente individualmente primero
2. Valida el output de cada tarea
3. Usa datasets pequeños durante desarrollo
4. Implementa unit tests para herramientas personalizadas
5. Documenta el comportamiento esperado

### 9.7 Seguridad y Privacidad

**Consideraciones:**
- No envíes datos sensibles a APIs externas sin cifrado
- Implementa validación de inputs
- Usa variables de entorno para API keys
- Revisa los logs antes de compartirlos
- Considera usar modelos locales para datos críticos

### 9.8 Monitoreo y Logging

**Implementa:**
1. Logging estructurado de cada tarea
2. Métricas de tiempo de ejecución
3. Tracking de errores y excepciones
4. Monitoreo de calidad de outputs
5. Alertas para comportamientos anómalos

---

## 10. Ejercicios Prácticos <a name="ejercicios"></a>

### Ejercicio 1: Sistema de Validación de Datos

**Objetivo:** Crear un sistema multi-agente para validar la calidad de datasets.

**Requisitos:**
1. Crear 3 agentes:
   - Schema Validator: Valida tipos de datos y estructura
   - Quality Checker: Detecta problemas de calidad
   - Report Generator: Genera reporte ejecutivo

2. Implementar validaciones:
   - Valores faltantes
   - Duplicados
   - Outliers
   - Inconsistencias

3. Generar reporte con:
   - Score de calidad (0-100)
   - Lista de problemas encontrados
   - Recomendaciones de corrección

**Dataset sugerido:** Usa el dataset de ventas creado anteriormente

In [None]:
# EJERCICIO 1: Tu código aquí

# Pista: Comienza definiendo los agentes
# schema_validator = Agent(...)
# quality_checker = Agent(...)
# report_generator = Agent(...)

# Luego define las tareas
# schema_task = Task(...)
# quality_task = Task(...)
# report_task = Task(...)

# Finalmente crea el crew
# validation_crew = Crew(...)

pass

### Ejercicio 2: Pipeline de Feature Engineering

**Objetivo:** Automatizar la creación y selección de features.

**Requisitos:**
1. Crear 3 agentes:
   - Feature Creator: Genera nuevas features
   - Feature Selector: Selecciona features relevantes
   - Documentation Agent: Documenta features

2. Tipos de features a crear:
   - Features temporales
   - Features de interacción
   - Features agregadas
   - Features polinomiales

3. Criterios de selección:
   - Correlación con target
   - Importancia en modelo baseline
   - Multicolinealidad

**Output esperado:** Dataset con features seleccionados y documentación

In [None]:
# EJERCICIO 2: Tu código aquí

pass

### Ejercicio 3: Sistema de Comparación de Modelos

**Objetivo:** Sistema que compara múltiples modelos de ML automáticamente.

**Requisitos:**
1. Crear 4 agentes:
   - Model Trainer: Entrena múltiples modelos
   - Performance Evaluator: Evalúa métricas
   - Bias Detector: Detecta sesgos en predicciones
   - Recommender: Recomienda el mejor modelo

2. Modelos a comparar:
   - Linear Regression
   - Random Forest
   - Gradient Boosting
   - Neural Network (opcional)

3. Métricas a evaluar:
   - Accuracy/RMSE según el problema
   - Tiempo de entrenamiento
   - Interpretabilidad
   - Overfitting score

**Output:** Reporte comparativo con recomendación fundamentada

In [None]:
# EJERCICIO 3: Tu código aquí

pass

### Ejercicio 4: Sistema de Monitoreo de Modelo en Producción

**Objetivo:** Crear un sistema que monitoree un modelo desplegado.

**Requisitos:**
1. Crear 4 agentes:
   - Data Drift Detector: Detecta drift en features
   - Performance Monitor: Monitorea métricas del modelo
   - Anomaly Detector: Detecta predicciones anómalas
   - Alert Manager: Decide cuándo alertar

2. Tipos de drift a detectar:
   - Cambios en distribución de features
   - Cambios en distribución de predicciones
   - Degradación de performance

3. Sistema de alertas:
   - Niveles: Info, Warning, Critical
   - Criterios de escalamiento
   - Recomendaciones de acción

**Bonus:** Implementar reentrenamiento automático cuando sea necesario

In [None]:
# EJERCICIO 4: Tu código aquí

pass

---

## Recursos Adicionales

### Documentación Oficial
- CrewAI Documentation: https://docs.crewai.com/
- CrewAI GitHub: https://github.com/joaomdmoura/crewAI
- CrewAI Tools: https://github.com/joaomdmoura/crewAI-tools

### Tutoriales y Ejemplos
- CrewAI Examples Repository
- YouTube: CrewAI Official Channel
- Medium: Articles sobre CrewAI

### Comunidad
- Discord de CrewAI
- Discussions en GitHub
- Stack Overflow (tag: crewai)

### Papers y Referencias
- "Multi-Agent Systems for AI" - Various authors
- "Autonomous Agents and Multi-Agent Systems" - Journal
- "AI Agents in Production" - Best practices

### Herramientas Complementarias
- LangChain: Framework de LLM applications
- LangSmith: Debugging y monitoring de LLM apps
- Weights & Biases: Tracking de experimentos ML
- MLflow: Platform de ML lifecycle

---

## Conclusiones

### Puntos Clave Aprendidos

1. **Agentes**: Entidades autónomas especializadas con roles específicos
2. **Multi-Agente**: Colaboración de agentes para problemas complejos
3. **CrewAI**: Framework para orquestar sistemas multi-agente
4. **Data Science**: Aplicación práctica en pipelines de ML
5. **Best Practices**: Diseño, testing, y optimización de crews

### Próximos Pasos

1. Completa los ejercicios propuestos
2. Experimenta con tus propios datasets
3. Crea herramientas personalizadas para tu dominio
4. Explora procesos hierarchical para proyectos complejos
5. Implementa un crew en un proyecto real

### Reflexión Final

Los sistemas multi-agente representan un paradigma poderoso para automatizar
tareas complejas en ciencia de datos. CrewAI facilita la implementación de
estos sistemas, permitiendo crear equipos de IA especializados que colaboran
para resolver problemas que serían difíciles para un solo agente.

La clave del éxito está en:
- Diseño cuidadoso de roles y responsabilidades
- Definición clara de tareas y outputs esperados
- Iteración y refinamiento continuo
- Evaluación rigurosa de resultados

---

**Fin del Bootcamp - CrewAI para Data Science**