# Clase Completa de LangChain: De Fundamentos a Sistemas Multi-Agente

**Instructor:** Borja Barber  
**Fecha:** 2025  
**Duracion:** 3-4 horas

---

## Tabla de Contenidos

1. [Introduccion a LangChain](#1)
2. [Instalacion y Configuracion](#2)
3. [Fundamentos: Modelos y Prompts](#3)
4. [Cadenas (Chains) y LCEL](#4)
5. [Herramientas Personalizadas](#5)
6. [Sistemas Multi-Agente con LangGraph](#6)
7. [Proyecto Final: Equipo de Data Science Multi-Agente](#7)

---

## Objetivos de Aprendizaje

Al finalizar esta clase, seras capaz de:

- Comprender la arquitectura modular de LangChain
- Crear prompts dinamicos y cadenas de procesamiento
- Implementar herramientas personalizadas
- Construir sistemas multi-agente con LangGraph
- Aplicar LangChain a casos de uso de Data Science

---

## Referencias

- [Documentacion oficial de LangChain](https://python.langchain.com/)
- [LangGraph Multi-Agent Workflows](https://blog.langchain.com/langgraph-multi-agent-workflows/)
- [Multi-Agent Tutorial LangGraph](https://blog.futuresmart.ai/multi-agent-system-with-langgraph)
- [LangChain for Data Science](https://towardsdatascience.com/langchain-for-eda-build-a-csv-sanity-check-agent-in-python/)

---

# 1. Introduccion a LangChain <a id='1'></a>

## Que es LangChain?

**LangChain** es un framework de codigo abierto disenado para construir aplicaciones potenciadas por **Modelos de Lenguaje Grande (LLMs)**.

### Conceptos Clave

1. **Integracion**: Conecta LLMs con fuentes de datos externas (APIs, bases de datos, archivos)
2. **Orquestacion**: Encadena multiples llamadas a LLMs de forma estructurada
3. **Agencia**: Permite que los LLMs tomen decisiones y usen herramientas

### Arquitectura Modular (2025)

LangChain se ha dividido en paquetes especializados:

```
langchain-core       → Abstracciones base
langchain-openai     → Integracion con OpenAI
langchain-community  → Integraciones comunitarias
langchain            → Cadenas y agentes de alto nivel
langgraph            → Sistemas multi-agente con grafos
```

### Por que usar LangChain?

- **Abstraccion**: Simplifica la complejidad de trabajar con LLMs
- **Componibilidad**: Construye aplicaciones complejas con bloques simples
- **Comunidad**: Ecosistema activo con miles de integraciones
- **Flexibilidad**: Compatible con multiples proveedores de LLMs

---

# 2. Instalacion y Configuracion <a id='2'></a>

## Instalacion de Dependencias

Vamos a instalar todos los paquetes necesarios para esta clase.

In [1]:
# Instalacion de paquetes principales de LangChain
# Ejecuta esta celda primero antes de continuar con el resto del notebook

# Paquetes core de LangChain
# %pip install -q langchain
# %pip install -q langchain-core
# %pip install -q langchain-openai
# %pip install -q langchain-community

# Paquetes para multi-agente
# %pip install -q langgraph

# Utilidades
# %pip install -q python-dotenv
# %pip install -q openai

# Para analisis de datos
# %pip install -q pandas
# %pip install -q matplotlib
# %pip install -q seaborn
# %pip install -q tabulate

print("Todas las dependencias instaladas correctamente")

Todas las dependencias instaladas correctamente


## Configuracion de API Keys

Para usar LangChain necesitaras una **API Key de OpenAI**. 

### Opciones para configurar tu API Key:

1. **Archivo `.env`** (Recomendado para desarrollo):
   ```
   OPENAI_API_KEY=sk-tu-clave-aqui
   ```

2. **Variable de entorno del sistema**:
   ```bash
   export OPENAI_API_KEY='sk-tu-clave-aqui'
   ```

3. **Directamente en el codigo** (Solo para pruebas):
   ```python
   openai_api_key = 'sk-tu-clave-aqui'
   ```

### Como obtener tu API Key:

1. Visita [platform.openai.com](https://platform.openai.com/)
2. Crea una cuenta o inicia sesion
3. Ve a **API Keys** en tu perfil
4. Genera una nueva clave secreta

In [2]:
# Configuracion de variables de entorno y API Keys

from dotenv import load_dotenv
import os

# Cargar variables de entorno desde archivo .env (si existe)
load_dotenv()

# Obtener la API Key de OpenAI
# Si no esta en .env, reemplaza 'YourAPIKey' con tu clave real
OPENAI_API_KEY = os.getenv('OPENAI_API_KEY', 'YourAPIKey')

# Validar que la API Key esta configurada
if OPENAI_API_KEY == 'YourAPIKey' or not OPENAI_API_KEY:
    print("ADVERTENCIA: OpenAI API Key no configurada")
    print("Por favor, configura tu API Key en el archivo .env")
else:
    # Mostrar solo los ultimos 4 caracteres por seguridad
    print(f"API Key configurada correctamente (termina en: ...{OPENAI_API_KEY[-4:]})")
    
# Configurar la clave en el entorno para que LangChain la use automaticamente
os.environ['OPENAI_API_KEY'] = OPENAI_API_KEY

API Key configurada correctamente (termina en: ...ycIA)


---

# 3. Fundamentos: Modelos y Prompts <a id='3'></a>

## 3.1 Modelos de Lenguaje (LLMs)

Los **LLMs** son el corazon de LangChain. Hay dos tipos principales:

### LLMs vs Chat Models

| Caracteristica | LLM | Chat Model |
|---------------|-----|------------|
| **Entrada** | String | Lista de mensajes |
| **Salida** | String | Mensaje (AIMessage) |
| **Uso** | Texto simple | Conversaciones |
| **Ejemplo** | gpt-3.5-turbo-instruct | gpt-4o-mini |

### Modelos Recomendados (2025)

- **gpt-4o-mini**: Rapido, economico, ideal para la mayoria de tareas
- **gpt-4o**: Mas potente, mejor razonamiento
- **gpt-3.5-turbo-instruct**: LLM tradicional (texto a texto)

In [3]:
# Ejemplo 1: LLM Tradicional (Texto a Texto)

from langchain_openai import OpenAI

# Crear instancia del modelo LLM
# temperature: controla la creatividad (0 = determinista, 1 = creativo)
llm = OpenAI(
    model_name="gpt-3.5-turbo-instruct",
    temperature=0.7,
    openai_api_key=OPENAI_API_KEY
)

# Invocar el modelo con un prompt simple
respuesta = llm.invoke("Explica que es Machine Learning en una frase.")

print("Pregunta: Que es Machine Learning?")
print(f"Respuesta: {respuesta}")

Pregunta: Que es Machine Learning?
Respuesta: 

El Machine Learning es una rama de la inteligencia artificial que permite a las máquinas aprender y mejorar a partir de datos y experiencias anteriores sin ser explícitamente programadas.


In [4]:
# Ejemplo 2: Chat Model (Mensajes a Mensaje)

from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage, SystemMessage, AIMessage

# Crear instancia del modelo de chat
chat = ChatOpenAI(
    model="gpt-4o-mini",
    temperature=0.7,
    openai_api_key=OPENAI_API_KEY
)

# Crear una conversacion con contexto
# SystemMessage: Define el rol y comportamiento del asistente
# HumanMessage: Representa la pregunta o entrada del usuario
mensajes = [
    SystemMessage(content="Eres un experto en Data Science que explica conceptos de forma clara y concisa."),
    HumanMessage(content="Cual es la diferencia entre regresion y clasificacion?")
]

# Invocar el modelo
respuesta = chat.invoke(mensajes)

print("Pregunta: Diferencia entre regresion y clasificacion?")
print(f"Respuesta: {respuesta.content}")

Pregunta: Diferencia entre regresion y clasificacion?
Respuesta: La regresión y la clasificación son dos tipos de problemas en el ámbito del aprendizaje supervisado en Machine Learning, y se diferencian principalmente en la naturaleza de la variable objetivo que intentan predecir.

1. **Regresión**:
   - **Objetivo**: Predecir un valor numérico continuo.
   - **Ejemplo**: Predecir el precio de una casa basado en sus características (tamaño, ubicación, número de habitaciones, etc.).
   - **Algoritmos comunes**: Regresión lineal, regresión polinómica, regresión de soporte vectorial (SVR), entre otros.

2. **Clasificación**:
   - **Objetivo**: Predecir una etiqueta o categoría discreta.
   - **Ejemplo**: Clasificar correos electrónicos como "spam" o "no spam".
   - **Algoritmos comunes**: Regresión logística, árboles de decisión, máquinas de soporte vectorial (SVM), redes neuronales, entre otros.

En resumen, la regresión se utiliza para problemas donde la salida es un valor continuo, mie

## 3.2 Prompt Templates

Los **Prompt Templates** permiten crear prompts dinamicos y reutilizables.

### Ventajas:

- Reutilizacion de prompts
- Variables dinamicas
- Mejor organizacion del codigo
- Facilita el testing y debugging

In [5]:
# Ejemplo 3: Prompt Templates Simples

from langchain_core.prompts import PromptTemplate

# Definir un template con variables entre llaves {}
# Las variables seran reemplazadas con valores reales al formatear
template = """
Eres un asistente de Data Science experto.

Tarea: {tarea}
Dataset: {dataset}
Contexto adicional: {contexto}

Por favor, proporciona una respuesta clara y tecnica.
"""

# Crear el PromptTemplate especificando las variables de entrada
prompt = PromptTemplate(
    input_variables=["tarea", "dataset", "contexto"],
    template=template
)

# Formatear el prompt reemplazando las variables con valores especificos
prompt_formateado = prompt.format(
    tarea="Realizar analisis exploratorio de datos (EDA)",
    dataset="ventas_mensuales.csv con 10,000 registros",
    contexto="El cliente quiere identificar patrones estacionales"
)

print("Prompt Generado:")
print("="*60)
print(prompt_formateado)
print("="*60)

# Usar el prompt con el LLM
respuesta = llm.invoke(prompt_formateado)
print("\nRespuesta del LLM:")
print(respuesta[:500])  # Mostrar solo los primeros 500 caracteres

Prompt Generado:

Eres un asistente de Data Science experto.

Tarea: Realizar analisis exploratorio de datos (EDA)
Dataset: ventas_mensuales.csv con 10,000 registros
Contexto adicional: El cliente quiere identificar patrones estacionales

Por favor, proporciona una respuesta clara y tecnica.


Respuesta del LLM:

Respuesta:

El análisis exploratorio de datos (EDA) es una técnica utilizada en el campo de Data Science para comprender y explorar un conjunto de datos de manera detallada, con el fin de identificar patrones, tendencias y relaciones entre variables. En este caso, se utilizará el conjunto de datos "ventas_mensuales.csv" que contiene 10,000 registros de ventas mensuales.

El primer paso en el EDA es revisar la estructura de los datos, es decir, el número de variables y observaciones. En este cas


In [6]:
# Ejemplo 4: Chat Prompt Templates

from langchain_core.prompts import ChatPromptTemplate

# Crear un template para chat con multiples mensajes
# Cada tupla representa (tipo_mensaje, contenido_con_variables)
chat_template = ChatPromptTemplate.from_messages([
    ("system", "Eres un {rol} especializado en {especialidad}."),
    ("human", "Necesito ayuda con: {problema}"),
    ("human", "Contexto adicional: {contexto}")
])

# Formatear el prompt con valores especificos
mensajes = chat_template.format_messages(
    rol="Data Scientist",
    especialidad="analisis de series temporales",
    problema="predecir ventas futuras",
    contexto="tengo datos historicos de 3 anios con estacionalidad"
)

print("Mensajes Generados:")
for i, msg in enumerate(mensajes, 1):
    print(f"\n{i}. {msg.__class__.__name__}:")
    print(f"   {msg.content}")

# Invocar el chat model con los mensajes generados
respuesta = chat.invoke(mensajes)
print("\nRespuesta:")
print(respuesta.content[:500])  # Mostrar solo los primeros 500 caracteres

Mensajes Generados:

1. SystemMessage:
   Eres un Data Scientist especializado en analisis de series temporales.

2. HumanMessage:
   Necesito ayuda con: predecir ventas futuras

3. HumanMessage:
   Contexto adicional: tengo datos historicos de 3 anios con estacionalidad

Respuesta:
Para predecir ventas futuras utilizando datos históricos con estacionalidad, puedes seguir estos pasos:

### 1. **Exploración de Datos**
   - **Visualización**: Grafica tus datos históricos para identificar patrones, tendencias y estacionalidades. Puedes utilizar gráficos de líneas y descomposición de series temporales.
   - **Estadísticas Descriptivas**: Revisa medidas como la media, mediana, desviación estándar, etc.

### 2. **Descomposición de la Serie Temporal**
   - Utiliza métodos como la 


---

# 4. Cadenas (Chains) y LCEL <a id='4'></a>

## Que son las Cadenas?

Las **Chains** (cadenas) permiten combinar multiples componentes (prompts, LLMs, procesadores) en un flujo secuencial.

## LCEL: LangChain Expression Language

**LCEL** es el metodo moderno (2025) para crear cadenas usando el operador `|` (pipe).

### Ventajas de LCEL:

- **Sintaxis clara**: Similar a pipes en Unix/Linux
- **Composicion**: Facil de combinar componentes
- **Streaming**: Soporte nativo para respuestas en tiempo real
- **Paralelizacion**: Ejecuta componentes en paralelo automaticamente

In [7]:
# Ejemplo 5: Cadena Simple con LCEL

from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# Paso 1: Crear el prompt template
prompt = ChatPromptTemplate.from_messages([
    ("system", "Eres un experto en {tema}."),
    ("human", "{pregunta}")
])

# Paso 2: Crear el modelo
model = ChatOpenAI(model="gpt-4o-mini", temperature=0.7)

# Paso 3: Crear el parser de salida
# StrOutputParser convierte AIMessage a string simple
output_parser = StrOutputParser()

# Paso 4: Construir la cadena usando el operador | (pipe)
# El flujo es: prompt -> model -> output_parser
# Los datos fluyen de izquierda a derecha
cadena = prompt | model | output_parser

# Paso 5: Invocar la cadena con parametros
resultado = cadena.invoke({
    "tema": "Python para Data Science",
    "pregunta": "Cuales son las 3 bibliotecas mas importantes?"
})

print("Resultado de la Cadena:")
print(resultado)

Resultado de la Cadena:
En el ámbito de Data Science en Python, las tres bibliotecas más importantes son:

1. **Pandas**: Es la biblioteca fundamental para la manipulación y análisis de datos. Proporciona estructuras de datos como DataFrames y Series, que facilitan la limpieza, transformación y análisis de datos. Permite manejar datos tabulares de manera eficiente y realizar operaciones como filtrado, agrupamiento y fusión de conjuntos de datos.

2. **NumPy**: Es la biblioteca básica para la computación numérica en Python. Proporciona soporte para arreglos multidimensionales (ndarrays) y funciones matemáticas de alto rendimiento que permiten realizar cálculos complejos de manera eficiente. Es fundamental para la manipulación de datos numéricos y sirve como base para muchas otras bibliotecas de Data Science.

3. **Matplotlib**: Es una biblioteca de visualización de datos que permite crear gráficos estáticos, animados e interactivos en Python. Es muy versátil y se utiliza para representa

In [8]:
# Ejemplo 6: Cadena Secuencial (Multi-Step)

# Paso 1: Generar una pregunta de analisis
paso1_prompt = ChatPromptTemplate.from_template(
    "Genera 1 pregunta analitica sobre el dataset: {dataset}"
)
paso1_chain = paso1_prompt | model | StrOutputParser()

# Paso 2: Sugerir metodo de analisis
paso2_prompt = ChatPromptTemplate.from_template(
    "Para responder esta pregunta: {pregunta}\n\n"
    "Sugiere un metodo de analisis de datos apropiado."
)
paso2_chain = paso2_prompt | model | StrOutputParser()

# Paso 3: Generar codigo Python
paso3_prompt = ChatPromptTemplate.from_template(
    "Genera codigo Python usando pandas para: {metodo}\n\n"
    "Solo el codigo, sin explicaciones."
)
paso3_chain = paso3_prompt | model | StrOutputParser()

# Funcion para encadenar los pasos manualmente
def analisis_completo(dataset: str):
    print("Paso 1: Generando pregunta analitica...")
    pregunta = paso1_chain.invoke({"dataset": dataset})
    print(f"Pregunta: {pregunta[:200]}...\n")
    
    print("Paso 2: Sugiriendo metodo de analisis...")
    metodo = paso2_chain.invoke({"pregunta": pregunta})
    print(f"Metodo: {metodo[:200]}...\n")
    
    print("Paso 3: Generando codigo Python...")
    codigo = paso3_chain.invoke({"metodo": metodo})
    print(f"Codigo:\n{codigo[:500]}...")
    
    return {"pregunta": pregunta, "metodo": metodo, "codigo": codigo}

# Ejecutar el analisis completo
resultado = analisis_completo("ventas por region y producto (CSV)")

Paso 1: Generando pregunta analitica...
Pregunta: Claro, aquí tienes una pregunta analítica que podrías considerar para explorar el dataset de ventas por región y producto:

**¿Cuál es la relación entre las ventas de diferentes productos en cada regi...

Paso 2: Sugiriendo metodo de analisis...
Metodo: Para abordar la pregunta analítica sobre la relación entre las ventas de diferentes productos en cada región y las tendencias a lo largo del tiempo, puedes seguir un enfoque estructurado que incluya v...

Paso 3: Generando codigo Python...
Codigo:
```python
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from statsmodels.tsa.seasonal import seasonal_decompose
from sklearn.linear_model import LinearRegression
import numpy as np

# Cargar los datos
data = pd.read_csv('ventas.csv')

# 1. Análisis Descriptivo
summary = data.groupby(['Producto', 'Region']).agg({'Ventas': ['mean', 'median', 'std']}).reset_index()
print(summary)

# Distribución de Ventas
plt.figure(fig

## 4.3 Output Parsers: Structured Output

Los **Output Parsers** convierten las respuestas de texto del LLM en estructuras de datos (JSON, objetos Python).

### Metodo Moderno: `with_structured_output()`

OpenAI soporta nativamente salidas estructuradas usando Pydantic models.

In [9]:
# Ejemplo 7: Salida Estructurada con Pydantic

from pydantic import BaseModel, Field
from typing import List, Optional

# Definir el esquema de datos que queremos extraer usando Pydantic
# Pydantic valida automaticamente los tipos de datos
class AnalisisDataset(BaseModel):
    """Analisis estructurado de un dataset."""
    
    nombre_dataset: str = Field(description="Nombre del dataset")
    tipo_datos: str = Field(description="Tipo de datos (numerico, categorico, temporal, etc.)")
    analisis_recomendados: List[str] = Field(description="Lista de analisis recomendados")
    herramientas_python: List[str] = Field(description="Librerias Python recomendadas")
    dificultad: str = Field(description="Nivel de dificultad (bajo, medio, alto)")
    tiempo_estimado: Optional[str] = Field(default=None, description="Tiempo estimado de analisis")

# Crear modelo con salida estructurada
# with_structured_output() fuerza al LLM a devolver datos en el formato especificado
model_estructurado = ChatOpenAI(model="gpt-4o-mini", temperature=0).with_structured_output(AnalisisDataset)

# Invocar el modelo con una descripcion del dataset
resultado = model_estructurado.invoke(
    "Analiza este dataset: Ventas mensuales de 50 productos en 10 regiones durante 3 anios, "
    "incluyendo precio, cantidad vendida, y temporada del anio."
)

# El resultado es un objeto Pydantic con atributos tipados
print("Analisis Estructurado del Dataset:")
print("="*60)
print(f"Nombre: {resultado.nombre_dataset}")
print(f"Tipo: {resultado.tipo_datos}")
print(f"Dificultad: {resultado.dificultad}")
print(f"Tiempo estimado: {resultado.tiempo_estimado}")
print(f"\nAnalisis Recomendados:")
for i, analisis in enumerate(resultado.analisis_recomendados, 1):
    print(f"  {i}. {analisis}")
print(f"\nHerramientas Python:")
for i, herramienta in enumerate(resultado.herramientas_python, 1):
    print(f"  {i}. {herramienta}")

Analisis Estructurado del Dataset:
Nombre: Ventas Mensuales de Productos
Tipo: numerico, categorico, temporal
Dificultad: medio
Tiempo estimado: 2-4 semanas

Analisis Recomendados:
  1. Análisis de tendencias de ventas a lo largo del tiempo
  2. Comparación de ventas por región
  3. Análisis de correlación entre precio y cantidad vendida
  4. Segmentación de productos por temporada
  5. Identificación de productos más y menos vendidos

Herramientas Python:
  1. pandas
  2. numpy
  3. matplotlib
  4. seaborn
  5. statsmodels


---

# 5. Herramientas Personalizadas <a id='5'></a>

## Que es una Herramienta?

Una **Tool** (herramienta) es una funcion que puede ser ejecutada por un LLM o un agente.

### Componentes de una Herramienta:

- **Nombre**: Identificador de la herramienta
- **Descripcion**: Explica que hace la herramienta (el LLM usa esto para decidir cuando usarla)
- **Funcion**: El codigo que se ejecuta
- **Parametros**: Argumentos que la funcion acepta

### Decorador @tool

El decorador `@tool` convierte una funcion Python normal en una herramienta que LangChain puede usar.

In [10]:
# Ejemplo 8: Crear Herramientas Personalizadas

from langchain_core.tools import tool
import pandas as pd

# Decorador @tool convierte la funcion en una herramienta de LangChain
# El docstring se usa como descripcion de la herramienta
@tool
def obtener_estadisticas_dataset(ruta_csv: str) -> str:
    """Obtiene estadisticas basicas de un archivo CSV.
    
    Args:
        ruta_csv: Ruta al archivo CSV
        
    Returns:
        String con estadisticas del dataset
    """
    try:
        # Leer el archivo CSV usando pandas
        df = pd.read_csv(ruta_csv)
        
        # Calcular estadisticas basicas
        stats = f"""
Estadisticas del Dataset:
- Filas: {len(df)}
- Columnas: {len(df.columns)}
- Nombres de columnas: {', '.join(df.columns)}
- Tipos de datos: {df.dtypes.to_dict()}
- Valores nulos: {df.isnull().sum().to_dict()}
- Primeras filas:
{df.head(3).to_string()}
"""
        return stats
    except Exception as e:
        return f"Error al leer el archivo: {str(e)}"

@tool
def calcular_metricas_ventas(ruta_csv: str) -> str:
    """Calcula metricas de ventas desde un CSV.
    
    Args:
        ruta_csv: Ruta al archivo CSV con columnas: precio, cantidad
        
    Returns:
        String con metricas calculadas
    """
    try:
        # Leer el archivo CSV
        df = pd.read_csv(ruta_csv)
        
        # Calcular ingresos totales (precio * cantidad)
        df['ingresos'] = df['precio'] * df['cantidad']
        
        # Calcular metricas de negocio
        metricas = f"""
Metricas de Ventas:
- Ingresos totales: ${df['ingresos'].sum():,.2f}
- Ticket promedio: ${df['ingresos'].mean():,.2f}
- Producto mas vendido: {df.groupby('producto')['cantidad'].sum().idxmax()}
- Region con mas ventas: {df.groupby('region')['ingresos'].sum().idxmax()}
"""
        return metricas
    except Exception as e:
        return f"Error al calcular metricas: {str(e)}"

# Lista de herramientas disponibles
tools = [obtener_estadisticas_dataset, calcular_metricas_ventas]

print("Herramientas creadas:")
for tool_item in tools:
    print(f"  - {tool_item.name}")
    print(f"    Descripcion: {tool_item.description[:100]}...")

Herramientas creadas:
  - obtener_estadisticas_dataset
    Descripcion: Obtiene estadisticas basicas de un archivo CSV.

    Args:
        ruta_csv: Ruta al archivo CSV

  ...
  - calcular_metricas_ventas
    Descripcion: Calcula metricas de ventas desde un CSV.

    Args:
        ruta_csv: Ruta al archivo CSV con column...


In [11]:
# Ejemplo 9: Usar Herramientas Directamente (sin agente)

# Las herramientas pueden ser invocadas directamente como funciones normales
print("Ejecutando herramienta: obtener_estadisticas_dataset")
print("="*60)
resultado = obtener_estadisticas_dataset.invoke({"ruta_csv": "ventas_ejemplo.csv"})
print(resultado)

print("\n" + "="*60)
print("Ejecutando herramienta: calcular_metricas_ventas")
print("="*60)
resultado = calcular_metricas_ventas.invoke({"ruta_csv": "ventas_ejemplo.csv"})
print(resultado)

Ejecutando herramienta: obtener_estadisticas_dataset

Estadisticas del Dataset:
- Filas: 50
- Columnas: 8
- Nombres de columnas: fecha, producto, categoria, precio, cantidad, vendedor, region, cliente_id
- Tipos de datos: {'fecha': dtype('O'), 'producto': dtype('O'), 'categoria': dtype('O'), 'precio': dtype('float64'), 'cantidad': dtype('int64'), 'vendedor': dtype('O'), 'region': dtype('O'), 'cliente_id': dtype('O')}
- Valores nulos: {'fecha': 0, 'producto': 0, 'categoria': 0, 'precio': 0, 'cantidad': 0, 'vendedor': 0, 'region': 0, 'cliente_id': 0}
- Primeras filas:
        fecha          producto    categoria  precio  cantidad      vendedor region cliente_id
0  2024-01-15         Laptop HP  Electronica  899.99         2    Juan Perez  Norte       C001
1  2024-01-16    Mouse Logitech   Accesorios   25.50         5  Maria Garcia    Sur       C002
2  2024-01-16  Teclado Mecanico   Accesorios   89.99         3    Juan Perez  Norte       C003


Ejecutando herramienta: calcular_metricas_ven

---

# 6. Sistemas Multi-Agente con LangGraph <a id='6'></a>

## Que es LangGraph?

**LangGraph** es una biblioteca para construir **sistemas multi-agente** usando grafos.

### Conceptos Clave:

- **Nodos**: Funciones que realizan tareas especificas
- **Edges**: Conexiones entre nodos (flujo de control)
- **State**: Estado compartido entre todos los nodos
- **Graph**: Estructura que define el flujo de ejecucion

### Patrones de Arquitectura:

1. **Sequential**: Nodos ejecutan en secuencia
2. **Parallel**: Nodos ejecutan en paralelo
3. **Conditional**: Flujo depende de condiciones
4. **Loop**: Nodos pueden ejecutarse multiples veces

## Referencias:

- [LangGraph Multi-Agent Workflows](https://blog.langchain.com/langgraph-multi-agent-workflows/)
- [Multi-Agent Tutorial](https://blog.futuresmart.ai/multi-agent-system-with-langgraph)
- [LangGraph Documentation](https://langchain-ai.github.io/langgraph/)

In [12]:
# Ejemplo 10: Introduccion a LangGraph - Grafo Simple

from typing import TypedDict, Annotated
from langgraph.graph import StateGraph, END
from langgraph.graph.message import add_messages

# Paso 1: Definir el State (estado compartido entre nodos)
# TypedDict permite definir la estructura del estado con tipos
class State(TypedDict):
    """Estado del grafo."""
    # Lista de mensajes con merge automatico usando add_messages
    messages: Annotated[list, add_messages]
    # Resultado del procesamiento
    resultado: str

# Paso 2: Definir nodos (funciones que procesan el estado)
# Cada nodo recibe el estado, lo modifica y lo retorna
def nodo_analizar(state: State) -> State:
    """Nodo que analiza la entrada."""
    print("Nodo: Analizando entrada...")
    # Obtener el ultimo mensaje si existe
    mensaje_entrada = state["messages"][-1].content if state.get("messages") else "Sin entrada"
    # Actualizar el estado con el resultado del analisis
    state["resultado"] = f"Analisis completado de: {mensaje_entrada}"
    return state

def nodo_procesar(state: State) -> State:
    """Nodo que procesa el analisis."""
    print("Nodo: Procesando analisis...")
    # Agregar informacion al resultado existente
    state["resultado"] += " | Procesamiento finalizado"
    return state

# Paso 3: Construir el grafo
# StateGraph recibe la definicion del estado como parametro
workflow = StateGraph(State)

# Agregar nodos al grafo
# Sintaxis: add_node(nombre, funcion)
workflow.add_node("analizar", nodo_analizar)
workflow.add_node("procesar", nodo_procesar)

# Definir el flujo entre nodos usando edges
workflow.set_entry_point("analizar")  # Primer nodo a ejecutar
workflow.add_edge("analizar", "procesar")  # analizar -> procesar
workflow.add_edge("procesar", END)  # procesar -> fin

# Compilar el grafo para poder ejecutarlo
app = workflow.compile()

print("Grafo LangGraph creado:")
print("Flujo: analizar -> procesar -> END")

# Paso 4: Ejecutar el grafo
from langchain_core.messages import HumanMessage

# Definir el estado inicial
estado_inicial = {
    "messages": [HumanMessage(content="Dataset de ventas")],
    "resultado": ""
}

print("\nEjecutando grafo...\n")
# invoke() ejecuta todo el grafo hasta END
resultado_final = app.invoke(estado_inicial)

print("\nResultado Final:")
print(f"  {resultado_final['resultado']}")

Grafo LangGraph creado:
Flujo: analizar -> procesar -> END

Ejecutando grafo...

Nodo: Analizando entrada...
Nodo: Procesando analisis...

Resultado Final:
  Analisis completado de: Dataset de ventas | Procesamiento finalizado


---

# 7. Proyecto Final: Equipo de Data Science Multi-Agente <a id='7'></a>

## Objetivo del Proyecto

Construir un **sistema multi-agente** que simule un equipo de Data Science trabajando en un analisis de datos real.

## Equipo de Agentes:

1. **Data Analyst Agent**: Explora y describe los datos
2. **Statistics Agent**: Calcula estadisticas y metricas
3. **Visualization Agent**: Genera visualizaciones
4. **Report Agent**: Genera el reporte final
5. **Supervisor Agent**: Coordina a todos los agentes

## Dataset: Ventas de Productos

Usaremos el archivo `ventas_ejemplo.csv` con las siguientes columnas:
- **fecha**: Fecha de la venta
- **producto**: Nombre del producto
- **categoria**: Categoria del producto
- **precio**: Precio unitario
- **cantidad**: Cantidad vendida
- **vendedor**: Nombre del vendedor
- **region**: Region de venta
- **cliente_id**: ID del cliente

## Arquitectura del Sistema

```
                      SUPERVISOR
                           |
           +---------------+---------------+
           |               |               |
      ANALYST         STATISTICS     VISUALIZATION
           |               |               |
           +---------------+---------------+
                           |
                        REPORT
```

## 7.1 Preparacion: Crear Herramientas para los Agentes

In [13]:
# Herramientas para el Data Analyst Agent

import pandas as pd
import numpy as np
from langchain_core.tools import tool

@tool
def explorar_dataset(ruta_csv: str) -> str:
    """Explora un dataset CSV y retorna informacion basica.
    
    Args:
        ruta_csv: Ruta al archivo CSV
    
    Returns:
        String con informacion del dataset
    """
    try:
        # Leer el archivo CSV
        df = pd.read_csv(ruta_csv)
        
        # Construir el reporte de exploracion
        info = f"""
EXPLORACION DEL DATASET
{'='*60}

Dimensiones:
  - Filas: {len(df):,}
  - Columnas: {len(df.columns)}

Columnas y Tipos:
"""
        # Listar todas las columnas con sus tipos de datos
        for col in df.columns:
            info += f"  - {col}: {df[col].dtype}\n"
        
        info += f"""
Valores Nulos:
"""
        # Verificar valores nulos
        nulos = df.isnull().sum()
        if nulos.sum() == 0:
            info += "  No hay valores nulos\n"
        else:
            for col, count in nulos[nulos > 0].items():
                info += f"  - {col}: {count} ({count/len(df)*100:.1f}%)\n"
        
        # Mostrar primeras filas
        info += f"""
Primeras 5 Filas:
{df.head().to_string()}
"""
        return info
    except Exception as e:
        return f"Error: {str(e)}"

@tool
def analizar_categorias(ruta_csv: str, columna: str) -> str:
    """Analiza la distribucion de una columna categorica.
    
    Args:
        ruta_csv: Ruta al archivo CSV
        columna: Nombre de la columna a analizar
    
    Returns:
        String con el analisis de categorias
    """
    try:
        df = pd.read_csv(ruta_csv)
        
        # Verificar que la columna existe
        if columna not in df.columns:
            return f"La columna '{columna}' no existe en el dataset"
        
        # Calcular frecuencias absolutas y relativas
        conteo = df[columna].value_counts()
        porcentaje = df[columna].value_counts(normalize=True) * 100
        
        # Construir el reporte
        info = f"""
ANALISIS DE CATEGORIAS: {columna}
{'='*60}

Distribucion:
"""
        for cat in conteo.index:
            info += f"  - {cat}: {conteo[cat]} ({porcentaje[cat]:.1f}%)\n"
        
        info += f"""
Resumen:
  - Valores unicos: {df[columna].nunique()}
  - Categoria mas frecuente: {conteo.index[0]} ({conteo.iloc[0]} ocurrencias)
"""
        return info
    except Exception as e:
        return f"Error: {str(e)}"

print("Herramientas del Data Analyst Agent creadas")

Herramientas del Data Analyst Agent creadas


In [14]:
# Herramientas para el Statistics Agent

@tool
def calcular_estadisticas_descriptivas(ruta_csv: str) -> str:
    """Calcula estadisticas descriptivas para columnas numericas.
    
    Args:
        ruta_csv: Ruta al archivo CSV
    
    Returns:
        String con estadisticas descriptivas
    """
    try:
        df = pd.read_csv(ruta_csv)
        
        # Convertir fecha a datetime si existe
        if 'fecha' in df.columns:
            df['fecha'] = pd.to_datetime(df['fecha'])
        
        # Calcular ingresos si tenemos precio y cantidad
        if 'precio' in df.columns and 'cantidad' in df.columns:
            df['ingresos'] = df['precio'] * df['cantidad']
        
        # Obtener estadisticas descriptivas de columnas numericas
        stats_df = df.describe()
        
        info = f"""
ESTADISTICAS DESCRIPTIVAS
{'='*60}

{stats_df.to_string()}

METRICAS DE NEGOCIO:
"""
        # Calcular metricas de negocio si tenemos ingresos
        if 'ingresos' in df.columns:
            info += f"""
  - Ingresos Totales: ${df['ingresos'].sum():,.2f}
  - Ingreso Promedio por Venta: ${df['ingresos'].mean():,.2f}
  - Ingreso Mediano: ${df['ingresos'].median():,.2f}
  - Desviacion Estandar: ${df['ingresos'].std():,.2f}
  - Venta Minima: ${df['ingresos'].min():,.2f}
  - Venta Maxima: ${df['ingresos'].max():,.2f}
"""
        
        return info
    except Exception as e:
        return f"Error: {str(e)}"

@tool
def analizar_por_categoria(ruta_csv: str, columna_agrupacion: str) -> str:
    """Analiza metricas agrupadas por una categoria.
    
    Args:
        ruta_csv: Ruta al archivo CSV
        columna_agrupacion: Columna para agrupar (ej: 'region', 'categoria')
    
    Returns:
        String con analisis por categoria
    """
    try:
        df = pd.read_csv(ruta_csv)
        
        # Verificar que la columna existe
        if columna_agrupacion not in df.columns:
            return f"La columna '{columna_agrupacion}' no existe"
        
        # Calcular ingresos
        df['ingresos'] = df['precio'] * df['cantidad']
        
        # Agrupar y calcular metricas agregadas
        grupo = df.groupby(columna_agrupacion).agg({
            'ingresos': ['sum', 'mean', 'count'],
            'cantidad': 'sum',
            'precio': 'mean'
        }).round(2)
        
        # Ordenar por ingresos totales descendente
        grupo = grupo.sort_values(('ingresos', 'sum'), ascending=False)
        
        info = f"""
ANALISIS POR {columna_agrupacion.upper()}
{'='*60}

{grupo.to_string()}

TOP 3:
"""
        # Mostrar el top 3
        for i, idx in enumerate(grupo.index[:3], 1):
            ingresos = grupo.loc[idx, ('ingresos', 'sum')]
            ventas = grupo.loc[idx, ('ingresos', 'count')]
            info += f"  {i}. {idx}: ${ingresos:,.2f} ({int(ventas)} ventas)\n"
        
        return info
    except Exception as e:
        return f"Error: {str(e)}"

print("Herramientas del Statistics Agent creadas")

Herramientas del Statistics Agent creadas


In [15]:
# Herramientas para el Visualization Agent

import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime

# Configurar estilo de visualizaciones
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 6)

@tool
def crear_grafico_barras(ruta_csv: str, columna: str, titulo: str = "Grafico de Barras") -> str:
    """Crea un grafico de barras para una columna categorica.
    
    Args:
        ruta_csv: Ruta al archivo CSV
        columna: Columna a graficar
        titulo: Titulo del grafico
    
    Returns:
        String con la ruta del archivo guardado
    """
    try:
        df = pd.read_csv(ruta_csv)
        # Calcular ingresos por categoria
        df['ingresos'] = df['precio'] * df['cantidad']
        
        # Agrupar y ordenar por ingresos
        datos = df.groupby(columna)['ingresos'].sum().sort_values(ascending=False)
        
        # Crear figura y grafico
        plt.figure(figsize=(12, 6))
        ax = datos.plot(kind='bar', color='steelblue', edgecolor='black')
        plt.title(titulo, fontsize=16, fontweight='bold')
        plt.xlabel(columna.capitalize(), fontsize=12)
        plt.ylabel('Ingresos ($)', fontsize=12)
        plt.xticks(rotation=45, ha='right')
        
        # Agregar valores en las barras
        for i, v in enumerate(datos):
            ax.text(i, v, f'${v:,.0f}', ha='center', va='bottom', fontsize=10)
        
        plt.tight_layout()
        
        # Guardar el grafico con timestamp
        filename = f"grafico_barras_{columna}_{datetime.now().strftime('%Y%m%d_%H%M%S')}.png"
        plt.savefig(filename, dpi=300, bbox_inches='tight')
        plt.close()
        
        return f"Grafico guardado: {filename}"
    except Exception as e:
        return f"Error: {str(e)}"

@tool
def crear_serie_temporal(ruta_csv: str, titulo: str = "Ventas en el Tiempo") -> str:
    """Crea un grafico de serie temporal de ventas.
    
    Args:
        ruta_csv: Ruta al archivo CSV
        titulo: Titulo del grafico
    
    Returns:
        String con la ruta del archivo guardado
    """
    try:
        df = pd.read_csv(ruta_csv)
        # Convertir fecha a datetime
        df['fecha'] = pd.to_datetime(df['fecha'])
        df['ingresos'] = df['precio'] * df['cantidad']
        
        # Agrupar por fecha y sumar ingresos
        serie = df.groupby('fecha')['ingresos'].sum()
        
        # Crear figura y grafico
        plt.figure(figsize=(14, 6))
        plt.plot(serie.index, serie.values, marker='o', linewidth=2, 
                 markersize=6, color='steelblue')
        plt.title(titulo, fontsize=16, fontweight='bold')
        plt.xlabel('Fecha', fontsize=12)
        plt.ylabel('Ingresos ($)', fontsize=12)
        plt.xticks(rotation=45, ha='right')
        plt.grid(True, alpha=0.3)
        
        # Agregar linea de tendencia
        z = np.polyfit(range(len(serie)), serie.values, 1)
        p = np.poly1d(z)
        plt.plot(serie.index, p(range(len(serie))), "r--", 
                 alpha=0.8, linewidth=2, label='Tendencia')
        plt.legend()
        
        plt.tight_layout()
        
        # Guardar el grafico
        filename = f"serie_temporal_{datetime.now().strftime('%Y%m%d_%H%M%S')}.png"
        plt.savefig(filename, dpi=300, bbox_inches='tight')
        plt.close()
        
        return f"Grafico guardado: {filename}"
    except Exception as e:
        return f"Error: {str(e)}"

print("Herramientas del Visualization Agent creadas")

Herramientas del Visualization Agent creadas


## 7.2 Crear una Funcion Helper para Ejecutar Herramientas con LLM

In [16]:
# Funcion helper para ejecutar herramientas con decision del LLM

from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage, AIMessage, ToolMessage

def ejecutar_con_herramientas(llm: ChatOpenAI, tools: list, pregunta: str, max_iterations: int = 3) -> str:
    """
    Ejecuta un LLM con herramientas disponibles.
    
    Args:
        llm: Modelo de chat de OpenAI
        tools: Lista de herramientas disponibles
        pregunta: Pregunta o tarea para el LLM
        max_iterations: Maximo numero de iteraciones
    
    Returns:
        Respuesta final del LLM
    """
    # Bind tools permite que el LLM sepa que herramientas estan disponibles
    llm_with_tools = llm.bind_tools(tools)
    
    # Inicializar lista de mensajes con la pregunta del usuario
    messages = [HumanMessage(content=pregunta)]
    
    # Loop de razonamiento: el LLM puede llamar herramientas multiples veces
    for iteration in range(max_iterations):
        # Invocar el LLM con los mensajes actuales
        response = llm_with_tools.invoke(messages)
        messages.append(response)
        
        # Si el LLM no quiere llamar mas herramientas, terminamos
        if not response.tool_calls:
            return response.content
        
        # Ejecutar cada herramienta que el LLM solicito
        for tool_call in response.tool_calls:
            # Buscar la herramienta por nombre
            tool_to_use = None
            for tool in tools:
                if tool.name == tool_call["name"]:
                    tool_to_use = tool
                    break
            
            if tool_to_use:
                # Ejecutar la herramienta con los argumentos proporcionados
                tool_result = tool_to_use.invoke(tool_call["args"])
                # Agregar el resultado como ToolMessage
                messages.append(
                    ToolMessage(
                        content=str(tool_result),
                        tool_call_id=tool_call["id"]
                    )
                )
    
    # Si llegamos al maximo de iteraciones, devolver el ultimo mensaje
    return messages[-1].content if messages else "No se pudo generar respuesta"

print("Funcion helper creada")

Funcion helper creada


## 7.3 Construir el Sistema Multi-Agente con LangGraph

In [17]:
# Sistema Multi-Agente con Supervisor

from typing import TypedDict, Annotated, Literal
from langgraph.graph import StateGraph, END
from langchain_core.messages import HumanMessage
import operator

# Crear LLM para los agentes
llm_agentes = ChatOpenAI(model="gpt-4o-mini", temperature=0)

# Paso 1: Definir el Estado del Sistema
class DataScienceTeamState(TypedDict):
    """Estado compartido del equipo de Data Science."""
    # Historial de mensajes (se acumulan con operator.add)
    messages: Annotated[list, operator.add]
    # Ruta del dataset a analizar
    ruta_csv: str
    # Descripcion de la tarea solicitada
    tarea: str
    # Resultados de cada agente (diccionario)
    resultados: dict
    # Proximo agente a ejecutar
    siguiente: str
    # Reporte final consolidado
    reporte_final: str

# Paso 2: Funciones para cada nodo (agente)

def nodo_supervisor(state: DataScienceTeamState) -> DataScienceTeamState:
    """
    Supervisor que decide que agente debe actuar.
    Implementa la logica de coordinacion del equipo.
    """
    print("\nSUPERVISOR: Analizando tarea...")
    
    resultados = state.get("resultados", {})
    
    # Decidir el siguiente paso basado en que ya se ha completado
    # El supervisor ejecuta los agentes en secuencia:
    # analyst -> statistics -> visualization -> report
    if not resultados.get("analyst"):
        siguiente = "analyst"
        print("   -> Delegando a: Data Analyst Agent (exploracion inicial)")
    elif not resultados.get("statistics"):
        siguiente = "statistics"
        print("   -> Delegando a: Statistics Agent (calculo de metricas)")
    elif not resultados.get("visualization"):
        siguiente = "visualization"
        print("   -> Delegando a: Visualization Agent (creacion de graficos)")
    else:
        siguiente = "report"
        print("   -> Delegando a: Report Agent (generacion de reporte final)")
    
    state["siguiente"] = siguiente
    return state

def nodo_analyst(state: DataScienceTeamState) -> DataScienceTeamState:
    """
    Data Analyst: Explora y describe el dataset.
    Usa herramientas de exploracion y analisis de categorias.
    """
    print("\nDATA ANALYST: Explorando dataset...")
    
    try:
        # Herramientas disponibles para este agente
        tools_analyst = [explorar_dataset, analizar_categorias]
        
        # Explorar dataset usando la funcion helper
        resultado_exploracion = ejecutar_con_herramientas(
            llm_agentes,
            tools_analyst,
            f"Explora el dataset en '{state['ruta_csv']}' y proporciona un resumen detallado de su estructura."
        )
        
        # Analizar categorias principales
        resultado_categorias = ejecutar_con_herramientas(
            llm_agentes,
            tools_analyst,
            f"Analiza la distribucion de 'categoria' y 'region' en '{state['ruta_csv']}'."
        )
        
        # Guardar resultados en el estado
        state["resultados"]["analyst"] = {
            "exploracion": resultado_exploracion,
            "categorias": resultado_categorias
        }
        
        print("   Exploracion completada")
    except Exception as e:
        print(f"   Error: {str(e)}")
        state["resultados"]["analyst"] = {"error": str(e)}
    
    return state

def nodo_statistics(state: DataScienceTeamState) -> DataScienceTeamState:
    """
    Statistics Agent: Calcula metricas estadisticas.
    Usa herramientas de estadisticas descriptivas y analisis por categoria.
    """
    print("\nSTATISTICS AGENT: Calculando metricas...")
    
    try:
        # Herramientas disponibles para este agente
        tools_statistics = [calcular_estadisticas_descriptivas, analizar_por_categoria]
        
        # Calcular estadisticas descriptivas
        resultado_stats = ejecutar_con_herramientas(
            llm_agentes,
            tools_statistics,
            f"Calcula estadisticas descriptivas completas del dataset '{state['ruta_csv']}'."
        )
        
        # Analizar por region
        resultado_region = ejecutar_con_herramientas(
            llm_agentes,
            tools_statistics,
            f"Analiza las metricas de ventas agrupadas por 'region' en '{state['ruta_csv']}'."
        )
        
        # Analizar por categoria
        resultado_categoria = ejecutar_con_herramientas(
            llm_agentes,
            tools_statistics,
            f"Analiza las metricas de ventas agrupadas por 'categoria' en '{state['ruta_csv']}'."
        )
        
        # Guardar resultados
        state["resultados"]["statistics"] = {
            "descriptivas": resultado_stats,
            "por_region": resultado_region,
            "por_categoria": resultado_categoria
        }
        
        print("   Metricas calculadas")
    except Exception as e:
        print(f"   Error: {str(e)}")
        state["resultados"]["statistics"] = {"error": str(e)}
    
    return state

def nodo_visualization(state: DataScienceTeamState) -> DataScienceTeamState:
    """
    Visualization Agent: Crea visualizaciones.
    Usa herramientas para crear graficos de barras y series temporales.
    """
    print("\nVISUALIZATION AGENT: Creando graficos...")
    
    try:
        # Herramientas disponibles para este agente
        tools_visualization = [crear_grafico_barras, crear_serie_temporal]
        
        # Crear grafico de ingresos por region
        resultado_region = ejecutar_con_herramientas(
            llm_agentes,
            tools_visualization,
            f"Crea un grafico de barras de ingresos por region usando '{state['ruta_csv']}' con titulo 'Ingresos por Region'."
        )
        
        # Crear grafico de ingresos por categoria
        resultado_categoria = ejecutar_con_herramientas(
            llm_agentes,
            tools_visualization,
            f"Crea un grafico de barras de ingresos por categoria usando '{state['ruta_csv']}' con titulo 'Ingresos por Categoria'."
        )
        
        # Crear serie temporal
        resultado_temporal = ejecutar_con_herramientas(
            llm_agentes,
            tools_visualization,
            f"Crea un grafico de serie temporal de ventas usando '{state['ruta_csv']}' con titulo 'Evolucion de Ventas'."
        )
        
        # Guardar resultados
        state["resultados"]["visualization"] = {
            "por_region": resultado_region,
            "por_categoria": resultado_categoria,
            "temporal": resultado_temporal
        }
        
        print("   Graficos creados")
    except Exception as e:
        print(f"   Error: {str(e)}")
        state["resultados"]["visualization"] = {"error": str(e)}
    
    return state

def nodo_report(state: DataScienceTeamState) -> DataScienceTeamState:
    """
    Report Agent: Genera el reporte final consolidado.
    Combina los resultados de todos los agentes en un reporte ejecutivo.
    """
    print("\nREPORT AGENT: Generando reporte final...")
    
    resultados = state["resultados"]
    
    # Consolidar todos los resultados en un reporte estructurado
    reporte = f"""
{'='*80}
REPORTE DE ANALISIS DE DATOS - EQUIPO DE DATA SCIENCE
{'='*80}

Dataset: {state['ruta_csv']}
Tarea: {state['tarea']}
Fecha: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}

{'='*80}
1. EXPLORACION INICIAL (Data Analyst Agent)
{'='*80}

{resultados.get('analyst', {}).get('exploracion', 'No disponible')}

{resultados.get('analyst', {}).get('categorias', '')}

{'='*80}
2. ANALISIS ESTADISTICO (Statistics Agent)
{'='*80}

{resultados.get('statistics', {}).get('descriptivas', 'No disponible')}

{resultados.get('statistics', {}).get('por_region', '')}

{resultados.get('statistics', {}).get('por_categoria', '')}

{'='*80}
3. VISUALIZACIONES (Visualization Agent)
{'='*80}

{resultados.get('visualization', {}).get('por_region', 'No disponible')}
{resultados.get('visualization', {}).get('por_categoria', 'No disponible')}
{resultados.get('visualization', {}).get('temporal', 'No disponible')}

{'='*80}
4. CONCLUSIONES Y RECOMENDACIONES
{'='*80}
"""
    
    # Usar LLM para generar conclusiones inteligentes basadas en los resultados
    prompt_conclusiones = f"""
Basandote en los siguientes resultados de analisis de datos, genera un resumen ejecutivo con:
1. 3-5 hallazgos clave
2. 2-3 recomendaciones accionables

Datos del analisis:
{str(resultados)[:2000]}

Se conciso y enfocate en insights de negocio.
"""
    
    try:
        # Generar conclusiones usando el LLM
        conclusiones = llm_agentes.invoke(prompt_conclusiones)
        reporte += conclusiones.content
    except:
        # Si falla, usar conclusiones por defecto
        reporte += """
Hallazgos Clave:
  - Dataset analizado exitosamente
  - Metricas calculadas y visualizadas
  - Ver graficos generados para mas detalles
"""
    
    reporte += f"""

{'='*80}
FIN DEL REPORTE
{'='*80}
"""
    
    state["reporte_final"] = reporte
    state["siguiente"] = "END"
    
    print("   Reporte generado")
    return state

# Paso 3: Funcion de routing (decide el siguiente nodo)
def route_siguiente(state: DataScienceTeamState) -> Literal["analyst", "statistics", "visualization", "report", "END"]:
    """
    Determina el siguiente nodo basado en el estado.
    Esta funcion controla el flujo condicional del grafo.
    """
    siguiente = state.get("siguiente", "analyst")
    if siguiente == "END":
        return END
    return siguiente

print("Funciones de nodos definidas")

Funciones de nodos definidas


In [18]:
# Construir el Grafo del Sistema Multi-Agente

# Crear el grafo con el tipo de estado definido
workflow = StateGraph(DataScienceTeamState)

# Agregar todos los nodos al grafo
workflow.add_node("supervisor", nodo_supervisor)
workflow.add_node("analyst", nodo_analyst)
workflow.add_node("statistics", nodo_statistics)
workflow.add_node("visualization", nodo_visualization)
workflow.add_node("report", nodo_report)

# Definir el punto de entrada: siempre empieza en supervisor
workflow.set_entry_point("supervisor")

# Definir edges condicionales desde supervisor
# El supervisor decide dinamicamente que agente ejecutar
workflow.add_conditional_edges(
    "supervisor",
    route_siguiente,
    {
        "analyst": "analyst",
        "statistics": "statistics",
        "visualization": "visualization",
        "report": "report",
        END: END
    }
)

# Cada agente vuelve al supervisor despues de ejecutar
# Esto crea un loop: supervisor -> agente -> supervisor
workflow.add_edge("analyst", "supervisor")
workflow.add_edge("statistics", "supervisor")
workflow.add_edge("visualization", "supervisor")

# El report es el nodo final: report -> END
workflow.add_edge("report", END)

# Compilar el grafo para poder ejecutarlo
app_multiagente = workflow.compile()

print("Sistema Multi-Agente construido exitosamente")
print("\nArquitectura:")
print("""
    SUPERVISOR
         |
    +----|----+----------+-------------+
    |         |          |             |
 ANALYST  STATISTICS  VISUALIZATION  REPORT
    |         |          |             |
    +----+----|----------+-------------+
         |
    SUPERVISOR (loop hasta completar)
""")

Sistema Multi-Agente construido exitosamente

Arquitectura:

    SUPERVISOR
         |
    +----|----+----------+-------------+
    |         |          |             |
 ANALYST  STATISTICS  VISUALIZATION  REPORT
    |         |          |             |
    +----+----|----------+-------------+
         |
    SUPERVISOR (loop hasta completar)



## 7.4 Ejecutar el Sistema Multi-Agente

In [19]:
# EJECUTAR EL SISTEMA MULTI-AGENTE

print("="*80)
print("INICIANDO SISTEMA MULTI-AGENTE DE DATA SCIENCE")
print("="*80)

# Definir el estado inicial del sistema
estado_inicial = {
    "messages": [HumanMessage(content="Realizar analisis completo de ventas")],
    "ruta_csv": "ventas_ejemplo.csv",
    "tarea": "Analisis exploratorio completo (EDA) del dataset de ventas",
    "resultados": {},
    "siguiente": "supervisor",
    "reporte_final": ""
}

print(f"\nTarea: {estado_inicial['tarea']}")
print(f"Dataset: {estado_inicial['ruta_csv']}")
print("\n" + "="*80)
print("INICIANDO WORKFLOW...")
print("="*80)

# Ejecutar el sistema multi-agente
try:
    # invoke() ejecuta todo el grafo hasta END
    resultado_final = app_multiagente.invoke(estado_inicial)
    
    print("\n" + "="*80)
    print("WORKFLOW COMPLETADO")
    print("="*80)
    
    # Mostrar el reporte final
    print("\n" + resultado_final["reporte_final"])
    
    # Guardar reporte en archivo de texto
    nombre_archivo = f"reporte_multiagente_{datetime.now().strftime('%Y%m%d_%H%M%S')}.txt"
    with open(nombre_archivo, "w", encoding="utf-8") as f:
        f.write(resultado_final["reporte_final"])
    
    print(f"\nReporte guardado en: {nombre_archivo}")
    
except Exception as e:
    print(f"\nError al ejecutar sistema: {str(e)}")
    import traceback
    traceback.print_exc()

INICIANDO SISTEMA MULTI-AGENTE DE DATA SCIENCE

Tarea: Analisis exploratorio completo (EDA) del dataset de ventas
Dataset: ventas_ejemplo.csv

INICIANDO WORKFLOW...

SUPERVISOR: Analizando tarea...
   -> Delegando a: Data Analyst Agent (exploracion inicial)

DATA ANALYST: Explorando dataset...
   Exploracion completada

SUPERVISOR: Analizando tarea...
   -> Delegando a: Statistics Agent (calculo de metricas)

STATISTICS AGENT: Calculando metricas...
   Metricas calculadas

SUPERVISOR: Analizando tarea...
   -> Delegando a: Visualization Agent (creacion de graficos)

VISUALIZATION AGENT: Creando graficos...
   Graficos creados

SUPERVISOR: Analizando tarea...
   -> Delegando a: Report Agent (generacion de reporte final)

REPORT AGENT: Generando reporte final...
   Reporte generado

WORKFLOW COMPLETADO


REPORTE DE ANALISIS DE DATOS - EQUIPO DE DATA SCIENCE

Dataset: ventas_ejemplo.csv
Tarea: Analisis exploratorio completo (EDA) del dataset de ventas
Fecha: 2025-11-24 21:58:03

1. EXPLOR

---

# Conclusion y Proximos Pasos

## Felicitaciones!

Has completado esta clase completa de LangChain. Ahora sabes:

- Como usar modelos de lenguaje (LLMs y Chat Models)
- Crear prompts dinamicos con templates
- Construir cadenas con LCEL
- Obtener salidas estructuradas
- Crear herramientas personalizadas
- Construir sistemas multi-agente con LangGraph
- Aplicar LangChain a problemas reales de Data Science

## Recursos Adicionales

### Documentacion Oficial:
- [LangChain Python Docs](https://python.langchain.com/)
- [LangGraph Documentation](https://langchain-ai.github.io/langgraph/)
- [LangSmith Hub](https://smith.langchain.com/hub)

### Tutoriales Avanzados:
- [LangGraph Multi-Agent Workflows](https://blog.langchain.com/langgraph-multi-agent-workflows/)
- [Multi-Agent System Tutorial](https://blog.futuresmart.ai/multi-agent-system-with-langgraph)
- [Building Coordinated AI Agents](https://codecut.ai/building-multi-agent-ai-langgraph-tutorial/)
- [LangGraph Agents DataCamp](https://www.datacamp.com/tutorial/langgraph-agents)

### Data Science con LangChain:
- [LangChain for EDA](https://towardsdatascience.com/langchain-for-eda-build-a-csv-sanity-check-agent-in-python/)
- [CSV Plot Agent](https://towardsai.net/p/machine-learning/csv-plot-agent-with-langchain-streamlit-your-introduction-to-data-agents)
- [Data Analyst Assistant](https://towardsai.net/p/machine-learning/create-your-own-data-analyst-assistant-with-langchain-agents)

## Proyectos Sugeridos

1. **Asistente de Analisis Automatizado**: Sistema que analice automaticamente cualquier CSV
2. **Sistema de Recomendaciones**: Agentes que recomiendan acciones basadas en datos
3. **Chatbot Analitico**: Interfaz conversacional para explorar datos
4. **Pipeline ETL Inteligente**: Agentes que limpian, transforman y analizan datos
5. **Sistema de Alertas Predictivas**: Agentes que monitorean metricas y alertan anomalias

## Tips Finales

1. **Experimenta**: La mejor forma de aprender es construyendo
2. **Itera**: Los prompts mejoran con prueba y error
3. **Monitorea costos**: Usa modelos economicos (gpt-4o-mini) durante desarrollo
4. **Maneja errores**: Los LLMs son no deterministas, siempre valida salidas
5. **Comunidad**: Unete al Discord de LangChain para ayuda

---

**Buena suerte en tu viaje con LangChain!**