# AI Agent

Desarrollado por: Sofia Diaz 

# Descripcion del Proyecto

Este agente AI implementa un workflow con:
- Routing: Seleccion inteligente de fuente de datos
- Retrieval: Extraccion de informacion contextual
- Multimodalidad: Soporte para CSV, TXT e imagenes
- Structured Outputs: Formato JSON con Pydantic


In [1]:
# Modulos del agente

from src.config import GOOGLE_API_KEY
from src.router import router
from src.retriever import retriever
from src.stylist import stylist
from src.workflow import run_workflow

API Key cargada correctamente


  from pydantic.v1.fields import FieldInfo as FieldInfoV1

All support for the `google.generativeai` package has ended. It will no longer be receiving 
updates or bug fixes. Please switch to the `google.genai` package as soon as possible.
See README for more details:

https://github.com/google-gemini/deprecated-generative-ai-python/blob/main/README.md

  import google.generativeai as genai


In [2]:
# PASO 1: Seleccion de Archivo

test_questions = [
    "¬øCu√°l fue la temperatura m√°xima en agosto 2021?",
    "¬øQu√© dice sobre el uso de XML tags?",
    "¬øCu√°ntas razas de ma√≠z son nativas?"
]

for q in test_questions:
    archivo = router(q)
    print(f"Archivo seleccionado: {archivo}\n")

Archivo seleccionado: datos_clima_mexico.csv

Archivo seleccionado: GPT-41_PromptingGuide.txt

Archivo seleccionado: maiz_info.jpg



In [None]:
# PASO 2: Respuesta con Contexto

respuesta_csv = retriever(
    "¬øCu√°l fue la temperatura promedio nacional en enero de 1985?",
    "datos_clima_mexico.csv"
)
print(f"Respuesta: {respuesta_csv}")

respuesta_txt = retriever(
    "¬øQu√© dice sobre system prompts en agentes?",
    "GPT-41_PromptingGuide.txt"
)
print(f"Respuesta: {respuesta_txt[:300]}...")

respuesta_imagen = retriever(
    "¬øPor qu√© el huitlacoche es superior en nutrientes al ma√≠z tradicional?",
    "maiz_info.jpg"
)
print(f"Respuesta: {respuesta_imagen}")

Respuesta: La temperatura media nacional en enero de 1985 fue de 15.9.
Respuesta: Para utilizar plenamente las capacidades de agente de GPT-4.1, el contexto recomienda incluir tres tipos de recordatorios clave en los **system prompts**:

1.  **Persistencia:** Asegura que el modelo entienda que est√° en un turno de m√∫ltiples mensajes y evita que ceda el control al usuario prematura...
Respuesta: Esta informacion no esta disponible en la imagen.


In [4]:
# PASO 3: Formato en 3 Tonos
respuesta_ejemplo = "En M√©xico existen 59 razas de ma√≠z nativas que se han reunido en 7 grupos principales. Estas razas son el resultado de 8 mil a√±os de domesticaci√≥n."

resultado = stylist(respuesta_ejemplo)

print(resultado['Respuesta_original'])
print(resultado['Respuesta_directa'])
print(resultado['Respuesta_divertida'])

En M√©xico existen 59 razas de ma√≠z nativas que se han reunido en 7 grupos principales. Estas razas son el resultado de 8 mil a√±os de domesticaci√≥n.
M√©xico cuenta con 59 razas de ma√≠z nativas clasificadas en 7 grupos. Son el fruto de 8,000 a√±os de domesticaci√≥n.
¬°M√©xico es el para√≠so del elote! üåΩ Tenemos 59 razas nativas en 7 grupos, perfeccionadas tras 8,000 a√±os de puro amor agr√≠cola. ‚ú®


In [5]:
# Workflow completo

pregunta_demo = "¬øQu√© dice el cookbook sobre el uso de etiquetas XML para GPT-4.1?"

resultado_final = run_workflow(pregunta_demo)

print(f"Archivo usado: {resultado_final['selected_file']}")
print(f"Respuesta Original:\n{resultado_final['Respuesta_original'][:300]}")
print(f"Respuesta Concisa:\n{resultado_final['Respuesta_directa']}")
print(f"Respuesta Graciosa:\n{resultado_final['Respuesta_divertida']}")

Archivo usado: GPT-41_PromptingGuide.txt
Respuesta Original:
Esta informaci√≥n no est√° disponible en los datos proporcionados.
Respuesta Concisa:
No se dispone de la informaci√≥n solicitada en los datos suministrados.
Respuesta Graciosa:
¬°Vaya! Mis archivos est√°n m√°s vac√≠os que una nevera un lunes por la ma√±ana. üßä Esa info no aparece por ning√∫n lado. üïµÔ∏è‚Äç‚ôÇÔ∏è


In [None]:
# Test cases

"""Los siguientes son los 6 test cases en el README para validar el funcionamiento."""

test_cases = [
    "¬øQu√© dice el cookbook sobre el uso de etiquetas XML para GPT-4.1?",
    "¬øAlg√∫n consejo para promptear a GPT-5?", 
    "¬øTop 5 estados m√°s calientes en agosto de 2021?",
    "¬øCu√°les fueron las 3 temperaturas m√≠nimas en diciembre de 2025?",
    "¬øCu√°ntas razas de ma√≠z son nativas en M√©xico?",
    "¬øPor qu√© el huitlacoche es superior en nutrientes al ma√≠z tradicional?"
]
pregunta_test = test_cases[0:5] 
resultado = run_workflow(pregunta_test)

print(f"Archivo: {resultado['selected_file']}")
print(f"Original:\n{resultado['Respuesta_original']}")
print(f"Conciso:\n{resultado['Respuesta_directa']}")
print(f"Gracioso:\n{resultado['Respuesta_divertida']}")

Archivo: datos_clima_mexico.csv
Original:
Esta informaci√≥n no est√° disponible en los datos proporcionados.
Conciso:
No se encuentra la informaci√≥n solicitada en los datos proporcionados.
Gracioso:
¬°Ups! Mis datos est√°n m√°s vac√≠os que mi nevera un lunes. üïµÔ∏è‚Äç‚ôÇÔ∏è No encontr√© nada por aqu√≠. üö´


---

# Reflexion final

Utilice LangChain como framework principal a excepcion del Procesamiento de im√°genes, ya que usa SDK directa de Google porque el soporte multimodal de LangChain est√° en desarrollo.

# Tokens y Costo

Para la arquitectura de este proyecto, me enfoque principalmente en lograr que funcionara y en entender cada paso del proceso; y por lo tanto, siento que la arquitectura si puede escalar, porque divide el problema en partes peque√±as. Esto ayuda a que las respuestas sean m√°s claras y controladas.

Sin embargo, tambi√©n noto que cada pregunta del usuario implica varias llamadas al modelo, y eso aumenta el uso de tokens y los costos si se utilizara en un sistema real con muchos usuarios.

Creo que se podr√≠a optimizar reduciendo la cantidad de llamadas al modelo, usando modelos m√°s peque√±os para tareas simples como el enrutamiento, o procesando mejor los datos antes de enviarlos al modelo.

Consumo actual: 3.500 - 5.500 tokens por request que tiene un costo aproximado de 0.03 USD (Teniendo en cuenta que el modelo cueste aprox. 3 USD por 1M de tokens de entrada y 10 USD por 1M de tokens de salida) y podria optimizarse usando modelos economicos para tareas simples o reducir el numero de llamadas al modelo para reducir el numeor de tokens.

# Latencia

Considero que si podria ser un poco mas lento para usar en tiempo real, porque aqui se hacen varios pasos. Aun asi, entiendo que esa division tambien hace que el sistema sea mas ordenado y confiable, lo que genera un equilibrio entre rapidez y precision.

Para hacerlo mas rapido, se podrian usar modelos m√°s rapidos para algunas partes del proceso o simplificar algunos pasos del flujo.

# Evaluacion

Una forma mas confiable seria probar el sistema con preguntas especificas y comparar si realmente usa el archivo correcto y si la respuesta coincide con la informacion disponible.

Tambi√©n se evaluo si el sistema evita responder cuando la informacion no esta en los datos, con las preguntas trampa del ejercicio. Eso me parecio interesante porque obliga a que el agente no invente cosas.

Como es un flujo paso a paso, cada parte se podr√≠a revisar por separado e identificar falencias o puntos a mejorar. 

# Autonom√≠a

Desde lo que hasta ahora se, un agente tipo ReAct tendr√≠a m√°s libertad para decidir qu√© hacer en cada momento, en lugar de seguir un flujo fijo como el que construi. En ese sentido, eso podria ser bueno porque seria mas flexible para preguntas diferentes o inesperadas. Pero tambien podria ser mas dificil de controlar, revisar si algo sale mal, y tal vez use m√°s tokens.

Para este ejercicio, siento que el flujo paso a paso fue una buena decision porque hace que todo sea mas claro y mas facil de entender.

# Aprendizajes Clave

Mi mayor aprendizaje fue darme cuenta de que un sistema de IA no es solo hacer una pregunta y obtener una respuesta, pude entender como cada parte del proceso tenia un proposito y el poder dise√±ar un flujo logico que ayude a que el modelo use la informacion correcta fue un reto. 

Aunque en varios momentos tuve que investigar y apoyarme en herramientas para avanzar, siento que eso hace parte del proceso de aprendizaje y este ejercicio me dejo muy motivada a seguir mejorando. Si me veo trabajando en este tipo de soluciones y desarrollando m√°s habilidades con la pr√°ctica.