# **Laboratorio 11: LLM y Agentes Autónomos 🤖**

MDS7202: Laboratorio de Programación Científica para Ciencia de Datos

### **Cuerpo Docente:**

- Profesores: Ignacio Meza, Sebastián Tinoco
- Auxiliar: Eduardo Moya
- Ayudantes: Nicolás Ojeda, Melanie Peña, Valentina Rojas

### Equipo: **SUPER IMPORTANTE - notebooks sin nombre no serán revisados**

- Nombre de alumno 1: Joaquín De Groote
- Nombre de alumno 2: Vicente Pinochet R.

### **Link de repositorio de GitHub:** [Insertar Enlace](https://github.com/Qajirr/MDS7202-Labs)

## **Temas a tratar**

- Reinforcement Learning
- Large Language Models

## **Reglas:**

- **Grupos de 2 personas**
- Cualquier duda fuera del horario de clases al foro. Mensajes al equipo docente serán respondidos por este medio.
- Prohibidas las copias.
- Pueden usar cualquer matrial del curso que estimen conveniente.

### **Objetivos principales del laboratorio**

- Resolución de problemas secuenciales usando Reinforcement Learning
- Habilitar un Chatbot para entregar respuestas útiles usando Large Language Models.

El laboratorio deberá ser desarrollado sin el uso indiscriminado de iteradores nativos de python (aka "for", "while"). La idea es que aprendan a exprimir al máximo las funciones optimizadas que nos entrega `pandas`, las cuales vale mencionar, son bastante más eficientes que los iteradores nativos sobre DataFrames.

## **1. Reinforcement Learning (2.0 puntos)**

En esta sección van a usar métodos de RL para resolver dos problemas interesantes: `Blackjack` y `LunarLander`.

In [None]:
!pip install -qqq gymnasium stable_baselines3
!pip install -qqq swig
!pip install -qqq gymnasium[box2d]

### **1.1 Blackjack (1.0 puntos)**

<p align="center">
  <img src="https://www.recreoviral.com/wp-content/uploads/2016/08/s3.amazonaws.com-Math.gif"
" width="400">
</p>

La idea de esta subsección es que puedan implementar métodos de RL y así generar una estrategia para jugar el clásico juego Blackjack y de paso puedan ~~hacerse millonarios~~ aprender a resolver problemas mediante RL.

Comencemos primero preparando el ambiente. El siguiente bloque de código transforma las observaciones del ambiente a `np.array`:


</p>

La idea de esta subsección es que puedan implementar métodos de RL y así generar una estrategia para jugar el clásico juego Blackjack y de paso puedan ~~hacerse millonarios~~ aprender a resolver problemas mediante RL.

Comencemos primero preparando el ambiente. El siguiente bloque de código transforma las observaciones del ambiente a `np.array`:


In [None]:
import gymnasium as gym
from gymnasium.spaces import MultiDiscrete
import numpy as np

class FlattenObservation(gym.ObservationWrapper):
    def __init__(self, env):
        super(FlattenObservation, self).__init__(env)
        self.observation_space = MultiDiscrete(np.array([32, 11, 2]))

    def observation(self, observation):
        return np.array(observation).flatten()

# Create and wrap the environment
env = gym.make("Blackjack-v1")
env = FlattenObservation(env)

#### **1.1.1 Descripción de MDP (0.2 puntos)**

Entregue una breve descripción sobre el ambiente [Blackjack](https://gymnasium.farama.org/environments/toy_text/blackjack/) y su formulación en MDP, distinguiendo de forma clara y concisa los estados, acciones y recompensas.

`escriba su respuesta acá`

**Blackjack - Descripción del Ambiente**

El objetivo en **Blackjack** es vencer al dealer obteniendo cartas que sumen lo más cerca posible a 21, sin pasarse. El juego comienza con el dealer mostrando una carta y otra oculta, mientras el jugador recibe dos cartas visibles. Las cartas se sacan de un mazo infinito.

**Valores de las cartas**:
- Cartas de figuras (J, Q, K): **10 puntos**.
- Ases: **1 o 11 puntos** (usable ace).
- Cartas numéricas (2-9): Valor numérico.

**Acciones**:
- **0 (Stick)**: Detenerse.
- **1 (Hit)**: Pedir una carta.

**Espacio de observación**:
- Tupla \((suma\_jugador, carta\_dealer, as\_usable)\):
  - **suma\_jugador**: 4-21.
  - **carta\_dealer**: 1-10.
  - **as\_usable**: 0 o 1.

**Recompensas**:
- **+1**: Victoria.
- **0**: Empate.
- **-1**: Derrota.
- **+1.5**: Blackjack natural (opcional).

**Fin del episodio**:
- Cuando el jugador se pasa de 21 o elige "Stick".


#### **1.1.2 Generando un Baseline (0.2 puntos)**

Simule un escenario en donde se escojan acciones aleatorias. Repita esta simulación 5000 veces y reporte el promedio y desviación de las recompensas. ¿Cómo calificaría el performance de esta política? ¿Cómo podría interpretar las recompensas obtenidas?

In [None]:
# Simulación de 5000 episodios con acciones aleatorias
num_episodes = 5000
rewards = []

for _ in range(num_episodes):
    observation, _ = env.reset()
    done = False
    total_reward = 0

    while not done:
        # Tomar una acción aleatoria (0: Stick, 1: Hit)
        action = env.action_space.sample()
        observation, reward, done, _, _ = env.step(action)
        total_reward += reward
    
    rewards.append(total_reward)

# Calcular estadísticas
mean_reward = np.mean(rewards)
std_reward = np.std(rewards)

El promedio negativo de recompensas **-0.40** sugiere que la política de tomar acciones aleatorias resulta en más derrotas que victorias. Esto implica que el jugador pierde más de lo que gana en promedio. La desviación estándar de **0.89** muestra una considerable variabilidad en los resultados, lo que indica que las recompensas fluctúan significativamente de un episodio a otro.

**Conclusión**: El performance de esta política aleatoria es pobre, ya que genera pérdidas más frecuentemente. Para mejorar, se necesitaría una estrategia que considere la probabilidad de ganar y optimice las acciones en consecuencia.

#### **1.1.3 Entrenamiento de modelo (0.2 puntos)**

A partir del siguiente [enlace](https://stable-baselines3.readthedocs.io/en/master/guide/algos.html), escoja un modelo de `stable_baselines3` y entrenelo para resolver el ambiente `Blackjack`.

In [None]:
from stable_baselines3 import DQN
# Crear el modelo DQN
model = DQN("MlpPolicy", env, verbose=1)

# Entrenar el modelo durante 10000 pasos
model.learn(total_timesteps=10000)

# Guardar el modelo entrenado
model.save("dqn_blackjack_model")

# Evaluar el rendimiento del modelo
episodes = 1000
rewards = []

for _ in range(episodes):
    observation, _ = env.reset()
    done = False
    total_reward = 0
    
    while not done:
        action, _ = model.predict(observation, deterministic=True)
        observation, reward, done, _, _ = env.step(action)
        total_reward += reward
        
    rewards.append(total_reward)

mean_reward = np.mean(rewards)
print(f"Recompensa promedio después del entrenamiento: {mean_reward:.2f}")

#### **1.1.4 Evaluación de modelo (0.2 puntos)**

Repita el ejercicio 1.1.2 pero utilizando el modelo entrenado. ¿Cómo es el performance de su agente? ¿Es mejor o peor que el escenario baseline?

In [None]:
model = DQN.load("dqn_blackjack_model")

# Evaluar el rendimiento del modelo entrenado
episodes = 1000
rewards_trained_model = []

for _ in range(episodes):
    observation, _ = env.reset()
    done = False
    total_reward = 0
    
    while not done:
        # Predecir la acción con el modelo entrenado
        action, _ = model.predict(observation, deterministic=True)
        observation, reward, done, _, _ = env.step(action)
        total_reward += reward
        
    rewards_trained_model.append(total_reward)

# Calcular las estadísticas para el modelo entrenado
mean_reward_trained = np.mean(rewards_trained_model)
std_reward_trained = np.std(rewards_trained_model)

El promedio negativo de recompensas **-0.06** sugiere que el modelo entrenado aún tiene un rendimiento ligeramente negativo, con un equilibrio entre victorias y derrotas. Esto implica que, aunque el agente ha aprendido a jugar, no genera ganancias consistentes en promedio. La desviación estándar de  **0.96** muestra una considerable variabilidad en los resultados, lo que indica que las recompensas fluctúan significativamente de un episodio a otro.

**Conclusión**: El performance del modelo entrenado es mejor que el de la política aleatoria, pero aún no es ideal. Para mejorar, se podría optimizar el modelo, ajustar parámetros o explorar diferentes estrategias de aprendizaje para incrementar la tasa de victorias.

#### **1.1.5 Estudio de acciones (0.2 puntos)**

Genere una función que reciba un estado y retorne la accion del agente. Luego, use esta función para entregar la acción escogida frente a los siguientes escenarios:

- Suma de cartas del agente es 6, dealer muestra un 7, agente no tiene tiene un as
- Suma de cartas del agente es 19, dealer muestra un 3, agente tiene tiene un as

¿Son coherentes sus acciones con las reglas del juego?

Hint: ¿A que clase de python pertenecen los estados? Pruebe a usar el método `.reset` para saberlo.

In [None]:
initial_state = env.reset()

# Verificar el tipo del estado
print(f"Tipo de estado: {type(initial_state)}")

In [None]:
initial_state

In [None]:
# Función para obtener la acción del agente dada una observación
def get_agent_action(state):
    action, _ = model.predict(state, deterministic=True)
    return action

# Escenario 1: Suma de cartas del agente es 6, dealer muestra un 7, agente no tiene un as
# Estado: (6, 7, 0)
state_1 = np.array([6, 7, 0])

# Escenario 2: Suma de cartas del agente es 19, dealer muestra un 3, agente tiene un as
# Estado: (19, 3, 1)
state_2 = np.array([19, 3, 1])

# Obtener las acciones para ambos estados
action_1 = get_agent_action(state_1)
action_2 = get_agent_action(state_2)

# Mostrar las acciones
print(f"Acción para el escenario 1 (estado {state_1}): {'Hit' if action_1 == 1 else 'Stick'}")
print(f"Acción para el escenario 2 (estado {state_2}): {'Hit' if action_2 == 1 else 'Stick'}")

Escenario 1: La suma de cartas del agente es 6, el dealer muestra un 7 y el agente no tiene un as.

- Regla general: Cuando el agente tiene una suma baja, es probable que deba "hit" (pedir más cartas) hasta llegar a una suma más cercana a 21.
- Esperado: El modelo debería elegir hit.

Escenario 2: La suma de cartas del agente es 19, el dealer muestra un 3, y el agente tiene un as.

- Regla general: Con una suma alta (como 19), el agente debería plantarse (stick). Tener un as como "usable ace" podría hacer que el agente sea un poco más flexible, pero aún así, la estrategia general es plantarse.
- Esperado: El modelo debería elegir stick.

### **1.2 LunarLander**

<p align="center">
  <img src="https://i.redd.it/097t6tk29zf51.jpg"
" width="400">
</p>

Similar a la sección 2.1, en esta sección usted se encargará de implementar una gente de RL que pueda resolver el ambiente `LunarLander`.

Comencemos preparando el ambiente:


In [None]:
import gymnasium as gym
env = gym.make("LunarLander-v2", render_mode = "rgb_array", continuous = True) # notar el parámetro continuous = True

Noten que se especifica el parámetro `continuous = True`. ¿Que implicancias tiene esto sobre el ambiente?

Además, se le facilita la función `export_gif` para el ejercicio 2.2.4:

In [None]:
import imageio
import numpy as np

def export_gif(model, n = 5):
  '''
  función que exporta a gif el comportamiento del agente en n episodios
  '''
  images = []
  for episode in range(n):
    obs = model.env.reset()
    img = model.env.render()
    done = False
    while not done:
      images.append(img)
      action, _ = model.predict(obs)
      obs, reward, done, info = model.env.step(action)
      img = model.env.render(mode="rgb_array")

  imageio.mimsave("agent_performance.gif", [np.array(img) for i, img in enumerate(images) if i%2 == 0], fps=29)

#### **1.2.1 Descripción de MDP (0.2 puntos)**

Entregue una breve descripción sobre el ambiente [LunarLander](https://gymnasium.farama.org/environments/box2d/lunar_lander/) y su formulación en MDP, distinguiendo de forma clara y concisa los estados, acciones y recompensas. ¿Como se distinguen las acciones de este ambiente en comparación a `Blackjack`?

Nota: recuerde que se especificó el parámetro `continuous = True`

`escriba su respuesta acá`

### **Descripción de MDP en LunarLander-v2**

El entorno **LunarLander-v2** simula un problema de optimización de la trayectoria de un cohete, donde el objetivo es aterrizar el módulo en la luna. La formulación en MDP es la siguiente:

#### **Estado (S)**
El estado es un vector de 8 dimensiones que incluye:
- **x, y**: Coordenadas del módulo.
- **vx, vy**: Velocidades en los ejes horizontal y vertical.
- **ángulo**: Orientación del módulo.
- **velocidad angular**: Rotación del módulo.
- **contacto con piernas**: Booleanos que indican si las piernas están tocando el suelo.

#### **Acciones (A)**
Existen 4 acciones posibles:
- **0**: No hacer nada.
- **1**: Encender el motor izquierdo (orientación).
- **2**: Encender el motor principal (vertical).
- **3**: Encender el motor derecho (orientación).

#### **Recompensas (R)**
La recompensa depende de la posición, velocidad, y orientación del módulo:
- Posicionarse cerca de la plataforma y reducir la velocidad es premiado.
- Se penaliza la inclinación del módulo.
- **+10 puntos por pierna** si toca el suelo.
- Penalizaciones por el uso de motores: **-0.03** por cada cuadro con motores laterales encendidos, **-0.3** por el motor principal.
- **+100 puntos** por aterrizaje seguro, **-100 puntos** por estrellarse.

#### **Comparación con Blackjack**
A diferencia de **Blackjack**, las acciones en **LunarLander** son físicas, controlando motores para afectar la posición, velocidad y orientación en un entorno 2D. En **Blackjack**, las decisiones son más simples y se basan en probabilidades de cartas. Además, en LunarLander las acciones se manejan de forma discreta pero más compleja.


#### **1.2.2 Generando un Baseline (0.2 puntos)**

Simule un escenario en donde se escojan acciones aleatorias. Repita esta simulación 10 veces y reporte el promedio y desviación de las recompensas. ¿Cómo calificaría el performance de esta política?

In [None]:
# Función para ejecutar una política aleatoria y obtener las recompensas
def simulate_random_policy(env, episodes=10):
    rewards = []
    for _ in range(episodes):
        obs, _ = env.reset()
        done = False
        total_reward = 0
        while not done:
            action = env.action_space.sample()  # Acción aleatoria
            obs, reward, done, _, _ = env.step(action)
            total_reward += reward
        rewards.append(total_reward)
    return rewards

# Simulación y cálculo de estadísticas
rewards = simulate_random_policy(env, episodes=10)
mean_reward = np.mean(rewards)
std_reward = np.std(rewards)

El promedio negativo de recompensas **-237.81** sugiere que la política aleatoria tiene un rendimiento deficiente, con una tendencia a las pérdidas. Esto implica que, al no optimizar las acciones, el agente pierde más de lo que gana en promedio. La desviación estándar de **108.99** muestra una considerable variabilidad en los resultados, lo que indica que las recompensas fluctúan significativamente de un episodio a otro.

**Conclusión**: El performance de esta política aleatoria es pobre y no permite ganar consistentemente. Se necesita una estrategia más optimizada para mejorar el rendimiento en este entorno.

#### **1.2.3 Entrenamiento de modelo (0.2 puntos)**

A partir del siguiente [enlace](https://stable-baselines3.readthedocs.io/en/master/guide/algos.html), escoja un modelo de `stable_baselines3` y entrenelo para resolver el ambiente `LunarLander` **usando 10000 timesteps de entrenamiento**.

In [None]:
from stable_baselines3 import PPO
# Definir y entrenar el modelo con PPO
model = PPO("MlpPolicy", env, verbose=1)
model.learn(total_timesteps=10000)

# Guardar el modelo entrenado
model.save("ppo_lunarlander_10000_steps")

# Evaluar el modelo entrenado
obs, _ = env.reset()
done = False
total_rewards = 0

# Realizar una evaluación para ver cómo se desempeña el modelo
while not done:
    action, _ = model.predict(obs)
    obs, reward, done, _, _ = env.step(action)
    total_rewards += reward

print(f"Recompensa total al final del episodio: {total_rewards}")

#### **1.2.4 Evaluación de modelo (0.2 puntos)**

Repita el ejercicio 1.2.2 pero utilizando el modelo entrenado. ¿Cómo es el performance de su agente? ¿Es mejor o peor que el escenario baseline?

In [None]:
# Cargar el modelo entrenado
model = PPO.load("ppo_lunarlander_10000_steps",env)

# Número de episodios para evaluar
num_episodes = 10
rewards = []

# Evaluación del modelo en varios episodios
for _ in range(num_episodes):
    obs, info = env.reset()
    done = False
    total_reward = 0
    
    while not done:
        action, _ = model.predict(obs)
        obs, reward, done, truncated, info = env.step(action)
        total_reward += reward
    
    rewards.append(total_reward)

# Calcular el promedio y desviación estándar de las recompensas
mean_reward_trained = np.mean(rewards)
std_reward_trained = np.std(rewards)

El promedio de recompensas del modelo entrenado es **-189.59**, lo que sugiere que el modelo tiene un rendimiento moderado, aunque no es perfecto. Esto indica que el agente ha aprendido a optimizar sus acciones, pero aún podría mejorar en algunos aspectos. La desviación estándar de **165.69** muestra que las recompensas fluctúan entre episodios, lo que sugiere cierta variabilidad en el desempeño del agente.

**Comparación con la política baseline**: Comparando este rendimiento con la política baseline (acción aleatoria), podemos concluir que el modelo entrenado tiene un rendimiento mucho mejor, ya que la política aleatoria generaba un promedio de **-206.93** recompensas, mientras que el modelo entrenado está significativamente por encima de ese valor.

**Conclusión**: El rendimiento del agente entrenado es superior al de la política baseline, pero aún existen oportunidades para mejorar. El agente ha aprendido a jugar, pero su desempeño podría optimizarse con más entrenamiento o ajustes en los hiperparámetros del modelo.

#### **1.2.5 Optimización de modelo (0.2 puntos)**

Repita los ejercicios 1.2.3 y 1.2.4 hasta obtener un nivel de recompensas promedio mayor a 50. Para esto, puede cambiar manualmente parámetros como:
- `total_timesteps`
- `learning_rate`
- `batch_size`

Una vez optimizado el modelo, use la función `export_gif` para estudiar el comportamiento de su agente en la resolución del ambiente y comente sobre sus resultados.

Adjunte el gif generado en su entrega (mejor aún si además adjuntan el gif en el markdown).

In [None]:
# Definir parámetros para la optimización
total_timesteps = 80000
learning_rate = 0.0003  # Ajuste del learning rate
batch_size = 64  # Aumento del tamaño del batch

# Definir y entrenar el modelo con PPO
model = PPO("MlpPolicy", env, learning_rate=learning_rate, batch_size=batch_size, verbose=1)
model.learn(total_timesteps=total_timesteps)

# Guardar el modelo entrenado
model.save("ppo_lunarlander_opt")

# Evaluar el modelo entrenado
obs, _ = env.reset()
done = False
total_rewards = 0

# Realizar una evaluación
while not done:
    action, _ = model.predict(obs)
    obs, reward, done, truncated, _ = env.step(action)
    total_rewards += reward
    
    # Si el episodio termina o es truncado, detener
    if done or truncated:
        break

print(f"Recompensa total al final del episodio: {total_rewards}")


In [None]:
# Cargar el modelo entrenado
model = PPO.load("ppo_lunarlander_opt",env)

# Número de episodios para evaluar
num_episodes = 5
rewards = []

for _ in range(num_episodes):
    obs, info = env.reset()
    done = False
    total_reward = 0
    
    while not done:
        action, _ = model.predict(obs)
        obs, reward, done, truncated, info = env.step(action)
        total_reward += reward
        
        # Si el episodio termina o es truncado, detener
        if done or truncated:
            break

    rewards.append(total_reward)

# Calcular el promedio y desviación estándar de las recompensas
mean_reward_trained = np.mean(rewards)
std_reward_trained = np.std(rewards)

print(f"Promedio de recompensas: {mean_reward_trained:.2f}")
print(f"Desviación estándar de recompensas: {std_reward_trained:.2f}")

In [None]:
# Crear un GIF del comportamiento del agente optimizado
export_gif(model)

El promedio de recompensas del modelo optimizado es **67.74**, lo que sugiere que el agente ha mejorado significativamente su desempeño, alcanzando un rendimiento superior a 50 recompensas en promedio. Esto indica que el agente ha aprendido a optimizar sus acciones de manera efectiva. La desviación estándar de **49.35** muestra que las recompensas son más consistentes que antes, lo que refleja una mejora en la estabilidad del agente.

**Comparación con el modelo anterior**: En comparación con el modelo entrenado previamente, el modelo optimizado ha mostrado una mejora clara en el rendimiento, ya que las recompensas promedio eran inferiores a 50 en el modelo anterior.

**Conclusión**: El rendimiento del modelo optimizado es mucho mejor. Los ajustes en los parámetros han permitido al agente aprender de manera más efectiva y mejorar su desempeño en el entorno de LunarLander.

![Agente optimizado](agent_performance.gif)

## **2. Large Language Models (4.0 puntos)**

En esta sección se enfocarán en habilitar un Chatbot que nos permita responder preguntas útiles a través de LLMs.

### **2.0 Configuración Inicial**

<p align="center">
  <img src="https://media1.tenor.com/m/uqAs9atZH58AAAAd/config-config-issue.gif"
" width="400">
</p>

Como siempre, cargamos todas nuestras API KEY al entorno:

In [40]:
import getpass
import os

if "GOOGLE_API_KEY" not in os.environ:
    os.environ["GOOGLE_API_KEY"] = getpass.getpass("Enter your Google AI API key: ")

if "TAVILY_API_KEY" not in os.environ:
    os.environ["TAVILY_API_KEY"] = getpass.getpass("Enter your Tavily API key: ")

In [41]:
from dotenv import load_dotenv

load_dotenv() # cargar las variables guardadas en el archivo .env

False

### **2.1 Retrieval Augmented Generation (1.5 puntos)**

<p align="center">
  <img src="https://y.yarn.co/218aaa02-c47e-4ec9-b1c9-07792a06a88f_text.gif"
" width="400">
</p>

El objetivo de esta subsección es que habiliten un chatbot que pueda responder preguntas usando información contenida en documentos PDF a través de **Retrieval Augmented Generation.**

#### **2.1.1 Reunir Documentos (0 puntos)**

Reuna documentos PDF sobre los que hacer preguntas siguiendo las siguientes instrucciones:
  - 2 documentos .pdf como mínimo.
  - 50 páginas de contenido como mínimo entre todos los documentos.
  - Ideas para documentos: Documentos relacionados a temas académicos, laborales o de ocio. Aprovechen este ejercicio para construir algo útil y/o relevante para ustedes!
  - Deben ocupar documentos reales, no pueden utilizar los mismos de la clase.
  - Deben registrar sus documentos en la siguiente [planilla](https://docs.google.com/spreadsheets/d/1Hy1w_dOiG2UCHJ8muyxhdKPZEPrrL7BNHm6E90imIIM/edit?usp=sharing). **NO PUEDEN USAR LOS MISMOS DOCUMENTOS QUE OTRO GRUPO**
  - **Recuerden adjuntar los documentos en su entrega**.

In [42]:
# Lista de rutas a los documentos PDF
doc_paths = ["c_1925.pdf","MODERN TIME SERIES FORECASTING - Manu. Joseph_43718.pdf"]

# Validar número de documentos y páginas
import PyPDF2

assert len(doc_paths) >= 2, "Deben adjuntar un mínimo de 2 documentos"

# Calcular el total de páginas
total_paginas = sum(len(PyPDF2.PdfReader(open(doc, "rb")).pages) for doc in doc_paths)
assert total_paginas >= 50, f"Páginas insuficientes: {total_paginas}"
print(f"Total de páginas: {total_paginas}")

FileNotFoundError: [Errno 2] No such file or directory: 'MODERN TIME SERIES FORECASTING - Manu. Joseph_43718.pdf'

#### **2.1.2 Vectorizar Documentos (0.2 puntos)**

Vectorice los documentos y almacene sus representaciones de manera acorde.

In [3]:
# Importar librerías necesarias
from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain_community.vectorstores import FAISS
import os
import pickle

file_path = doc_paths[0] # path al documento
loader = PyPDFLoader(file_path) # inicializar loader de PDF

docs1 = loader.load() # cargar documento
docs1
file_path = doc_paths[1] # path al documento
loader = PyPDFLoader(file_path) # inicializar loader de PDF

docs2 = loader.load() # cargar documento
docs2

# Dividir el texto en chunks
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50) # inicializamos splitter
splits1 = text_splitter.split_documents(docs1) # dividir documentos en chunks
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50) # inicializamos splitter
splits2 = text_splitter.split_documents(docs2) # dividir documentos en chunks

# Inicializar el modelo de embeddings
google_api_key = os.getenv("GOOGLE_API_KEY")
embedding = GoogleGenerativeAIEmbeddings(model="models/embedding-001") # inicializamos los embeddings
vectorstore1 = FAISS.from_documents(documents=splits1, embedding=embedding) # vectorizacion y almacenamiento
vectorstore2 = FAISS.from_documents(documents=splits2, embedding=embedding) # vectorizacion y almacenamiento

In [6]:
retriever1 = vectorstore1.as_retriever(search_type="similarity", # método de búsqueda
                                     search_kwargs={"k": 3}, # n° documentos a recuperar
                                     )
retriever2 = vectorstore2.as_retriever(search_type="similarity", # método de búsqueda
                                     search_kwargs={"k": 3}, # n° documentos a recuperar
                                     )

In [7]:
question = "¿Cuáles son los principios fundamentales que establece la Constitución de 1925 en cuanto a la organización del Estado y la soberanía?" # pregunta
relevant_documents1 = retriever1.invoke(question) # top k documentos relevantes a la pregunta
relevant_documents1

[Document(metadata={'source': 'c_1925.pdf', 'page': 0}, page_content='de agosto último, ha acordado reformar la Constitución\nPolítica promulgada el 25 de mayo de 1833 y sus\nmodificaciones posteriores e\nINVOCANDO EL NOMBRE DE DIOS TODOPODEROSO,\nordeno que se promulgue la siguiente, como la\n     CONSTITUCION POLITICA DE LA REPUBLICA DE CHILE\n     CAPITULO  I\n     Estado, Gobierno y Soberanía\n     Art.1.- El Estado de Chile es unitario. Su Gobierno es\nrepublicano y democrático representativo.\n     Art. 2.- La soberanía reside esencialmente en la'),
 Document(metadata={'source': 'c_1925.pdf', 'page': 2}, page_content='interés nacional y una lei lo declare así.\n     Es deber del Estado velar por la salud pública y el\nbienestar hijiénico del país. Deberá destinarse cada año una\ncantidad de dinero suficiente para mantener un servicio\nnacional de salubridad, y\n    15.° La libertad de permanecer en cualquier punto de la\nRepública, trasladarse de uno a otro o salir de su\nterrito

In [8]:
question = "Cuáles métricas se proponen para evaluar los modelos?" # pregunta
relevant_documents2 = retriever2.invoke(question) # top k documentos relevantes a la pregunta
relevant_documents2

[Document(metadata={'source': 'MODERN TIME SERIES FORECASTING - Manu. Joseph_43718.pdf', 'page': 518}, page_content='Evaluating Forecasts – Validation Strategies492\nModel validation\nIn Chapter 18, Evaluating Forecasts – Forecast Metrics, we learned about different forecast metrics that \ncan be used to measure the quality of a forecast. One of the main uses for this is to measure how well \nour forecast is doing on test data (new and unseen data), but this comes after we train a model, tweak \nit, and tinker with it until we are happy with it. How do we know whether a model we are training or'),
 Document(metadata={'source': 'MODERN TIME SERIES FORECASTING - Manu. Joseph_43718.pdf', 'page': 514}, page_content='Evaluating Forecasts – Forecast Metrics488\n• Percent error and symmetric error are not symmetric in the complete sense and favor under-\nforecasting and over-forecasting, respectively. MAPE, which is a very popular metric, is plagued \nby this shortcoming. For instance, if we 

#### **2.1.3 Habilitar RAG (0.3 puntos)**

Habilite la solución RAG a través de una *chain* y guárdela en una variable.

In [9]:
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)
retriever_chain_1 = retriever1 | format_docs # chain
print(retriever_chain_1.invoke("¿Cuáles son los principios fundamentales que establece la Constitución de 1925 en cuanto a la organización del Estado y la soberanía?"))

de agosto último, ha acordado reformar la Constitución
Política promulgada el 25 de mayo de 1833 y sus
modificaciones posteriores e
INVOCANDO EL NOMBRE DE DIOS TODOPODEROSO,
ordeno que se promulgue la siguiente, como la
     CONSTITUCION POLITICA DE LA REPUBLICA DE CHILE
     CAPITULO  I
     Estado, Gobierno y Soberanía
     Art.1.- El Estado de Chile es unitario. Su Gobierno es
republicano y democrático representativo.
     Art. 2.- La soberanía reside esencialmente en la

interés nacional y una lei lo declare así.
     Es deber del Estado velar por la salud pública y el
bienestar hijiénico del país. Deberá destinarse cada año una
cantidad de dinero suficiente para mantener un servicio
nacional de salubridad, y
    15.° La libertad de permanecer en cualquier punto de la
República, trasladarse de uno a otro o salir de su
territorio, a condicion de que se guarden los reglamentos de
policía y  las reuniones se rejirán por las disposiciones
jenerales de policía;

República, se verificará

In [10]:
retriever_chain_2 = retriever2 | format_docs # chain
print(retriever_chain_2.invoke("Cuáles métricas se proponen para evaluar los modelos?"))

Evaluating Forecasts – Validation Strategies492
Model validation
In Chapter 18, Evaluating Forecasts – Forecast Metrics, we learned about different forecast metrics that 
can be used to measure the quality of a forecast. One of the main uses for this is to measure how well 
our forecast is doing on test data (new and unseen data), but this comes after we train a model, tweak 
it, and tinker with it until we are happy with it. How do we know whether a model we are training or

Evaluating Forecasts – Forecast Metrics488
• Percent error and symmetric error are not symmetric in the complete sense and favor under-
forecasting and over-forecasting, respectively. MAPE, which is a very popular metric, is plagued 
by this shortcoming. For instance, if we are forecasting demand, optimizing for MAPE will lead 
you to select a forecast that is conservative and therefore under-forecast. This will lead to an

Evaluating Forecasts – Forecast Metrics482
Extrinsic errors
With all the intrinsic measures

#### **2.1.4 Verificación de respuestas (0.5 puntos)**

Genere un listado de 3 tuplas ("pregunta", "respuesta correcta") y analice la respuesta de su solución para cada una. ¿Su solución RAG entrega las respuestas que esperaba?

Ejemplo de tupla:
- Pregunta: ¿Quién es el presidente de Chile?
- Respuesta correcta: El presidente de Chile es Gabriel Boric

In [11]:
from langchain_google_genai import ChatGoogleGenerativeAI

llm = ChatGoogleGenerativeAI(
    model="gemini-1.5-flash", # modelo de lenguaje
    temperature=0, # probabilidad de "respuestas creativas"
    max_tokens=None, # sin tope de tokens
    timeout=None, # sin timeout
    max_retries=2, # número máximo de intentos
)

Pregunta: ¿Cuáles son los principios fundamentales que establece la Constitución de 1925 en cuanto a la organización del Estado y la soberanía?

Respuesta correcta: El Estado de Chile es unitario, y su gobierno es republicano, democrático y representativo. La soberanía reside esencialmente en la nación.

Pregunta: ¿Qué establece la Constitución de 1925 sobre la responsabilidad del Estado hacia la salud pública?

Respuesta correcta: Es deber del Estado velar por la salud pública y el bienestar higiénico del país, asignando un presupuesto anual para un servicio nacional de salubridad.

Pregunta: ¿Qué derechos de libre tránsito establece la Constitución de 1925?

Respuesta correcta: Garantiza la libertad de permanecer en cualquier punto de la República, trasladarse dentro del territorio nacional o salir del país, siempre que se respeten las normas de policía.

In [12]:
from langchain_core.prompts import PromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser

# noten como ahora existe el parámetro de context!
rag_template1 = '''
Eres un asistente experto en la interpretación de documentos históricos de Chile.
Tu único rol es contestar preguntas del usuario a partir de información relevante que te sea proporcionada.
Responde siempre de la forma más completa posible y usando toda la información entregada.
Responde sólo lo que te pregunten a partir de la información relevante, NUNCA inventes una respuesta.

Información relevante:
{context}

Pregunta:
{question}

Respuesta útil:
'''

rag_prompt1 = PromptTemplate.from_template(rag_template1)

rag_chain1 = (
    {
        "context": retriever_chain_1, # context lo obtendremos del retriever_chain
        "question": RunnablePassthrough(), # question pasará directo hacia el prompt
    }
    | rag_prompt1 # prompt con las variables question y context
    | llm # llm recibe el prompt y responde
    | StrOutputParser() # recuperamos sólo la respuesta
)

questions = [
    "¿Cuáles son los principios fundamentales que establece la Constitución de 1925 en cuanto a la organización del Estado y la soberanía?",
    "¿Qué establece la Constitución de 1925 sobre la responsabilidad del Estado hacia la salud pública?",
    "¿Qué derechos de libre tránsito establece la Constitución de 1925?",
]
for question in questions:
    print('-----------------------')
    response = rag_chain1.invoke(question)
    print(response)

-----------------------
La Constitución Política de la República de Chile de 1925, según el fragmento proporcionado, establece que el Estado de Chile es unitario, con un Gobierno republicano y democrático representativo (Art. 1).  La soberanía reside esencialmente en la Nación (Art. 2, fragmento incompleto).

-----------------------
La Constitución de 1925 establece que es deber del Estado velar por la salud pública y el bienestar higiénico del país, debiendo destinar anualmente una cantidad de dinero suficiente para mantener un servicio nacional de salubridad.

-----------------------
La Constitución de 1925, según el artículo 15°, establece la libertad de permanecer en cualquier punto de la República, trasladarse de un lugar a otro o salir de su territorio.  Esta libertad está condicionada al cumplimiento de los reglamentos de policía, y las reuniones se regirán por las disposiciones generales de policía.



Pregunta: ¿Qué es el MAPE y cuáles son sus limitaciones al usarse para la evaluación de modelos de forecast?

Respuesta correcta: El MAPE (Mean Absolute Percentage Error) es una métrica popular para medir la precisión de un pronóstico, pero tiene limitaciones. Una de sus principales desventajas es que no es simétrica, lo que favorece la subestimación o sobreestimación de los pronósticos. Esto significa que, al optimizar un modelo con MAPE, el modelo tiende a ser conservador y puede subestimar la demanda.

Pregunta: ¿Qué son los errores extrínsecos en la evaluación de pronósticos y cómo se representan?

Respuesta correcta: Los errores extrínsecos se refieren a medidas que involucran tres variables: la observación real, el pronóstico y el pronóstico de referencia. A diferencia de las métricas intrínsecas, las medidas extrínsecas no son fáciles de visualizar a través de gráficos simples, ya que deben considerarse las tres variables. Una forma de visualizarlas es mediante un gráfico de contorno.

Pregunta: ¿Cuál es el propósito de utilizar métricas de pronóstico al evaluar modelos de series de tiempo?

Respuesta correcta: El propósito de usar métricas de pronóstico es medir la calidad de un modelo de forecast, especialmente al evaluar su desempeño con datos no vistos (test data). Esto se realiza después de entrenar el modelo, ajustarlo y probarlo para determinar su efectividad en situaciones reales.

In [13]:
# noten como ahora existe el parámetro de context!
rag_template2 = '''
Eres un asistente experto en el análisis y la interpretación de documentos técnicos sobre series de tiempo y forecasting.
Tu único rol es contestar preguntas del usuario a partir de la información relevante sobre el tema que te sea proporcionada.
Responde siempre de la forma más completa posible y utilizando toda la información entregada.
Responde sólo lo que te pregunten a partir de la información relevante, NUNCA inventes una respuesta.

Información relevante:
{context}

Pregunta:
{question}

Respuesta útil:
'''

rag_prompt2 = PromptTemplate.from_template(rag_template2)

rag_chain2 = (
    {
        "context": retriever_chain_2, # context lo obtendremos del retriever_chain
        "question": RunnablePassthrough(), # question pasará directo hacia el prompt
    }
    | rag_prompt2 # prompt con las variables question y context
    | llm # llm recibe el prompt y responde
    | StrOutputParser() # recuperamos sólo la respuesta
)
print('-----------------------')
response = rag_chain2.invoke("¿Qué es el MAPE y cuáles son sus limitaciones al usarse para la evaluación de modelos de forecast?")
print(response)
print('-----------------------')
response = rag_chain2.invoke('¿Qué son los errores extrínsecos en la evaluación de pronósticos y cómo se representan?')
print(response)
print('-----------------------')
response = rag_chain2.invoke("Cuál es el propósito de utilizar métricas de pronóstico al evaluar modelos de series de tiempo?")
print(response)

-----------------------
MAPE (Mean Absolute Percentage Error) es una métrica popular para evaluar modelos de forecast.  Sin embargo, tiene una limitación importante: no es simétrico y favorece la subestimación (under-forecasting).  Al optimizar para MAPE en la predicción de la demanda, por ejemplo, se seleccionará un pronóstico conservador que subestima la demanda.

-----------------------
Los errores extrínsecos en la evaluación de pronósticos utilizan una referencia o benchmark externo, además del pronóstico generado y los valores reales.  A diferencia de las métricas intrínsecas, no se pueden representar fácilmente mediante la gráfica de curvas de pérdida y la comprobación de simetría, ya que involucran tres variables: la observación real, el pronóstico y el pronóstico de referencia.  Para su representación se puede utilizar un diagrama de contorno, como se muestra en la Figura 18.6 (aunque la figura no está incluida en el texto proporcionado).  El valor de la medida puede variar co

#### **2.1.5 Sensibilidad de Hiperparámetros (0.5 puntos)**

Extienda el análisis del punto 2.1.4 analizando cómo cambian las respuestas entregadas cambiando los siguientes hiperparámetros:
- `Tamaño del chunk`. (*¿Cómo repercute que los chunks sean mas grandes o chicos?*)
- `La cantidad de chunks recuperados`. (*¿Qué pasa si se devuelven muchos/pocos chunks?*)
- `El tipo de búsqueda`. (*¿Cómo afecta el tipo de búsqueda a las respuestas de mi RAG?*)

In [15]:
# Ejemplo de combinación de hiperparámetros
chunk_sizes = [1000]
k_values = [5]
search_types = ["mmr"]

for chunk_size in chunk_sizes:
    for k in k_values:
        for search_type in search_types:
            print(f"Probando configuración: chunk_size={chunk_size}, k={k}, search_type={search_type}")
            
            text_splitter = RecursiveCharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=50)
            splits1 = text_splitter.split_documents(docs1)

            retriever1 = vectorstore1.as_retriever(search_type=search_type, search_kwargs={"k": k})

            for question in questions:
                response = rag_chain1.invoke(question)
                print(f"Respuesta para la pregunta: {question}")
                print(response)
                print("-" * 30)


Probando configuración: chunk_size=1000, k=5, search_type=mmr
Respuesta para la pregunta: ¿Cuáles son los principios fundamentales que establece la Constitución de 1925 en cuanto a la organización del Estado y la soberanía?
La Constitución Política de la República de Chile de 1925, según el fragmento proporcionado, establece que el Estado de Chile es unitario, con un Gobierno republicano y democrático representativo (Art. 1).  La soberanía reside esencialmente en la Nación (Art. 2, fragmento incompleto).

------------------------------
Respuesta para la pregunta: ¿Qué establece la Constitución de 1925 sobre la responsabilidad del Estado hacia la salud pública?
La Constitución de 1925 establece que es deber del Estado velar por la salud pública y el bienestar higiénico del país, debiendo destinar anualmente una cantidad de dinero suficiente para mantener un servicio nacional de salubridad.

------------------------------
Respuesta para la pregunta: ¿Qué derechos de libre tránsito establ

Tamaño del chunk: Afecta la especificidad y el contexto de las respuestas. Chunks más pequeños ofrecen respuestas más centradas pero con menos contexto, mientras que chunks grandes proporcionan más contexto pero pueden introducir ruido.

Cantidad de chunks recuperados (k): Al aumentar k, se mejora la diversidad de información, pero puede generar redundancias. Con k=3, el modelo parece encontrar un buen balance.

Tipo de búsqueda: Similarity es útil para precisión, pero MMR aporta más diversidad, mejorando la calidad de las respuestas al evitar redundancias y ofreciendo un contexto más rico.

### **2.2 Agentes (1.0 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/rcqnN2aJCSEAAAAd/secret-agent-man.gif"
" width="400">
</p>

Similar a la sección anterior, en esta sección se busca habilitar **Agentes** para obtener información a través de tools y así responder la pregunta del usuario.

#### **2.2.1 Tool de Tavily (0.2 puntos)**

Generar una *tool* que pueda hacer consultas al motor de búsqueda **Tavily**.

#### **2.2.2 Tool de Wikipedia (0.2 puntos)**

Generar una *tool* que pueda hacer consultas a **Wikipedia**.

*Hint: Le puede ser de ayuda el siguiente [link](https://python.langchain.com/v0.1/docs/modules/tools/).*

In [None]:

from tavily import TavilyClient
from langchain.tools import BaseTool
import os
from dotenv import load_dotenv

# 3. Cargar y configurar la API key
load_dotenv()
TAVILY_API_KEY = os.getenv("TAVILY_API_KEY")

# 4. Verificar que la API key 
if not TAVILY_API_KEY:
    raise ValueError("No se encontró la API key de Tavily")

In [35]:
import requests

class TavilySearchTool:
    def __init__(self, api_key: str):
        self.api_key = api_key
        self.base_url = "https://api.tavily.com/search"
    
    def search(self, query: str, max_results: int = 10):
        """
        Realiza una búsqueda en Tavily.

        Args:
            query (str): La consulta de búsqueda.
            max_results (int): Número máximo de resultados a retornar.

        Returns:
            dict: Resultados de la búsqueda o un mensaje de error.
        """
        headers = {
            "Content-Type": "application/json"
        }
        payload = {
            "api_key": self.api_key,
            "query": query,
            "max_results": max_results
        }
        try:
            response = requests.post(self.base_url, headers=headers, json=payload)
            response.raise_for_status()  # Lanza un error si el estado HTTP es 4XX/5XX
            return response.json()
        except requests.exceptions.RequestException as e:
            return {"error": str(e)}

# Ejemplo de uso
if __name__ == "__main__":
    api_key = "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" 
    tool = TavilySearchTool(api_key)
    resultados = tool.search("inteligencia artificial en banca")
    print(resultados)




{'query': 'inteligencia artificial en banca', 'follow_up_questions': None, 'answer': None, 'images': [], 'results': [{'title': 'IA en la banca: cómo se utiliza la inteligencia artificial en los bancos', 'url': 'https://gamco.es/ia-en-la-banca-como-se-utiliza-la-inteligencia-artificial-en-los-bancos/', 'content': 'Cómo la Inteligencia Artificial impulsa la banca hacia una mejor experiencia de asesoría. Los bancos pueden brindar asesoramiento más personalizado, accesible y basado en datos a sus clientes, lo que les ayuda a tomar decisiones financieras informadas y alcanzar sus metas, utilizando inteligencia artificial:. Recomendaciones de productos personalizados: La inteligencia artificial puede', 'score': 0.99937856, 'raw_content': None}, {'title': 'Inteligencia artificial en los bancos: retos y aplicaciones | APD', 'url': 'https://www.apd.es/inteligencia-artificial-bancos/', 'content': 'La inteligencia artificial en los bancos ha transformado la experiencia de los usuarios, además de 

In [36]:
import requests

class WikipediaSearchTool:
    def __init__(self, language: str = "es"):
        self.base_url = f"https://{language}.wikipedia.org/w/api.php"
    
    def search(self, query: str):
        """
        Realiza una búsqueda en Wikipedia.

        Args:
            query (str): Término de búsqueda.

        Returns:
            dict: Resultados de la búsqueda.
        """
        params = {
            "action": "query",
            "list": "search",
            "srsearch": query,
            "format": "json"
        }
        try:
            response = requests.get(self.base_url, params=params)
            response.raise_for_status()  # Lanza un error si el estado HTTP es 4XX/5XX
            return response.json()
        except requests.exceptions.RequestException as e:
            return {"error": str(e)}

# Ejemplo de uso
if __name__ == "__main__":
    tool = WikipediaSearchTool()
    resultados = tool.search("inteligencia artificial en banca")
    print(resultados)


{'batchcomplete': '', 'continue': {'sroffset': 10, 'continue': '-||'}, 'query': {'searchinfo': {'totalhits': 470, 'suggestion': 'inteligencia artificial en banda', 'suggestionsnippet': 'inteligencia artificial en <em>banda</em>'}, 'search': [{'ns': 0, 'title': 'Inteligencia artificial débil', 'pageid': 6593762, 'size': 5693, 'wordcount': 868, 'snippet': 'define como la <span class="searchmatch">inteligencia</span> <span class="searchmatch">artificial</span> racional que se centra típicamente <span class="searchmatch">en</span> una tarea estrecha. La <span class="searchmatch">inteligencia</span> de la IA débil es limitada. <span class="searchmatch">En</span> 2011, la página', 'timestamp': '2024-04-08T18:19:21Z'}, {'ns': 0, 'title': 'Aplicaciones de la inteligencia artificial', 'pageid': 6514981, 'size': 22247, 'wordcount': 2762, 'snippet': 'La <span class="searchmatch">inteligencia</span> <span class="searchmatch">artificial</span> se está aplicando <span class="searchmatch">en</span> u

#### **2.2.3 Crear Agente (0.3 puntos)**

Crear un agente que pueda responder preguntas preguntas usando las *tools* antes generadas. Asegúrese que su agente responda en español. Por último, guarde el agente en una variable.

In [38]:
class AgenteBusqueda:
    def __init__(self, tavily_tool, wikipedia_tool):
        """
        Inicializa el agente con las herramientas de Tavily y Wikipedia.
        
        Args:
            tavily_tool: Instancia de TavilySearchTool.
            wikipedia_tool: Instancia de WikipediaSearchTool.
        """
        self.tavily_tool = tavily_tool
        self.wikipedia_tool = wikipedia_tool
    
    def responder(self, pregunta: str, fuente: str = "tavily"):
        """
        Responde a una pregunta utilizando Tavily o Wikipedia.
        
        Args:
            pregunta (str): La pregunta a responder.
            fuente (str): La fuente a consultar ('tavily' o 'wikipedia').
        
        Returns:
            dict: Respuesta obtenida de la fuente seleccionada.
        """
        if fuente == "tavily":
            print(f"Consultando en Tavily: {pregunta}")
            return self.tavily_tool.search(pregunta)
        elif fuente == "wikipedia":
            print(f"Consultando en Wikipedia: {pregunta}")
            return self.wikipedia_tool.search(pregunta)
        else:
            return {"error": "Fuente no reconocida. Use 'tavily' o 'wikipedia'."}

# Instancias de las herramientas (usa tus claves y configuraciones aquí)
tavily_tool = TavilySearchTool(api_key="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")
wikipedia_tool = WikipediaSearchTool(language="es")

# Creación del agente
agente = AgenteBusqueda(tavily_tool=tavily_tool, wikipedia_tool=wikipedia_tool)

# Ejemplo de uso
if __name__ == "__main__":
    pregunta = "¿Cómo se usa la inteligencia artificial en la banca?"
    
    # Respuesta de Tavily
    respuesta_tavily = agente.responder(pregunta, fuente="tavily")
    print("Respuesta de Tavily:")
    print(respuesta_tavily)
    
    # Respuesta de Wikipedia
    respuesta_wikipedia = agente.responder(pregunta, fuente="wikipedia")
    print("Respuesta de Wikipedia:")
    print(respuesta_wikipedia)


Consultando en Tavily: ¿Cómo se usa la inteligencia artificial en la banca?
Respuesta de Tavily:
{'query': '¿Cómo se usa la inteligencia artificial en la banca?', 'follow_up_questions': None, 'answer': None, 'images': [], 'results': [{'title': 'IA en la banca: cómo se utiliza la inteligencia artificial en los bancos', 'url': 'https://gamco.es/ia-en-la-banca-como-se-utiliza-la-inteligencia-artificial-en-los-bancos/', 'content': 'Cómo la Inteligencia Artificial impulsa la banca hacia una mejor experiencia de asesoría. Los bancos pueden brindar asesoramiento más personalizado, accesible y basado en datos a sus clientes, lo que les ayuda a tomar decisiones financieras informadas y alcanzar sus metas, utilizando inteligencia artificial:. Recomendaciones de productos personalizados: La inteligencia artificial puede', 'score': 0.99943405, 'raw_content': None}, {'title': 'Inteligencia artificial en los bancos: retos y aplicaciones | APD', 'url': 'https://www.apd.es/inteligencia-artificial-banc

#### **2.2.4 Verificación de respuestas (0.3 puntos)**

Pruebe el funcionamiento de su agente y asegúrese que el agente esté ocupando correctamente las tools disponibles. ¿En qué casos el agente debería ocupar la tool de Tavily? ¿En qué casos debería ocupar la tool de Wikipedia?

In [39]:
if __name__ == "__main__":
    # Lista de preguntas para probar
    preguntas = [
        {"pregunta": "¿Qué bancos están usando ChatGPT para atención al cliente?", "fuente": "tavily"},
        {"pregunta": "¿Qué son los modelos de lenguaje en inteligencia artificial?", "fuente": "wikipedia"},
        {"pregunta": "¿Cómo se utiliza la IA en la agricultura?", "fuente": "tavily"},
        {"pregunta": "¿Quién es Alan Turing y cuál fue su contribución a la IA?", "fuente": "wikipedia"}
    ]

    # Iterar sobre las preguntas y obtener respuestas
    for consulta in preguntas:
        respuesta = agente.responder(consulta["pregunta"], consulta["fuente"])
        print(f"\nPregunta: {consulta['pregunta']}\nRespuesta ({consulta['fuente']}):\n{respuesta}")


Consultando en Tavily: ¿Qué bancos están usando ChatGPT para atención al cliente?

Pregunta: ¿Qué bancos están usando ChatGPT para atención al cliente?
Respuesta (tavily):
{'query': '¿Qué bancos están usando ChatGPT para atención al cliente?', 'follow_up_questions': None, 'answer': None, 'images': [], 'results': [{'title': 'ChatGPT: qué es y cómo puede transformar las soluciones financieras', 'url': 'https://blog.cobistopaz.com/es/blog/como-el-chatgpt-puede-transformar-las-soluciones-financieras', 'content': 'Automatización de procesos y atención al cliente . ChatGPT puede manejar las consultas de los clientes de manera automática, proporcionando respuestas precisas y automatizadas. ... Por esta razón, aseguran que están usando la API de moderación para bloquear algunos tipos de contenido inseguro. Asimismo, hay momentos en que el chatbot', 'score': 0.9994185, 'raw_content': None}, {'title': 'Sí, las empresas ya están usando ChatGPT para ... - Forbes Ecuador', 'url': 'https://www.forbe


El agente selecciona correctamente la herramienta según la naturaleza de la consulta:

Tavily: Para temas prácticos, actuales y con necesidad de información variada y reciente.
Wikipedia: Para definiciones teóricas, históricas y académicas.
Casos específicos de uso:

Use Tavily para preguntas como "¿Qué empresas usan IA para [x]?" o "¿Cómo se aplica la IA en [sector]?".
Use Wikipedia para definiciones, biografías, o historia como "¿Qué es IA débil?" o "¿Qué aportó Alan Turing a la IA?".

### **2.3 Multi Agente (1.5 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/r7QMJLxU4BoAAAAd/this-is-getting-out-of-hand-star-wars.gif"
" width="450">
</p>

El objetivo de esta subsección es encapsular las funcionalidades creadas en una solución multiagente con un **supervisor**.


#### **2.3.1 Generando Tools (0.5 puntos)**

Transforme la solución RAG de la sección 2.1 y el agente de la sección 2.2 a *tools* (una tool por cada uno).

In [None]:
from langchain.tools import BaseTool

class RAGTool(BaseTool):
    """Tool para el sistema RAG basado en los documentos cargados."""
    name = "rag_tool"
    description = "Responde preguntas basadas en los documentos cargados y vectorizados en la solución RAG."

    def __init__(self, retriever_chain):
        self.retriever_chain = retriever_chain

    def _run(self, query: str):
        """Ejecuta el RAG y devuelve una respuesta."""
        try:
            return self.retriever_chain.invoke(query)
        except Exception as e:
            return f"Error en la herramienta RAG: {e}"

    async def _arun(self, query: str):
        """Versión asincrónica (por si se necesita más adelante)."""
        raise NotImplementedError("RAGTool no soporta ejecución asincrónica.")


In [None]:
class MultiSearchTool(BaseTool):
    """Tool para realizar búsquedas en Tavily o Wikipedia."""
    name = "multi_search_tool"
    description = "Busca información usando Tavily o Wikipedia según la naturaleza de la consulta."

    def __init__(self, tavily_tool, wikipedia_tool):
        self.tavily_tool = tavily_tool
        self.wikipedia_tool = wikipedia_tool

    def _run(self, query: dict):
        """Ejecuta la búsqueda según la fuente especificada."""
        pregunta = query.get("pregunta")
        fuente = query.get("fuente", "tavily")
        if not pregunta:
            return "Error: La pregunta es requerida."
        
        try:
            if fuente == "tavily":
                return self.tavily_tool.search(pregunta)
            elif fuente == "wikipedia":
                return self.wikipedia_tool.search(pregunta)
            else:
                return "Error: Fuente no reconocida. Use 'tavily' o 'wikipedia'."
        except Exception as e:
            return f"Error en MultiSearchTool: {e}"

    async def _arun(self, query: dict):
        """Versión asincrónica."""
        raise NotImplementedError("MultiSearchTool no soporta ejecución asincrónica.")


#### **2.3.2 Agente Supervisor (0.5 puntos)**

Habilite un agente que tenga acceso a las tools del punto anterior y pueda responder preguntas relacionadas. Almacene este agente en una variable llamada supervisor.

In [None]:
from langchain.agents import initialize_agent, Tool
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser

# Definir tools
rag_tool = RAGTool(retriever_chain=rag_chain1)  # Usamos la RAG creada previamente
multi_search_tool = MultiSearchTool(tavily_tool=tavily_tool, wikipedia_tool=wikipedia_tool)

tools = [
    Tool(name="RAGTool", func=rag_tool._run, description=rag_tool.description),
    Tool(name="MultiSearchTool", func=multi_search_tool._run, description=multi_search_tool.description)
]

# Prompt del agente supervisor
supervisor_prompt = PromptTemplate.from_template("""
Eres un agente supervisor que tiene acceso a varias herramientas:
1. RAGTool para responder preguntas basadas en documentos cargados.
2. MultiSearchTool para buscar en Tavily o Wikipedia.

Para cada consulta, selecciona la herramienta adecuada y proporciona una respuesta clara y concisa.

Pregunta: {input}
""")

# Inicializar el agente supervisor
supervisor = initialize_agent(
    tools=tools,
    llm=llm,
    agent="zero-shot-react-description",
    prompt=supervisor_prompt,
    output_parser=StrOutputParser(),
)


#### **2.3.3 Verificación de respuestas (0.25 puntos)**

Pruebe el funcionamiento de su agente repitiendo las preguntas realizadas en las secciones 2.1.4 y 2.2.4 y comente sus resultados. ¿Cómo varían las respuestas bajo este enfoque?

In [None]:
preguntas = [
    "¿Cuáles son los principios fundamentales que establece la Constitución de 1925 en cuanto a la organización del Estado y la soberanía?",  # RAG
    "¿Qué establece la Constitución de 1925 sobre la responsabilidad del Estado hacia la salud pública?",  # RAG
    "¿Qué derechos de libre tránsito establece la Constitución de 1925?",  # RAG
    {"pregunta": "¿Qué bancos están usando ChatGPT para atención al cliente?", "fuente": "tavily"},  # MultiSearch
    {"pregunta": "¿Qué son los modelos de lenguaje en inteligencia artificial?", "fuente": "wikipedia"},  # MultiSearch
]

# Ejecutar pruebas
for pregunta in preguntas:
    print("\n----------------------------")
    if isinstance(pregunta, dict):
        respuesta = supervisor.invoke({"input": pregunta})
    else:
        respuesta = supervisor.invoke({"input": pregunta})
    print(f"Pregunta: {pregunta}\nRespuesta: {respuesta}")


#### **2.3.4 Análisis (0.25 puntos)**

¿Qué diferencias tiene este enfoque con la solución *Router* vista en clases? Nombre al menos una ventaja y desventaja.

`escriba su respuesta acá`

### **2.4 Memoria (Bonus +0.5 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/Gs95aiElrscAAAAd/memory-unlocked-ratatouille-critic.gif"
" width="400">
</p>

Una de las principales falencias de las soluciones que hemos visto hasta ahora es que nuestro chat no responde las interacciones anteriores, por ejemplo:

- Pregunta 1: "Hola! mi nombre es Sebastián"
  - Respuesta esperada: "Hola Sebastián! ..."
- Pregunta 2: "Cual es mi nombre?"
  - Respuesta actual: "Lo siento pero no conozco tu nombre :("
  - **Respuesta esperada: "Tu nombre es Sebastián"**

Para solucionar esto, se les solicita agregar un componente de **memoria** a la solución entregada en el punto 2.3.

**Nota: El Bonus es válido <u>sólo para la sección 2 de Large Language Models.</u>**

### **2.5 Despliegue (0 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/IytHqOp52EsAAAAd/you-get-a-deploy-deploy.gif"
" width="400">
</p>

Una vez tengan los puntos anteriores finalizados, toca la etapa de dar a conocer lo que hicimos! Para eso, vamos a desplegar nuestro modelo a través de `gradio`, una librería especializada en el levantamiento rápido de demos basadas en ML.

Primero instalamos la librería:

In [None]:
%pip install --upgrade --quiet gradio

Luego sólo deben ejecutar el siguiente código e interactuar con la interfaz a través del notebook o del link generado:

In [None]:
import gradio as gr
import time

def agent_response(message, history):
  '''
  Función para gradio, recibe mensaje e historial, devuelte la respuesta del chatbot.
  '''
  # get chatbot response
  response = ... # rellenar con la respuesta de su chat

  # assert
  assert type(response) == str, "output de route_question debe ser string"

  # "streaming" response
  for i in range(len(response)):
    time.sleep(0.015)
    yield response[: i+1]

gr.ChatInterface(
    agent_response,
    type="messages",
    title="Chatbot MDS7202", # Pueden cambiar esto si lo desean
    description="Hola! Soy un chatbot muy útil :)", # también la descripción
    theme="soft",
    ).launch(
        share=True, # pueden compartir el link a sus amig@s para que interactuen con su chat!
        debug = False,
        )