# **Laboratorio 11: LLM y Agentes Autónomos 🤖**

MDS7202: Laboratorio de Programación Científica para Ciencia de Datos

### **Cuerpo Docente:**

- Profesores: Ignacio Meza, Sebastián Tinoco
- Auxiliar: Eduardo Moya
- Ayudantes: Nicolás Ojeda, Melanie Peña, Valentina Rojas

### **Equipo: SUPER IMPORTANTE - notebooks sin nombre no serán revisados**

- Nombre de alumno 1: Elizabeth Ramírez Z.
- Nombre de alumno 2: Lucas Orellana J.

### **Link de repositorio de GitHub:** [Insertar Repositorio](https://github.com/ElLuquitas/MDS7202-labs)

## **Temas a tratar**

- Reinforcement Learning
- Large Language Models

## **Reglas:**

- **Grupos de 2 personas**
- Cualquier duda fuera del horario de clases al foro. Mensajes al equipo docente serán respondidos por este medio.
- Prohibidas las copias.
- Pueden usar cualquer matrial del curso que estimen conveniente.

### **Objetivos principales del laboratorio**

- Resolución de problemas secuenciales usando Reinforcement Learning
- Habilitar un Chatbot para entregar respuestas útiles usando Large Language Models.

El laboratorio deberá ser desarrollado sin el uso indiscriminado de iteradores nativos de python (aka "for", "while"). La idea es que aprendan a exprimir al máximo las funciones optimizadas que nos entrega `pandas`, las cuales vale mencionar, son bastante más eficientes que los iteradores nativos sobre DataFrames.

## **1. Reinforcement Learning (2.0 puntos)**

En esta sección van a usar métodos de RL para resolver dos problemas interesantes: `Blackjack` y `LunarLander`.

In [1]:
!pip install -qqq gymnasium stable_baselines3
!pip install -qqq swig
!pip install -qqq gymnasium[box2d]

### **1.1 Blackjack (1.0 puntos)**

<p align="center">
  <img src="https://www.recreoviral.com/wp-content/uploads/2016/08/s3.amazonaws.com-Math.gif"
" width="400">
</p>

La idea de esta subsección es que puedan implementar métodos de RL y así generar una estrategia para jugar el clásico juego Blackjack y de paso puedan ~~hacerse millonarios~~ aprender a resolver problemas mediante RL.

Comencemos primero preparando el ambiente. El siguiente bloque de código transforma las observaciones del ambiente a `np.array`:


In [2]:
import gymnasium as gym
from gymnasium.spaces import MultiDiscrete
import numpy as np

class FlattenObservation(gym.ObservationWrapper):
    def __init__(self, env):
        super(FlattenObservation, self).__init__(env)
        self.observation_space = MultiDiscrete(np.array([32, 11, 2]))

    def observation(self, observation):
        return np.array(observation).flatten()

# Create and wrap the environment
env = gym.make("Blackjack-v1")
env = FlattenObservation(env)

#### **1.1.1 Descripción de MDP (0.2 puntos)**

Entregue una breve descripción sobre el ambiente [Blackjack](https://gymnasium.farama.org/environments/toy_text/blackjack/) y su formulación en MDP, distinguiendo de forma clara y concisa los estados, acciones y recompensas.

In [3]:
dim_actions = env.action_space.n # dimensión de las acciones
dim_states = env.observation_space # dimensión de los estados (observaciones)

print('dim_actions:', dim_actions)
print('dim_states:', dim_states)

dim_actions: 2
dim_states: MultiDiscrete([32 11  2])


El ambiente **Blackjack** consiste en una recreación del juego de cartas del mismo nombre, en donde el agente busca vencer al *dealer* obteniendo un conjunto de cartas que sumen $21$ (sin sobrepasar este número) a la vez que esta suma es mayor a la obtenida por el *dealer*. Su formulación en MDP consta de 3 puntos clave:

- Estados: cada uno de los estados está descrito como una tupla de tres elementos `(sum_hand, dealer_card, usable_ace)`, en donde:
    - `sum_hand` representa la suma de las cartas actuales del agente, con un total de $32$ posibilidades.
    - `dealer_card` representa la carta boca arriba con la que empieza el *dealer*, con un total de $11$ posibilidades.
    - `usable_ace` representa si el agente siene algún as, el cual puede contar como $11$ en caso de que la suma (considerando el as como $11$) no exceda el valor $21$, con un total de $2$ posibilidades.

    Esto nos da un total de $32 \cdot 11 \cdot 2 = 704$ estados.

- Acciones: Dada la naturaleza del juego, el agente puede ejecutar dos acciones:
    - `0` significa que el agente se queda con las cartas que tiene en mano (stick)
    - `1` significa que el agente toma auna carta adicional (hit)

- Recompensas: Las recompensas tienen que ver directamnte con el resultado del juego:
    - `+1` si el agente le gana al *dealer* sin un blackjack natural.
    - `-1` si el agente pierde contra el *dealer*.
    - `0` si ambos empatan.
    - `+1.5` si el agente le gana al *dealer* con un blackjack natural (lo obtiene en la mano inicial)

El episodio (o la experiencia) termina en dos casos:
1. El agente decide robar una carta más y la suma de su mano excede el valor $21$.
2. El agente se queda con su mano actual.

#### **1.1.2 Generando un Baseline (0.2 puntos)**

Simule un escenario en donde se escojan acciones aleatorias. Repita esta simulación 5000 veces y reporte el promedio y desviación de las recompensas. ¿Cómo calificaría el performance de esta política? ¿Cómo podría interpretar las recompensas obtenidas?

In [4]:
# Reiniciamos el ambiente (por si acaso)
env.reset()

# Parámetros de la simulación
episodes = 5000
rewards = []

# Simulación
for _ in range(episodes):
    obs, info = env.reset()  # Reiniciar el entorno
    done = False
    total_reward = 0

    while not done:
        action = env.action_space.sample()                      # Se toma una acción aleatoria
        obs, reward, done, truncated, info = env.step(action)   # Se realiza la acción
        total_reward += reward                                  # Y se acumula la recompensa del episodio
    
    rewards.append(total_reward)

# Cálculo del promedio y la desviación estándar
mean_reward = np.mean(rewards)
std_reward = np.std(rewards)

# Reporte
print(f"Recompensa promedio: {mean_reward:.2f}")
print(f"Desviación estándar de las recompensas: {std_reward:.2f}")

Recompensa promedio: -0.41
Desviación estándar de las recompensas: 0.89


Como se expone en los resultados, el performance es bastante malo, ya que el agente está perdiendo, en promedio, 0.42 unidades de rrecompensa por cada episodio, lo cual indica que toma decisiones subóptimas. Además, la desviación estándar refleja la alta variabilidad en este juego: como las acciones del agente son aleatorias, se ingresa mucha incertidumbre, teniendo por resultado una alta variabilidad en los resultados.

#### **1.1.3 Entrenamiento de modelo (0.2 puntos)**

A partir del siguiente [enlace](https://stable-baselines3.readthedocs.io/en/master/guide/algos.html), escoja un modelo de `stable_baselines3` y entrenelo para resolver el ambiente `Blackjack`.

Dado que este es un entorno multidiscreto, lo ideal sería usar un modelo del tipo `PPO`:

In [5]:
from stable_baselines3 import PPO

# Iniciamos el modelo
model_ppo = PPO(
    "MlpPolicy",
    env,
    verbose=0,
    seed=30
)

# Reiniciamos el ambiente
env.reset()

# Parámetros de la simulación
episodes = 5000
model = model_ppo

# Entrenamos el modelo
model.learn(total_timesteps=50000, progress_bar=True)



Output()

<stable_baselines3.ppo.ppo.PPO at 0x2395027f730>

#### **1.1.4 Evaluación de modelo (0.2 puntos)**

Repita el ejercicio 1.1.2 pero utilizando el modelo entrenado. ¿Cómo es el performance de su agente? ¿Es mejor o peor que el escenario baseline?

In [6]:
from stable_baselines3.common.evaluation import evaluate_policy

# Evaluamos el modelo
mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=5000)
print(f"Recompensa promedio tras entrenamiento: {mean_reward:.2f}")
print(f"Desviación estándar: {std_reward:.2f}")



Recompensa promedio tras entrenamiento: -0.03
Desviación estándar: 0.95


Estos nuevos resultados reflejan una mejora significativa en las acciones del agente. Aunque la recompensa promedio haya aumentado, sigue siendo negativa, pero por lo menos el agente ya no pierde tanto. La desviación estándar sigue siendo alta, pero es típico para estos juegos de azar.

Es posible enseñarle al agente cómo proceder en algunas situaciones para disminuir esta varianza tan alta.

#### **1.1.5 Estudio de acciones (0.2 puntos)**

Genere una función que reciba un estado y retorne la accion del agente. Luego, use esta función para entregar la acción escogida frente a los siguientes escenarios:

- Suma de cartas del agente es 6, dealer muestra un 7, agente no tiene tiene un as
- Suma de cartas del agente es 19, dealer muestra un 3, agente tiene tiene un as

¿Son coherentes sus acciones con las reglas del juego?

Hint: ¿A que clase de python pertenecen los estados? Pruebe a usar el método `.reset` para saberlo.

In [7]:
def accion_agente(model, estado):
    '''
    Función que devuelve la acción que el agente tomará en un estado dado.

    Args:
        - model: Modelo entrenado.
        - estado: Estado en el que se encuentra el agente.

    Returns:
        - acción: Acción que tomará el agente.
    '''
    # El estado se debe pasar como un array de una dimensión
    estado = np.array(estado).flatten()

    accion, _ = model.predict(estado, deterministic=True)
    return accion

In [8]:
# Test 1
estado = [6, 7, 0]
model = model_ppo

print(f"Estado: {estado}")
print(f"Acción: {accion_agente(model, estado)}")

Estado: [6, 7, 0]
Acción: 1


Para este primer caso, el agente tiene 2 cartas que suman 3 puntos, mientras que el *dealer*, con una sola carta, ya tiene 7 puntos. Lo lógico en este caso es robar una carta ya que, independiente del valor que se obtenga, no sobrepasará lo 21. Es justamente esta acción que el agente decide realizar.

In [9]:
# Test 2
estado = [19, 3, 1]
model = model_ppo

print(f"Estado: {estado}")
print(f"Acción: {accion_agente(model, estado)}")

Estado: [19, 3, 1]
Acción: 0


En este segundo caso, el agente tiene 2 cartas que suman 19, siendo una de ellas un as, mientras que el *dealer*, con una sola carta, tiene 3 puntos. Lo lógico en este caso es quedarse, ya que puede ser que se robe una carta con valor mayor que 2, pasándose así del límite de 21 y perdiendo el juego. Es justamente esta acción que el agente decide realizar.

### **1.2 LunarLander**

<p align="center">
  <img src="https://i.redd.it/097t6tk29zf51.jpg"
" width="400">
</p>

Similar a la sección 2.1, en esta sección usted se encargará de implementar una gente de RL que pueda resolver el ambiente `LunarLander`.

Comencemos preparando el ambiente:


In [10]:
import gymnasium as gym
env = gym.make("LunarLander-v2", render_mode = "rgb_array", continuous = True) # notar el parámetro continuous = True

Noten que se especifica el parámetro `continuous = True`. ¿Que implicancias tiene esto sobre el ambiente?

Además, se le facilita la función `export_gif` para el ejercicio 2.2.4:

In [11]:
import imageio
import numpy as np

def export_gif(model, n = 5):
  '''
  función que exporta a gif el comportamiento del agente en n episodios
  '''
  images = []
  for episode in range(n):
    obs = model.env.reset()
    img = model.env.render()
    done = False
    while not done:
      images.append(img)
      action, _ = model.predict(obs)
      obs, reward, done, info = model.env.step(action)
      img = model.env.render(mode="rgb_array")

  imageio.mimsave("agent_performance.gif", [np.array(img) for i, img in enumerate(images) if i%2 == 0], fps=29)

#### **1.2.1 Descripción de MDP (0.2 puntos)**

Entregue una breve descripción sobre el ambiente [LunarLander](https://gymnasium.farama.org/environments/box2d/lunar_lander/) y su formulación en MDP, distinguiendo de forma clara y concisa los estados, acciones y recompensas. ¿Como se distinguen las acciones de este ambiente en comparación a `Blackjack`?

Nota: recuerde que se especificó el parámetro `continuous = True`

`escriba su respuesta acá`

In [12]:
dim_actions = env.action_space # dimensión de las acciones
dim_states = env.observation_space # dimensión de los estados (observaciones)

print('dim_actions:', dim_actions)
print('dim_states:', dim_states)

dim_actions: Box(-1.0, 1.0, (2,), float32)
dim_states: Box([-1.5       -1.5       -5.        -5.        -3.1415927 -5.
 -0.        -0.       ], [1.5       1.5       5.        5.        3.1415927 5.        1.
 1.       ], (8,), float32)


#### **1.2.2 Generando un Baseline (0.2 puntos)**

Simule un escenario en donde se escojan acciones aleatorias. Repita esta simulación 10 veces y reporte el promedio y desviación de las recompensas. ¿Cómo calificaría el performance de esta política?

In [13]:
# Reiniciamos el ambiente
env.reset()

# Parámetros de la simulación
episodes = 10
rewards = []

# Simulación
for _ in range(episodes):
    obs, info = env.reset()  # Reiniciar el entorno
    done = False
    total_reward = 0

    while not done:
        action = env.action_space.sample()                      # Se toma una acción aleatoria
        obs, reward, done, truncated, info = env.step(action)   # Se realiza la acción
        total_reward += reward                                  # Y se acumula la recompensa del episodio
    
    rewards.append(total_reward)

# Cálculo del promedio y la desviación estándar
mean_reward = np.mean(rewards)
std_reward = np.std(rewards)

# Reporte
print(f"Recompensa promedio: {mean_reward:.2f}")
print(f"Desviación estándar de las recompensas: {std_reward:.2f}")

Recompensa promedio: -262.19
Desviación estándar de las recompensas: 147.82


#### **1.2.3 Entrenamiento de modelo (0.2 puntos)**

A partir del siguiente [enlace](https://stable-baselines3.readthedocs.io/en/master/guide/algos.html), escoja un modelo de `stable_baselines3` y entrenelo para resolver el ambiente `LunarLander` **usando 10000 timesteps de entrenamiento**.

Volvemos a usar el modelo `PPO` dado que también sirve para problemas de este tipo `box`

In [14]:
# Iniciamos el modelo
model_ppo = PPO(
    "MlpPolicy",
    env,
    verbose=0,
    seed=30
)

# Reiniciamos el ambiente
env.reset()

# Parámetros de la simulación
episodes = 10
model = model_ppo

# Entrenamos el modelo
model.learn(total_timesteps=10000, progress_bar=True)

Output()

<stable_baselines3.ppo.ppo.PPO at 0x2396ef33190>

#### **1.2.4 Evaluación de modelo (0.2 puntos)**

Repita el ejercicio 1.2.2 pero utilizando el modelo entrenado. ¿Cómo es el performance de su agente? ¿Es mejor o peor que el escenario baseline?

In [15]:
# Evaluamos el modelo
mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=episodes)
print(f"Recompensa promedio tras entrenamiento: {mean_reward:.2f}")
print(f"Desviación estándar: {std_reward:.2f}")

Recompensa promedio tras entrenamiento: -106.75
Desviación estándar: 134.77


#### **1.2.5 Optimización de modelo (0.2 puntos)**

Repita los ejercicios 1.2.3 y 1.2.4 hasta obtener un nivel de recompensas promedio mayor a 50. Para esto, puede cambiar manualmente parámetros como:
- `total_timesteps`
- `learning_rate`
- `batch_size`

Una vez optimizado el modelo, use la función `export_gif` para estudiar el comportamiento de su agente en la resolución del ambiente y comente sobre sus resultados.

Adjunte el gif generado en su entrega (mejor aún si además adjuntan el gif en el markdown).

In [16]:
# Inicializar el modelo PPO
model = PPO(
    "MlpPolicy",        # Política basada en redes neuronales
    env,
    learning_rate=1e-3, # Tasa de aprendizaje
    batch_size=64,      # Tamaño del batch para entrenamiento
    gamma=0.99,         # Factor de descuento
    verbose=0,          # Imprimir progreso
    seed=30             # Fijar semilla para reproducibilidad
)

# Entrenar el modelo
model.learn(total_timesteps=50000)  # Número de pasos de entrenamiento

# Evaluar el modelo
mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=10)
print(f"Recompensa promedio tras entrenamiento: {mean_reward:.2f}")
print(f"Desviación estándar: {std_reward:.2f}")

Recompensa promedio tras entrenamiento: 229.30
Desviación estándar: 25.02


In [17]:
export_gif(model)

## **2. Large Language Models (4.0 puntos)**

En esta sección se enfocarán en habilitar un Chatbot que nos permita responder preguntas útiles a través de LLMs.

### **2.0 Configuración Inicial**

<p align="center">
  <img src="https://media1.tenor.com/m/uqAs9atZH58AAAAd/config-config-issue.gif"
" width="400">
</p>

Como siempre, cargamos todas nuestras API KEY al entorno:

In [18]:
import getpass
import os

if "GOOGLE_API_KEY" not in os.environ:
    os.environ["GOOGLE_API_KEY"] = getpass.getpass("Enter your Google AI API key: AIzaSyCIHizapmi2CJSKlJvmOv6uJbNlzRyIO1E")

if "TAVILY_API_KEY" not in os.environ:
    os.environ["TAVILY_API_KEY"] = getpass.getpass("Enter your Tavily API key: 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")

### **2.1 Retrieval Augmented Generation (1.5 puntos)**

<p align="center">
  <img src="https://y.yarn.co/218aaa02-c47e-4ec9-b1c9-07792a06a88f_text.gif"
" width="400">
</p>

El objetivo de esta subsección es que habiliten un chatbot que pueda responder preguntas usando información contenida en documentos PDF a través de **Retrieval Augmented Generation.**

#### **2.1.1 Reunir Documentos (0 puntos)**

Reuna documentos PDF sobre los que hacer preguntas siguiendo las siguientes instrucciones:
  - 2 documentos .pdf como mínimo.
  - 50 páginas de contenido como mínimo entre todos los documentos.
  - Ideas para documentos: Documentos relacionados a temas académicos, laborales o de ocio. Aprovechen este ejercicio para construir algo útil y/o relevante para ustedes!
  - Deben ocupar documentos reales, no pueden utilizar los mismos de la clase.
  - Deben registrar sus documentos en la siguiente [planilla](https://docs.google.com/spreadsheets/d/1Hy1w_dOiG2UCHJ8muyxhdKPZEPrrL7BNHm6E90imIIM/edit?usp=sharing). **NO PUEDEN USAR LOS MISMOS DOCUMENTOS QUE OTRO GRUPO**
  - **Recuerden adjuntar los documentos en su entrega**.

In [19]:
%pip install --upgrade --quiet PyPDF2

Note: you may need to restart the kernel to use updated packages.


In [20]:
import PyPDF2

doc_paths = [
    'diagnostico gestion de recursos hidricos en chile_banco mundial.pdf',
    'recursos_hidricos_en_chile.pdf'
] # rellenar con los path a sus documentos

assert len(doc_paths) >= 2, "Deben adjuntar un mínimo de 2 documentos"

total_paginas = sum(len(PyPDF2.PdfReader(open(doc, "rb")).pages) for doc in doc_paths)
assert total_paginas >= 50, f"Páginas insuficientes: {total_paginas}"

#### **2.1.2 Vectorizar Documentos (0.2 puntos)**

Vectorice los documentos y almacene sus representaciones de manera acorde.

In [32]:
from langchain_community.document_loaders import PyPDFLoader

docs = []
for doc_path in doc_paths:
    loader = PyPDFLoader(doc_path)
    doc = loader.load()
    docs.append(doc)

In [36]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

# Inicializamos splitter
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)

# Dividimos los documentos en chunks
chunks = []
for doc in docs:
    split = text_splitter.split_documents(doc)
    chunks.extend(split)

In [40]:
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain_community.vectorstores import FAISS

embedding = GoogleGenerativeAIEmbeddings(model="models/embedding-001") # inicializamos los embeddings
vectorstore = FAISS.from_documents(documents=chunks, embedding=embedding) # vectorizacion y almacenamiento

#### **2.1.3 Habilitar RAG (0.3 puntos)**

Habilite la solución RAG a través de una *chain* y guárdela en una variable.

In [None]:
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

In [48]:
retriever = vectorstore.as_retriever(search_type="similarity", # método de búsqueda
                                     search_kwargs={"k": 10}, # n° documentos a recuperar
                                     )

retriever_chain = retriever | format_docs

VectorStoreRetriever(tags=['FAISS', 'GoogleGenerativeAIEmbeddings'], vectorstore=<langchain_community.vectorstores.faiss.FAISS object at 0x0000023ABB24BB20>, search_kwargs={'k': 10})

In [51]:
from langchain_core.prompts import PromptTemplate

# noten como ahora existe el parámetro de context!
rag_template = '''
Eres un asistente experto en recursos hídricos y en el diagnóstico de su gestión en Chile.
Tu único rol es contestar preguntas del usuario a partir de información relevante que te sea proporcionada.
Responde siempre de la forma más completa posible y usando toda la información entregada.
Responde sólo lo que te pregunten a partir de la información relevante, NUNCA inventes una respuesta.

Información relevante: {context}
Pregunta: {question}
Respuesta útil:
'''

rag_prompt = PromptTemplate.from_template(rag_template)

In [52]:
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser

llm = ChatGoogleGenerativeAI(
    model="gemini-1.5-flash", # modelo de lenguaje
    temperature=0, # probabilidad de "respuestas creativas"
    max_tokens=None, # sin tope de tokens
    timeout=None, # sin timeout
    max_retries=2, # número máximo de intentos
)

rag_chain = (
    {
        "context": retriever_chain, # context lo obtendremos del retriever_chain
        "question": RunnablePassthrough(), # question pasará directo hacia el prompt
    }
    | rag_prompt # prompt con las variables question y context
    | llm # llm recibe el prompt y responde
    | StrOutputParser() # recuperamos sólo la respuesta
)

#### **2.1.4 Verificación de respuestas (0.5 puntos)**

Genere un listado de 3 tuplas ("pregunta", "respuesta correcta") y analice la respuesta de su solución para cada una. ¿Su solución RAG entrega las respuestas que esperaba?

Ejemplo de tupla:
- Pregunta: ¿Quién es el presidente de Chile?
- Respuesta correcta: El presidente de Chile es Gabriel Boric

In [53]:
questions_answers = [
    ("¿Qué desafíos existen en la gestión de recursos hídricos en Chile?", 
     "Algunos desafíos son la sobreexplotación, la falta de acceso equitativo y la gestión ineficiente."),
    ("¿Qué entidad regula el uso del agua en Chile?", 
     "La Dirección General de Aguas (DGA) regula el uso del agua en Chile."),
    ("¿Cuál es el principal sector que utiliza agua en Chile?", 
     "El sector agrícola es el principal consumidor de agua en Chile.")
]

In [55]:
for question, expected_answer in questions_answers:
    # Invocar el RAG Chain con la pregunta
    response = rag_chain.invoke(question)
    
    # Mostrar la pregunta, la respuesta generada y la respuesta esperada
    print(f"Pregunta: {question}")
    print(f"Respuesta generada: {response}")
    print(f"Respuesta esperada: {expected_answer}")
    print("-" * 80)

Pregunta: ¿Qué desafíos existen en la gestión de recursos hídricos en Chile?
Respuesta generada: Basado en la información proporcionada, los desafíos en la gestión de recursos hídricos en Chile se dividen en dos categorías principales:  aspectos legales e instrumentos de gestión, y aspectos institucionales.

**Desafíos vinculados a los aspectos legales e instrumentos de gestión:** El informe identifica ocho desafíos principales en esta área, aunque no los detalla.  Se menciona específicamente la necesidad de proteger los derechos de agua de los grupos vulnerables.

**Desafíos vinculados a los aspectos institucionales:**  El informe indica que los principales problemas institucionales se relacionan con la baja jerarquía y capacidad de las instituciones para planificar y tener injerencia en la gestión del agua, asegurando que todos los usos sean respetados.  Se destaca la ausencia de un elenco de usos prioritarios en caso de escasez.  Adicionalmente, se mencionan brechas en la calidad de

Efectivamente, el `RaG` desarrollado entregas las respuestas que se esperaban y las desarrolló aún más ...

#### **2.1.5 Sensibilidad de Hiperparámetros (0.5 puntos)**

Extienda el análisis del punto 2.1.4 analizando cómo cambian las respuestas entregadas cambiando los siguientes hiperparámetros:
- `Tamaño del chunk`. (*¿Cómo repercute que los chunks sean mas grandes o chicos?*)
- `La cantidad de chunks recuperados`. (*¿Qué pasa si se devuelven muchos/pocos chunks?*)
- `El tipo de búsqueda`. (*¿Cómo afecta el tipo de búsqueda a las respuestas de mi RAG?*)

### **2.2 Agentes (1.0 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/rcqnN2aJCSEAAAAd/secret-agent-man.gif"
" width="400">
</p>

Similar a la sección anterior, en esta sección se busca habilitar **Agentes** para obtener información a través de tools y así responder la pregunta del usuario.

#### **2.2.1 Tool de Tavily (0.2 puntos)**

Generar una *tool* que pueda hacer consultas al motor de búsqueda **Tavily**.

In [57]:
from langchain_community.tools.tavily_search import TavilySearchResults

search = TavilySearchResults(max_results = 5) # inicializamos tool
tavi_tool = [search] # guardamos las tools en una lista

#### **2.2.2 Tool de Wikipedia (0.2 puntos)**

Generar una *tool* que pueda hacer consultas a **Wikipedia**.

*Hint: Le puede ser de ayuda el siguiente [link](https://python.langchain.com/v0.1/docs/modules/tools/).*

In [59]:
from langchain_community.tools import WikipediaQueryRun
from langchain_community.utilities import WikipediaAPIWrapper

api_wrapper = WikipediaAPIWrapper(top_k_results=5, doc_content_chars_max=100)
wiki_tool = WikipediaQueryRun(api_wrapper=api_wrapper)

#### **2.2.3 Crear Agente (0.3 puntos)**

Crear un agente que pueda responder preguntas preguntas usando las *tools* antes generadas. Asegúrese que su agente responda en español. Por último, guarde el agente en una variable.

In [70]:
prompt_tavi_template = """
Responde las siguientes preguntas lo mejor que puedas. Tienes acceso a las siguientes herramientas:

{tavi_tool}

Usa el siguiente formato:

Pregunta: la pregunta de entrada que debes responder
Pensamiento: siempre debes pensar en lo que debes hacer
Acción: la acción a realizar debe ser una de [{tavi_tool}]
Entrada de acción: la entrada a la acción
Observación: el resultado de la acción
... (este Pensamiento/Acción/Entrada de acción/Observación puede repetirse N veces)
Pensamiento: ahora sé la respuesta final
Respuesta final: la respuesta final a la pregunta de entrada original

¡Comienza!

Pregunta: {input}
"""

In [71]:
prompt_wiki_template = """
Responde las siguientes preguntas lo mejor que puedas. Tienes acceso a las siguientes herramientas:

{wiki_tool}

Usa el siguiente formato:

Pregunta: la pregunta de entrada que debes responder
Pensamiento: siempre debes pensar en lo que debes hacer
Acción: la acción a realizar debe ser una de [{wiki_tool}]
Entrada de acción: la entrada a la acción
Observación: el resultado de la acción
... (este Pensamiento/Acción/Entrada de acción/Observación puede repetirse N veces)
Pensamiento: ahora sé la respuesta final
Respuesta final: la respuesta final a la pregunta de entrada original

¡Comienza!

Pregunta: {input}
"""

In [72]:
from langchain.agents import create_react_agent, AgentExecutor

# Agente para Tavily
tavily_agent = create_react_agent(llm, tavi_tool, prompt_tavi_template)
tavily_executor = AgentExecutor(agent=tavily_agent, tools=tavi_tool, verbose=True)

# Agente para Wikipedia
wikipedia_agent = create_react_agent(llm, tavi_tool, prompt_wiki_template)
wikipedia_executor = AgentExecutor(agent=wikipedia_agent, tools=tavi_tool, verbose=True)

AttributeError: 'str' object has no attribute 'input_variables'

#### **2.2.4 Verificación de respuestas (0.3 puntos)**

Pruebe el funcionamiento de su agente y asegúrese que el agente esté ocupando correctamente las tools disponibles. ¿En qué casos el agente debería ocupar la tool de Tavily? ¿En qué casos debería ocupar la tool de Wikipedia?

In [None]:
response = tavily_executor.invoke({"input": "qué equipo ganó el mundial de LoL 2024?"})
print(response["output"])

### **2.3 Multi Agente (1.5 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/r7QMJLxU4BoAAAAd/this-is-getting-out-of-hand-star-wars.gif"
" width="450">
</p>

El objetivo de esta subsección es encapsular las funcionalidades creadas en una solución multiagente con un **supervisor**.


#### **2.3.1 Generando Tools (0.5 puntos)**

Transforme la solución RAG de la sección 2.1 y el agente de la sección 2.2 a *tools* (una tool por cada uno).

#### **2.3.2 Agente Supervisor (0.5 puntos)**

Habilite un agente que tenga acceso a las tools del punto anterior y pueda responder preguntas relacionadas. Almacene este agente en una variable llamada supervisor.

#### **2.3.3 Verificación de respuestas (0.25 puntos)**

Pruebe el funcionamiento de su agente repitiendo las preguntas realizadas en las secciones 2.1.4 y 2.2.4 y comente sus resultados. ¿Cómo varían las respuestas bajo este enfoque?

#### **2.3.4 Análisis (0.25 puntos)**

¿Qué diferencias tiene este enfoque con la solución *Router* vista en clases? Nombre al menos una ventaja y desventaja.

`escriba su respuesta acá`

### **2.4 Memoria (Bonus +0.5 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/Gs95aiElrscAAAAd/memory-unlocked-ratatouille-critic.gif"
" width="400">
</p>

Una de las principales falencias de las soluciones que hemos visto hasta ahora es que nuestro chat no responde las interacciones anteriores, por ejemplo:

- Pregunta 1: "Hola! mi nombre es Sebastián"
  - Respuesta esperada: "Hola Sebastián! ..."
- Pregunta 2: "Cual es mi nombre?"
  - Respuesta actual: "Lo siento pero no conozco tu nombre :("
  - **Respuesta esperada: "Tu nombre es Sebastián"**

Para solucionar esto, se les solicita agregar un componente de **memoria** a la solución entregada en el punto 2.3.

**Nota: El Bonus es válido <u>sólo para la sección 2 de Large Language Models.</u>**

### **2.5 Despliegue (0 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/IytHqOp52EsAAAAd/you-get-a-deploy-deploy.gif"
" width="400">
</p>

Una vez tengan los puntos anteriores finalizados, toca la etapa de dar a conocer lo que hicimos! Para eso, vamos a desplegar nuestro modelo a través de `gradio`, una librería especializada en el levantamiento rápido de demos basadas en ML.

Primero instalamos la librería:

In [None]:
%pip install --upgrade --quiet gradio

Luego sólo deben ejecutar el siguiente código e interactuar con la interfaz a través del notebook o del link generado:

In [None]:
import gradio as gr
import time

def agent_response(message, history):
  '''
  Función para gradio, recibe mensaje e historial, devuelte la respuesta del chatbot.
  '''
  # get chatbot response
  response = ... # rellenar con la respuesta de su chat

  # assert
  assert type(response) == str, "output de route_question debe ser string"

  # "streaming" response
  for i in range(len(response)):
    time.sleep(0.015)
    yield response[: i+1]

gr.ChatInterface(
    agent_response,
    type="messages",
    title="Chatbot MDS7202", # Pueden cambiar esto si lo desean
    description="Hola! Soy un chatbot muy útil :)", # también la descripción
    theme="soft",
    ).launch(
        share=True, # pueden compartir el link a sus amig@s para que interactuen con su chat!
        debug = False,
        )