# **Laboratorio 11: LLM y Agentes Aut√≥nomos ü§ñ**

MDS7202: Laboratorio de Programaci√≥n Cient√≠fica para Ciencia de Datos

### **Cuerpo Docente:**

- Profesores: Ignacio Meza, Sebasti√°n Tinoco
- Auxiliar: Eduardo Moya
- Ayudantes: Nicol√°s Ojeda, Melanie Pe√±a, Valentina Rojas

### **Equipo: SUPER IMPORTANTE - notebooks sin nombre no ser√°n revisados**

- Nombre de alumno 1: Diego Bartolucci
- Nombre de alumno 2: Pilar Nilo

### **Link de repositorio de GitHub:** [Repositorio](https://github.com/DiegoBarto01/MDS7202-pili-barto)

## **Temas a tratar**

- Reinforcement Learning
- Large Language Models

## **Reglas:**

- **Grupos de 2 personas**
- Cualquier duda fuera del horario de clases al foro. Mensajes al equipo docente ser√°n respondidos por este medio.
- Prohibidas las copias.
- Pueden usar cualquer matrial del curso que estimen conveniente.

### **Objetivos principales del laboratorio**

- Resoluci√≥n de problemas secuenciales usando Reinforcement Learning
- Habilitar un Chatbot para entregar respuestas √∫tiles usando Large Language Models.

El laboratorio deber√° ser desarrollado sin el uso indiscriminado de iteradores nativos de python (aka "for", "while"). La idea es que aprendan a exprimir al m√°ximo las funciones optimizadas que nos entrega `pandas`, las cuales vale mencionar, son bastante m√°s eficientes que los iteradores nativos sobre DataFrames.

## **1. Reinforcement Learning (2.0 puntos)**

En esta secci√≥n van a usar m√©todos de RL para resolver dos problemas interesantes: `Blackjack` y `LunarLander`.

In [None]:
!pip install -qqq gymnasium stable_baselines3
!pip install -qqq swig
!pip install -qqq gymnasium[box2d]

### **1.1 Blackjack (1.0 puntos)**

<p align="center">
  <img src="https://www.recreoviral.com/wp-content/uploads/2016/08/s3.amazonaws.com-Math.gif"
" width="400">
</p>

La idea de esta subsecci√≥n es que puedan implementar m√©todos de RL y as√≠ generar una estrategia para jugar el cl√°sico juego Blackjack y de paso puedan ~~hacerse millonarios~~ aprender a resolver problemas mediante RL.

Comencemos primero preparando el ambiente. El siguiente bloque de c√≥digo transforma las observaciones del ambiente a `np.array`:


In [None]:
import gymnasium as gym
from gymnasium.spaces import MultiDiscrete
import numpy as np

class FlattenObservation(gym.ObservationWrapper):
    def __init__(self, env):
        super(FlattenObservation, self).__init__(env)
        self.observation_space = MultiDiscrete(np.array([32, 11, 2]))

    def observation(self, observation):
        return np.array(observation).flatten()

# Create and wrap the environment
env = gym.make("Blackjack-v1")
env = FlattenObservation(env)

#### **1.1.1 Descripci√≥n de MDP (0.2 puntos)**

Entregue una breve descripci√≥n sobre el ambiente [Blackjack](https://gymnasium.farama.org/environments/toy_text/blackjack/) y su formulaci√≥n en MDP, distinguiendo de forma clara y concisa los estados, acciones y recompensas.

*Respuesta*

El ambiente es una partida de BlackJack donde el objetivo es vencer al 'dealer' obteniendo cartas que sumen lo m√°s cercano a 21 sin pasarse. La idea es lograr alcanzar una mejor mano de cartas que las del 'dealer', cumpliendo la retricci√≥n de los 21 puntos.


Su formulci√≥n en MDP es la siguiente:



*   Estados: tenemos estado inicial y final

Inicial: se inicia el juego, el jugador suma sus cartas para que luego el 'Dealer' muestre las suyas y finalmente se puede utilizar un As.

Final: el final del juego sucede cuando el jugador pide una carta m√°s y la suma resulta ser mayor a 21. Otro caso es cuando el jugador se queda con las cartas que tiene en mano.
*   Acciones: Hay dos acciones posibles

0: Pegar/Stick donde se queda con las cartas actuales

1: Golpear/Hit que implica robar una carta
*   Recompensas:

Las recompensas incluyen ganar 1 pto si se gana el juego, perder 1 pto si se pierde, 0 pts si se llega a un empate y 1.5 pts si se gana el juego con un natural blackjack.



#### **1.1.2 Generando un Baseline (0.2 puntos)**

Simule un escenario en donde se escojan acciones aleatorias. Repita esta simulaci√≥n 5000 veces y reporte el promedio y desviaci√≥n de las recompensas. ¬øC√≥mo calificar√≠a el performance de esta pol√≠tica? ¬øC√≥mo podr√≠a interpretar las recompensas obtenidas?

In [None]:
#simulacion de escenario donde se escojen acciones aleatorias
def simul_escenario(env, episodios):
  recompensas=[]
  for episode in range(episodios):
    obs = env.reset()
    done = False
    while not done:
      action = env.action_space.sample()
      obs, reward, done,_, info = env.step(action)
      recompensas.append(reward)
  return recompensas




In [None]:
#repeticion de la simulacion 5000 veces + promedio y desviasion de las recompensas
repeat_5000=simul_escenario(env,5000)
#saco promedio y desv estandar
promedio=np.mean(repeat_5000)
desviacion=np.std(repeat_5000)
print(f"El promedio de las recompensas es: {promedio}")
print(f"La desviacion estandar de las recompensas es: {desviacion}")

*Respuesta*

La performance de esta politica no es buena ya que el promedio de las recompensas es negativo indicando un escenario poco favorecedor ya que seg√∫n los parametros de recompensas perdi√≥ la mayor√≠a de las partidas jugadas. Adem√°s, la desviaci√≥n estandar es alta lo que indica alta variaci√≥n.

#### **1.1.3 Entrenamiento de modelo (0.2 puntos)**

A partir del siguiente [enlace](https://stable-baselines3.readthedocs.io/en/master/guide/algos.html), escoja un modelo de `stable_baselines3` y entrenelo para resolver el ambiente `Blackjack`.

In [None]:
#estoy entre box y multiProcessing
from stable_baselines3 import PPO
from stable_baselines3.common.env_util import make_vec_env
modelo=PPO("MlpPolicy",env,verbose=1)
modelo.learn(total_timesteps=int(2e5), progress_bar=True)
modelo.save("modelo_blackjack_1")

#### **1.1.4 Evaluaci√≥n de modelo (0.2 puntos)**

Repita el ejercicio 1.1.2 pero utilizando el modelo entrenado. ¬øC√≥mo es el performance de su agente? ¬øEs mejor o peor que el escenario baseline?

In [None]:
#simulacion de 5000 veces m√°s promedio y desviacion
def simul_escenario_2(env,modelo,episodios):
  recompensas=[]
  for episode in range(episodios):
    obs,_ = env.reset()
    episodio_recompensa=0
    done = False
    while not done:
      action,_state= modelo.predict(obs, deterministic=True)
      obs, reward, done,truncated,info= env.step(action)
      episodio_recompensa+=reward
      recompensas.append(episodio_recompensa)
  return recompensas

In [None]:
repeat_5000_v2=simul_escenario_2(env,modelo,5000)
#saco promedio y desv estandar
promedio_2=np.mean(repeat_5000_v2)
desviacion_2=np.std(repeat_5000_v2)
print(f"El promedio de las recompensas es: {promedio_2}")
print(f"La desviacion estandar de las recompensas es: {desviacion_2}")

*Comparaci√≥n de escenarios*

La performance del agente es mejor que el baseline ya que es m√°s cercano a 0, pero sigue siendo un escenario desfavorable ya que indica que est√° perdiendo o empatando la mayor√≠a de las jugadas.

Lo que si, baja la variabilidad del modelo.

#### **1.1.5 Estudio de acciones (0.2 puntos)**

Genere una funci√≥n que reciba un estado y retorne la accion del agente. Luego, use esta funci√≥n para entregar la acci√≥n escogida frente a los siguientes escenarios:

- Suma de cartas del agente es 6, dealer muestra un 7, agente no tiene tiene un as
- Suma de cartas del agente es 19, dealer muestra un 3, agente tiene tiene un as

¬øSon coherentes sus acciones con las reglas del juego?

Hint: ¬øA que clase de python pertenecen los estados? Pruebe a usar el m√©todo `.reset` para saberlo.

In [None]:
#funcion que reciba un estado y retorne la accion del agente.
def get_return_action(model,state):
  action,_states= model.predict(state, deterministic=True)
  return action

In [None]:
#escenario 1: suma de las cartas es 6, dealer muestra un 7, agente no tiene un as
escenario_1=np.array([6,7,0])
#escenario 2: suma de las cartas del agente es 19, dealer muestra un 3, agente tiene un as
escenario_2=np.array([19,3,1])

In [None]:
#accion del escenario 1
accion_1=get_return_action(modelo,escenario_1)
#accion del escenario 2
accion_2=get_return_action(modelo,escenario_2)
print(f"La accion del escenario 1 es: {accion_1}")
print(f"La accion del escenario 2 es: {accion_2}")

*respuesta*

Si, son coherentes con las reglas del juego ya que en el primer escenario el dealer tiene mayor puntaje y pide otra carta para poder ganar y en el segundo escenario el dealer no supera la cantidad del agente por lo cual no se necesita de otra carta.

### **1.2 LunarLander**

<p align="center">
  <img src="https://i.redd.it/097t6tk29zf51.jpg"
" width="400">
</p>

Similar a la secci√≥n 2.1, en esta secci√≥n usted se encargar√° de implementar una gente de RL que pueda resolver el ambiente `LunarLander`.

Comencemos preparando el ambiente:


*Se tuvo que utilizar LunarLander-v3 ya que arrojaba error la version2

In [None]:
import gymnasium as gym
env = gym.make("LunarLander-v3", render_mode = "rgb_array", continuous = True) # notar el par√°metro continuous = True

Noten que se especifica el par√°metro `continuous = True`. ¬øQue implicancias tiene esto sobre el ambiente?

Adem√°s, se le facilita la funci√≥n `export_gif` para el ejercicio 2.2.4:

In [None]:
import imageio
import numpy as np

def export_gif(model, n = 5):
  '''
  funci√≥n que exporta a gif el comportamiento del agente en n episodios
  '''
  images = []
  for episode in range(n):
    obs = model.env.reset()
    img = model.env.render()
    done = False
    while not done:
      images.append(img)
      action, _ = model.predict(obs)
      obs, reward, done, info = model.env.step(action)
      img = model.env.render(mode="rgb_array")

  imageio.mimsave("agent_performance.gif", [np.array(img) for i, img in enumerate(images) if i%2 == 0], fps=29)

*respuesta*

El continuos=True indica que necesitamos tener un espacio de acci√≥n continuo en lugar de uno discreto

#### **1.2.1 Descripci√≥n de MDP (0.2 puntos)**

Entregue una breve descripci√≥n sobre el ambiente [LunarLander](https://gymnasium.farama.org/environments/box2d/lunar_lander/) y su formulaci√≥n en MDP, distinguiendo de forma clara y concisa los estados, acciones y recompensas. ¬øComo se distinguen las acciones de este ambiente en comparaci√≥n a `Blackjack`?

Nota: recuerde que se especific√≥ el par√°metro `continuous = True`

*respuesta*

El ambiente LunarLander es un problema de optimizaci√≥n de trayectoria de cohete.

Su formulacion en MDP se compone de:

*  Estados:
  * Inicial: la nave se encuentra en el centro superior de la ventana gr√°fica.
  * Final: el episodio termina el los siguientes casos--> a) aterrizaje y se estrella;
  b) aterrizaje sale de la ventana gr√°fica; c) modulo de aterrizaje no est√° despierto, i.e no se mueve y no choca con ningun otro cuerpo.
*  Acciones: Existen 4 tipos de acciones
    * 0: no hace nada
    * 1: se enciendo propulsor de orientaci√≥n izquierda
    * 2: encender propulsor central
    * 3: encender propulsor de orientaci√≥n derecha
*  Recompensas:
  * aumenta/disminuye cuanto m√°s lento/r√°pido se mueve el modulo de aterrizaje de la plataforma de aterrizaje
  * aumenta/disminuye cuanto m√°s lento/r√°pido se mueve el modulo de aterrizaje
  * disminuye cuanto m√°s se inclina el modulo de aterrizaje (angulo no horizontal)
  * +10 puntos por cada pierna qu est√© en contacto con el suelo
  * -0.03 puntos cada cuadro en que se activa un motor lateral
  * -0.3 puntos cada vez que se activa el motor principal
  * El episodio recibe +100/-100 por aterrizar de forma segura o estrellarse respectivamente.
  * Episodio se considera soluci√≥n si obtiene al menos 200pts.


La diferencia con el ambiente black jack es que a partir de los puntos obtenidos en recompensas se considera si un episodio es optimo o no y con ello la soluci√≥n, no as√≠ en el ambiente de black jack donde no requiere de un √≥ptimo para definir una soluci√≥n. Tambien las acciones disponibles para cada ambiente son distintas, en blackJack son 2 y en LunarLander 4.



#### **1.2.2 Generando un Baseline (0.2 puntos)**

Simule un escenario en donde se escojan acciones aleatorias. Repita esta simulaci√≥n 10 veces y reporte el promedio y desviaci√≥n de las recompensas. ¬øC√≥mo calificar√≠a el performance de esta pol√≠tica?

In [None]:
#simulacion de escenario con acciones aleatorias
def simul_lunar_lander( env,episodios):
  recompensas=[]
  for episode in range(episodios):
    obs = env.reset()
    recompensa_episodios=0
    done = False
    while not done:
      action = env.action_space.sample()
      obs, reward, done,_, info = env.step(action)
      recompensa_episodios+=reward
      recompensas.append(recompensa_episodios)
  return recompensas

In [None]:
#simulacion repetida 10 veces + promedio y desviacion estandar
repeat_10=simul_lunar_lander(env,10)
#saco promedio y desv estandar
promedio_3=np.mean(repeat_10)
desviacion_3=np.std(repeat_10)
print(f"El promedio de las recompensas es: {promedio_3}")
print(f"La desviacion estandar de las recompensas es: {desviacion_3}")

*respuesta*

La perfomance de la politica no es favorable ya que indica que en promedio se mueve lento el modulo de aterrizaje, quiz√°s se estrell√≥ o simplemente una mala ejecuci√≥n dentro del episodio ya que el promedio es negativo.

La desviaci√≥n estandar indica que tiene alta variabilidad

#### **1.2.3 Entrenamiento de modelo (0.2 puntos)**

A partir del siguiente [enlace](https://stable-baselines3.readthedocs.io/en/master/guide/algos.html), escoja un modelo de `stable_baselines3` y entrenelo para resolver el ambiente `LunarLander` **usando 10000 timesteps de entrenamiento**.

In [None]:
modelo_lunar=PPO('MlpPolicy',env,verbose=0)
modelo_lunar.learn(total_timesteps=int(1e4),progress_bar=True)
modelo_lunar.save("modelo_lunar_1")

#### **1.2.4 Evaluaci√≥n de modelo (0.2 puntos)**

Repita el ejercicio 1.2.2 pero utilizando el modelo entrenado. ¬øC√≥mo es el performance de su agente? ¬øEs mejor o peor que el escenario baseline?

In [None]:
def simul_lunar_lander_2(env,modelo,episodios):
  recompensas=[]
  for episode in range(episodios):
    obs,_ = env.reset()
    episodio_recompensa=0
    done = False
    while not done:
      action,_state= modelo.predict(obs, deterministic=True)
      obs, reward, done,truncated,info= env.step(action)
      episodio_recompensa+=reward
    recompensas.append(episodio_recompensa)
  return recompensas

In [None]:
recompensa_lunar=simul_lunar_lander_2(env,modelo_lunar,10)
#saco promedio y desv estandar
promedio_4=np.mean(recompensa_lunar)
desviacion_4=np.std(recompensa_lunar)
print(f"El promedio de las recompensas es: {promedio_4}")
print(f"La desviacion estandar de las recompensas es: {desviacion_4}")

la perfomance mejora en cuanto al promedio ya que indica que se cometen menos errores en la obtencion de las recompensas.

En cambio la desviacion estandar baja.

#### **1.2.5 Optimizaci√≥n de modelo (0.2 puntos)**

Repita los ejercicios 1.2.3 y 1.2.4 hasta obtener un nivel de recompensas promedio mayor a 50. Para esto, puede cambiar manualmente par√°metros como:
- `total_timesteps`
- `learning_rate`
- `batch_size`

Una vez optimizado el modelo, use la funci√≥n `export_gif` para estudiar el comportamiento de su agente en la resoluci√≥n del ambiente y comente sobre sus resultados.

Adjunte el gif generado en su entrega (mejor a√∫n si adem√°s adjuntan el gif en el markdown).

In [None]:
modelo_modificado=PPO('MlpPolicy',env,verbose=0,learning_rate=0.0001,batch_size=32,seed=400)
modelo_modificado.learn(total_timesteps=int(1e6),progress_bar=True)
modelo_modificado.save("modelo_lunar_modificado")

In [None]:
recompensa_modelo_modificado=simul_lunar_lander_2(env,modelo_modificado,10)
#saco promedio y desv estandar
promedio_5=np.mean(recompensa_modelo_modificado)
desviacion_5=np.std(recompensa_modelo_modificado)
print(f"El promedio de las recompensas es: {promedio_5}")
print(f"La desviacion estandar de las recompensas es: {desviacion_5}")

## **2. Large Language Models (4.0 puntos)**

En esta secci√≥n se enfocar√°n en habilitar un Chatbot que nos permita responder preguntas √∫tiles a trav√©s de LLMs.

### **2.0 Configuraci√≥n Inicial**

<p align="center">
  <img src="https://media1.tenor.com/m/uqAs9atZH58AAAAd/config-config-issue.gif"
" width="400">
</p>

Como siempre, cargamos todas nuestras API KEY al entorno:

In [None]:
import getpass
import os

if "GOOGLE_API_KEY" not in os.environ:
    os.environ["GOOGLE_API_KEY"] = getpass.getpass("Enter your Google AI API key: ")

if "TAVILY_API_KEY" not in os.environ:
    os.environ["TAVILY_API_KEY"] = getpass.getpass("Enter your Tavily API key: ")

In [None]:
%pip install --upgrade --quiet  langchain-google-genai

In [None]:
# Se carga el modelo visto en clases
from langchain_google_genai import ChatGoogleGenerativeAI

llm = ChatGoogleGenerativeAI(
    model="gemini-1.5-flash", # modelo de lenguaje
    temperature=0, # probabilidad de "respuestas creativas"
    max_tokens=None, # sin tope de tokens
    timeout=None, # sin timeout
    max_retries=2, # n√∫mero m√°ximo de intentos
)

llm

### **2.1 Retrieval Augmented Generation (1.5 puntos)**

<p align="center">
  <img src="https://y.yarn.co/218aaa02-c47e-4ec9-b1c9-07792a06a88f_text.gif"
" width="400">
</p>

El objetivo de esta subsecci√≥n es que habiliten un chatbot que pueda responder preguntas usando informaci√≥n contenida en documentos PDF a trav√©s de **Retrieval Augmented Generation.**

#### **2.1.1 Reunir Documentos (0 puntos)**

Reuna documentos PDF sobre los que hacer preguntas siguiendo las siguientes instrucciones:
  - 2 documentos .pdf como m√≠nimo.
  - 50 p√°ginas de contenido como m√≠nimo entre todos los documentos.
  - Ideas para documentos: Documentos relacionados a temas acad√©micos, laborales o de ocio. Aprovechen este ejercicio para construir algo √∫til y/o relevante para ustedes!
  - Deben ocupar documentos reales, no pueden utilizar los mismos de la clase.
  - Deben registrar sus documentos en la siguiente [planilla](https://docs.google.com/spreadsheets/d/1Hy1w_dOiG2UCHJ8muyxhdKPZEPrrL7BNHm6E90imIIM/edit?usp=sharing). **NO PUEDEN USAR LOS MISMOS DOCUMENTOS QUE OTRO GRUPO**
  - **Recuerden adjuntar los documentos en su entrega**.

In [None]:
%pip install --upgrade --quiet PyPDF2

In [None]:
import PyPDF2

doc_paths = ['53701409.pdf','Super_Mario_Bros.pdf','Mario_interior_OK_MK.0.pdf', 'Mario_fuera_del_reino_de_Nintendo.pdf','Descripcion_Mario_Bros.pdf'] # rellenar con los path a sus documentos

assert len(doc_paths) >= 2, "Deben adjuntar un m√≠nimo de 2 documentos"

total_paginas = sum(len(PyPDF2.PdfReader(open(doc, "rb")).pages) for doc in doc_paths)
assert total_paginas >= 50, f"P√°ginas insuficientes: {total_paginas}"

In [None]:
%pip install --upgrade --quiet faiss-cpu langchain_community pypdf

In [None]:
#Se guardan los documentos en una lista
from langchain_community.document_loaders import PyPDFLoader
docus = []
for doc in doc_paths:
  loader = PyPDFLoader(doc)
  docus += loader.load()
  print(f"Se carg√≥ el documento {doc}")

In [None]:
len(docus)

In [None]:
docus[0]

#### **2.1.2 Vectorizar Documentos (0.2 puntos)**

Vectorice los documentos y almacene sus representaciones de manera acorde.

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
splits = text_splitter.split_documents(docus)
splits[:5]

In [None]:
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain_community.vectorstores import FAISS

embedding = GoogleGenerativeAIEmbeddings(model="models/embedding-001") # inicializamos los embeddings
vectorstore = FAISS.from_documents(documents=splits, embedding=embedding) # vectorizacion y almacenamiento
vectorstore

#### **2.1.3 Habilitar RAG (0.3 puntos)**

Habilite la soluci√≥n RAG a trav√©s de una *chain* y gu√°rdela en una variable.

In [None]:
retriever = vectorstore.as_retriever(search_type="similarity", # m√©todo de b√∫squeda
                                     search_kwargs={"k": 3}, # n¬∞ documentos a recuperar
                                     )
retriever

In [None]:
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

retriever_chain = retriever | format_docs

#### **2.1.4 Verificaci√≥n de respuestas (0.5 puntos)**

Genere un listado de 3 tuplas ("pregunta", "respuesta correcta") y analice la respuesta de su soluci√≥n para cada una. ¬øSu soluci√≥n RAG entrega las respuestas que esperaba?

Ejemplo de tupla:
- Pregunta: ¬øQui√©n es el presidente de Chile?
- Respuesta correcta: El presidente de Chile es Gabriel Boric

In [None]:
from langchain_core.prompts import PromptTemplate

# noten como ahora existe el par√°metro de context!
rag_template = '''
Eres un asistente experto en los videojuegos, espec√≠ficamente en el videojuego llamado "Super Mario Bros" y su historia.
Tu √∫nico rol es contestar preguntas del usuario a partir de informaci√≥n relevante que te sea proporcionada.
Responde siempre de la forma m√°s completa posible y usando toda la informaci√≥n entregada.
Responde s√≥lo lo que te pregunten a partir de la informaci√≥n relevante, NUNCA inventes una respuesta.

Informaci√≥n relevante: {context}
Pregunta: {question}
Respuesta √∫til:
'''

rag_prompt = PromptTemplate.from_template(rag_template)

In [None]:
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser


rag_chain = (
    {
        "context": retriever_chain, # context lo obtendremos del retriever_chain
        "question": RunnablePassthrough(), # question pasar√° directo hacia el prompt
    }
    | rag_prompt # prompt con las variables question y context
    | llm # llm recibe el prompt y responde
    | StrOutputParser() # recuperamos s√≥lo la respuesta
)

In [None]:
#Pregunta y respuesta 1
question1 = "Qui√©n en Mario?"
res_esp1 = "Mario es el protagonista de la saga de juegos Super Mario Bros e icono de la compa√±√≠a de videojuegos Japonesa Nintendo."
response1 = rag_chain.invoke(question1)
print("Respuesta esperada: " + str(res_esp1))
print("Respuesta obtenida: " + str(response1))

In [None]:
#Pregunta y respuesta 2
question2 = "Qu√© relaci√≥n tiene Mario con Luigi?"
res_esp2 = "Luigi es el hermano menor de Mario"
response2 = rag_chain.invoke(question2)
print("Respuesta esperada: " + str(res_esp2))
print("Respuesta obtenida: " + str(response2))

In [None]:
#Pregunta y respuesta 3
question3 = "Qui√©n es Bowser?"
res_esp3 = "Bowser es el enemigo de Mario"
response3= rag_chain.invoke(question3)
print("Respuesta esperada: " + str(res_esp3))
print("Respuesta obtenida: " + str(response3))

Observando las respuestas se puede concluir que responde correctamente la pregunta realizada e incluso desarrolla m√°s a√∫n la idea con los datos proporcionados utilizando la mayor cantidad de informaci√≥n que posee.


#### **2.1.5 Sensibilidad de Hiperpar√°metros (0.5 puntos)**

Extienda el an√°lisis del punto 2.1.4 analizando c√≥mo cambian las respuestas entregadas cambiando los siguientes hiperpar√°metros:
- `Tama√±o del chunk`. (*¬øC√≥mo repercute que los chunks sean mas grandes o chicos?*)
- `La cantidad de chunks recuperados`. (*¬øQu√© pasa si se devuelven muchos/pocos chunks?*)
- `El tipo de b√∫squeda`. (*¬øC√≥mo afecta el tipo de b√∫squeda a las respuestas de mi RAG?*)

In [None]:
#Empezamos generando listas con las preguntas a hacer y respuestas esperadas
questions_list = [question1, question2, question3]
expected_answers = [res_esp1, res_esp2, res_esp3]

#Posteriormente creamos una funci√≥n para evaluar el funcionamiento cambiando par√°metros
#Se crea esta funci√≥n para no tener que repetir el c√≥digo una y otra vez
def sensibilidad(chunk_size: int = 500, cant_chunks: int = 3, search_type: str = 'similarity'):
  text_splitter = RecursiveCharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=50)
  splits = text_splitter.split_documents(docus)

  embedding = GoogleGenerativeAIEmbeddings(model="models/embedding-001") # inicializamos los embeddings
  vectorstore = FAISS.from_documents(documents=splits, embedding=embedding) # vectorizacion y almacenamiento

  retriever = vectorstore.as_retriever(search_type=search_type, # m√©todo de b√∫squeda
                                     search_kwargs={"k": cant_chunks}, # n¬∞ documentos a recuperar
                                     )
  retriever_chain = retriever | format_docs

  rag_chain = (
    {
        "context": retriever_chain, # context lo obtendremos del retriever_chain
        "question": RunnablePassthrough(), # question pasar√° directo hacia el prompt
    }
    | rag_prompt # prompt con las variables question y context
    | llm # llm recibe el prompt y responde
    | StrOutputParser() # recuperamos s√≥lo la respuesta
  )

  for i in range(len(questions_list)):
    response = rag_chain.invoke(questions_list[i])
    print("Pregunta: " + str(questions_list[i]))
    print("Respuesta esperada: " + str(expected_answers[i]))
    print("Respuesta obtenida: " + str(response))

**SENSIBILIDAD ANTE EL TAMA√ëO DE LOS CHUNKS**

In [None]:
#Ahora empezamos a variar los par√°metros para evaluar la sensibilidad del modelo a estos
sensibilidad(chunk_size=250)

In [None]:
sensibilidad(chunk_size=1000)

Se observa que al achicar el tama√±o de los chunks las respuestas son m√°s precisas pero sujetas a mucho detalle repercutiendo en respuestas que nos entregan informaci√≥n que no pedimos. Al aumentar el tama√±o de los chunks se ven respuestas m√°s concisas y precisas.

**SENSIBILIDAD ANTE LA CANTIDAD DE CHUNKS**

In [None]:
sensibilidad(cant_chunks=1)

In [None]:
sensibilidad(cant_chunks=5)

Se observa que al disminuir la cantidad de chunks la informaci√≥n recopilada de los documentos es menor, llegando a entregar respuestas que, a pesar de estar la informaci√≥n, est√°n incompletas o bien incorrectas. Al aumentar la cantidad de chunks se observa como las respuestas entregadas son m√°s completas ya que se abarca m√°s informaci√≥n presente en los documentos.

**SENSIBILIDAD ANTE EL TIPO DE B√öSQUEDA**

In [None]:
sensibilidad(search_type='mmr')

Se observan respuestas similares al uso de similarity, pero se puede observar una mayor diversidad en el contenido de la respuesta que con este otro m√©todo. Esto debido a que usando mmr se utilizan chunks distintos entre s√≠ generando una respuesta m√°s variada.

### **2.2 Agentes (1.0 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/rcqnN2aJCSEAAAAd/secret-agent-man.gif"
" width="400">
</p>

Similar a la secci√≥n anterior, en esta secci√≥n se busca habilitar **Agentes** para obtener informaci√≥n a trav√©s de tools y as√≠ responder la pregunta del usuario.

#### **2.2.1 Tool de Tavily (0.2 puntos)**

Generar una *tool* que pueda hacer consultas al motor de b√∫squeda **Tavily**.

In [None]:
from langchain_community.tools.tavily_search import TavilySearchResults

tool_tavily = TavilySearchResults(max_results = 1) # inicializamos tool
tools = []
tools.append(tool_tavily) # guardamos las tools en una lista

#### **2.2.2 Tool de Wikipedia (0.2 puntos)**

Generar una *tool* que pueda hacer consultas a **Wikipedia**.

*Hint: Le puede ser de ayuda el siguiente [link](https://python.langchain.com/v0.1/docs/modules/tools/).*

In [None]:
%pip install wikipedia

In [None]:
from langchain_community.tools import WikipediaQueryRun
from langchain_community.utilities import WikipediaAPIWrapper
wiki_api_wrapper = WikipediaAPIWrapper(lang='es', top_k_results=1, doc_content_chars_max=100)
wiki_tool = WikipediaQueryRun(api_wrapper=wiki_api_wrapper)
tools.append(wiki_tool)

#### **2.2.3 Crear Agente (0.3 puntos)**

Crear un agente que pueda responder preguntas preguntas usando las *tools* antes generadas. Aseg√∫rese que su agente responda en espa√±ol. Por √∫ltimo, guarde el agente en una variable.

In [None]:
from langchain import hub

react_prompt = hub.pull("hwchase17/react") # template de ReAct
print(react_prompt.template)

In [None]:
from langchain.agents import create_react_agent, AgentExecutor

agent = create_react_agent(llm, tools, react_prompt) # primero inicializamos el agente ReAct
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True) # lo transformamos a AgentExecutor para habilitar la ejecuci√≥n de tools
agent_executor

#### **2.2.4 Verificaci√≥n de respuestas (0.3 puntos)**

Pruebe el funcionamiento de su agente y aseg√∫rese que el agente est√© ocupando correctamente las tools disponibles. ¬øEn qu√© casos el agente deber√≠a ocupar la tool de Tavily? ¬øEn qu√© casos deber√≠a ocupar la tool de Wikipedia?

In [None]:
response = agent_executor.invoke({"input": "Qui√©n es Taylor Swift?"}) #Hacer una pregunta
print(response["output"])

In [None]:
response = agent_executor.invoke({"input": "Qui√©n dijo en una pel√≠cula la frase: Santa cachucha ya dijo la frase?"}) #Hacer otra pregunta
print(response["output"])

El agente deber√≠a utilizar wikipedia en casos que la informaci√≥n se pueda encontrar ah√≠ como casos de historia, ciencia, etc. Mientras que tavily deber√≠a ser utilizado para casos m√°s espec√≠ficos pudiendo encontrar esta informaci√≥n en la web.

### **2.3 Multi Agente (1.5 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/r7QMJLxU4BoAAAAd/this-is-getting-out-of-hand-star-wars.gif"
" width="450">
</p>

El objetivo de esta subsecci√≥n es encapsular las funcionalidades creadas en una soluci√≥n multiagente con un **supervisor**.


#### **2.3.1 Generando Tools (0.5 puntos)**

Transforme la soluci√≥n RAG de la secci√≥n 2.1 y el agente de la secci√≥n 2.2 a *tools* (una tool por cada uno).

In [None]:
from langchain.tools import tool

@tool
def RAG(input:str) -> str:
  """Usa el modelo RAG para responder el input"""
  return rag_chain.invoke(input)

@tool
def agent(input:str) -> str:
  """Usa el modelo ReAct para responder el input"""
  return agent_executor.invoke({"input": input})["output"]

#### **2.3.2 Agente Supervisor (0.5 puntos)**

Habilite un agente que tenga acceso a las tools del punto anterior y pueda responder preguntas relacionadas. Almacene este agente en una variable llamada supervisor.

In [None]:
supervisor_agent_prompt = PromptTemplate.from_template(
    """
    Eres un supervisor de preguntas.
    Tu √∫nico rol es seleccionar que acci√≥n tomar para responder correctamente la pregunta:
    - 'mario': Cuando la pregunta est√© relacionada con Super Mario Bros, sus personajes o los videojuegos.
    - 'internet': Cuando la pregunta es de conocimiento general y puede ser respondida utilizando wikipedia o usando tavily.
    - 'otro': Todo aquella pregunta que no est√© contenida en las categor√≠as anteriores.

    No respondas con m√°s de una palabra y no incluyas.


    {question}


    Categor√≠a:"""
)

supervisor_agent_chain = (
    supervisor_agent_prompt
    | llm
    | StrOutputParser()
)

supervisor_agent_chain.invoke({"question": "Qui√©n fue Mozart??"})

In [None]:
redirect_agent_prompt = PromptTemplate.from_template(
    """
    Eres un asistente de redireccionamiento de preguntas de usuarios.
    Vas a recibir una pregunta del usuario, tu √∫nico rol es indicar cuando no puedes responder su pregunta y redireccionar al usuario
    para que te pregunte sobre videojuegos, sobre tu videojuego favorito Super Mario Bros o bien informaci√≥n de cultura general que
    pueda ser encontrada en wikipedia o usando tavily.

    Recuerda ser amable y cordial en tu respuesta.

    Pregunta: {question}
    Respuesta cordial:"""
)

redirect_agent_chain = (
    redirect_agent_prompt
    | llm
    | StrOutputParser()
)

redirect_agent_chain.invoke({"question": "Qui√©n fue Mozart?"})

In [None]:
def route_question(question):
  '''
  Recibe una pregunta de usuario.
  Rutea la pregunta al agente respectivo y responde de manera acorde.
  '''

  topic = supervisor_agent_chain.invoke({"question": question}) # enrutamiento

  if "mario" in topic: # si la pregunta es de mario o videojuegos, utilizar rag
      return rag_chain.invoke(question)
  elif "internet" in topic: # si la pregunta es de cultura general, utilizar agente
      return agent_executor.invoke({"input": question})["output"]
  else: # de lo contrario, redireccionar pregunta
      return redirect_agent_chain.invoke({"question": question})

#### **2.3.3 Verificaci√≥n de respuestas (0.25 puntos)**

Pruebe el funcionamiento de su agente repitiendo las preguntas realizadas en las secciones 2.1.4 y 2.2.4 y comente sus resultados. ¬øC√≥mo var√≠an las respuestas bajo este enfoque?

In [None]:
route_question("Qui√©n en Mario?")

In [None]:
route_question("Qu√© relaci√≥n tiene Mario con Luigi?")

In [None]:
route_question("Qui√©n es Taylor Swift")

In [None]:
route_question("Qui√©n dijo en una pel√≠cula la frase: Santa cachucha ya dijo la frase?")

Las respuestas entregadas no var√≠an mucho, siendo la mayor diferencia que no constesta la √∫ltima pregunta al ser muy rebuscada a pesar de que se encuentra en internet usando Tavily considera que corresponde a la categor√≠a de "otro", principalmente porque no considera que esta respuesta sea conocimiento general como le fue pedido.


#### **2.3.4 An√°lisis (0.25 puntos)**

¬øQu√© diferencias tiene este enfoque con la soluci√≥n *Router* vista en clases? Nombre al menos una ventaja y desventaja.

El agente supervisor utiliza un modelo de lenguaje para razonar de manera din√°mica y decidir qu√© herramientas emplear, lo que le permite adaptarse con facilidad a diferentes situaciones y resolver problemas en tiempo real. En contraste, el Router opera siguiendo un conjunto de reglas establecidas, lo que lo hace m√°s r√°pido y eficiente, pero menos capaz de enfrentar escenarios ambiguos o no planificados. Aunque el agente supervisor destaca por su capacidad para abordar casos complejos sin depender de reglas fijas, este enfoque requiere un mayor esfuerzo computacional debido a su uso constante del modelo de lenguaje.

### **2.4 Memoria (Bonus +0.5 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/Gs95aiElrscAAAAd/memory-unlocked-ratatouille-critic.gif"
" width="400">
</p>

Una de las principales falencias de las soluciones que hemos visto hasta ahora es que nuestro chat no responde las interacciones anteriores, por ejemplo:

- Pregunta 1: "Hola! mi nombre es Sebasti√°n"
  - Respuesta esperada: "Hola Sebasti√°n! ..."
- Pregunta 2: "Cual es mi nombre?"
  - Respuesta actual: "Lo siento pero no conozco tu nombre :("
  - **Respuesta esperada: "Tu nombre es Sebasti√°n"**

Para solucionar esto, se les solicita agregar un componente de **memoria** a la soluci√≥n entregada en el punto 2.3.

**Nota: El Bonus es v√°lido <u>s√≥lo para la secci√≥n 2 de Large Language Models.</u>**

### **2.5 Despliegue (0 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/IytHqOp52EsAAAAd/you-get-a-deploy-deploy.gif"
" width="400">
</p>

Una vez tengan los puntos anteriores finalizados, toca la etapa de dar a conocer lo que hicimos! Para eso, vamos a desplegar nuestro modelo a trav√©s de `gradio`, una librer√≠a especializada en el levantamiento r√°pido de demos basadas en ML.

Primero instalamos la librer√≠a:

In [None]:
%pip install --upgrade --quiet gradio

Luego s√≥lo deben ejecutar el siguiente c√≥digo e interactuar con la interfaz a trav√©s del notebook o del link generado:

In [None]:
import gradio as gr
import time

def agent_response(message, history):
  '''
  Funci√≥n para gradio, recibe mensaje e historial, devuelte la respuesta del chatbot.
  '''
  # get chatbot response
  response = ... # rellenar con la respuesta de su chat

  # assert
  assert type(response) == str, "output de route_question debe ser string"

  # "streaming" response
  for i in range(len(response)):
    time.sleep(0.015)
    yield response[: i+1]

gr.ChatInterface(
    agent_response,
    type="messages",
    title="Chatbot MDS7202 - PiliBarto", # Pueden cambiar esto si lo desean
    description="Hola! Soy un chatbot muy √∫til >:)", # tambi√©n la descripci√≥n
    theme="soft",
    ).launch(
        share=True, # pueden compartir el link a sus amig@s para que interactuen con su chat!
        debug = False,
        )