# **Laboratorio 11: LLM y Agentes Aut√≥nomos ü§ñ**

MDS7202: Laboratorio de Programaci√≥n Cient√≠fica para Ciencia de Datos

### **Cuerpo Docente:**

- Profesores: Ignacio Meza, Sebasti√°n Tinoco
- Auxiliar: Eduardo Moya
- Ayudantes: Nicol√°s Ojeda, Melanie Pe√±a, Valentina Rojas

### Equipo: SUPER IMPORTANTE - notebooks sin nombre no ser√°n revisados

- Nombre de alumno 1: Mart√≠n Torrico
- Nombre de alumno 2: Alejandra Toro


### **Link de repositorio de GitHub:** [Insertar Repositorio](https://github.com/MartinTorricoP/Laboratorios_MDS7202)

## **Temas a tratar**

- Reinforcement Learning
- Large Language Models

## **Reglas:**

- **Grupos de 2 personas**
- Cualquier duda fuera del horario de clases al foro. Mensajes al equipo docente ser√°n respondidos por este medio.
- Prohibidas las copias.
- Pueden usar cualquer matrial del curso que estimen conveniente.

### **Objetivos principales del laboratorio**

- Resoluci√≥n de problemas secuenciales usando Reinforcement Learning
- Habilitar un Chatbot para entregar respuestas √∫tiles usando Large Language Models.

El laboratorio deber√° ser desarrollado sin el uso indiscriminado de iteradores nativos de python (aka "for", "while"). La idea es que aprendan a exprimir al m√°ximo las funciones optimizadas que nos entrega `pandas`, las cuales vale mencionar, son bastante m√°s eficientes que los iteradores nativos sobre DataFrames.

## **1. Reinforcement Learning (2.0 puntos)**

En esta secci√≥n van a usar m√©todos de RL para resolver dos problemas interesantes: `Blackjack` y `LunarLander`.

In [2]:
!pip install -qqq gymnasium stable_baselines3
!pip install -qqq swig
!pip install -qqq gymnasium[box2d]

ERROR: ERROR: Failed to build installable wheels for some pyproject.toml based projects (box2d-py)


### **1.1 Blackjack (1.0 puntos)**

<p align="center">
  <img src="https://www.recreoviral.com/wp-content/uploads/2016/08/s3.amazonaws.com-Math.gif"
" width="400">
</p>

La idea de esta subsecci√≥n es que puedan implementar m√©todos de RL y as√≠ generar una estrategia para jugar el cl√°sico juego Blackjack y de paso puedan ~~hacerse millonarios~~ aprender a resolver problemas mediante RL.

Comencemos primero preparando el ambiente. El siguiente bloque de c√≥digo transforma las observaciones del ambiente a `np.array`:


In [3]:
import gymnasium as gym
from gymnasium.spaces import MultiDiscrete
import numpy as np

class FlattenObservation(gym.ObservationWrapper):
    def __init__(self, env):
        super(FlattenObservation, self).__init__(env)
        self.observation_space = MultiDiscrete(np.array([32, 11, 2]))

    def observation(self, observation):
        return np.array(observation).flatten()

# Create and wrap the environment
env = gym.make("Blackjack-v1")
env = FlattenObservation(env)

#### **1.1.1 Descripci√≥n de MDP (0.2 puntos)**

Entregue una breve descripci√≥n sobre el ambiente [Blackjack](https://gymnasium.farama.org/environments/toy_text/blackjack/) y su formulaci√≥n en MDP, distinguiendo de forma clara y concisa los estados, acciones y recompensas.


El ambiente de Blackjack adjunto consiste en una partida de Blackjack, juego donde el objetivo es que la suma de tus cartas se mayor a la del dealer sin excederse de los 21 puntos. La formulaci√≥n en MDP corresponde a :

* Estados:
  - Suma actual de las cartas del jugador: Valores entre el 4 al 21.
  - Carta visible del dealer: Valores del 1 al 10 (donde 1 es un As).
  - As utilizable: Valor 0 o 1 (siendo 1 cuando el jugador puede utilizar un As).

* Acciones:
 - Quedarse con la suma actual: 0 (stick).
 - Pedir otra carta: 1 (hit).

* Recompensas:
 - Ganar: +1.
 - Perder: -1.
 - Empatar: 0.
 - Ganar con blackjack natural: +1,5 (solo si natural=True).



#### **1.1.2 Generando un Baseline (0.2 puntos)**

Simule un escenario en donde se escojan acciones aleatorias. Repita esta simulaci√≥n 5000 veces y reporte el promedio y desviaci√≥n de las recompensas. ¬øC√≥mo calificar√≠a el performance de esta pol√≠tica? ¬øC√≥mo podr√≠a interpretar las recompensas obtenidas?

In [4]:
import gymnasium as gym
import numpy as np

# Variables para almacenar resultados
rewards = []
n = 5000 #numero de repeticiones

# Simulaci√≥n de 5000 episodios con acciones aleatorias
for _ in range(n):
    obs = env.reset()  # Reiniciar el ambiente
    done = False
    total = 0

    while not done:
        action = env.action_space.sample() # Seleccionar una acci√≥n aleatoria (0 o 1)
        obs, reward, done, _, _ = env.step(action) #Ejecutar la acci√≥n
        total += reward

    rewards.append(total)

# Calcular promedio y desviaci√≥n est√°ndar de las recompensas
average_reward = np.mean(rewards)
std_deviation = np.std(rewards)

print(f"Promedio de las recompensas: {average_reward}")
print(f"Desviaci√≥n est√°ndar de las recompensas: {std_deviation}")

Promedio de las recompensas: -0.407
Desviaci√≥n est√°ndar de las recompensas: 0.8922729403047029


El desempe√±o de la pol√≠tica aleatoria es sub√≥ptimo.

Esto es, ya que contamos con un promedio de recompensas negativos (-0.407), indicando m√°s p√©rdidas que ganancias, sumado a una alta variabilidad con una desviaci√≥n est√°ndar de 0.8922, debido a la naturaleza estoc√°stica del juego.

Con esta pol√≠tica, podemos tener un resultado base el cual podemos mejorar, mostrandonos que no es un juego donde una buena estrategia es similar a lanzar una moneda, sino que la estrategia de cu√°ndo pedir o cu√°ndo quedarse es importante para tener mejores resultados.

#### **1.1.3 Entrenamiento de modelo (0.2 puntos)**

A partir del siguiente [enlace](https://stable-baselines3.readthedocs.io/en/master/guide/algos.html), escoja un modelo de `stable_baselines3` y entrenelo para resolver el ambiente `Blackjack`.

In [None]:
from stable_baselines3 import DQN

# Crear el modelo DQN
model = DQN("MlpPolicy", env, verbose=1)

# Entrenar el modelo
model.learn(total_timesteps=5000)

#### **1.1.4 Evaluaci√≥n de modelo (0.2 puntos)**

Repita el ejercicio 1.1.2 pero utilizando el modelo entrenado. ¬øC√≥mo es el performance de su agente? ¬øEs mejor o peor que el escenario baseline?

In [6]:
# Evaluar la pol√≠tica aprendida por DQN
dqn_rewards = []

for _ in range(n):
    obs, _ = env.reset()
    done = False
    total = 0

    while not done:
        action, _ = model.predict(obs, deterministic=True)  # Pol√≠tica DQN
        obs, reward, done, _, _ = env.step(action)
        total += reward

    dqn_rewards.append(total)

# Calcular promedio y desviaci√≥n est√°ndar de la pol√≠tica DQN
average_dqn_reward = np.mean(dqn_rewards)
std_dqn_deviation = np.std(dqn_rewards)

# Comparar resultados
print("Comparaci√≥n de resultados:")
print(f"Pol√≠tica Aleatoria \nPromedio: {average_reward}, Desviaci√≥n: {std_deviation}")
print(f"Pol√≠tica DQN \nPromedio: {average_dqn_reward}, Desviaci√≥n: {std_dqn_deviation}")


Comparaci√≥n de resultados:
Pol√≠tica Aleatoria 
Promedio: -0.407, Desviaci√≥n: 0.8922729403047029
Pol√≠tica DQN 
Promedio: -0.1144, Desviaci√≥n: 0.9521095735260726


Podemos ver que el desempe√±o del agente mejora considerablemente en cuanto el promedio de sus recompensas, subiendo su promedio a -0.1144, tomando deciciones estrat√©gicas e inteligentes y con ello ganando m√°s veces que tomando deciciones al azar.

Sin embargo, podemos ver tambi√©n que el desempe√±o del agente tiene m√°s variabilidad en sus resultados con su pol√≠tica, lo cual nos indica que puede ser refinado para mejorar su toma de decisiones.

Con lo anterior, este escenario es mejor al aleatorio, pero ser√≠a recomendable seguir mejorando su consistencia en el desempe√±o.



#### **1.1.5 Estudio de acciones (0.2 puntos)**

Genere una funci√≥n que reciba un estado y retorne la accion del agente. Luego, use esta funci√≥n para entregar la acci√≥n escogida frente a los siguientes escenarios:

- Suma de cartas del agente es 6, dealer muestra un 7, agente no tiene tiene un as
- Suma de cartas del agente es 19, dealer muestra un 3, agente tiene tiene un as

¬øSon coherentes sus acciones con las reglas del juego?

Hint: ¬øA que clase de python pertenecen los estados? Pruebe a usar el m√©todo `.reset` para saberlo.

In [7]:
def elegir_accion(estado, model):
    action, _ = model.predict(estado, deterministic=True)
    return action

estado1 = [6, 7, False]
accion1 = elegir_accion(estado1, model)

estado2 = [19, 3, True]
accion2 = elegir_accion(estado2, model)

In [8]:
estado_1 = [6, 7, False]
accion_1 = elegir_accion(estado_1, model)

print(f"Acci√≥n para el estado 1 (6, 7, sin as): {'Pedir carta' if accion_1 == 1 else 'Quedarse'}")

Acci√≥n para el estado 1 (6, 7, sin as): Quedarse


In [9]:
estado_2 = [19, 3, True]
accion_2 = elegir_accion(estado_2, model)

print(f"Acci√≥n para el estado 2 (19, 3, con as): {'Pedir carta' if accion_2 == 1 else 'Quedarse'}")

Acci√≥n para el estado 2 (19, 3, con as): Quedarse


En este caso, solo el estado 2 tiene sentido, mientras que el estado 1 no tiene sentido, por lo que ser√≠a interesante poder optimizar el modelo.

Esto es porque la suma en el primer caso del agente es muy baja y ser√≠a normal pedir una sigiente carta (si no pedimos, pr√°cticamente perdemos directamente), mientras que en el estado 2 la suma del jugador es muy alta y seguramente sobrepase el 21 (y actualmente, la carta que tiene el dealer es muy baja).




### **1.2 LunarLander**

<p align="center">
  <img src="https://i.redd.it/097t6tk29zf51.jpg"
" width="400">
</p>

Similar a la secci√≥n 2.1, en esta secci√≥n usted se encargar√° de implementar una gente de RL que pueda resolver el ambiente `LunarLander`.

Comencemos preparando el ambiente:


In [11]:
import gymnasium as gym
env = gym.make("LunarLander-v3", render_mode = "rgb_array", continuous = True) # notar el par√°metro continuous = True

Noten que se especifica el par√°metro `continuous = True`. ¬øQue implicancias tiene esto sobre el ambiente?

Adem√°s, se le facilita la funci√≥n `export_gif` para el ejercicio 2.2.4:

In [12]:
import imageio
import numpy as np

def export_gif(model, n = 5):
  '''
  funci√≥n que exporta a gif el comportamiento del agente en n episodios
  '''
  images = []
  for episode in range(n):
    obs = model.env.reset()
    img = model.env.render()
    done = False
    while not done:
      images.append(img)
      action, _ = model.predict(obs)
      obs, reward, done, info = model.env.step(action)
      img = model.env.render(mode="rgb_array")

  imageio.mimsave("agent_performance.gif", [np.array(img) for i, img in enumerate(images) if i % 5 == 0], fps=15) # editado para mejor rendimiento

El par√°metro continuous=True transforma el problema en un desaf√≠o m√°s complejo al permitir un control m√°s detallado del lander, lo cual tambi√©n requiere m√©todos de aprendizaje m√°s sofisticados.

#### **1.2.1 Descripci√≥n de MDP (0.2 puntos)**

Entregue una breve descripci√≥n sobre el ambiente [LunarLander](https://gymnasium.farama.org/environments/box2d/lunar_lander/) y su formulaci√≥n en MDP, distinguiendo de forma clara y concisa los estados, acciones y recompensas. ¬øComo se distinguen las acciones de este ambiente en comparaci√≥n a `Blackjack`?

Nota: recuerde que se especific√≥ el par√°metro `continuous = True`

El ambiente de LunarLander consiste en un problema de control de trayectoria de un cohete, donde el objetivo es aterrizar en una plataforma sin salir del √°rea designada ni estrellarse. La formulaci√≥n en MDP corresponde a:

* Estados:
  - Coordenadas x e y del lander (posici√≥n relativa al √°rea de aterrizaje).
  - Velocidades lineales en x e y.
  - √Ångulo de orientaci√≥n del lander.
  - Velocidad angular.
  - Contacto de las patas con el suelo (dos valores booleanos).

* Acciones:
  - 0: No realizar ninguna acci√≥n.
  - 1: Activar el motor lateral izquierdo.
  - 2: Activar el motor principal.
  - 3: Activar el motor lateral derecho.

* Recompensas:
- Proximidad al √°rea de aterrizaje: Incrementos/penalizaciones por acercarse/alejarse.
- Velocidad y orientaci√≥n:
  - Penalizaci√≥n por velocidades altas y √°ngulos inadecuados.
- Uso de motores:
  - Penalizaci√≥n por activaciones de motores -0,03 para laterales y -0,3 para el principal.
- Aterrizajes:
  - Recompensa de +10 por cada pata en contacto con el suelo.
  - Recompensa de +100 por un aterrizaje exitoso.
  - Penalizaci√≥n de -100 por estrellarse.
  - Un episodio se considera resuelto si el agente acumula al menos 200 puntos.

**Diferencia de acciones con Blackjack**:

A diferencia de Blackjack, donde las acciones son discretas y binarias (pedir o quedarse), en LunarLander las acciones pueden ser discretas (selecci√≥n de motores) o **continuas** (intensidad de empuje), dependiendo de la configuraci√≥n del ambiente.


#### **1.2.2 Generando un Baseline (0.2 puntos)**

Simule un escenario en donde se escojan acciones aleatorias. Repita esta simulaci√≥n 10 veces y reporte el promedio y desviaci√≥n de las recompensas. ¬øC√≥mo calificar√≠a el performance de esta pol√≠tica?

In [13]:
import gymnasium as gym
import numpy as np

# Variables para almacenar resultados
rewards = []
n = 10  # n√∫mero de repeticiones

# Simulaci√≥n de 10 episodios con acciones aleatorias
for _ in range(n):
    obs = env.reset()  # Reiniciar el ambiente
    done = False
    total = 0

    while not done:
        action = env.action_space.sample()  # Seleccionar una acci√≥n aleatoria
        obs, reward, done, _, _ = env.step(action)  # Ejecutar la acci√≥n
        total += reward

    rewards.append(total)

# Calcular promedio y desviaci√≥n est√°ndar de las recompensas
average_reward = np.mean(rewards)
std_deviation = np.std(rewards)

print(f"Promedio de las recompensas: {average_reward}")
print(f"Desviaci√≥n est√°ndar de las recompensas: {std_deviation}")


Promedio de las recompensas: -208.50902921506776
Desviaci√≥n est√°ndar de las recompensas: 143.06927422727438


El rendimiento de esta pol√≠tica aleatoria nuevamente es sub√≥ptima como es esperado.

Podemos ver que en promedio se estrella el lander 2 veces por aterrizaje, lo cual es un muy mal desempe√±o para lo que queremos y que tiene una desviaci√≥n est√°ndar muy alta de sus recompenzas, con un valor de 143.

Claramente hay espacio de mejora y lo desarrollaremos a continuaci√≥n:



#### **1.2.3 Entrenamiento de modelo (0.2 puntos)**

A partir del siguiente [enlace](https://stable-baselines3.readthedocs.io/en/master/guide/algos.html), escoja un modelo de `stable_baselines3` y entrenelo para resolver el ambiente `LunarLander` **usando 10000 timesteps de entrenamiento**.

In [None]:
from stable_baselines3 import PPO

# Crear el modelo PPO
model = PPO("MlpPolicy", env, verbose=1)

# Entrenar el modelo
model.learn(total_timesteps=10000)

#### **1.2.4 Evaluaci√≥n de modelo (0.2 puntos)**

Repita el ejercicio 1.2.2 pero utilizando el modelo entrenado. ¬øC√≥mo es el performance de su agente? ¬øEs mejor o peor que el escenario baseline?

In [30]:
# Evaluar la pol√≠tica aprendida por PPO
ppo_rewards = []

for _ in range(n):
    obs, _ = env.reset()
    done = False
    total = 0

    while not done:
        action, _ = model.predict(obs, deterministic=True)  # Pol√≠tica PPO
        obs, reward, done, _, _ = env.step(action)
        total += reward

    ppo_rewards.append(total)

# Calcular promedio y desviaci√≥n est√°ndar de la pol√≠tica PPO
average_ppo_reward = np.mean(ppo_rewards)
std_ppo_deviation = np.std(ppo_rewards)

# Comparar resultados
print("Comparaci√≥n de resultados:")
print(f"Pol√≠tica Aleatoria \nPromedio: {average_reward}, Desviaci√≥n: {std_deviation}")
print(f"Pol√≠tica PPO \nPromedio: {average_ppo_reward}, Desviaci√≥n: {std_ppo_deviation}")

Comparaci√≥n de resultados:
Pol√≠tica Aleatoria 
Promedio: -208.50902921506776, Desviaci√≥n: 143.06927422727438
Pol√≠tica PPO 
Promedio: -131.04745755518053, Desviaci√≥n: 82.37868052944239


El performance de la gente nuevamente mejora, pero no de manera tan sustancial como en el caso del blackjack. En este caso, podemos ver que en promedio se estrella 1 vez el lander en vez de 2, lo cual es bueno, pero no √≥ptimo. Adem√°s, viendo que su desviaci√≥n tiene un valor menor, sabemos que este resultado es m√°s consistente en el tiempo. Con esto, tenemos un mejor modelo que el baseline, pero con espacio a mejora.

#### **1.2.5 Optimizaci√≥n de modelo (0.2 puntos)**

Repita los ejercicios 1.2.3 y 1.2.4 hasta obtener un nivel de recompensas promedio mayor a 50. Para esto, puede cambiar manualmente par√°metros como:
- `total_timesteps`
- `learning_rate`
- `batch_size`

Una vez optimizado el modelo, use la funci√≥n `export_gif` para estudiar el comportamiento de su agente en la resoluci√≥n del ambiente y comente sobre sus resultados.

Adjunte el gif generado en su entrega (mejor a√∫n si adem√°s adjuntan el gif en el markdown).

In [None]:
model = PPO("MlpPolicy", env, verbose=1, seed = 123)
model.learn(total_timesteps = 100000)

In [40]:
# Evaluar la pol√≠tica aprendida por PPO
ppo_opt_rewards = []

for _ in range(n):
    obs, _ = env.reset()
    done = False
    total = 0

    while not done:
        action, _ = model.predict(obs, deterministic=True)  # Pol√≠tica PPO
        obs, reward, done, _, _ = env.step(action)
        total += reward

    ppo_opt_rewards.append(total)

# Calcular promedio y desviaci√≥n est√°ndar de la pol√≠tica PPO
average_ppo_opt_reward = np.mean(ppo_opt_rewards)
std_ppo_opt_deviation = np.std(ppo_opt_rewards)

# Comparar resultados
print("Comparaci√≥n de resultados:")
print(f"Pol√≠tica Aleatoria \nPromedio: {average_reward}, Desviaci√≥n: {std_deviation}")
print(f"Pol√≠tica PPO \nPromedio: {average_ppo_reward}, Desviaci√≥n: {std_ppo_deviation}")
print(f"Pol√≠tica PPO Optimizado \nPromedio: {average_ppo_opt_reward}, Desviaci√≥n: {std_ppo_opt_deviation}")

Comparaci√≥n de resultados:
Pol√≠tica Aleatoria 
Promedio: -208.50902921506776, Desviaci√≥n: 143.06927422727438
Pol√≠tica PPO 
Promedio: -131.04745755518053, Desviaci√≥n: 82.37868052944239
Pol√≠tica PPO Optimizado 
Promedio: 166.15260113088635, Desviaci√≥n: 83.67149751757806


Finalmente, a√±adiendo m√°s timesteps al entrenamiento, el modelo optimizado toma un promedio positivo, lo cual es un resultado bastante bueno en base a nuestro sistema de recompensas. Notamos que la desviaci√≥n se mantiene similar al modelo sin optimizar, por lo que tiene una robustez similar en sus resultados (es una buena noticia tambi√©n, ya que no perdemos consistencia a cambio de mejores resultados promedio).

In [41]:
export_gif(model, 5)

In [None]:
from IPython.display import Image
Image(open('agent_performance.gif','rb').read())

![Agent Performance](agent_performance.gif)

## **2. Large Language Models (4.0 puntos)**

En esta secci√≥n se enfocar√°n en habilitar un Chatbot que nos permita responder preguntas √∫tiles a trav√©s de LLMs.

### **2.0 Configuraci√≥n Inicial**

<p align="center">
  <img src="https://media1.tenor.com/m/uqAs9atZH58AAAAd/config-config-issue.gif"
" width="400">
</p>

Como siempre, cargamos todas nuestras API KEY al entorno:

In [20]:
import getpass
import os

if "GOOGLE_API_KEY" not in os.environ:
    os.environ["GOOGLE_API_KEY"] = getpass.getpass("Enter your Google AI API key: ")

if "TAVILY_API_KEY" not in os.environ:
    os.environ["TAVILY_API_KEY"] = getpass.getpass("Enter your Tavily API key: ")

Enter your Google AI API key: ¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑
Enter your Tavily API key: ¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑


### **2.1 Retrieval Augmented Generation (1.5 puntos)**

<p align="center">
  <img src="https://y.yarn.co/218aaa02-c47e-4ec9-b1c9-07792a06a88f_text.gif"
" width="400">
</p>

El objetivo de esta subsecci√≥n es que habiliten un chatbot que pueda responder preguntas usando informaci√≥n contenida en documentos PDF a trav√©s de **Retrieval Augmented Generation.**

#### **2.1.1 Reunir Documentos (0 puntos)**

Reuna documentos PDF sobre los que hacer preguntas siguiendo las siguientes instrucciones:
  - 2 documentos .pdf como m√≠nimo.
  - 50 p√°ginas de contenido como m√≠nimo entre todos los documentos.
  - Ideas para documentos: Documentos relacionados a temas acad√©micos, laborales o de ocio. Aprovechen este ejercicio para construir algo √∫til y/o relevante para ustedes!
  - Deben ocupar documentos reales, no pueden utilizar los mismos de la clase.
  - Deben registrar sus documentos en la siguiente [planilla](https://docs.google.com/spreadsheets/d/1Hy1w_dOiG2UCHJ8muyxhdKPZEPrrL7BNHm6E90imIIM/edit?usp=sharing). **NO PUEDEN USAR LOS MISMOS DOCUMENTOS QUE OTRO GRUPO**
  - **Recuerden adjuntar los documentos en su entrega**.

In [21]:
%pip install --upgrade --quiet PyPDF2

In [4]:
%pip install --upgrade --quiet  langchain-google-genai

[?25l   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.0/41.3 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m41.3/41.3 kB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
[?25h

In [5]:
%pip install --upgrade --quiet faiss-cpu langchain_community pypdf

[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m27.5/27.5 MB[0m [31m38.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m2.4/2.4 MB[0m [31m49.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m298.0/298.0 kB[0m [31m13.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m3.1/3.1 MB[0m [31m30.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m49.5/49.5 kB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0m
[?25h

In [6]:
import PyPDF2
from PyPDF2 import PdfReader

doc_paths = ['/content/doc1.pdf', '/content/doc2.pdf'] # rellenar con los path a sus documentos

assert len(doc_paths) >= 2, "Deben adjuntar un m√≠nimo de 2 documentos"

total_paginas = sum(len(PyPDF2.PdfReader(open(doc, "rb")).pages) for doc in doc_paths)
assert total_paginas >= 50, f"P√°ginas insuficientes: {total_paginas}"

#### **2.1.2 Vectorizar Documentos (0.2 puntos)**

Vectorice los documentos y almacene sus representaciones de manera acorde.

In [9]:
!pip install --upgrade --quiet  langchain-google-genai

In [11]:
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.text_splitter import CharacterTextSplitter
import PyPDF2
import os

In [13]:
embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")

def read_pdf(file_path):
    reader = PyPDF2.PdfReader(file_path)
    text = ""
    for page in reader.pages:
        text += page.extract_text()
    return text

all_texts = []
for doc_path in doc_paths:
    doc_text = read_pdf(doc_path)
    all_texts.append(doc_text)

# dividir en chunks
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
chunks = []
for text in all_texts:
    chunks.extend(text_splitter.split_text(text))

print(f"Total chunks: {len(chunks)}")

docsearch = FAISS.from_texts(chunks, embeddings)
#vectorstore = FAISS.from_document(documents=chunks, embedding=embeddings)

Total chunks: 2


#### **2.1.3 Habilitar RAG (0.3 puntos)**

Habilite la soluci√≥n RAG a trav√©s de una *chain* y gu√°rdela en una variable.

In [14]:
# retriever
retriever = docsearch.as_retriever(
    search_type="similarity",  # Mide similitud entre embeddings
    search_kwargs={"k": 3}    # Recupera los 3 documentos mas relevantes
)

In [118]:
# formateamos los documentos
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

# recuperacion y formato
retriever_chain = retriever | format_docs

# test
question = "¬øQu√© informaci√≥n relevante hay sobre el documento?"
formatted_context = retriever_chain.invoke(question)

print("Contexto formateado:")
print(formatted_context)

Contexto formateado:
Training language models to follow instructions
with human feedback
Long OuyangJeff WuXu JiangDiogo AlmeidaCarroll L. Wainwright
Pamela MishkinChong Zhang Sandhini Agarwal Katarina Slama Alex Ray
John Schulman Jacob Hilton Fraser Kelton Luke Miller Maddie Simens
Amanda AskellyPeter Welinder Paul Christianoy
Jan LeikeRyan Lowe
OpenAI
Abstract
Making language models bigger does not inherently make them better at following
a user‚Äôs intent. For example, large language models can generate outputs that
are untruthful, toxic, or simply not helpful to the user. In other words, these
models are not aligned with their users. In this paper, we show an avenue for
aligning language models with user intent on a wide range of tasks by Ô¨Åne-tuning
with human feedback. Starting with a set of labeler-written prompts and prompts
submitted through the OpenAI API, we collect a dataset of labeler demonstrations
of the desired model behavior, which we use to Ô¨Åne-tune GPT-3 

In [115]:
from langchain_core.prompts import PromptTemplate

# noten como ahora existe el par√°metro de context!
rag_template = '''
Eres un asistente experto en responder preguntas bas√°ndote en los documentos proporcionados.
Por favor, utiliza toda la informaci√≥n relevante para generar una respuesta completa.
Responde siempre de la forma m√°s completa posible y usando toda la informaci√≥n entregada.
Responde s√≥lo lo que te pregunten a partir de la informaci√≥n relevante, NUNCA inventes una respuesta.

Informaci√≥n relevante:
{context}

Pregunta:
{question}

Respuesta:
'''

rag_prompt = PromptTemplate.from_template(rag_template)

In [116]:
import time
import pandas as pd
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_google_genai import ChatGoogleGenerativeAI

llm = ChatGoogleGenerativeAI(
    model="gemini-1.5-flash", # modelo de lenguaje
    temperature=0, # probabilidad de "respuestas creativas"
    max_tokens=None, # sin tope de tokens
    timeout=None, # sin timeout
    max_retries=2, # n√∫mero m√°ximo de intentos
)


In [119]:
from langchain_core.runnables import RunnablePassthrough

rag_chain = (
    {
        "context": retriever_chain, # context lo obtendremos del retriever_chain
        "question": RunnablePassthrough(), # question pasar√° directo hacia el prompt
    }
    | rag_prompt # prompt con las variables question y context
    | llm # llm recibe el prompt y responde
    | StrOutputParser() # recuperamos s√≥lo la respuesta
)

response = rag_chain.invoke(question)
print(response)

El documento describe Toolformer, un modelo de lenguaje que aprende a usar herramientas externas a trav√©s de APIs simples.  Esto se logra de forma autosupervisada, necesitando solo unos pocos ejemplos para cada API.  Toolformer decide qu√© APIs llamar, cu√°ndo llamarlas, qu√© argumentos pasar y c√≥mo incorporar los resultados en la predicci√≥n de tokens futuros.  Se incorporan varias herramientas, incluyendo una calculadora, un sistema de preguntas y respuestas, un motor de b√∫squeda, un sistema de traducci√≥n y un calendario.  Las evaluaciones muestran que Toolformer mejora sustancialmente el rendimiento en cero disparos en diversas tareas, a menudo compitiendo con modelos mucho m√°s grandes, sin sacrificar sus capacidades b√°sicas de modelado del lenguaje.  El documento tambi√©n analiza las limitaciones del m√©todo, como la incapacidad de usar herramientas en cadena o de forma interactiva, y la ineficiencia en el muestreo de datos para ciertas APIs.



#### **2.1.4 Verificaci√≥n de respuestas (0.5 puntos)**

Genere un listado de 3 tuplas ("pregunta", "respuesta correcta") y analice la respuesta de su soluci√≥n para cada una. ¬øSu soluci√≥n RAG entrega las respuestas que esperaba?

Ejemplo de tupla:
- Pregunta: ¬øQui√©n es el presidente de Chile?
- Respuesta correcta: El presidente de Chile es Gabriel Boric

In [120]:
tuple_list = [("What is the main goal of the Toolformer model introduced in the document?",
               "To enable language models to use tools via APIs"),
              ("How is InstructGPT trained?", "Using reinforcement learning from human feedback (RLHF)"),
              ("How does Toolformer handle math tasks?", "By using a calculator tool")]

In [121]:
for idx in range(len(tuple_list)):
  print('Respuestas doc:')
  print(rag_chain.invoke(tuple_list[idx][0]))
  print('*'*200)
  print('\n')

Respuestas doc1:
The main goal of the Toolformer model is to enable language models to use external tools via simple APIs, achieving improved zero-shot performance across various downstream tasks without sacrificing core language modeling abilities.  This is accomplished in a self-supervised way, requiring minimal human annotation.  The model learns to decide which APIs to call, when to call them, what arguments to pass, and how to incorporate results into future token prediction.

********************************************************************************************************************************************************************************************************


Respuestas doc1:
InstructGPT is trained using a three-step process:

**Step 1: Supervised Fine-Tuning (SFT)**.  Labelers provide demonstrations of the desired model behavior on a distribution of prompts (mostly English prompts submitted to the OpenAI API and some labeler-written prompts).  A pre-trained GPT-3

*Respuesta:* La soluci√≥n entrega respuestas esperadas, y da mas contexto e informaci√≥n que la respuesta esperada

#### **2.1.5 Sensibilidad de Hiperpar√°metros (0.5 puntos)**

Extienda el an√°lisis del punto 2.1.4 analizando c√≥mo cambian las respuestas entregadas cambiando los siguientes hiperpar√°metros:
- `Tama√±o del chunk`. (*¬øC√≥mo repercute que los chunks sean mas grandes o chicos?*)
- `La cantidad de chunks recuperados`. (*¬øQu√© pasa si se devuelven muchos/pocos chunks?*)
- `El tipo de b√∫squeda`. (*¬øC√≥mo afecta el tipo de b√∫squeda a las respuestas de mi RAG?*)

In [23]:
# hiperparametros
chunk_sizes = [100, 500, 1000]
chunk_overlaps = [50, 100, 200]
ks = [1, 3, 5]
search_types = ["similarity", "mmr"]

In [28]:
total_chunks = len(all_texts)

results = []

for chunk_size in chunk_sizes:
    for chunk_overlap in chunk_overlaps:
        # Validaci√≥n: `chunk_overlap` debe ser menor que `chunk_size`
        if chunk_overlap >= chunk_size:
            print(f"Saltando configuraci√≥n inv√°lida: chunk_size={chunk_size}, chunk_overlap={chunk_overlap}")
            continue

        # Crear el divisor de texto
        text_splitter = CharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap)
        chunks = text_splitter.split_text(" ".join(all_texts))  # Dividir los textos

        for k in ks:
            # Validaci√≥n: `k` no puede exceder el n√∫mero de chunks disponibles
            if k > len(chunks):
                print(f"Saltando configuraci√≥n inv√°lida: k={k}, total_chunks={len(chunks)}")
                continue

            for search_type in search_types:
                print(f"Evaluando: chunk_size={chunk_size}, chunk_overlap={chunk_overlap}, k={k}, search_type={search_type}")

                # Crear el sistema de recuperaci√≥n
                local_docsearch = FAISS.from_texts(chunks, embeddings)
                retriever = local_docsearch.as_retriever(search_type=search_type, search_kwargs={"k": k})

                # Crear el RAG chain
                rag_chain =(
                            {
                                "context": retriever_chain,
                                "question": RunnablePassthrough(),
                            }
                            | rag_prompt
                            | llm
                            | StrOutputParser())
                # Evaluar tiempo y resultados
                start_time = time.time()
                response = rag_chain.invoke(question)
                elapsed_time = time.time() - start_time

                # Registrar los resultados
                results.append({
                    "chunk_size": chunk_size,
                    "chunk_overlap": chunk_overlap,
                    "k": k,
                    "search_type": search_type,
                    "elapsed_time": elapsed_time,
                    "response": response
                })

# Guardar los resultados
import pandas as pd
results_df = pd.DataFrame(results)
results_df.to_csv("sensitivity_analysis.csv", index=False)
print("Resultados guardados en sensitivity_analysis.csv.")


Evaluando: chunk_size=100, chunk_overlap=50, k=1, search_type=similarity
Evaluando: chunk_size=100, chunk_overlap=50, k=1, search_type=mmr
Saltando configuraci√≥n inv√°lida: k=3, total_chunks=1
Saltando configuraci√≥n inv√°lida: k=5, total_chunks=1
Saltando configuraci√≥n inv√°lida: chunk_size=100, chunk_overlap=200
Saltando configuraci√≥n inv√°lida: chunk_size=100, chunk_overlap=300
Evaluando: chunk_size=500, chunk_overlap=50, k=1, search_type=similarity
Evaluando: chunk_size=500, chunk_overlap=50, k=1, search_type=mmr
Saltando configuraci√≥n inv√°lida: k=3, total_chunks=1
Saltando configuraci√≥n inv√°lida: k=5, total_chunks=1
Evaluando: chunk_size=500, chunk_overlap=200, k=1, search_type=similarity
Evaluando: chunk_size=500, chunk_overlap=200, k=1, search_type=mmr
Saltando configuraci√≥n inv√°lida: k=3, total_chunks=1
Saltando configuraci√≥n inv√°lida: k=5, total_chunks=1
Evaluando: chunk_size=500, chunk_overlap=300, k=1, search_type=similarity
Evaluando: chunk_size=500, chunk_overla

In [30]:
display(results_df)

Unnamed: 0,chunk_size,chunk_overlap,k,search_type,elapsed_time,response
0,100,50,1,similarity,37.83056,"El documento describe Toolformer, un modelo de..."
1,100,50,1,mmr,87.197456,"El documento describe Toolformer, un modelo de..."
2,500,50,1,similarity,356.319088,"El documento describe Toolformer, un modelo de..."
3,500,50,1,mmr,128.10857,"El documento describe Toolformer, un modelo de..."
4,500,200,1,similarity,54.188279,"El documento describe Toolformer, un modelo de..."
5,500,200,1,mmr,195.10894,"El documento describe Toolformer, un modelo de..."
6,500,300,1,similarity,352.646452,"El documento describe Toolformer, un modelo de..."
7,500,300,1,mmr,48.887038,"El documento describe Toolformer, un modelo de..."
8,1000,50,1,similarity,64.94315,"El documento describe Toolformer, un modelo de..."
9,1000,50,1,mmr,27.52094,"El documento describe Toolformer, un modelo de..."


In [32]:
results_df['response'][0]

'El documento describe Toolformer, un modelo de lenguaje que aprende a usar herramientas externas a trav√©s de APIs simples.  A diferencia de enfoques previos que requieren grandes cantidades de anotaciones humanas o limitan el uso de herramientas a entornos espec√≠ficos, Toolformer aprende de forma autosupervisada con solo unos pocos ejemplos para cada API.  Incorpora una variedad de herramientas, incluyendo una calculadora, un sistema de preguntas y respuestas, un motor de b√∫squeda, un sistema de traducci√≥n y un calendario.  Los experimentos demuestran que Toolformer, basado en un modelo GPT-J preentrenado con 6.7B par√°metros, logra un rendimiento significativamente mejorado en varias tareas, a menudo competitivo con modelos mucho m√°s grandes, sin sacrificar sus capacidades b√°sicas de modelado del lenguaje.  El enfoque se basa en la capacidad de aprendizaje en contexto de los grandes modelos de lenguaje para generar conjuntos de datos completos desde cero.  Se muestra que el mod

In [34]:
import plotly.express as px

fig = px.scatter(results_df, x="chunk_size", y="elapsed_time", color="search_type",
                 title="Tama√±o del Contexto vs Tiempo de Respuesta",
                 labels={"chunk_size": "Tama√±o del Contexto", "elapsed_time": "Tiempo (s)"})
fig.show()


*Respuesta:* Al analizar el grafico "Tama√±o del Contexto vs Tiempo de Respuesta", se observa que el tamano de los chunks influye significativamente en el desempeno del RAG (Retrieval-Augmented Generation). Cuando los chunks son mas grandes, se reduce la cantidad de fragmentos generados, lo que puede agilizar el proceso de busqueda y reducir el tiempo de respuesta. Sin embargo, si los chunks son demasiado grandes, podrian incluir informacion irrelevante, disminuyendo la precision de las respuestas. Por otro lado, cuando los chunks son pequenos, se genera un mayor numero de fragmentos, lo que aumenta la granularidad de la busqueda pero puede incrementar el tiempo de respuesta debido a la necesidad de procesar mas datos.

Cuando se devuelven muchos chunks, el modelo puede recibir un contexto excesivamente largo, aumentando el tiempo de respuesta y posiblemente superando el limite de tokens manejado por el modelo. En cambio, si se devuelven pocos chunks, el contexto podria ser insuficiente para generar respuestas completas o precisas.

Finalmente, el tipo de busqueda (similarity vs mmr) tambien afecta los resultados. La busqueda por similarity tiende a devolver los documentos mas cercanos en terminos de embeddings, mientras que MMR (Maximal Marginal Relevance) prioriza la diversidad en los resultados. Esto ultimo puede ser util para evitar redundancias en las respuestas, pero podria aumentar el tiempo de procesamiento debido al calculo adicional necesario para garantizar la diversidad.

### **2.2 Agentes (1.0 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/rcqnN2aJCSEAAAAd/secret-agent-man.gif"
" width="400">
</p>

Similar a la secci√≥n anterior, en esta secci√≥n se busca habilitar **Agentes** para obtener informaci√≥n a trav√©s de tools y as√≠ responder la pregunta del usuario.

#### **2.2.1 Tool de Tavily (0.2 puntos)**

Generar una *tool* que pueda hacer consultas al motor de b√∫squeda **Tavily**.

In [122]:
from langchain_community.tools.tavily_search import TavilySearchResults

tavily_tool = TavilySearchResults(max_results=1)


#### **2.2.2 Tool de Wikipedia (0.2 puntos)**

Generar una *tool* que pueda hacer consultas a **Wikipedia**.

*Hint: Le puede ser de ayuda el siguiente [link](https://python.langchain.com/v0.1/docs/modules/tools/).*

In [123]:
!pip install wikipedia



In [124]:
from langchain_community.tools import WikipediaQueryRun
from langchain_community.utilities import WikipediaAPIWrapper

wikipedia_tool = WikipediaAPIWrapper(top_k_results=1, doc_content_chars_max=100, lang="es")
wikipedia_query_tool = WikipediaQueryRun(api_wrapper=wikipedia_tool)  # Use WikipediaQueryRun


#### **2.2.3 Crear Agente (0.3 puntos)**

Crear un agente que pueda responder preguntas preguntas usando las *tools* antes generadas. Aseg√∫rese que su agente responda en espa√±ol. Por √∫ltimo, guarde el agente en una variable.

In [125]:
from langchain.agents import create_tool_calling_agent
from langchain.agents import create_react_agent, AgentExecutor

In [126]:
prompt = PromptTemplate.from_template("""
Eres un agente experto en responder preguntas utilizando herramientas disponibles, que son las siguientes:
- Usa Tavily para preguntas relacionadas con eventos recientes, noticias, o informaci√≥n espec√≠fica de internet.
- Usa Wikipedia para preguntas relacionadas con temas hist√≥ricos, enciclop√©dicos o cient√≠ficos.

Proporciona respuestas claras y completas en espa√±ol.
Pregunta: {input}
{agent_scratchpad}
""")

In [127]:
tools = [tavily_tool, wikipedia_query_tool]
agent = create_tool_calling_agent(llm, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)

#### **2.2.4 Verificaci√≥n de respuestas (0.3 puntos)**

Pruebe el funcionamiento de su agente y aseg√∫rese que el agente est√© ocupando correctamente las tools disponibles. ¬øEn qu√© casos el agente deber√≠a ocupar la tool de Tavily? ¬øEn qu√© casos deber√≠a ocupar la tool de Wikipedia?

In [128]:
response = agent_executor.invoke({"input": "¬øCu√°les son las noticias m√°s recientes sobre el cambio clim√°tico?"})
print(response["output"])




[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mPara responder a tu pregunta sobre las noticias m√°s recientes sobre el cambio clim√°tico, utilizar√© la herramienta Tavily, ya que se especializa en informaci√≥n de actualidad.  Sin embargo, la API `default_api` que tengo disponible no proporciona ejemplos de c√≥mo usar `tavily_search_results_json`.  Necesito m√°s informaci√≥n sobre el formato de la respuesta de `tavily_search_results_json` para poder procesarla y darte una respuesta completa.  Por favor, proporciona un ejemplo de la salida de `tavily_search_results_json` para una consulta de prueba, o indica c√≥mo acceder a los datos relevantes dentro de la respuesta.
[0m

[1m> Finished chain.[0m
Para responder a tu pregunta sobre las noticias m√°s recientes sobre el cambio clim√°tico, utilizar√© la herramienta Tavily, ya que se especializa en informaci√≥n de actualidad.  Sin embargo, la API `default_api` que tengo disponible no proporciona ejemplos de c√≥mo usar `tavily

In [129]:
response = agent_executor.invoke({"input": "¬øQu√© es la inteligencia artificial?"})
print("Respuesta del agente:")
print(response["output"])




[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `wikipedia` with `{'query': 'Inteligencia artificial'}`
responded: Para responder a tu pregunta sobre qu√© es la inteligencia artificial, utilizar√© Wikipedia, ya que se trata de un concepto cient√≠fico y enciclop√©dico.



[0m[33;1m[1;3mPage: Inteligencia artificial
Summary: La inteligencia artificial (IA), en el contexto de las cienci[0m[32;1m[1;3mPara responder a tu pregunta sobre qu√© es la inteligencia artificial, utilizar√© Wikipedia, ya que se trata de un concepto cient√≠fico y enciclop√©dico.  La informaci√≥n que obtuve de Wikipedia indica que la inteligencia artificial (IA), en el contexto de las ciencias de la computaci√≥n, es un campo de estudio que se enfoca en el desarrollo de sistemas inform√°ticos capaces de realizar tareas que normalmente requieren inteligencia humana.  Esto incluye tareas como el aprendizaje, el razonamiento, la resoluci√≥n de problemas y la percepci√≥n.  Sin embargo, la resp

In [130]:
response = agent_executor.invoke({"input": "¬øQu√© sabes sobre Tesla?"})
print(response["output"])




[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `wikipedia` with `{'query': 'Tesla'}`
responded: Para responder a tu pregunta sobre Tesla, usar√© ambas herramientas, ya que Tesla tiene aspectos hist√≥ricos y tambi√©n noticias recientes relevantes.

Primero, usar√© Wikipedia para obtener informaci√≥n general sobre la historia y la empresa:



Luego, usar√© Tavily para buscar informaci√≥n m√°s actualizada sobre noticias o eventos recientes relacionados con Tesla:



Una vez que tenga la informaci√≥n de ambas fuentes, la combinar√© para darte una respuesta completa y actualizada sobre Tesla.  Por favor, espera mientras proceso la informaci√≥n.


[0m


No parser was explicitly specified, so I'm using the best available HTML parser for this system ("lxml"). This usually isn't a problem, but if you run this code on another system, or in a different virtual environment, it may use a different parser and behave differently.





[33;1m[1;3mNo good Wikipedia Search Result was found[0m[32;1m[1;3m
Invoking: `tavily_search_results_json` with `{'query': 'Tesla'}`
responded: Para responder a tu pregunta sobre Tesla, usar√© ambas herramientas, ya que Tesla tiene aspectos hist√≥ricos y tambi√©n noticias recientes relevantes.

Primero, usar√© Wikipedia para obtener informaci√≥n general sobre la historia y la empresa:



Luego, usar√© Tavily para buscar informaci√≥n m√°s actualizada sobre noticias o eventos recientes relacionados con Tesla:



Una vez que tenga la informaci√≥n de ambas fuentes, la combinar√© para darte una respuesta completa y actualizada sobre Tesla.  Por favor, espera mientras proceso la informaci√≥n.


[0m[36;1m[1;3m[{'url': 'https://www.britannica.com/money/Tesla-Motors', 'content': 'Tesla, Inc. is an American manufacturer of electric vehicles, solar panels, and automobile batteries. It was founded in 2003 by American entrepreneurs Martin Eberhard and Marc Tarpenning and was named after Serb

*Respuesta:*

### **2.3 Multi Agente (1.5 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/r7QMJLxU4BoAAAAd/this-is-getting-out-of-hand-star-wars.gif"
" width="450">
</p>

El objetivo de esta subsecci√≥n es encapsular las funcionalidades creadas en una soluci√≥n multiagente con un **supervisor**.


#### **2.3.1 Generando Tools (0.5 puntos)**

Transforme la soluci√≥n RAG de la secci√≥n 2.1 y el agente de la secci√≥n 2.2 a *tools* (una tool por cada uno).

In [140]:
from langchain.tools import tool

@tool
def rag_tool(question: str) -> str:
    """
    Responde preguntas usando documentos vectorizados (soluci√≥n RAG).
    """
    response = rag_chain.invoke(question)
    return response


In [141]:
@tool
def agent_tool(question: str) -> str:
    """
    Responde preguntas utilizando el agente con Tavily y Wikipedia.
    """
    response = agent_executor.invoke({"input": question})
    return response["output"]


#### **2.3.2 Agente Supervisor (0.5 puntos)**

Habilite un agente que tenga acceso a las tools del punto anterior y pueda responder preguntas relacionadas. Almacene este agente en una variable llamada supervisor.

In [142]:
# Definir el prompt del enrutador
router_prompt = PromptTemplate.from_template("""
Eres un supervisor multiagente. Tu tarea es clasificar preguntas del usuario para decidir qu√© herramienta utilizar.
Usa las siguientes reglas:
- Usa "rag_tool" para preguntas relacionadas con los documentos cargados.
- Usa "agent_tool" para preguntas que requieren buscar en Tavily o Wikipedia.

Pregunta: {input}
{agent_scratchpad}

Responde con el nombre de la herramienta a utilizar:
""")

supervisor = create_tool_calling_agent(llm=llm, tools=[rag_tool, agent_tool], prompt=router_prompt)


supervisor_executor = AgentExecutor(agent=supervisor, tools=[rag_tool, agent_tool], verbose=True)

#### **2.3.3 Verificaci√≥n de respuestas (0.25 puntos)**

Pruebe el funcionamiento de su agente repitiendo las preguntas realizadas en las secciones 2.1.4 y 2.2.4 y comente sus resultados. ¬øC√≥mo var√≠an las respuestas bajo este enfoque?

In [143]:
# test
# Pregunta que deber√≠a usar la soluci√≥n RAG
response_rag = supervisor_executor.invoke({"input": "¬øQu√© informaci√≥n hay sobre los documentos cargados?"})
print("Respuesta RAG:", response_rag["output"])

# Pregunta que deber√≠a usar el agente (Tavily/Wikipedia)
response_agent = supervisor_executor.invoke({"input": "¬øQu√© es la inteligencia artificial?"})
print("Respuesta Agente:", response_agent["output"])



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `rag_tool` with `{'question': '¬øQu√© informaci√≥n hay sobre los documentos cargados?'}`


[0m[36;1m[1;3mBased on the provided text, there is information about the following:

* **Dataset composition:** The dataset used for training and evaluation consists primarily of text prompts submitted to the OpenAI API, specifically those using earlier versions of the InstructGPT models on the Playground interface.  These prompts are diverse, including generation, question answering, dialogue, summarization, extraction, and other natural language tasks.  The dataset is over 96% English.  Labeler-written prompts were also used to bootstrap the process.  These were categorized as "Plain," "Few-shot," and "User-based."  The dataset was filtered for personally identifiable information (PII).  Table 1 shows the distribution of use-case categories for the API prompts, and Table 2 shows illustrative prompts.  More details on dat

#### **2.3.4 An√°lisis (0.25 puntos)**

¬øQu√© diferencias tiene este enfoque con la soluci√≥n *Router* vista en clases? Nombre al menos una ventaja y desventaja.

El router se basa en reglas, definidas manualmente para decidir que tool o agente se debe manejar en cada tipo de pregunta, mientras que el multiagente con tools utiliza herramientas encapsuladas y un modelo LLM. El router es mas simple de implementar, pero el multiagente es mas flexible y escalable lo que permite agregar nuevas tools y adaptarse a preguntas ambiguas

### **2.4 Memoria (Bonus +0.5 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/Gs95aiElrscAAAAd/memory-unlocked-ratatouille-critic.gif"
" width="400">
</p>

Una de las principales falencias de las soluciones que hemos visto hasta ahora es que nuestro chat no responde las interacciones anteriores, por ejemplo:

- Pregunta 1: "Hola! mi nombre es Sebasti√°n"
  - Respuesta esperada: "Hola Sebasti√°n! ..."
- Pregunta 2: "Cual es mi nombre?"
  - Respuesta actual: "Lo siento pero no conozco tu nombre :("
  - **Respuesta esperada: "Tu nombre es Sebasti√°n"**

Para solucionar esto, se les solicita agregar un componente de **memoria** a la soluci√≥n entregada en el punto 2.3.

**Nota: El Bonus es v√°lido <u>s√≥lo para la secci√≥n 2 de Large Language Models.</u>**

### **2.5 Despliegue (0 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/IytHqOp52EsAAAAd/you-get-a-deploy-deploy.gif"
" width="400">
</p>

Una vez tengan los puntos anteriores finalizados, toca la etapa de dar a conocer lo que hicimos! Para eso, vamos a desplegar nuestro modelo a trav√©s de `gradio`, una librer√≠a especializada en el levantamiento r√°pido de demos basadas en ML.

Primero instalamos la librer√≠a:

In [None]:
%pip install --upgrade --quiet gradio

Luego s√≥lo deben ejecutar el siguiente c√≥digo e interactuar con la interfaz a trav√©s del notebook o del link generado:

In [None]:
import gradio as gr
import time

def agent_response(message, history):
  '''
  Funci√≥n para gradio, recibe mensaje e historial, devuelte la respuesta del chatbot.
  '''
  # get chatbot response
  response = ... # rellenar con la respuesta de su chat

  # assert
  assert type(response) == str, "output de route_question debe ser string"

  # "streaming" response
  for i in range(len(response)):
    time.sleep(0.015)
    yield response[: i+1]

gr.ChatInterface(
    agent_response,
    type="messages",
    title="Chatbot MDS7202", # Pueden cambiar esto si lo desean
    description="Hola! Soy un chatbot muy √∫til :)", # tambi√©n la descripci√≥n
    theme="soft",
    ).launch(
        share=True, # pueden compartir el link a sus amig@s para que interactuen con su chat!
        debug = False,
        )