# **Laboratorio 11: LLM y Agentes Autónomos 🤖**

MDS7202: Laboratorio de Programación Científica para Ciencia de Datos

### **Cuerpo Docente:**

- Profesores: Ignacio Meza, Sebastián Tinoco
- Auxiliar: Eduardo Moya
- Ayudantes: Nicolás Ojeda, Melanie Peña, Valentina Rojas

### **Equipo: SUPER IMPORTANTE - notebooks sin nombre no serán revisados**

- Nombre de alumno 1: Cristian Oyarzo M.
- Nombre de alumno 2: Sebastián Quenti A.

### **Link de repositorio de GitHub:** [Repositorio](https://github.com/sebaquenti/Repositorio-MDS7202)

## **Temas a tratar**

- Reinforcement Learning
- Large Language Models

## **Reglas:**

- **Grupos de 2 personas**
- Cualquier duda fuera del horario de clases al foro. Mensajes al equipo docente serán respondidos por este medio.
- Prohibidas las copias.
- Pueden usar cualquer matrial del curso que estimen conveniente.

### **Objetivos principales del laboratorio**

- Resolución de problemas secuenciales usando Reinforcement Learning
- Habilitar un Chatbot para entregar respuestas útiles usando Large Language Models.

El laboratorio deberá ser desarrollado sin el uso indiscriminado de iteradores nativos de python (aka "for", "while"). La idea es que aprendan a exprimir al máximo las funciones optimizadas que nos entrega `pandas`, las cuales vale mencionar, son bastante más eficientes que los iteradores nativos sobre DataFrames.

## **1. Reinforcement Learning (2.0 puntos)**

En esta sección van a usar métodos de RL para resolver dos problemas interesantes: `Blackjack` y `LunarLander`.

In [None]:
!pip install -qqq gymnasium stable_baselines3
!pip install -qqq swig
!pip install -qqq gymnasium[box2d]

### **1.1 Blackjack (1.0 puntos)**

<p align="center">
  <img src="https://www.recreoviral.com/wp-content/uploads/2016/08/s3.amazonaws.com-Math.gif"
" width="400">
</p>

La idea de esta subsección es que puedan implementar métodos de RL y así generar una estrategia para jugar el clásico juego Blackjack y de paso puedan ~~hacerse millonarios~~ aprender a resolver problemas mediante RL.

Comencemos primero preparando el ambiente. El siguiente bloque de código transforma las observaciones del ambiente a `np.array`:


In [None]:
import gymnasium as gym
from gymnasium.spaces import MultiDiscrete
import numpy as np

class FlattenObservation(gym.ObservationWrapper):
    def __init__(self, env):
        super(FlattenObservation, self).__init__(env)
        self.observation_space = MultiDiscrete(np.array([32, 11, 2]))

    def observation(self, observation):
        return np.array(observation).flatten()

# Create and wrap the environment
env = gym.make("Blackjack-v1")
env = FlattenObservation(env)

seed = 1323

env.action_space.seed(seed)  # Semilla para las acciones aleatorias
np.random.seed(seed)  # Semilla para NumPy

#### **1.1.1 Descripción de MDP (0.2 puntos)**

Entregue una breve descripción sobre el ambiente [Blackjack](https://gymnasium.farama.org/environments/toy_text/blackjack/) y su formulación en MDP, distinguiendo de forma clara y concisa los estados, acciones y recompensas.

El problema del juego Blackjack se modela como un Proceso de Decisión de Markov (MDP) con los siguientes elementos:

- **Estados:** Representados por una tupla `(suma_jugador, carta_dealer, as_usable)`, donde:
  - `suma_jugador`: Entero entre 4 y 21.
  - `carta_dealer`: Entero entre 1 y 10.
  - `as_usable`: 1 si el jugador tiene un As usable (11 sin exceder 21), 0 en caso contrario.
  
- **Acciones:**
  - `0 (Stick)`: Mantenerse con la suma actual.
  - `1 (Hit)`: Solicitar una carta adicional.

- **Recompensas:**
  - `+1`: Ganar el juego.
  - `-1`: Perder el juego.
  - `0`: Empate.
  - `+1.5 o +1`: Ganar con un Blackjack natural. (+1 en este caso)

- **Dinámica:** Las transiciones dependen de las acciones del jugador y las reglas del dealer (pedir hasta 17). El episodio termina si el jugador excede 21 o elige `Stick`.

El objetivo es maximizar la recompensa acumulada aprendiendo una estrategia óptima mediante RL.


#### **1.1.2 Generando un Baseline (0.2 puntos)**

Simule un escenario en donde se escojan acciones aleatorias. Repita esta simulación 5000 veces y reporte el promedio y desviación de las recompensas. ¿Cómo calificaría el performance de esta política? ¿Cómo podría interpretar las recompensas obtenidas?

In [None]:
rewards = []

for episode in range(5000):
    done = False
    total_reward = 0
    state, info = env.reset()

    while not done:
        action = env.action_space.sample()  # Acciones aleatorias
        state, reward, done, truncated, info = env.step(action)
        total_reward += reward

    rewards.append(total_reward)

mean_reward = np.mean(rewards)
std_reward = np.std(rewards)

print(f"Promedio de recompensas: {mean_reward}")
print(f"Desviación estándar de recompensas: {std_reward}")

Promedio de recompensas: -0.3886
Desviación estándar de recompensas: 0.900438804139404


Performance de la Política Aleatoria: El rendimiento de la política aleatoria es bajo, con un promedio de recompensas negativo, lo que indica que, en general, esta estrategia tiende a perder más partidas de las que gana.

Interpretación de las Recompensas: La alta desviación estándar refleja que las recompensas son inconsistentes, oscilando entre victorias, derrotas y empates. Esto es esperable, ya que las acciones aleatorias no toman en cuenta el estado del juego, resultando en un comportamiento impredecible y subóptimo.

Conclusión: Este resultado sirve como línea base para comparar con estrategias optimizadas. Un modelo entrenado debería superar significativamente este rendimiento

#### **1.1.3 Entrenamiento de modelo (0.2 puntos)**

A partir del siguiente [enlace](https://stable-baselines3.readthedocs.io/en/master/guide/algos.html), escoja un modelo de `stable_baselines3` y entrenelo para resolver el ambiente `Blackjack`.

In [None]:
from stable_baselines3 import DQN

# Definir y entrenar el modelo directamente en el entorno
model = DQN("MlpPolicy", env, verbose=1, seed=1323)
model.learn(total_timesteps=10000)

# Guarda el modelo entrenado
model.save("blackjack_dqn_model")

# Evaluación del modelo entrenado
for episode in range(10):  # Jugar 10 episodios para evaluación
    done = False
    obs, info = env.reset()
    total_reward = 0

    while not done:
        action, _states = model.predict(np.array(obs).flatten(), deterministic=True)
        obs, reward, done, truncated, info = env.step(action)
        total_reward += reward

    print(f"Episodio {episode + 1}: Recompensa total = {total_reward}")


[1;30;43mSe han truncado las últimas 5000 líneas del flujo de salida.[0m
| time/               |          |
|    episodes         | 5960     |
|    fps              | 368      |
|    time_elapsed     | 21       |
|    total_timesteps  | 7922     |
| train/              |          |
|    learning_rate    | 0.0001   |
|    loss             | 0.307    |
|    n_updates        | 1955     |
----------------------------------
----------------------------------
| rollout/            |          |
|    ep_len_mean      | 1.45     |
|    ep_rew_mean      | -0.19    |
|    exploration_rate | 0.05     |
| time/               |          |
|    episodes         | 5964     |
|    fps              | 368      |
|    time_elapsed     | 21       |
|    total_timesteps  | 7928     |
| train/              |          |
|    learning_rate    | 0.0001   |
|    loss             | 0.259    |
|    n_updates        | 1956     |
----------------------------------
----------------------------------
| rollout/     

#### **1.1.4 Evaluación de modelo (0.2 puntos)**

Repita el ejercicio 1.1.2 pero utilizando el modelo entrenado. ¿Cómo es el performance de su agente? ¿Es mejor o peor que el escenario baseline?

In [None]:
# Repetimos el experimento, pero utilizando el modelo entrenado
rewards = []

for episode in range(5000):
    done = False
    total_reward = 0
    obs, info = env.reset()

    while not done:
        # Usamos el modelo entrenado para predecir acciones
        action, _states = model.predict(np.array(obs).flatten(), deterministic=True)
        obs, reward, done, truncated, info = env.step(action)
        total_reward += reward

    rewards.append(total_reward)

# Estadísticas de desempeño
mean_reward = np.mean(rewards)
std_reward = np.std(rewards)

print(f"Promedio de recompensas con modelo entrenado: {mean_reward}")
print(f"Desviación estándar de recompensas: {std_reward}")

  and should_run_async(code)


Promedio de recompensas con modelo entrenado: -0.069
Desviación estándar de recompensas: 0.9452190222377034


El performance sigue siendo negativo, pero sustancialmente mejor que el escenario aleatorio. También se tiene que aumentó levemente la desviación estándar.

#### **1.1.5 Estudio de acciones (0.2 puntos)**

Genere una función que reciba un estado y retorne la accion del agente. Luego, use esta función para entregar la acción escogida frente a los siguientes escenarios:

- Suma de cartas del agente es 6, dealer muestra un 7, agente no tiene tiene un as
- Suma de cartas del agente es 19, dealer muestra un 3, agente tiene tiene un as

¿Son coherentes sus acciones con las reglas del juego?

Hint: ¿A que clase de python pertenecen los estados? Pruebe a usar el método `.reset` para saberlo.

In [None]:
def predict_action(agent_model, state):
    """
    Toma un modelo entrenado y un estado, y devuelve la acción predicha.
    """
    state_array = np.array(state).flatten()
    action, _ = agent_model.predict(state_array, deterministic=True)
    return action

# Escenarios a evaluar
scenarios = [
    ([6, 7, 0], "Suma de cartas: 6, Dealer muestra: 7, Sin As"),
    ([19, 3, 1], "Suma de cartas: 19, Dealer muestra: 3, Con As"),
]

print("Acciones recomendadas por el modelo:")
for state, description in scenarios:
    action = predict_action(model, state)
    print(f"{description} -> Acción tomada: {'Stick (0)' if action == 0 else 'Hit (1)'}")

Acciones recomendadas por el modelo:
Suma de cartas: 6, Dealer muestra: 7, Sin As -> Acción tomada: Hit (1)
Suma de cartas: 19, Dealer muestra: 3, Con As -> Acción tomada: Stick (0)


Evaluación de coherencia:

Suma de 6 y Dealer muestra 7: Generalmente el jugador debería pedir (Hit) porque está muy lejos de 21.

Suma de 19 y Dealer muestra 3: Es razonable quedarse (Stick) porque hay un alto riesgo de pasarse si pides más.

Esta son las acciones que toma el modelo, por lo que se puede afirmar que es coherente.

### **1.2 LunarLander**

<p align="center">
  <img src="https://i.redd.it/097t6tk29zf51.jpg"
" width="400">
</p>

Similar a la sección 2.1, en esta sección usted se encargará de implementar una gente de RL que pueda resolver el ambiente `LunarLander`.

Comencemos preparando el ambiente:


In [None]:
import gymnasium as gym
env = gym.make("LunarLander-v3", render_mode = "rgb_array", continuous = True) # notar el parámetro continuous = True

env.action_space.seed(seed)  # Semilla para las acciones aleatorias
np.random.seed(seed)  # Semilla para NumPy

  from pkg_resources import resource_stream, resource_exists
Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
  declare_namespace(pkg)
Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
  declare_namespace(pkg)
Implementing implicit namespace packages (as specified in PEP 420) is preferred to `pkg_resources.declare_namespace`. See https://setuptools.pypa.io/en/latest/references/keywords.html#keyword-namespace-packages
  declare_namespace(pkg)


Noten que se especifica el parámetro `continuous = True`. ¿Que implicancias tiene esto sobre el ambiente?

Además, se le facilita la función `export_gif` para el ejercicio 2.2.4:

In [None]:
import imageio

def export_gif(model, n = 5):
  '''
  función que exporta a gif el comportamiento del agente en n episodios
  '''
  images = []
  for episode in range(n):
    obs = model.env.reset()
    img = model.env.render()
    done = False
    while not done:
      images.append(img)
      action, _ = model.predict(obs)
      obs, reward, done, info = model.env.step(action)
      img = model.env.render(mode="rgb_array")

  imageio.mimsave("agent_performance.gif", [np.array(img) for i, img in enumerate(images) if i%2 == 0], fps=29)

  and should_run_async(code)


El parámetro continuos = True implica que el espacio de acciones es continuo, es decir, las acciones son floats que controlan la fuerza de los motores en lugar de ser opciones discretas predefinidas. Esto permite un control más preciso y realista del aterrizador, pero aumenta la complejidad del aprendizaje y requiere algoritmos de RL avanzados como PPO, SAC o DDPG, en lugar de métodos diseñados para espacios discretos como DQN.

#### **1.2.1 Descripción de MDP (0.2 puntos)**

Entregue una breve descripción sobre el ambiente [LunarLander](https://gymnasium.farama.org/environments/box2d/lunar_lander/) y su formulación en MDP, distinguiendo de forma clara y concisa los estados, acciones y recompensas. ¿Como se distinguen las acciones de este ambiente en comparación a `Blackjack`?

Nota: recuerde que se especificó el parámetro `continuous = True`

El ambiente LunarLander simula el aterrizaje de un módulo controlado mediante un espacio de estados continuo de 8 variables (posición, velocidad, ángulo y contacto con el suelo). Las acciones pueden ser discretas (4 opciones: motores principales y laterales) o continuas (continuous=True), donde se controla la potencia de los motores con floats, como es en este caso. Las recompensas dependen de la cercanía al objetivo, la estabilidad y el uso eficiente de motores, con penalizaciones por choques y bonificaciones por aterrizajes exitosos, que son -100 y +100, respectivamente. A diferencia de Blackjack, LunarLander tiene un espacio de acciones y estados más complejo, y en modo continuo permite un control más preciso pero más difícil de aprender.

#### **1.2.2 Generando un Baseline (0.2 puntos)**

Simule un escenario en donde se escojan acciones aleatorias. Repita esta simulación 10 veces y reporte el promedio y desviación de las recompensas. ¿Cómo calificaría el performance de esta política?

In [None]:
rewards = []

# Simular 10 episodios con acciones aleatorias
for episode in range(10):
    done = False
    total_reward = 0
    state, info = env.reset()

    while not done:
        action = env.action_space.sample()
        state, reward, done, truncated, info = env.step(action)
        total_reward += reward

    rewards.append(total_reward)

# Calcular estadísticas
mean_reward = np.mean(rewards)
std_reward = np.std(rewards)

print(f"Promedio de recompensas: {mean_reward}")
print(f"Desviación estándar de recompensas: {std_reward}")

Promedio de recompensas: -262.58397106758764
Desviación estándar de recompensas: 149.16939942474792


#### **1.2.3 Entrenamiento de modelo (0.2 puntos)**

A partir del siguiente [enlace](https://stable-baselines3.readthedocs.io/en/master/guide/algos.html), escoja un modelo de `stable_baselines3` y entrenelo para resolver el ambiente `LunarLander` **usando 10000 timesteps de entrenamiento**.

In [None]:
from stable_baselines3 import PPO

# Configurar y entrenar el modelo
model = PPO("MlpPolicy", env, verbose=1, seed=1323)
model.learn(total_timesteps=10000)  # Entrenamiento con 10,000 timesteps

# Guardar el modelo entrenado
model.save("lunarlander_ppo_model")

print("Entrenamiento completado y modelo guardado.")

Using cpu device
Wrapping the env with a `Monitor` wrapper
Wrapping the env in a DummyVecEnv.
---------------------------------
| rollout/           |          |
|    ep_len_mean     | 113      |
|    ep_rew_mean     | -301     |
| time/              |          |
|    fps             | 943      |
|    iterations      | 1        |
|    time_elapsed    | 2        |
|    total_timesteps | 2048     |
---------------------------------
-----------------------------------------
| rollout/                |             |
|    ep_len_mean          | 108         |
|    ep_rew_mean          | -240        |
| time/                   |             |
|    fps                  | 652         |
|    iterations           | 2           |
|    time_elapsed         | 6           |
|    total_timesteps      | 4096        |
| train/                  |             |
|    approx_kl            | 0.006756881 |
|    clip_fraction        | 0.0535      |
|    clip_range           | 0.2         |
|    entropy_loss   

#### **1.2.4 Evaluación de modelo (0.2 puntos)**

Repita el ejercicio 1.2.2 pero utilizando el modelo entrenado. ¿Cómo es el performance de su agente? ¿Es mejor o peor que el escenario baseline?

In [None]:
## Evaluar el modelo entrenado
rewards = []

for episode in range(10):  # Evaluamos en 10 episodios
    done = False
    truncated = False
    total_reward = 0
    obs, info = env.reset()

    while not (done or truncated):  # Asegurarse de que el bucle termine correctamente
        # Usar el modelo entrenado para predecir acciones
        action, _states = model.predict(obs, deterministic=True)  # Acción predicha
        obs, reward, done, truncated, info = env.step(action)
        total_reward += reward

    rewards.append(total_reward)

# Calcular estadísticas de desempeño
mean_reward = np.mean(rewards)
std_reward = np.std(rewards)

print(f"Promedio de recompensas con modelo entrenado: {mean_reward}")
print(f"Desviación estándar de recompensas: {std_reward}")


Promedio de recompensas con modelo entrenado: -192.88879307711244
Desviación estándar de recompensas: 81.15172401926047


El modelo entrenado muestra un desempeño ligeramente mejor que la política aleatoria, con un promedio de recompensas más alto y menor desviación estándar, indicando mayor consistencia, aunque todavía necesita mejoras para lograr un aterrizaje exitoso.

#### **1.2.5 Optimización de modelo (0.2 puntos)**

Repita los ejercicios 1.2.3 y 1.2.4 hasta obtener un nivel de recompensas promedio mayor a 50. Para esto, puede cambiar manualmente parámetros como:
- `total_timesteps`
- `learning_rate`
- `batch_size`

Una vez optimizado el modelo, use la función `export_gif` para estudiar el comportamiento de su agente en la resolución del ambiente y comente sobre sus resultados.

Adjunte el gif generado en su entrega (mejor aún si además adjuntan el gif en el markdown).

In [None]:
# Ajustar hiperparámetros para optimizar
model = PPO(
    "MlpPolicy",
    env,
    verbose=1,
    learning_rate=0.0001,
    batch_size=128,
    n_steps=2048,
    seed=1323,
)

# Entrenar
model.learn(total_timesteps=20000)

# Evaluar el modelo entrenado
rewards = []
for episode in range(10):
    done = False
    truncated = False
    total_reward = 0
    obs, info = env.reset()

    while not (done or truncated):
        action, _states = model.predict(obs, deterministic=True)
        obs, reward, done, truncated, info = env.step(action)
        total_reward += reward

    rewards.append(total_reward)

# Mostrar las estadísticas de evaluación
mean_reward = np.mean(rewards)
std_reward = np.std(rewards)

print(f"Promedio de recompensas con modelo optimizado: {mean_reward}")
print(f"Desviación estándar de recompensas: {std_reward}")

# Guardar el modelo optimizado
model.save("lunarlander_optimized_model")

Using cpu device
Wrapping the env with a `Monitor` wrapper
Wrapping the env in a DummyVecEnv.
---------------------------------
| rollout/           |          |
|    ep_len_mean     | 113      |
|    ep_rew_mean     | -301     |
| time/              |          |
|    fps             | 665      |
|    iterations      | 1        |
|    time_elapsed    | 3        |
|    total_timesteps | 2048     |
---------------------------------
-----------------------------------------
| rollout/                |             |
|    ep_len_mean          | 108         |
|    ep_rew_mean          | -256        |
| time/                   |             |
|    fps                  | 722         |
|    iterations           | 2           |
|    time_elapsed         | 5           |
|    total_timesteps      | 4096        |
| train/                  |             |
|    approx_kl            | 0.004315473 |
|    clip_fraction        | 0.0114      |
|    clip_range           | 0.2         |
|    entropy_loss   

In [None]:
from IPython.display import Image

export_gif(model, n=5)
from IPython.display import display
display(Image(filename="agent_performance.gif"))



<IPython.core.display.Image object>

El modelo optimizado mejora levemente en comparación con las versiones anteriores, con una recompensa promedio ligeramente más alta y una desviación estándar similar. Sin embargo, el rendimiento sigue siendo insuficiente para resolver el ambiente, por lo que es necesario incrementar los timesteps de entrenamiento o ajustar mejor los hiperparámetros como learning_rate y batch_size. También podría probarse un algoritmo diferente como SAC.

## **2. Large Language Models (4.0 puntos)**

En esta sección se enfocarán en habilitar un Chatbot que nos permita responder preguntas útiles a través de LLMs.

### **2.0 Configuración Inicial**

<p align="center">
  <img src="https://media1.tenor.com/m/uqAs9atZH58AAAAd/config-config-issue.gif"
" width="400">
</p>

Como siempre, cargamos todas nuestras API KEY al entorno:

In [None]:
import getpass
import os

if "GOOGLE_API_KEY" not in os.environ:
    os.environ["GOOGLE_API_KEY"] = getpass.getpass("Enter your Google AI API key: ")

if "TAVILY_API_KEY" not in os.environ:
    os.environ["TAVILY_API_KEY"] = getpass.getpass("Enter your Tavily API key: ")

Enter your Google AI API key: ··········
Enter your Tavily API key: ··········


### **2.1 Retrieval Augmented Generation (1.5 puntos)**

<p align="center">
  <img src="https://y.yarn.co/218aaa02-c47e-4ec9-b1c9-07792a06a88f_text.gif"
" width="400">
</p>

El objetivo de esta subsección es que habiliten un chatbot que pueda responder preguntas usando información contenida en documentos PDF a través de **Retrieval Augmented Generation.**

#### **2.1.1 Reunir Documentos (0 puntos)**

Reuna documentos PDF sobre los que hacer preguntas siguiendo las siguientes instrucciones:
  - 2 documentos .pdf como mínimo.
  - 50 páginas de contenido como mínimo entre todos los documentos.
  - Ideas para documentos: Documentos relacionados a temas académicos, laborales o de ocio. Aprovechen este ejercicio para construir algo útil y/o relevante para ustedes!
  - Deben ocupar documentos reales, no pueden utilizar los mismos de la clase.
  - Deben registrar sus documentos en la siguiente [planilla](https://docs.google.com/spreadsheets/d/1Hy1w_dOiG2UCHJ8muyxhdKPZEPrrL7BNHm6E90imIIM/edit?usp=sharing). **NO PUEDEN USAR LOS MISMOS DOCUMENTOS QUE OTRO GRUPO**
  - **Recuerden adjuntar los documentos en su entrega**.

In [None]:
!pip install --upgrade langchain
%pip install --upgrade --quiet PyPDF2
%pip install langchain-community
%pip install langchain-google-genai
%pip install pypdf
%pip install faiss-gpu

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m232.6/232.6 kB[0m [31m3.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting langchain-community
  Downloading langchain_community-0.3.7-py3-none-any.whl.metadata (2.9 kB)
Collecting SQLAlchemy<2.0.36,>=1.4 (from langchain-community)
  Downloading SQLAlchemy-2.0.35-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (9.6 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting httpx-sse<0.5.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.0-py3-none-any.whl.metadata (9.0 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.6.1-py3-none-any.whl.metadata (3.5 kB)
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading marshmallow-3.23.1-py3-none-any.whl.metadata (7.5 kB)
Collecting typing-inspect<

In [None]:
from google.colab import files
uploaded = files.upload()

Saving UDP_Departamento-de-Deportes_Guía.pdf to UDP_Departamento-de-Deportes_Guía.pdf
Saving ENCICLOPEDIA-DE-EJERCICIOS-ACTUALIZADO.pdf to ENCICLOPEDIA-DE-EJERCICIOS-ACTUALIZADO.pdf


In [None]:
import PyPDF2

doc_paths = ["ENCICLOPEDIA-DE-EJERCICIOS-ACTUALIZADO.pdf", "UDP_Departamento-de-Deportes_Guía.pdf"]

assert len(doc_paths) >= 2, "Deben adjuntar un mínimo de 2 documentos"

total_paginas = sum(len(PyPDF2.PdfReader(open(doc, "rb")).pages) for doc in doc_paths)
assert total_paginas >= 50, f"Páginas insuficientes: {total_paginas}"



#### **2.1.2 Vectorizar Documentos (0.2 puntos)**

Vectorice los documentos y almacene sus representaciones de manera acorde.

In [None]:
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain_community.vectorstores import FAISS

# Paso 1: Cargar los documentos
os.environ["GOOGLE_API_KEY"] = "AIzaSyDPE9ABN4nz3wg28_3nguuLsBOOpBJ4gdI"
documents = []
for path in doc_paths:
    loader = PyPDFLoader(path)
    documents.extend(loader.load())

# Paso 2: Dividir en chunks
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
splits = text_splitter.split_documents(documents)

# Paso 3: Configurar embeddings y vectorización
embedding = GoogleGenerativeAIEmbeddings(model="models/embedding-001")  # Inicializamos embeddings
vectorstore = FAISS.from_documents(documents=splits, embedding=embedding)  # Vectorización y almacenamiento
vectorstore


  ioloop.make_current()
  if LooseVersion(numpy.__version__) >= "1.19":
  other = LooseVersion(other)


<langchain_community.vectorstores.faiss.FAISS at 0x7f0c55573fd0>

#### **2.1.3 Habilitar RAG (0.3 puntos)**

Habilite la solución RAG a través de una *chain* y guárdela en una variable.

In [None]:
retriever = vectorstore.as_retriever(search_type="similarity", # método de búsqueda
                                     search_kwargs={"k": 3}, # n° documentos a recuperar
                                     )
retriever


  and should_run_async(code)


VectorStoreRetriever(tags=['FAISS', 'GoogleGenerativeAIEmbeddings'], vectorstore=<langchain_community.vectorstores.faiss.FAISS object at 0x7f0c55573fd0>, search_kwargs={'k': 3})

#### **2.1.4 Verificación de respuestas (0.5 puntos)**

Genere un listado de 3 tuplas ("pregunta", "respuesta correcta") y analice la respuesta de su solución para cada una. ¿Su solución RAG entrega las respuestas que esperaba?

Ejemplo de tupla:
- Pregunta: ¿Quién es el presidente de Chile?
- Respuesta correcta: El presidente de Chile es Gabriel Boric

In [None]:
question = "Dame tips para entrenar en casa" # pregunta
relevant_documents = retriever.invoke(question) # top k documentos relevantes a la pregunta
relevant_documents

[Document(metadata={'source': 'ENCICLOPEDIA-DE-EJERCICIOS-ACTUALIZADO.pdf', 'page': 21}, page_content='- Si entrenas en casa y no dispones de mucho material, lo ideal es que te centres en \nmovimientos básicos que generan un gran estímulo. Por ejemplo, una sentadilla con \ntriple rebote abajo en cada repetición (sin descansar arriba) con 2 garrafas de agua \nde 5 L (una en cada mano), haciendo series de 15-20 repeticiones con un ritmo de \nejecución lento (y vuelvo a hacer hincapié en el triple rebote abajo y no descansar'),
 Document(metadata={'source': 'ENCICLOPEDIA-DE-EJERCICIOS-ACTUALIZADO.pdf', 'page': 28}, page_content='. Patada de tríceps desde casa con goma\nNotas Aclaratorias:\n-Si Entrenas en casa, para Bíceps y para Tríceps no vas a tener demasiados proble-\nmas ya que la mayoría de ejercicios podemos hacerlo o bien con bandas elásticas \n(aquí te recomiendo tener de diferentes resistencias y echarle imaginación para \ncolocar la banda en diferentes sitios, diferentes altura

In [None]:
relevant_documents[0].page_content

  and should_run_async(code)


'- Si entrenas en casa y no dispones de mucho material, lo ideal es que te centres en \nmovimientos básicos que generan un gran estímulo. Por ejemplo, una sentadilla con \ntriple rebote abajo en cada repetición (sin descansar arriba) con 2 garrafas de agua \nde 5 L (una en cada mano), haciendo series de 15-20 repeticiones con un ritmo de \nejecución lento (y vuelvo a hacer hincapié en el triple rebote abajo y no descansar'

In [None]:
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

print(format_docs(relevant_documents))

- Si entrenas en casa y no dispones de mucho material, lo ideal es que te centres en 
movimientos básicos que generan un gran estímulo. Por ejemplo, una sentadilla con 
triple rebote abajo en cada repetición (sin descansar arriba) con 2 garrafas de agua 
de 5 L (una en cada mano), haciendo series de 15-20 repeticiones con un ritmo de 
ejecución lento (y vuelvo a hacer hincapié en el triple rebote abajo y no descansar

. Patada de tríceps desde casa con goma
Notas Aclaratorias:
-Si Entrenas en casa, para Bíceps y para Tríceps no vas a tener demasiados proble-
mas ya que la mayoría de ejercicios podemos hacerlo o bien con bandas elásticas 
(aquí te recomiendo tener de diferentes resistencias y echarle imaginación para 
colocar la banda en diferentes sitios, diferentes alturas…) o bien con garrafas de 
agua de 5 litros.
-Como habrás visto en los vídeos, una de las cosas más importantes para tener una

Notas Aclaratorias:
- Si entrenas en casa, evidentemente, habrá ejercicios que no podamo

In [None]:
retriever_chain = retriever | format_docs # chain
print(retriever_chain.invoke("Dame tips para entrenar en casa"))

- Si entrenas en casa y no dispones de mucho material, lo ideal es que te centres en 
movimientos básicos que generan un gran estímulo. Por ejemplo, una sentadilla con 
triple rebote abajo en cada repetición (sin descansar arriba) con 2 garrafas de agua 
de 5 L (una en cada mano), haciendo series de 15-20 repeticiones con un ritmo de 
ejecución lento (y vuelvo a hacer hincapié en el triple rebote abajo y no descansar

. Patada de tríceps desde casa con goma
Notas Aclaratorias:
-Si Entrenas en casa, para Bíceps y para Tríceps no vas a tener demasiados proble-
mas ya que la mayoría de ejercicios podemos hacerlo o bien con bandas elásticas 
(aquí te recomiendo tener de diferentes resistencias y echarle imaginación para 
colocar la banda en diferentes sitios, diferentes alturas…) o bien con garrafas de 
agua de 5 litros.
-Como habrás visto en los vídeos, una de las cosas más importantes para tener una

Notas Aclaratorias:
- Si entrenas en casa, evidentemente, habrá ejercicios que no podamo

In [None]:
from langchain_google_genai import ChatGoogleGenerativeAI

llm = ChatGoogleGenerativeAI(
    model="gemini-1.5-flash", # modelo de lenguaje
    temperature=0, # probabilidad de "respuestas creativas"
    max_tokens=None, # sin tope de tokens
    timeout=None, # sin timeout
    max_retries=2, # número máximo de intentos
)


from langchain.prompts import PromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain.schema import StrOutputParser


# Prompt adaptado
rag_template = '''
Eres un asistente experto en fitness y entrenamiento físico.
Tu único rol es contestar preguntas del usuario a partir de información relevante que te sea proporcionada.
Responde siempre de la forma más completa posible y usando toda la información entregada.
Responde sólo lo que te pregunten a partir de la información relevante e implicita en los documentos.

Información relevante: {context}
Pregunta: {question}
Respuesta útil:
'''

rag_prompt = PromptTemplate.from_template(rag_template)

rag_chain = (
    {
        "context": retriever_chain, # context lo obtendremos del retriever_chain
        "question": RunnablePassthrough(), # question pasará directo hacia el prompt
    }
    | rag_prompt # prompt con las variables question y context
    | llm # llm recibe el prompt y responde
    | StrOutputParser() # recuperamos sólo la respuesta
)

  and should_run_async(code)


In [None]:
questions_answers = [
    ("¿Cómo puedo fortalecer los bíceps en casa?", "Puedes fortalecer los bíceps realizando curls con mancuernas, garrafas de agua o bandas elásticas."),
    ("¿Qué ventajas tiene entrenar con peso corporal?", "Entrenar con peso corporal mejora la fuerza funcional, es económico y no requiere equipamiento."),
    ("Dame tips para entrenar en casa", "Usa recursos como bandas elásticas, garrafas de agua o peso corporal; realiza sentadillas, estocadas y sé constante."),
]

  and should_run_async(code)


In [None]:
question = "¿Cómo puedo fortalecer los bíceps en casa?"
response = rag_chain.invoke(question)
print(response)


Para fortalecer los bíceps en casa, puedes utilizar bandas elásticas de diferentes resistencias o garrafas de agua de 5 litros.  La información proporcionada sugiere que la imaginación para colocar la banda en diferentes sitios y alturas es clave para variar el entrenamiento.  Recuerda que los bíceps son músculos relativamente pequeños, por lo que no es necesario realizar un alto volumen de series.  La clave está en la correcta ejecución de la técnica en cada ejercicio.



In [None]:
question = "¿Qué ventajas tiene entrenar con peso corporal?"
response = rag_chain.invoke(question)
print(response)

  and should_run_async(code)


Entrenar con peso corporal ofrece la ventaja de poder realizar ejercicios en cualquier lugar, sin necesidad de equipo especializado como barras o mancuernas.  Si no se dispone de material, se pueden adaptar ejercicios como el Hip Trust o puente de glúteo añadiendo peso a la pelvis con mochilas, gomas elásticas, botellas o garrafas de agua.  Para el entrenamiento de hombros, las bandas elásticas permiten realizar elevaciones laterales, frontales, Face Pull y press militar, siendo una alternativa viable a las pesas.  Incluso ejercicios como elevaciones laterales o remo al mentón pueden hacerse con garrafas de agua de 5 litros, ofreciendo una buena alternativa si se busca una ejecución lenta y precisa.  Aunque se limitan ejercicios como sentadillas en multipower o patadas de glúteo en máquina, el entrenamiento con peso corporal permite una adaptación efectiva para suplir la falta de equipo.



In [None]:
question = "Dame tips para entrenar en casa"
response = rag_chain.invoke(question)
print(response)

  and should_run_async(code)


Si entrenas en casa con poco material, concéntrate en ejercicios básicos que proporcionen un gran estímulo.  Un ejemplo excelente es la sentadilla con triple rebote abajo en cada repetición (sin descanso arriba), usando dos garrafas de agua de 5 litros (una en cada mano).  Realiza series de 15-20 repeticiones a un ritmo lento, enfatizando ese triple rebote abajo.  Para bíceps y tríceps, puedes usar bandas elásticas de diferentes resistencias, colocándolas de diversas maneras para variar el ejercicio, o bien garrafas de agua de 5 litros.  Recuerda que aunque no puedas usar máquinas como las prensas o la sentadilla en multipower, o ejercicios como patadas de glúteo en máquina, existen alternativas efectivas para entrenar en casa.  Un ejemplo de ejercicio para tríceps que puedes realizar en casa es la patada de tríceps con goma.



* Para la primera pregunta la respuesta es adecuada a la pregunta, ya que hace el énfasis en entrenar bíceps, que es el músculo solicitado y, además, solamente da ejercicios en casa como es pedido, dando distintos ejercicios y con diversos implementos, complementando completamente la respuesta.
* Al preguntar respecto a las ventajas del ejercicio con el propio peso corporal, señala las múltiples ventajas de esto, sin embargo, se desvía de la pregunta al incluir implementos para algunos ejercicios como lo son las elevaciones laterales, hip thrust, que si bien no se pueden hacer con el propio peso corporal, no se deberían incluir en la respuesta.
* Al ser preguntado por tips para entrenar en casa logra responder de manera satisfactoria, ya que primero da consejos generales y luego da ejemplos específicos que se pueden implementar en tu rutina.

#### **2.1.5 Sensibilidad de Hiperparámetros (0.5 puntos)**

Extienda el análisis del punto 2.1.4 analizando cómo cambian las respuestas entregadas cambiando los siguientes hiperparámetros:
- `Tamaño del chunk`. (*¿Cómo repercute que los chunks sean mas grandes o chicos?*)
- `La cantidad de chunks recuperados`. (*¿Qué pasa si se devuelven muchos/pocos chunks?*)
- `El tipo de búsqueda`. (*¿Cómo afecta el tipo de búsqueda a las respuestas de mi RAG?*)

In [None]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=50, chunk_overlap=50)
splits = text_splitter.split_documents(documents)

embedding = GoogleGenerativeAIEmbeddings(model="models/embedding-001")  # Inicializamos embeddings
vectorstore = FAISS.from_documents(documents=splits, embedding=embedding)  # Vectorización y almacenamiento
vectorstore

retriever = vectorstore.as_retriever(search_type="similarity", # método de búsqueda
                                     search_kwargs={"k": 3}, # n° documentos a recuperar
                                     )

retriever_chain = retriever | format_docs # chain

rag_chain = (
    {
        "context": retriever_chain, # context lo obtendremos del retriever_chain
        "question": RunnablePassthrough(), # question pasará directo hacia el prompt
    }
    | rag_prompt # prompt con las variables question y context
    | llm # llm recibe el prompt y responde
    | StrOutputParser() # recuperamos sólo la respuesta
)


  and should_run_async(code)


In [None]:
question = "¿Cómo puedo fortalecer los bíceps en casa?"
response = rag_chain.invoke(question)
print(response)


Como entrenas en casa y la información proporcionada no incluye ejercicios específicos para bíceps, no puedo darte una respuesta sobre cómo fortalecerlos en casa.  Se necesita más información sobre ejercicios apropiados para realizar en casa para poder responder a tu pregunta.



In [None]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
splits = text_splitter.split_documents(documents)

embedding = GoogleGenerativeAIEmbeddings(model="models/embedding-001")  # Inicializamos embeddings
vectorstore = FAISS.from_documents(documents=splits, embedding=embedding)  # Vectorización y almacenamiento
vectorstore

retriever = vectorstore.as_retriever(search_type="similarity", # método de búsqueda
                                     search_kwargs={"k": 3}, # n° documentos a recuperar
                                     )

retriever_chain = retriever | format_docs # chain

rag_chain = (
    {
        "context": retriever_chain, # context lo obtendremos del retriever_chain
        "question": RunnablePassthrough(), # question pasará directo hacia el prompt
    }
    | rag_prompt # prompt con las variables question y context
    | llm # llm recibe el prompt y responde
    | StrOutputParser() # recuperamos sólo la respuesta
)

  and should_run_async(code)


In [None]:
question = "¿Cómo puedo fortalecer los bíceps en casa?"
response = rag_chain.invoke(question)
print(response)

Para fortalecer los bíceps en casa, puedes utilizar bandas elásticas de diferentes resistencias o garrafas de agua de 5 litros.  Recuerda prestar especial atención a la técnica, ya que un pequeño movimiento incorrecto del codo puede afectar la efectividad del ejercicio.  Dado que los bíceps son músculos relativamente pequeños, no es necesario realizar un alto volumen de series.



In [None]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
splits = text_splitter.split_documents(documents)

embedding = GoogleGenerativeAIEmbeddings(model="models/embedding-001")  # Inicializamos embeddings
vectorstore = FAISS.from_documents(documents=splits, embedding=embedding)  # Vectorización y almacenamiento
vectorstore

retriever = vectorstore.as_retriever(search_type="mmr", # método de búsqueda
                                     search_kwargs={"k": 3}, # n° documentos a recuperar
                                     )

retriever_chain = retriever | format_docs # chain

rag_chain = (
    {
        "context": retriever_chain, # context lo obtendremos del retriever_chain
        "question": RunnablePassthrough(), # question pasará directo hacia el prompt
    }
    | rag_prompt # prompt con las variables question y context
    | llm # llm recibe el prompt y responde
    | StrOutputParser() # recuperamos sólo la respuesta
)

  and should_run_async(code)


In [None]:
question = "¿Cómo puedo fortalecer los bíceps en casa?"
response = rag_chain.invoke(question)
print(response)

Para fortalecer los bíceps en casa, puedes utilizar bandas elásticas de diferentes resistencias o garrafas de agua de 5 litros.  La guía sugiere usar la imaginación para colocar la banda en diferentes sitios y alturas para variar el entrenamiento.  Un ejemplo de ejercicio es el curl de bíceps con barra de pie, aunque no se describe cómo realizarlo con las alternativas propuestas (bandas elásticas o garrafas).



Después de modificar varias veces los parámetros se concluyó que:
* Chunk Size: Con chunks más grandes tuvimos que nos dieron respuestas más completas, pero perdieron un poco de precisión en algunos casos. Para chunks más pequeños hubo respuestas más específicas, pero carecían de contexto.
* Number of Chunks Retrieved: Con más chunks hubo una mayor cobertura de información y con menos chunks las respuestas fueron más rápidas y enfocadas, pero con menos contexto.
* Search Type: Con 'similarity' hubo respuestas más relevantes, pero con menos contexto. Con 'mmr' hubo mejores respuestas que balancearon la relevancia y diversidad.

### **2.2 Agentes (1.0 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/rcqnN2aJCSEAAAAd/secret-agent-man.gif"
" width="400">
</p>

Similar a la sección anterior, en esta sección se busca habilitar **Agentes** para obtener información a través de tools y así responder la pregunta del usuario.

#### **2.2.1 Tool de Tavily (0.2 puntos)**

Generar una *tool* que pueda hacer consultas al motor de búsqueda **Tavily**.

In [None]:
from langchain_community.tools.tavily_search import TavilySearchResults

search = TavilySearchResults(max_results = 1) # inicializamos tool
tools = [search] # guardamos las tools en una lista

  and should_run_async(code)


#### **2.2.2 Tool de Wikipedia (0.2 puntos)**

Generar una *tool* que pueda hacer consultas a **Wikipedia**.

*Hint: Le puede ser de ayuda el siguiente [link](https://python.langchain.com/v0.1/docs/modules/tools/).*

In [None]:
!pip install langchain_community



In [None]:
!pip install wikipedia

Collecting wikipedia
  Downloading wikipedia-1.4.0.tar.gz (27 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: wikipedia
  Building wheel for wikipedia (setup.py) ... [?25l[?25hdone
  Created wheel for wikipedia: filename=wikipedia-1.4.0-py3-none-any.whl size=11679 sha256=5fcd8304d6c8645d92c095f106b41854c07ba513e72a8d0538e432144d91bde2
  Stored in directory: /root/.cache/pip/wheels/5e/b6/c5/93f3dec388ae76edc830cb42901bb0232504dfc0df02fc50de
Successfully built wikipedia
Installing collected packages: wikipedia
Successfully installed wikipedia-1.4.0


In [None]:
from langchain_community.tools import WikipediaQueryRun
from langchain_community.utilities import WikipediaAPIWrapper

api_wrapper = WikipediaAPIWrapper(top_k_results=1, doc_content_chars_max=100)
tool = WikipediaQueryRun(api_wrapper=api_wrapper)

#### **2.2.3 Crear Agente (0.3 puntos)**

Crear un agente que pueda responder preguntas preguntas usando las *tools* antes generadas. Asegúrese que su agente responda en español. Por último, guarde el agente en una variable.

In [None]:
from langchain import hub
from langchain.agents import create_react_agent, AgentExecutor

# Cargar el template ReAct del hub de LangChain
react_prompt = hub.pull("hwchase17/react")  # Template de ReAct

# Crear el agente
agent = create_react_agent(
    llm=llm,
    tools=tools,
    prompt=react_prompt
)

# Habilitar ejecución del agente
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)
agent_executor



AgentExecutor(verbose=True, agent=RunnableAgent(runnable=RunnableAssign(mapper={
  agent_scratchpad: RunnableLambda(lambda x: format_log_to_str(x['intermediate_steps']))
})
| PromptTemplate(input_variables=['agent_scratchpad', 'input'], input_types={}, partial_variables={'tools': 'tavily_search_results_json - A search engine optimized for comprehensive, accurate, and trusted results. Useful for when you need to answer questions about current events. Input should be a search query.', 'tool_names': 'tavily_search_results_json'}, metadata={'lc_hub_owner': 'hwchase17', 'lc_hub_repo': 'react', 'lc_hub_commit_hash': 'd15fe3c426f1c4b3f37c9198853e4a86e20c425ca7f4752ec0c9b0e97ca7ea4d'}, template='Answer the following questions as best you can. You have access to the following tools:\n\n{tools}\n\nUse the following format:\n\nQuestion: the input question you must answer\nThought: you should always think about what to do\nAction: the action to take, should be one of [{tool_names}]\nAction Input: 

#### **2.2.4 Verificación de respuestas (0.3 puntos)**

Pruebe el funcionamiento de su agente y asegúrese que el agente esté ocupando correctamente las tools disponibles. ¿En qué casos el agente debería ocupar la tool de Tavily? ¿En qué casos debería ocupar la tool de Wikipedia?

In [None]:
response = agent_executor.invoke({"input": "Que pasó hoy en Japón"})
print(response["output"])

  and should_run_async(code)




[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mThought: I need to find out what happened today in Japan.  I'll use the search engine to get news results.

Action: tavily_search_results_json
Action Input: "news Japan today"
[0m[36;1m[1;3m[{'url': 'https://japantoday.com/', 'content': 'Many worry…\nRead\nKuchikomi\nIdentity theft of businesses is not entirely unknown, but one particularly brazen activity became known recently when police announced a bust in Kabukicho district of…\nRead\nStudy RealJapanese at home\nArticles, Offers & Useful Resources\nA mix of what\'s trending on our other sites\nNisonin Temple\nGaijinPot Travel\nHogon-in Temple\nGaijinPot Travel\n10 Great Date Spots in Tokyo for Valentine’s Day\nGaijinPot Blog\nThe 10 Best Things to Do in Osaka\nGaijinPot Blog\nThe Great Hanshin-Awaji Earthquake Memorial Museum\nGaijinPot Travel\nSunrise Express\nGaijinPot Travel\nThis Week: Japan\'s space agency says it may now have clues\nAn unmanned lunar spacecraft h

In [None]:
response = agent_executor.invoke({"input":"Quién es el campeón mundial fútbol"})
print(response["output"])



[1m> Entering new AgentExecutor chain...[0m


  and should_run_async(code)


[32;1m[1;3mThought: I need to find out who the current FIFA World Cup champion is.  I'll use the search engine to find this information.

Action: tavily_search_results_json
Action Input: "FIFA World Cup champion"
[0m[36;1m[1;3m[{'url': 'https://en.wikipedia.org/wiki/List_of_FIFA_World_Cup_finals', 'content': "The only exception to this type of format was the 1950 World Cup, which featured a final round-robin group of four teams; the decisive match of that group is often regarded as the de facto final of that tournament, including by FIFA itself.[3]\nThe team that wins the final receives the FIFA World Cup Trophy, and its name is engraved on the bottom side of the trophy.[4] Of 80 different nations that have appeared in the tournament, 13 have made it to the final, and 8 have won. The World Cup final match is the last of the competition, played by the only two teams remaining in contention, and the result determines which country is declared the world champion. Contents\nList of FI

Se usa Tavily cuando:
La pregunta requiere información actualizada que no está disponible en Wikipedia, como datos recientes o eventos actuales.


Se usa Wikipedia cuando:
La pregunta se basa en información general, histórica o académica que es estable en el tiempo y está documentada en Wikipedia.

### **2.3 Multi Agente (1.5 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/r7QMJLxU4BoAAAAd/this-is-getting-out-of-hand-star-wars.gif"
" width="450">
</p>

El objetivo de esta subsección es encapsular las funcionalidades creadas en una solución multiagente con un **supervisor**.


#### **2.3.1 Generando Tools (0.5 puntos)**

Transforme la solución RAG de la sección 2.1 y el agente de la sección 2.2 a *tools* (una tool por cada uno).

In [None]:
from langchain_core.tools import Tool


# Tool para RAG
rag_tool = Tool.from_function(
    name="rag_tool",
    func=rag_chain.invoke,
    description="Responde preguntas usando información relevante recuperada de documentos y un modelo generativo."
)

# Encapsular el agente en una herramienta ejecutable
def run_agent(inputs):
    """Función que ejecuta el agente ReAct."""
    agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)
    return agent_executor.invoke(inputs)

# Tool para el Agente ReAct
react_tool = Tool.from_function(
    name="react_tool",
    func=run_agent,
    description="Agente que utiliza razonamiento y herramientas dinámicas para resolver problemas complejos."
)

  and should_run_async(code)


#### **2.3.2 Agente Supervisor (0.5 puntos)**

Habilite un agente que tenga acceso a las tools del punto anterior y pueda responder preguntas relacionadas. Almacene este agente en una variable llamada supervisor.

In [None]:
from langchain.agents import initialize_agent, AgentType


# Lista de herramientas disponibles para el agente
tools = [rag_tool, react_tool]

# Crear el agente supervisor
supervisor = initialize_agent(
    tools=tools,
    llm=llm,
    agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION,
    verbose=True
)

  supervisor = initialize_agent(


#### **2.3.3 Verificación de respuestas (0.25 puntos)**

Pruebe el funcionamiento de su agente repitiendo las preguntas realizadas en las secciones 2.1.4 y 2.2.4 y comente sus resultados. ¿Cómo varían las respuestas bajo este enfoque?

In [None]:
response = supervisor.run("Como puedo fortalecer los biceps en casa")
print(response)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mThought: Necesito información sobre ejercicios para bíceps que se puedan realizar en casa sin equipo especial.  Usaré la herramienta rag_tool para obtener esa información.

Action: rag_tool
Action Input: "Ejercicios para fortalecer los bíceps en casa sin pesas"
[0m
Observation: [36;1m[1;3mLa información proporcionada menciona que para entrenar bíceps en casa, se pueden usar bandas elásticas de diferentes resistencias,  o garrafas de agua de 5 litros.  No se describen ejercicios específicos para bíceps con estos materiales.
[0m
Thought:[32;1m[1;3mThought: La información obtenida es insuficiente. Necesito ejemplos concretos de ejercicios.  Intentaré una consulta más específica a rag_tool.

Action: rag_tool
Action Input: "Ejemplos de ejercicios para bíceps en casa sin pesas, usando el peso del cuerpo o botellas de agua."
[0m
Observation: [36;1m[1;3mLa información proporcionada no describe ejercicios para bíceps usando e

In [None]:
response = supervisor.run("¿Qué ventajas tiene entrenar con peso corporal?")
print(response)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mThought: Para responder a la pregunta sobre las ventajas de entrenar con peso corporal, necesito información sobre este tipo de entrenamiento.  Usaré la herramienta rag_tool para obtener esa información.

Action: rag_tool
Action Input:  "¿Cuáles son las ventajas del entrenamiento con peso corporal?"
[0m
Observation: [36;1m[1;3mEl entrenamiento con peso corporal, como se describe en el texto, ofrece la ventaja de ser una alternativa viable para mantenerse en forma durante periodos de confinamiento o cuando no se dispone de material de gimnasio como barras o mancuernas.  Permite realizar ejercicios como el hip thrust o puente de glúteo, adaptando el peso mediante el uso creativo de objetos cotidianos como mochilas, gomas elásticas, botellas o garrafas para añadir resistencia y mantener la intensidad del entrenamiento.
[0m
Thought:[32;1m[1;3mThought: La observación proporciona una ventaja, pero es limitada. Necesito más in

In [None]:
response = supervisor.run("Dame tips para entrenar en casa")
print(response)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mThought: Necesito información sobre cómo entrenar en casa.  Usaré la herramienta rag_tool para obtener consejos.

Action: rag_tool
Action Input: "Consejos para entrenar en casa sin equipo o con poco equipo"
[0m
Observation: [36;1m[1;3mSi entrenas en casa con poco o ningún equipo, concéntrate en ejercicios básicos que proporcionen un gran estímulo.  Un ejemplo excelente es la sentadilla con triple rebote abajo en cada repetición (sin descanso en la parte superior), usando dos garrafas de agua de 5 litros (una en cada mano).  Realiza series de 15-20 repeticiones a un ritmo lento, enfatizando el triple rebote en la parte inferior del movimiento.  Para entrenar glúteos en casa, la mayoría de los ejercicios de activación utilizan bandas elásticas o el peso del propio cuerpo, por lo que no deberías tener problemas.
[0m
Thought:[32;1m[1;3mThought: La respuesta de rag_tool proporciona un buen consejo, pero necesito más variedad

In [None]:
response = supervisor.run("Quien es el campeon mundial futbol")
print(response)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mThought: Necesito encontrar información sobre quién es el campeón mundial de fútbol.  Usaré la herramienta rag_tool para buscar esta información.

Action: rag_tool
Action Input: "¿Quién es el campeón mundial de fútbol?"
[0m
Observation: [36;1m[1;3mLa información proporcionada no contiene ninguna referencia a un campeón mundial de fútbol.  Por lo tanto, no puedo responder a tu pregunta.
[0m
Thought:[32;1m[1;3mThought: La herramienta rag_tool no pudo encontrar la respuesta.  Intentaré reformular la pregunta para ver si obtengo mejores resultados.  También consideraré usar una herramienta de búsqueda en internet directamente si rag_tool sigue fallando.

Action: rag_tool
Action Input: "Campeón Mundial de Fútbol FIFA"
[0m
Observation: [36;1m[1;3mLa información proporcionada no contiene ninguna referencia a un "Campeón Mundial de Fútbol FIFA".  Por lo tanto, no puedo responder a tu pregunta.
[0m
Thought:[32;1m[1;3mThoug

In [None]:
response = supervisor.run("Que paso hoy en Japon?")
print(response)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mThought: I need to find out what happened today in Japan.  I'll use the rag_tool to search for news about Japan from today.

Action: rag_tool
Action Input: 'What happened in Japan today?'
[0m
Observation: [36;1m[1;3mLo siento, pero la información proporcionada no contiene ninguna información sobre lo que sucedió en Japón hoy.  Mi conocimiento se limita a la información que me has dado, que se centra en una guía de acondicionamiento físico y una mención de Manuel Escalera.
[0m
Thought:[32;1m[1;3mThought: The rag_tool didn't find any information.  I need a different approach.  I can't directly access real-time news sources.  Therefore, I cannot answer the question.

Final Answer: No tengo acceso a información en tiempo real para responder a tu pregunta sobre lo que sucedió hoy en Japón.
[0m

[1m> Finished chain.[0m
No tengo acceso a información en tiempo real para responder a tu pregunta sobre lo que sucedió hoy en Jap

Para las primeras tres preguntas o mejora las respuestas, o mantiene el nivel, sin embargo la tercera es entregada en inglés, cuando lo esperado es que lo haga en nuestro idioma, el español. Aún teniendo esta complicación las respuestas son más completas, realizando punteos por grupos musculares o por ejercicios que se pueden realizar.

Respecto a las últimas dos, este enfoque no fue capaz de responderlas, cuando anteriormente sí pudieron ser respondidas.

#### **2.3.4 Análisis (0.25 puntos)**

¿Qué diferencias tiene este enfoque con la solución *Router* vista en clases? Nombre al menos una ventaja y desventaja.

El enfoque del agente supervisor utiliza razonamiento dinámico a través de un modelo de lenguaje para seleccionar herramientas, permitiendo decisiones flexibles y adaptativas en tiempo real. En cambio, el Router se basa en reglas predefinidas para encaminar las entradas, lo que lo hace más eficiente pero menos adaptable a entradas ambiguas o no previstas.
* Ventaja: El agente supervisor es altamente adaptable, capaz de manejar entradas abiertas o complejas sin necesidad de reglas predefinidas.
* Desventaja: Tiene un mayor costo computacional, ya que requiere el uso continuo del modelo de lenguaje para decidir qué herramienta utilizar.