# **Laboratorio 11: LLM y Agentes Aut√≥nomos ü§ñ**

MDS7202: Laboratorio de Programaci√≥n Cient√≠fica para Ciencia de Datos

### **Cuerpo Docente:**

- Profesores: Ignacio Meza, Sebasti√°n Tinoco
- Auxiliar: Eduardo Moya
- Ayudantes: Nicol√°s Ojeda, Melanie Pe√±a, Valentina Rojas

### **Equipo: SUPER IMPORTANTE - notebooks sin nombre no ser√°n revisados**

- Nombre de alumno 1: Nicolas Herrera
- Nombre de alumno 2: Lucas Carrasco

### **Link de repositorio de GitHub:** [Insertar Repositorio](https://github.com/vspartamo/MDS7202)

## **Temas a tratar**

- Reinforcement Learning
- Large Language Models

## **Reglas:**

- **Grupos de 2 personas**
- Cualquier duda fuera del horario de clases al foro. Mensajes al equipo docente ser√°n respondidos por este medio.
- Prohibidas las copias.
- Pueden usar cualquer matrial del curso que estimen conveniente.

### **Objetivos principales del laboratorio**

- Resoluci√≥n de problemas secuenciales usando Reinforcement Learning
- Habilitar un Chatbot para entregar respuestas √∫tiles usando Large Language Models.

El laboratorio deber√° ser desarrollado sin el uso indiscriminado de iteradores nativos de python (aka "for", "while"). La idea es que aprendan a exprimir al m√°ximo las funciones optimizadas que nos entrega `pandas`, las cuales vale mencionar, son bastante m√°s eficientes que los iteradores nativos sobre DataFrames.

## **1. Reinforcement Learning (2.0 puntos)**

En esta secci√≥n van a usar m√©todos de RL para resolver dos problemas interesantes: `Blackjack` y `LunarLander`.

In [1]:
!pip install -qqq gymnasium stable_baselines3
!pip install -qqq swig
!pip install -qqq gymnasium[box2d]

ERROR: Could not build wheels for box2d-py, which is required to install pyproject.toml-based projects


### **1.1 Blackjack (1.0 puntos)**

<p align="center">
  <img src="https://www.recreoviral.com/wp-content/uploads/2016/08/s3.amazonaws.com-Math.gif"
" width="400">
</p>

La idea de esta subsecci√≥n es que puedan implementar m√©todos de RL y as√≠ generar una estrategia para jugar el cl√°sico juego Blackjack y de paso puedan ~~hacerse millonarios~~ aprender a resolver problemas mediante RL.

Comencemos primero preparando el ambiente. El siguiente bloque de c√≥digo transforma las observaciones del ambiente a `np.array`:


In [2]:
import gymnasium as gym
from gymnasium.spaces import MultiDiscrete
import numpy as np

class FlattenObservation(gym.ObservationWrapper):
    def __init__(self, env):
        super(FlattenObservation, self).__init__(env)
        self.observation_space = MultiDiscrete(np.array([32, 11, 2]))

    def observation(self, observation):
        return np.array(observation).flatten()

# Create and wrap the environment
env = gym.make("Blackjack-v1")
env = FlattenObservation(env)

#### **1.1.1 Descripci√≥n de MDP (0.2 puntos)**

Entregue una breve descripci√≥n sobre el ambiente [Blackjack](https://gymnasium.farama.org/environments/toy_text/blackjack/) y su formulaci√≥n en MDP, distinguiendo de forma clara y concisa los estados, acciones y recompensas.

`escriba su respuesta ac√°`

#### **1.1.2 Generando un Baseline (0.2 puntos)**

Simule un escenario en donde se escojan acciones aleatorias. Repita esta simulaci√≥n 5000 veces y reporte el promedio y desviaci√≥n de las recompensas. ¬øC√≥mo calificar√≠a el performance de esta pol√≠tica? ¬øC√≥mo podr√≠a interpretar las recompensas obtenidas?

#### **1.1.3 Entrenamiento de modelo (0.2 puntos)**

A partir del siguiente [enlace](https://stable-baselines3.readthedocs.io/en/master/guide/algos.html), escoja un modelo de `stable_baselines3` y entrenelo para resolver el ambiente `Blackjack`.

#### **1.1.4 Evaluaci√≥n de modelo (0.2 puntos)**

Repita el ejercicio 1.1.2 pero utilizando el modelo entrenado. ¬øC√≥mo es el performance de su agente? ¬øEs mejor o peor que el escenario baseline?

#### **1.1.5 Estudio de acciones (0.2 puntos)**

Genere una funci√≥n que reciba un estado y retorne la accion del agente. Luego, use esta funci√≥n para entregar la acci√≥n escogida frente a los siguientes escenarios:

- Suma de cartas del agente es 6, dealer muestra un 7, agente no tiene tiene un as
- Suma de cartas del agente es 19, dealer muestra un 3, agente tiene tiene un as

¬øSon coherentes sus acciones con las reglas del juego?

Hint: ¬øA que clase de python pertenecen los estados? Pruebe a usar el m√©todo `.reset` para saberlo.

### **1.2 LunarLander**

<p align="center">
  <img src="https://i.redd.it/097t6tk29zf51.jpg"
" width="400">
</p>

Similar a la secci√≥n 2.1, en esta secci√≥n usted se encargar√° de implementar una gente de RL que pueda resolver el ambiente `LunarLander`.

Comencemos preparando el ambiente:


In [3]:
import gymnasium as gym
env = gym.make("LunarLander-v2", render_mode = "rgb_array", continuous = True) # notar el par√°metro continuous = True

DependencyNotInstalled: Box2D is not installed, run `pip install gymnasium[box2d]`

Noten que se especifica el par√°metro `continuous = True`. ¬øQue implicancias tiene esto sobre el ambiente?

Adem√°s, se le facilita la funci√≥n `export_gif` para el ejercicio 2.2.4:

In [None]:
import imageio
import numpy as np

def export_gif(model, n = 5):
  '''
  funci√≥n que exporta a gif el comportamiento del agente en n episodios
  '''
  images = []
  for episode in range(n):
    obs = model.env.reset()
    img = model.env.render()
    done = False
    while not done:
      images.append(img)
      action, _ = model.predict(obs)
      obs, reward, done, info = model.env.step(action)
      img = model.env.render(mode="rgb_array")

  imageio.mimsave("agent_performance.gif", [np.array(img) for i, img in enumerate(images) if i%2 == 0], fps=29)

#### **1.2.1 Descripci√≥n de MDP (0.2 puntos)**

Entregue una breve descripci√≥n sobre el ambiente [LunarLander](https://gymnasium.farama.org/environments/box2d/lunar_lander/) y su formulaci√≥n en MDP, distinguiendo de forma clara y concisa los estados, acciones y recompensas. ¬øComo se distinguen las acciones de este ambiente en comparaci√≥n a `Blackjack`?

Nota: recuerde que se especific√≥ el par√°metro `continuous = True`

`escriba su respuesta ac√°`

#### **1.2.2 Generando un Baseline (0.2 puntos)**

Simule un escenario en donde se escojan acciones aleatorias. Repita esta simulaci√≥n 10 veces y reporte el promedio y desviaci√≥n de las recompensas. ¬øC√≥mo calificar√≠a el performance de esta pol√≠tica?

#### **1.2.3 Entrenamiento de modelo (0.2 puntos)**

A partir del siguiente [enlace](https://stable-baselines3.readthedocs.io/en/master/guide/algos.html), escoja un modelo de `stable_baselines3` y entrenelo para resolver el ambiente `LunarLander` **usando 10000 timesteps de entrenamiento**.

#### **1.2.4 Evaluaci√≥n de modelo (0.2 puntos)**

Repita el ejercicio 1.2.2 pero utilizando el modelo entrenado. ¬øC√≥mo es el performance de su agente? ¬øEs mejor o peor que el escenario baseline?

#### **1.2.5 Optimizaci√≥n de modelo (0.2 puntos)**

Repita los ejercicios 1.2.3 y 1.2.4 hasta obtener un nivel de recompensas promedio mayor a 50. Para esto, puede cambiar manualmente par√°metros como:
- `total_timesteps`
- `learning_rate`
- `batch_size`

Una vez optimizado el modelo, use la funci√≥n `export_gif` para estudiar el comportamiento de su agente en la resoluci√≥n del ambiente y comente sobre sus resultados.

Adjunte el gif generado en su entrega (mejor a√∫n si adem√°s adjuntan el gif en el markdown).

## **2. Large Language Models (4.0 puntos)**

En esta secci√≥n se enfocar√°n en habilitar un Chatbot que nos permita responder preguntas √∫tiles a trav√©s de LLMs.

### **2.0 Configuraci√≥n Inicial**

<p align="center">
  <img src="https://media1.tenor.com/m/uqAs9atZH58AAAAd/config-config-issue.gif"
" width="400">
</p>

Como siempre, cargamos todas nuestras API KEY al entorno:

In [4]:
import getpass
import os

if "GOOGLE_API_KEY" not in os.environ:
    os.environ["GOOGLE_API_KEY"] = getpass.getpass("Enter your Google AI API key: ")

if "TAVILY_API_KEY" not in os.environ:
    os.environ["TAVILY_API_KEY"] = getpass.getpass("Enter your Tavily API key: ")

In [5]:
from langchain_google_genai import ChatGoogleGenerativeAI

llm = ChatGoogleGenerativeAI(
    model="gemini-1.5-flash",
    temperature=0,
    max_tokens=None,
    timeout=None,
    max_retries=2,
)

llm

ChatGoogleGenerativeAI(model='models/gemini-1.5-flash', google_api_key=SecretStr('**********'), temperature=0.0, max_retries=2, client=<google.ai.generativelanguage_v1beta.services.generative_service.client.GenerativeServiceClient object at 0x000001981585DDC0>, default_metadata=())

### **2.1 Retrieval Augmented Generation (1.5 puntos)**

<p align="center">
  <img src="https://y.yarn.co/218aaa02-c47e-4ec9-b1c9-07792a06a88f_text.gif"
" width="400">
</p>

El objetivo de esta subsecci√≥n es que habiliten un chatbot que pueda responder preguntas usando informaci√≥n contenida en documentos PDF a trav√©s de **Retrieval Augmented Generation.**

#### **2.1.1 Reunir Documentos (0 puntos)**

Reuna documentos PDF sobre los que hacer preguntas siguiendo las siguientes instrucciones:
  - 2 documentos .pdf como m√≠nimo.
  - 50 p√°ginas de contenido como m√≠nimo entre todos los documentos.
  - Ideas para documentos: Documentos relacionados a temas acad√©micos, laborales o de ocio. Aprovechen este ejercicio para construir algo √∫til y/o relevante para ustedes!
  - Deben ocupar documentos reales, no pueden utilizar los mismos de la clase.
  - Deben registrar sus documentos en la siguiente [planilla](https://docs.google.com/spreadsheets/d/1Hy1w_dOiG2UCHJ8muyxhdKPZEPrrL7BNHm6E90imIIM/edit?usp=sharing). **NO PUEDEN USAR LOS MISMOS DOCUMENTOS QUE OTRO GRUPO**
  - **Recuerden adjuntar los documentos en su entrega**.

In [6]:
%pip install --upgrade --quiet PyPDF2

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [7]:
import PyPDF2

doc_paths = ['AttentionIsAllYouNeed.pdf', 'BERT.pdf', 'ChainOfThought.pdf'] # rellenar con los path a sus documentos

assert len(doc_paths) >= 2, "Deben adjuntar un m√≠nimo de 2 documentos"

total_paginas = sum(len(PyPDF2.PdfReader(open(doc, "rb")).pages) for doc in doc_paths)
assert total_paginas >= 50, f"P√°ginas insuficientes: {total_paginas}"

In [8]:
from langchain_community.document_loaders import PyPDFLoader

docs = []
for path in doc_paths:
    loader = PyPDFLoader(path)
    docs += loader.load()
    
docs[:5]

[Document(metadata={'source': 'AttentionIsAllYouNeed.pdf', 'page': 0}, page_content='Provided proper attribution is provided, Google hereby grants permission to\nreproduce the tables and figures in this paper solely for use in journalistic or\nscholarly works.\nAttention Is All You Need\nAshish Vaswani‚àó\nGoogle Brain\navaswani@google.com\nNoam Shazeer‚àó\nGoogle Brain\nnoam@google.com\nNiki Parmar‚àó\nGoogle Research\nnikip@google.com\nJakob Uszkoreit‚àó\nGoogle Research\nusz@google.com\nLlion Jones‚àó\nGoogle Research\nllion@google.com\nAidan N. Gomez‚àó ‚Ä†\nUniversity of Toronto\naidan@cs.toronto.edu\n≈Åukasz Kaiser‚àó\nGoogle Brain\nlukaszkaiser@google.com\nIllia Polosukhin‚àó ‚Ä°\nillia.polosukhin@gmail.com\nAbstract\nThe dominant sequence transduction models are based on complex recurrent or\nconvolutional neural networks that include an encoder and a decoder. The best\nperforming models also connect the encoder and decoder through an attention\nmechanism. We propose a new simp

#### **2.1.2 Vectorizar Documentos (0.2 puntos)**

Vectorice los documentos y almacene sus representaciones de manera acorde.

In [9]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
splits = text_splitter.split_documents(docs)
splits[:5]

[Document(metadata={'source': 'AttentionIsAllYouNeed.pdf', 'page': 0}, page_content='Provided proper attribution is provided, Google hereby grants permission to\nreproduce the tables and figures in this paper solely for use in journalistic or\nscholarly works.\nAttention Is All You Need\nAshish Vaswani‚àó\nGoogle Brain\navaswani@google.com\nNoam Shazeer‚àó\nGoogle Brain\nnoam@google.com\nNiki Parmar‚àó\nGoogle Research\nnikip@google.com\nJakob Uszkoreit‚àó\nGoogle Research\nusz@google.com\nLlion Jones‚àó\nGoogle Research\nllion@google.com\nAidan N. Gomez‚àó ‚Ä†\nUniversity of Toronto\naidan@cs.toronto.edu'),
 Document(metadata={'source': 'AttentionIsAllYouNeed.pdf', 'page': 0}, page_content='University of Toronto\naidan@cs.toronto.edu\n≈Åukasz Kaiser‚àó\nGoogle Brain\nlukaszkaiser@google.com\nIllia Polosukhin‚àó ‚Ä°\nillia.polosukhin@gmail.com\nAbstract\nThe dominant sequence transduction models are based on complex recurrent or\nconvolutional neural networks that include an encoder an

In [10]:
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain_community.vectorstores import FAISS

embedding = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
vectorstore = FAISS.from_documents(documents=splits, embedding=embedding)
vectorstore

<langchain_community.vectorstores.faiss.FAISS at 0x19816c93350>

#### **2.1.3 Habilitar RAG (0.3 puntos)**

Habilite la soluci√≥n RAG a trav√©s de una *chain* y gu√°rdela en una variable.

In [11]:
retriever = vectorstore.as_retriever(
    search_type="similarity",
    search_kwargs={"k": 3},
)

def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

retriever_chain = retriever | format_docs

#### **2.1.4 Verificaci√≥n de respuestas (0.5 puntos)**

Genere un listado de 3 tuplas ("pregunta", "respuesta correcta") y analice la respuesta de su soluci√≥n para cada una. ¬øSu soluci√≥n RAG entrega las respuestas que esperaba?

Ejemplo de tupla:
- Pregunta: ¬øQui√©n es el presidente de Chile?
- Respuesta correcta: El presidente de Chile es Gabriel Boric

In [13]:
from langchain_core.prompts import PromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser

# noten como ahora existe el par√°metro de context!
rag_template = '''
Eres un asistente experto en investigaci√≥n sobre LLMs.
Tu √∫nico rol es contestar preguntas del usuario a partir de informaci√≥n relevante que te sea proporcionada.
Responde siempre de la forma m√°s completa posible y usando toda la informaci√≥n entregada.
Responde s√≥lo lo que te pregunten a partir de la informaci√≥n relevante, NUNCA inventes una respuesta.

Informaci√≥n relevante: {context}
Pregunta: {question}
Respuesta:
'''

rag_prompt = PromptTemplate.from_template(rag_template)

rag_chain = (
    {
        "context": retriever_chain,
        "question": RunnablePassthrough(),
    } # Los par√°metros de la plantilla
    | rag_prompt
    | llm
    | StrOutputParser()
)

In [21]:
question_answer_list = [
    (
        "Qu√© es un Transformer?",
        "Un Transformer es un tipo de arquitectura de red neuronal que usa un encoder-decoder para modelar relaciones en datos secuenciales."
    ),
    (
        "Seg√∫n Chain of Thought, ¬øqu√© t√©cnica se puede usar para resolver un problema complejo con un LLM?",
        "Se puede descomponer el problema en partes m√°s peque√±as y resolver cada parte por separado."
    )
]

for question_answer in question_answer_list:
    res = rag_chain.invoke(question_answer[0])
    print("Respuesta esperada: ", question_answer[1])
    print("Respuesta obtenita: ", res)
    print()

Respuesta esperada:  Un Transformer es un tipo de arquitectura de red neuronal que usa un encoder-decoder para modelar relaciones en datos secuenciales.
Respuesta obtenita:  Un Transformer es un modelo de transducci√≥n que utiliza √∫nicamente auto-atenci√≥n para calcular representaciones de su entrada y salida, sin usar RNNs alineados con la secuencia o convoluciones.  Su arquitectura se compone de un codificador y un decodificador, ambos formados por una pila de N=6 capas id√©nticas. Cada capa tiene dos subcapas: la primera es un mecanismo de auto-atenci√≥n multi-cabeza, y la segunda es una capa de alimentaci√≥n directa totalmente conectada.  Tanto el codificador como el decodificador utilizan codificaciones posicionales.  El modelo base utiliza una tasa de abandono (dropout) de Pdrop = 0.1 y durante el entrenamiento se emplea suavizado de etiquetas con un valor de œµls = 0.1.


Respuesta esperada:  Se puede descomponer el problema en partes m√°s peque√±as y resolver cada parte por se

**RESPUESTA**: La soluci√≥n de RAG entrega respuestas correctas, y bastante parecidas a las esperadas. Al ser preguntas no simples, era dif√≠cil que la respuesta fuera exactamente igual, pero en general, la respuesta entregada por RAG es correcta.

#### **2.1.5 Sensibilidad de Hiperpar√°metros (0.5 puntos)**

Extienda el an√°lisis del punto 2.1.4 analizando c√≥mo cambian las respuestas entregadas cambiando los siguientes hiperpar√°metros:
- `Tama√±o del chunk`. (*¬øC√≥mo repercute que los chunks sean mas grandes o chicos?*)
- `La cantidad de chunks recuperados`. (*¬øQu√© pasa si se devuelven muchos/pocos chunks?*)
- `El tipo de b√∫squeda`. (*¬øC√≥mo afecta el tipo de b√∫squeda a las respuestas de mi RAG?*)

In [22]:
def try_other_config(
    chunk_size: int = 500, 
    ammount_of_chunks: int = 3, 
    search_type: str = 'similarity'
):
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=50)
    splits = text_splitter.split_documents(docs)

    embedding = GoogleGenerativeAIEmbeddings(model="models/embedding-001") # inicializamos los embeddings
    vectorstore = FAISS.from_documents(documents=splits, embedding=embedding) # vectorizacion y almacenamiento

    retriever = vectorstore.as_retriever(
        search_type=search_type, # m√©todo de b√∫squeda
        search_kwargs={"k": ammount_of_chunks}, # n¬∞ documentos a recuperar
    )

    retriever_chain = retriever | format_docs

    rag_chain = (
        {
            "context": retriever_chain,
            "question": RunnablePassthrough(),
        }
        | rag_prompt
        | llm
        | StrOutputParser()
    )

    for question_answer in question_answer_list:
        res = rag_chain.invoke(question_answer[0])
        print("Respuesta esperada: ", question_answer[1])
        print("Respuesta obtenita: ", res)
        print()


**PROBANDO CAMBIAR TAMA√ëO DE CHUNK**

In [23]:
try_other_config(chunk_size=50)

Respuesta esperada:  Un Transformer es un tipo de arquitectura de red neuronal que usa un encoder-decoder para modelar relaciones en datos secuenciales.
Respuesta obtenita:  Basado en la informaci√≥n proporcionada, un Transformer es un modelo que puede ser usado para tareas de traducci√≥n.  Tambi√©n se menciona que existe una versi√≥n del Transformer referida como "Transformer".


Respuesta esperada:  Se puede descomponer el problema en partes m√°s peque√±as y resolver cada parte por separado.
Respuesta obtenita:  Seg√∫n la informaci√≥n proporcionada, la t√©cnica "chain of thought" es particularmente adecuada para resolver problemas complejos con un LLM.  El ejemplo dado muestra que un modelo que produce un "chain of thought" puede resolver un problema.  Sin embargo, la informaci√≥n no describe la t√©cnica en s√≠ misma, solo indica su idoneidad para este prop√≥sito.




**RESPUESTA**: Al achicar el tama√±o de los chunks se obtienen respuestas especificas pero distintas a lo que buscabamos. La respuesta es incompleta y difiere de lo que se esperaba. Esto se debe a que al achicar el tama√±o de los chunks, se obtiene menos informaci√≥n y contexto para responder la pregunta.

In [24]:
try_other_config(chunk_size=750)

Respuesta esperada:  Un Transformer es un tipo de arquitectura de red neuronal que usa un encoder-decoder para modelar relaciones en datos secuenciales.
Respuesta obtenita:  Un Transformer es una nueva arquitectura de red simple basada √∫nicamente en mecanismos de atenci√≥n, que prescinde por completo de la recurrencia y las convoluciones.  Est√° compuesta por un codificador y un decodificador, ambos con pilas de capas de auto-atenci√≥n multi-cabeza y redes completamente conectadas punto a punto.  El modelo codificador tiene una pila de N=6 capas id√©nticas, cada una con dos subcapas: una de auto-atenci√≥n multi-cabeza y otra red de avance completamente conectada.  Se utiliza una conexi√≥n residual alrededor de cada subcapa, seguida de normalizaci√≥n por capas.  Se aplica abandono (dropout) a la salida de cada subcapa, antes de sumarla a la entrada de la subcapa y normalizarla.  Tambi√©n se aplica abandono a la suma de las incrustaciones y las codificaciones posicionales.


Respuesta e

**RESPUESTA**: Al aumentar el tama√±o de los chunks se obtiene informaci√≥n muchisimo m√°s completa. Al tener tanta informaci√≥n, y dejar que el LLM la procese, se obtiene una respuesta mucho m√°s completa y correcta.

**PROBANDO CAMBIAR CANTIDAD DE CHUNKS**

In [25]:
try_other_config(ammount_of_chunks=1)

Respuesta esperada:  Un Transformer es un tipo de arquitectura de red neuronal que usa un encoder-decoder para modelar relaciones en datos secuenciales.
Respuesta obtenita:  Basado en la informaci√≥n proporcionada, un Transformer es un modelo de arquitectura que utiliza capas apiladas de auto-atenci√≥n y capas totalmente conectadas puntuales, tanto para el codificador como para el decodificador.  El codificador est√° compuesto por una pila de N=6 capas id√©nticas, cada una con dos subcapas: una de mecanismo de auto-atenci√≥n multi-cabeza y otra, una capa totalmente conectada simple y posicional.  La figura 1 muestra la arquitectura completa del modelo, con el codificador en la mitad izquierda y el decodificador en la mitad derecha.


Respuesta esperada:  Se puede descomponer el problema en partes m√°s peque√±as y resolver cada parte por separado.
Respuesta obtenita:  Seg√∫n la informaci√≥n proporcionada, Chain of Thought es una t√©cnica que se puede usar para resolver problemas complej

**RESPUESTA**: Al disminuir la cantidad de chunks recuperados, se obtiene una respuesta m√°s general y menos precisa, ya que el modelo obtieen menos contexto de diferentes partes del documento. Sin embargo, la respuesta en este caso es bastante buena, probablemente debido a que el tama√±o de los chunks es lo suficientemente grande para que el modelo pueda responder correctamente, y que el chunk que se obtiene es realmente suficiente.

In [26]:
try_other_config(ammount_of_chunks=8)

Respuesta esperada:  Un Transformer es un tipo de arquitectura de red neuronal que usa un encoder-decoder para modelar relaciones en datos secuenciales.
Respuesta obtenita:  El Transformer es una nueva y simple arquitectura de red propuesta como modelo de transducci√≥n de secuencias.  A diferencia de los modelos dominantes basados en redes neuronales recurrentes o convolucionales complejas, el Transformer utiliza √∫nicamente auto-atenci√≥n para calcular representaciones de su entrada y salida, sin usar RNNs o convoluciones alineados con la secuencia.  Es el primer modelo de transducci√≥n que hace esto.  Su arquitectura consta de un codificador y un decodificador, ambos compuestos por una pila de N=6 capas id√©nticas. Cada capa tiene dos subcapas: un mecanismo de auto-atenci√≥n multi-cabeza y una capa totalmente conectada puntual.  El modelo utiliza codificaciones posicionales tanto en el codificador como en el decodificador, y durante el entrenamiento se emplea suavizado de etiquetas c

**RESPUESTA**: Al aumentar la cantidad de chunks recuperados, se obtiene una respuesta m√°s completa y precisa, ya que el modelo obtiene m√°s contexto de diferentes partes del documento. Esto se cumple en este caso, entregando una respuesta bastante completa.

**PROBANDO CAMBIAR TIPO DE BUSQUEDA**

In [27]:
try_other_config(search_type='mmr')

Respuesta esperada:  Un Transformer es un tipo de arquitectura de red neuronal que usa un encoder-decoder para modelar relaciones en datos secuenciales.
Respuesta obtenita:  Un Transformer es un modelo de arquitectura que utiliza capas apiladas de auto-atenci√≥n y capas totalmente conectadas puntuales, tanto para el codificador como para el decodificador.  El codificador est√° compuesto por una pila de N=6 capas id√©nticas, cada una con dos subcapas: un mecanismo de auto-atenci√≥n multi-cabeza y una capa de conexi√≥n totalmente conectada posicional.  Se han desarrollado Transformers con diferentes tama√±os; por ejemplo, Vaswani et al. (2017) cre√≥ uno con (L=6, H=1024, A=16) y 100M par√°metros, mientras que el m√°s grande encontrado en la literatura (Al-Rfou et al., 2018) tiene (L=64, H=512, A=2) y 235M par√°metros.  Estos tama√±os se comparan con BERT BASE (110M par√°metros) y BERT LARGE (340M par√°metros).  Un Transformer de 4 capas logr√≥ un F1 de 91.3 en el an√°lisis sint√°ctico de

**RESPUESTA**: Al cambiar similarity por MMR (Maximal Marginal Relevance), se obtiene una respuesta m√°s completa gracias a la diversidad de los chunks recuperados. Esto dado a que MMR busca chunks que sean diferentes entre s√≠, lo que permite que el modelo tenga m√°s contexto para responder la pregunta.

### **2.2 Agentes (1.0 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/rcqnN2aJCSEAAAAd/secret-agent-man.gif"
" width="400">
</p>

Similar a la secci√≥n anterior, en esta secci√≥n se busca habilitar **Agentes** para obtener informaci√≥n a trav√©s de tools y as√≠ responder la pregunta del usuario.

#### **2.2.1 Tool de Tavily (0.2 puntos)**

Generar una *tool* que pueda hacer consultas al motor de b√∫squeda **Tavily**.

In [29]:
from langchain_community.tools.tavily_search import TavilySearchResults

tavily_tool = TavilySearchResults(max_results = 1)

#### **2.2.2 Tool de Wikipedia (0.2 puntos)**

Generar una *tool* que pueda hacer consultas a **Wikipedia**.

*Hint: Le puede ser de ayuda el siguiente [link](https://python.langchain.com/v0.1/docs/modules/tools/).*

In [30]:
%pip install wikipedia

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [31]:
from langchain_community.tools import WikipediaQueryRun
from langchain_community.utilities import WikipediaAPIWrapper

api_wrapper = WikipediaAPIWrapper(lang='es', top_k_results=1, doc_content_chars_max=100)
wiki_tool = WikipediaQueryRun(api_wrapper=api_wrapper)

#### **2.2.3 Crear Agente (0.3 puntos)**

Crear un agente que pueda responder preguntas preguntas usando las *tools* antes generadas. Aseg√∫rese que su agente responda en espa√±ol. Por √∫ltimo, guarde el agente en una variable.

In [32]:
from langchain import hub

react_prompt = hub.pull("hwchase17/react") # template de ReAct
print(react_prompt.template)



Answer the following questions as best you can. You have access to the following tools:

{tools}

Use the following format:

Question: the input question you must answer
Thought: you should always think about what to do
Action: the action to take, should be one of [{tool_names}]
Action Input: the input to the action
Observation: the result of the action
... (this Thought/Action/Action Input/Observation can repeat N times)
Thought: I now know the final answer
Final Answer: the final answer to the original input question

Begin!

Question: {input}
Thought:{agent_scratchpad}


In [None]:
from langchain.agents import create_react_agent, AgentExecutor

tools = [tavily_tool, wiki_tool]

agent = create_react_agent(llm, tools, react_prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)
agent_executor

AgentExecutor(verbose=True, agent=RunnableAgent(runnable=RunnableAssign(mapper={
  agent_scratchpad: RunnableLambda(lambda x: format_log_to_str(x['intermediate_steps']))
})
| PromptTemplate(input_variables=['agent_scratchpad', 'input'], input_types={}, partial_variables={'tools': 'tavily_search_results_json - A search engine optimized for comprehensive, accurate, and trusted results. Useful for when you need to answer questions about current events. Input should be a search query.\nwikipedia - A wrapper around Wikipedia. Useful for when you need to answer general questions about people, places, companies, facts, historical events, or other subjects. Input should be a search query.', 'tool_names': 'tavily_search_results_json, wikipedia'}, metadata={'lc_hub_owner': 'hwchase17', 'lc_hub_repo': 'react', 'lc_hub_commit_hash': 'd15fe3c426f1c4b3f37c9198853e4a86e20c425ca7f4752ec0c9b0e97ca7ea4d'}, template='Answer the following questions as best you can. You have access to the following tools:\

In [34]:
def call_agent(input: str):
    response = agent_executor.invoke({"input": input})
    print(response["output"])

call_agent("Dame el nombre de algunos profesores de la FCFM de la Universidad de Chile")



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mThought: To answer this question, I need to find a list of professors from the Faculty of Physics and Mathematics (FCFM) at the University of Chile.  A Wikipedia search might be a good starting point, but it might not be completely up-to-date.

Action: wikipedia
Action Input: "Faculty of Physics and Mathematics, University of Chile"
[0m[33;1m[1;3mPage: Universidad de California en Berkeley
Summary: La Universidad de California en Berkeley (en id[0m[32;1m[1;3mThought: That was the wrong Wikipedia page. I need to try a different search term.  Let's try searching directly for the faculty's website.  If that doesn't work, I'll try a different approach.

Action: wikipedia
Action Input: "Facultad de Ciencias F√≠sicas y Matem√°ticas, Universidad de Chile"
[0m[33;1m[1;3mPage: Facultad de Ciencias F√≠sicas y Matem√°ticas de la Universidad de Chile
Summary: La Facultad de [0m[32;1m[1;3mThought: The Wikipedia page for the Fa

#### **2.2.4 Verificaci√≥n de respuestas (0.3 puntos)**

Pruebe el funcionamiento de su agente y aseg√∫rese que el agente est√© ocupando correctamente las tools disponibles. ¬øEn qu√© casos el agente deber√≠a ocupar la tool de Tavily? ¬øEn qu√© casos deber√≠a ocupar la tool de Wikipedia?

In [73]:
call_agent("¬øA qu√© se dedica Tailor Swift?")



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mThought: To answer what Taylor Swift does, I need to find information about her profession.  Wikipedia is a good resource for this.

Action: wikipedia
Action Input: Taylor Swift
[0m[33;1m[1;3mPage: Taylor Swift
Summary: Taylor Alison Swift (West Reading, Pensilvania; 13 de diciembre de 1989)[0m[32;1m[1;3mThought: The Wikipedia page gives biographical information, but I need to extract her profession.  The summary doesn't explicitly state it, so I'll look further into the page content.

Action: wikipedia
Action Input: Taylor Swift
[0m[33;1m[1;3mPage: Taylor Swift
Summary: Taylor Alison Swift (West Reading, Pensilvania; 13 de diciembre de 1989)[0m[32;1m[1;3mThought: The Wikipedia page should contain information about her career. I'll look for sections like "Career" or "Profession".

Action: wikipedia
Action Input: Taylor Swift
[0m[33;1m[1;3mPage: Taylor Swift
Summary: Taylor Alison Swift (West Reading, Pensilvani

In [62]:
call_agent("¬øQui√©n fue el √∫ltimo fichaje del Real Madrid?")



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mThought: To answer this question, I need to find information about the most recent player signing for Real Madrid.  A quick search on Wikipedia might suffice, but a more up-to-date source like a search engine might be better to ensure I have the most recent information.

Action: tavily_search_results_json
Action Input: "Real Madrid latest signing"
[0m[36;1m[1;3m[{'url': 'https://en.as.com/soccer/possible-mbappe-signing-with-real-madrid-live-updates-online-as-french-striker-set-to-complete-transfer-n/', 'content': 'Real Madrid have confirmed the signing of France striker Kylian Mbapp√©, who is to join the LaLiga club on a five-year contract. ... Madrid to confirm Mbapp√© deal at "7:15pm at the very latest"'}][0m[32;1m[1;3mThought:The observation shows a news article reporting Kylian Mbapp√©'s signing with Real Madrid.  However, I need to verify this information and check if there have been any signings since then.  I'll 

En general deber√≠a usar Wikipedia para informaci√≥n especifica que suele estar contenida en wikipedia, mientras que en cualquier otro caso m√°s general deber√≠a usar Tavily. Que tipo de informaci√≥n deber√≠a buscar en wikipedia? Cuando se le pregunta el nombre de una persona, una entidad economica, etc. Es posible que incluso en esos casos se use la de Tavily, pero ese ser√≠a el criterio.

### **2.3 Multi Agente (1.5 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/r7QMJLxU4BoAAAAd/this-is-getting-out-of-hand-star-wars.gif"
" width="450">
</p>

El objetivo de esta subsecci√≥n es encapsular las funcionalidades creadas en una soluci√≥n multiagente con un **supervisor**.


#### **2.3.1 Generando Tools (0.5 puntos)**

Transforme la soluci√≥n RAG de la secci√≥n 2.1 y el agente de la secci√≥n 2.2 a *tools* (una tool por cada uno).

In [63]:
from langchain.tools import tool

@tool
def call_rag(question: str) -> str:
    """Call the RAG model to answer a question"""
    return rag_chain.invoke(question)

@tool
def call_react(input: str) -> str:
    """Call the ReAct model to answer a question"""
    return agent_executor.invoke({"input": input})["output"]

#### **2.3.2 Agente Supervisor (0.5 puntos)**

Habilite un agente que tenga acceso a las tools del punto anterior y pueda responder preguntas relacionadas. Almacene este agente en una variable llamada supervisor.

In [None]:
supervisor_prompt = PromptTemplate.from_template(
    """
    Eres un agente supervisor de preguntas.
    Tu rol es decidir que acci√≥n tomar para poder contestar la pregunta de la mejor manera posible.
    - 'llm': Cuando tengas que usar un sistema RAG para extraer informaci√≥n sobre LLMs.
    - 'general': Cuando la pregunta sea relacionada a cosas que puedan estar en internet o personas o entidades que conoce wikipedia.
    - 'otro': Todo aquella pregunta que no est√© contenida en las categor√≠as anteriores.

    No respondas con m√°s de una palabra y no incluyas.

    
    {question}
    

    Categor√≠a:"""
)

supervisor_chain = (
    supervisor_prompt
    | llm
    | StrOutputParser()
)

supervisor_chain.invoke({"question": "qu√© es BERT?"})

'llm\n'

In [None]:
redirect_prompt = PromptTemplate.from_template(
    """
    Eres un asistente experto en el redireccionamiento de preguntas de usuarios.
    Vas a recibir una pregunta del usuario, tu √∫nico rol es indicar que no puedes responder su pregunta y redireccionar al usuario
    para que te pregunte sobre papers relacionados a LLMs, o sobre cualquier cosa que pueda estar en internet o personas o 
    entidades que conoce wikipedia.

    Recuerda ser amable y cordial en tu respuesta.

    Pregunta: {question}
    Respuesta cordial:"""
)

redirect_chain = (
    redirect_prompt
    | llm
    | StrOutputParser()
)

redirect_chain.invoke({"question": "qu√© est√°s pensando?"})

NameError: name 'PromptTemplate' is not defined

In [None]:
def route_question(question):
  '''
  Recibe una pregunta de usuario.
  Rutea la pregunta al agente respectivo y responde de manera acorde.
  '''

  topic = supervisor_chain.invoke({"question": question}) # enrutamiento

  if "llm" in topic:
      return call_rag(question)
  elif "general" in topic:
      return call_react(question)
  else:
      return redirect_chain.invoke({"question": question})

#### **2.3.3 Verificaci√≥n de respuestas (0.25 puntos)**

Pruebe el funcionamiento de su agente repitiendo las preguntas realizadas en las secciones 2.1.4 y 2.2.4 y comente sus resultados. ¬øC√≥mo var√≠an las respuestas bajo este enfoque?

In [67]:
print(route_question("Qu√© es un Transformer?"))

Un Transformer es un modelo de transducci√≥n que utiliza √∫nicamente auto-atenci√≥n para calcular representaciones de su entrada y salida, sin usar RNNs alineados con la secuencia o convoluciones.  Su arquitectura se compone de un codificador y un decodificador, ambos formados por una pila de N=6 capas id√©nticas. Cada capa tiene dos subcapas: un mecanismo de auto-atenci√≥n multi-cabeza y una capa totalmente conectada puntual.  Tanto el codificador como el decodificador utilizan codificaciones posicionales.  El modelo base utiliza una tasa de abandono (dropout) de Pdrop = 0.1 y durante el entrenamiento se emplea suavizado de etiquetas con un valor de œµls = 0.1.



In [68]:
print(route_question("Seg√∫n Chain of Thought, ¬øqu√© t√©cnica se puede usar para resolver un problema complejo con un LLM?"))

Seg√∫n la informaci√≥n proporcionada, la t√©cnica Chain of Thought (pensamiento en cadena) se puede usar para resolver problemas complejos con un LLM.  Esta t√©cnica permite descomponer problemas de m√∫ltiples pasos en subproblemas m√°s peque√±os y manejables,  imitando un proceso de pensamiento paso a paso para llegar a la respuesta.  Adem√°s, es robusta a diferentes √≥rdenes de ejemplos y a un n√∫mero variable de ellos.



In [74]:
print(route_question("¬øA qu√© se dedica Tailor Swift?"))



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mThought: To answer what Taylor Swift does, I need to find information about her profession.  Wikipedia is a good resource for this.

Action: wikipedia
Action Input: Taylor Swift
[0m[33;1m[1;3mPage: Taylor Swift
Summary: Taylor Alison Swift (West Reading, Pensilvania; 13 de diciembre de 1989)[0m[32;1m[1;3mThought: The Wikipedia page gives biographical information, but I need to extract her profession.  The summary doesn't explicitly state it, so I'll look further into the page content.

Action: wikipedia
Action Input: Taylor Swift
[0m[33;1m[1;3mPage: Taylor Swift
Summary: Taylor Alison Swift (West Reading, Pensilvania; 13 de diciembre de 1989)[0m[32;1m[1;3mThought: The Wikipedia page should contain information about her career. I'll look for sections like "Career" or "Profession".

Action: wikipedia
Action Input: Taylor Swift
[0m[33;1m[1;3mPage: Taylor Swift
Summary: Taylor Alison Swift (West Reading, Pensilvani

In [70]:
print(route_question("Qui√©n fue el √∫ltimo fichaje del Real Madrid?"))



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mThought: To answer this question, I need to find information about the most recent player signing for Real Madrid.  A quick search on Wikipedia might suffice, but a more up-to-date source like a search engine might be better to ensure I have the most recent information.

Action: tavily_search_results_json
Action Input: "Real Madrid latest signing"
[0m[36;1m[1;3m[{'url': 'https://en.as.com/soccer/possible-mbappe-signing-with-real-madrid-live-updates-online-as-french-striker-set-to-complete-transfer-n/', 'content': 'Real Madrid have confirmed the signing of France striker Kylian Mbapp√©, who is to join the LaLiga club on a five-year contract. ... Madrid to confirm Mbapp√© deal at "7:15pm at the very latest"'}][0m[32;1m[1;3mThought: The observation shows a news article reporting Kylian Mbapp√©'s signing with Real Madrid.  However, I need to verify this information and check if there have been any signings since then.  I'll

#### **2.3.4 An√°lisis (0.25 puntos)**

¬øQu√© diferencias tiene este enfoque con la soluci√≥n *Router* vista en clases? Nombre al menos una ventaja y desventaja.

`escriba su respuesta ac√°`

### **2.4 Memoria (Bonus +0.5 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/Gs95aiElrscAAAAd/memory-unlocked-ratatouille-critic.gif"
" width="400">
</p>

Una de las principales falencias de las soluciones que hemos visto hasta ahora es que nuestro chat no responde las interacciones anteriores, por ejemplo:

- Pregunta 1: "Hola! mi nombre es Sebasti√°n"
  - Respuesta esperada: "Hola Sebasti√°n! ..."
- Pregunta 2: "Cual es mi nombre?"
  - Respuesta actual: "Lo siento pero no conozco tu nombre :("
  - **Respuesta esperada: "Tu nombre es Sebasti√°n"**

Para solucionar esto, se les solicita agregar un componente de **memoria** a la soluci√≥n entregada en el punto 2.3.

**Nota: El Bonus es v√°lido <u>s√≥lo para la secci√≥n 2 de Large Language Models.</u>**

### **2.5 Despliegue (0 puntos)**

<p align="center">
  <img src="https://media1.tenor.com/m/IytHqOp52EsAAAAd/you-get-a-deploy-deploy.gif"
" width="400">
</p>

Una vez tengan los puntos anteriores finalizados, toca la etapa de dar a conocer lo que hicimos! Para eso, vamos a desplegar nuestro modelo a trav√©s de `gradio`, una librer√≠a especializada en el levantamiento r√°pido de demos basadas en ML.

Primero instalamos la librer√≠a:

In [71]:
%pip install --upgrade --quiet gradio

Note: you may need to restart the kernel to use updated packages.


ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
langchain-chroma 0.1.1 requires langchain-core<0.3,>=0.1.40, but you have langchain-core 0.3.19 which is incompatible.

[notice] A new release of pip is available: 24.0 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


Luego s√≥lo deben ejecutar el siguiente c√≥digo e interactuar con la interfaz a trav√©s del notebook o del link generado:

In [72]:
import gradio as gr
import time

def agent_response(message, history):
  '''
  Funci√≥n para gradio, recibe mensaje e historial, devuelte la respuesta del chatbot.
  '''
  # get chatbot response
  response = ... # rellenar con la respuesta de su chat

  # assert
  assert type(response) == str, "output de route_question debe ser string"

  # "streaming" response
  for i in range(len(response)):
    time.sleep(0.015)
    yield response[: i+1]

gr.ChatInterface(
    agent_response,
    type="messages",
    title="Chatbot MDS7202", # Pueden cambiar esto si lo desean
    description="Hola! Soy un chatbot muy √∫til :)", # tambi√©n la descripci√≥n
    theme="soft",
    ).launch(
        share=True, # pueden compartir el link a sus amig@s para que interactuen con su chat!
        debug = False,
        )

KeyboardInterrupt: 