# Agentes con Transformers

*Este notebook es una adaptación de:* https://huggingface.co/docs/transformers/main/en/agents

Los modelos de lenguaje tienen una indudable capacidad para intercambiar información a través del lenguaje natural. Sin embargo, a veces muestran una sorprendente incapacidad para realizar tareas sencillas, especialmente en ciertos dominios como el razonamiento lógico, los cálculos matemáticos o la búsqueda de información.

Una aproximación para superar esta limitación es el uso de *agentes*. Un agente es un sistema basado en el uso de un modelo de lenguaje como motor, y que además está equipado con acceso a ciertas herramientas (*tools*) que puede emplear para realizar tareas muy específicas. Por ejemplo, un agente podría estar preparado para que cuando interprete que alguien le pide que realice un cálculo matemático, utilizar algún tipo de software matemático para realizarlo.

Los agente pueden ser programados para:

- Concebir una serie de acciones/herramientas y ejecutarlas todas a la vez, como el [CodeAgent](https://huggingface.co/docs/transformers/main/en/main_classes/agent#transformers.CodeAgent)
- Planear y luego ejecutar una serie de acciones (una a una) esperando a que cada una se complete antes de continua con la siguiente, como el [ReactJsonAgent](https://huggingface.co/docs/transformers/main/en/main_classes/agent#transformers.ReactJsonAgent)

## Tipos de agentes

### Agentes Code

Este agente tiene un paso de planificación que genera código Python para ejecutar todas sus acciones de una vez. Nativamente es capaz de manejar diferentes tipos de entradas y salidas, por lo tanto es la opción recomendada para tareas multimodales.

### Agentes React

Este es el agente recomendado para resolver tareas de razonamiento, ya que el framework React es eficiente para pensar paso a paso, y cada paso usando las salidas del paso anterior. Transformers implementa dos versiones del *ReactJsonAgent*:

- *ReactJsonAgent*: genera llamadas a herramientas en forma de JSON en su salida.
- *ReactCodeAgente*: e un nuevo tipo de *ReactJsonAgent* que genera sus llamadas a herramientas como *blobs* (binarios ejectuables) de código.


## Construcción de un agente

La inicialización de un agente requiere los siguientes argumentos:

-  Un modelo de lenguaje para equipar a tu agente.
-  Un *prompt* inicial para inicializar el modelo de lenguaje.
-  Una caja de herramientas de la que el agente puede coger diferente herramientas (*tools*).
-  Un *parser* para extraer del modelo de lenguaje qué herramienta se van a llamar y con qué argumentos.

Al inicializar el sistema del agente, los atributos de las herramientas se utilizan para generar una descripción de las mismas, que luego se integran en el system_prompt del agente para informarle qué herramientas puede usar y por qué.

En primer lugar, la funcionalidad de agentes se proporciona como un extra que se debe instalar de forma separada. Además, debemos actualizar la versión de transformers a la última disponible, que no está disponible como paquete pip por lo que debemos cogerla y construirla desde el repositorio git.

En primer lugar vamos a construir tu *engine* de modelo de lenguaje que acepta una lista de mensaje y devuelve un texto generado. Este invocable también acepta un argumento *stop* que indica cuándo parar de generar.

Para ello, vamos a utilizar un API token de HuggingFace, por lo tanto, regístrate en HuggingFace y obtiene tu API token para rellena la clave en la siguiente celda. En su capa gratuita, se permiten 1000 peticiones al API de inferencia cada día.

En https://huggingface.co/settings/tokens :
- Regístrate si no lo has hecho anteriormente.
- Crea un nuevo token
- Elige la opción (*tab*) *fine-grained*
- Marca las tres casilla de *Inference*
- Pulsa el botón "Create new token"

En la siguiente página copia el access token a la siguiente casilla sustityendo a <YOUR_HUGGINGFACEHUB_API_TOKEN>

La lista de endpoints compatibles (en la categoría de *text generation*) disponibles se puede consultar aquí: https://huggingface.co/models?inference=warm&pipeline_tag=text-generation&other=endpoints_compatible&sort=trending


In [2]:
from huggingface_hub import login, InferenceClient

login("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")

client = InferenceClient(model="microsoft/Phi-3.5-mini-instruct")

def llm_engine(messages, stop_sequences=["Task"]) -> str:
    response = client.chat_completion(messages, stop=stop_sequences, max_tokens=1000)
    answer = response.choices[0].message.content
    return answer

Se puede usar cualquier *llm_engine* siempre que:

1. Sigue los formatos de mensa (List[Dict[str, str]]) para sus mensaje de entrada y devuelve la respuesta como *str*.
2. Para de generar salidas al recibir las secuencias pasadas como  argumento stop_sequences. 

Además, *llm_engine* también puede recibir un argumento *grammar*. Este argumento a su vez será enviado a las llamadas al *llm_engine* junto con el *grammar* usado para la inicialización del agente. Esto permite la generación restringida (*constrained generation*) para forzar salidas del agente bien formadas.

También es necesario un argumento *tools* que debe contener una lista de herramientas (*Tools*), el cual puede inicializarse vacío. También se puede añadir la caja de herramientas (*toolbox*) por defecto sobre tu lista de herramientas, definiendo el argumento opcional *add_base_tools=True*.

A continuación, vamos a crear un agente de tipo *CodeAgent* y vamos a ejecutarlo. También es posible crear un *TransformerEngine* con un pipeline preinicializado para ejecutar la inferencia en tu máquina local usando *transformers*. Por comodidad, como los comportamientos del agente requiere modelos de lenguaje pontentes como Llama-3.1-70B-Instruct que son difíciles de correr localmente, también proporcionamos la clase HfApiEngine que inicializa el huggingface_hub.InferenceClient por debajo.

In [3]:
from transformers import HfApiEngine, CodeAgent

llm_engine = HfApiEngine(model="microsoft/Phi-3.5-mini-instruct")
agent = CodeAgent(tools=[], llm_engine=llm_engine, add_base_tools=True)

agent.run(
    "Could you translate this sentence from French to English?",
    sentence="Où est la boulangerie la plus proche?",
)

[37;1mCould you translate this sentence from French to English?
You have been provided with these initial arguments: {'sentence': 'Où est la boulangerie la plus proche?'}.[0m
[33;1m=== Agent thoughts:[0m
[0m[0m
[33;1m>>> Agent is executing the code below:[0m
[0m[38;5;7mtranslated_sentence[39m[38;5;7m [39m[38;5;109;01m=[39;00m[38;5;7m [39m[38;5;7mtranslator[39m[38;5;7m([39m[38;5;7mtext[39m[38;5;109;01m=[39;00m[38;5;144m"[39m[38;5;144mOù est la boulangerie la plus proche?[39m[38;5;144m"[39m[38;5;7m,[39m[38;5;7m [39m[38;5;7msrc_lang[39m[38;5;109;01m=[39;00m[38;5;144m"[39m[38;5;144mFrench[39m[38;5;144m"[39m[38;5;7m,[39m[38;5;7m [39m[38;5;7mtgt_lang[39m[38;5;109;01m=[39;00m[38;5;144m"[39m[38;5;144mEnglish[39m[38;5;144m"[39m[38;5;7m)[39m
[38;5;109mprint[39m[38;5;7m([39m[38;5;144mf[39m[38;5;144m"[39m[38;5;144mThe translated sentence is [39m[38;5;144m{[39m[38;5;7mtranslated_sentence[39m[38;5;144m}[39m[38;5;144m.[39m

Incluso si no hubiéramos creado un *HfApiEngine* para poblar el argumento *llm_engine* del *CodeAgent*, se habría creado un *engine* por defecto.

Fíjate además que el argumento *sentence* se ha usado para pasasr información adicional al modelo. También podemos usar argumentos como estos para pasar rutas a ficheros locales o remotos.

In [4]:
from transformers import ReactCodeAgent

agent = ReactCodeAgent(tools=[], llm_engine=llm_engine, add_base_tools=True)

#agent.run("Why does Mike not know many people in New York?", audio="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/recording.mp3")

Los campos *prompt* y *output parser* han sido definidos automáticamente, pero se puede ver con qué valores se han inicializado en el campo *system_prompt_template* de tu agente.

In [5]:
print(agent.system_prompt_template)


You are an expert assistant who can solve any task using code blobs. You will be given a task to solve as best you can.
To do so, you have been given access to a list of tools: these tools are basically Python functions which you can call with code.
To solve the task, you must plan forward to proceed in a series of steps, in a cycle of 'Thought:', 'Code:', and 'Observation:' sequences.

At each step, in the 'Thought:' sequence, you should first explain your reasoning towards solving the task and the tools that you want to use.
Then in the 'Code:' sequence, you should write the code in simple Python. The code sequence must end with '<end_action>' sequence.
During each intermediate step, you can use 'print()' to save whatever important information you will then need.
These print outputs will then appear in the 'Observation:' field, which will be available as input for the next step.
In the end you have to return a final answer using the `final_answer` tool.

Here are a few examples using

Es importante explicar tan claramente como seal posible la tareas que quieres realizar. Cada ejecución de *run()* es independiente, y ya que un agente está equipado con un LLM, variaciones menores en tu *prompt* podrían producir resultados completamente diferentes. También puedes ejecutar un agente consecutivamente para diferentes tareas: en cada ejecución, los atributos *agent.task* y *agent.logs* serán reinicializados.

### Ejecución de código

Un intérprete de Python ejecuta el código sobre un conjunto de entradas que se pasan junto con tus herramientas. Esto debería ser seguro porque las única funciones que se pueden invocar se corresponden con las herramientas que proporcionaste (especialmente si nos restringimos a las herramientas proporcionadas por HuggingFace) y a la función print.

Además, el intérprete de Python no permite *imports* fuera de la lista segurda, por lo tanto los ataques más obvios no deberían ser un problema. Aún así puedes autorizar *imports* adicionales pasando una lista de módulos autorizados como una lista de strings al argumento *additional_authorized_imports* cuando se inicializa el agente.

In [7]:
from transformers import ReactCodeAgent
llm_engine = HfApiEngine(model="microsoft/Phi-3.5-mini-instruct")

agent = ReactCodeAgent(tools=[], llm_engine=llm_engine, additional_authorized_imports=['requests', 'bs4'])
agent.run("Could you get me the title of the page at url 'https://huggingface.co/blog'?")


[37;1mCould you get me the title of the page at url 'https://huggingface.co/blog'?[0m
[33;1m=== Agent thoughts:[0m
[0mThought: I need to retrieve the title of the webpage found at the provided URL. I can use the `requests` library to fetch the webpage content and `BeautifulSoup` from `bs4` to parse it and extract the title.[0m
[33;1m>>> Agent is executing the code below:[0m
[0m[38;5;109;01mimport[39;00m[38;5;7m [39m[38;5;109mrequests[39m
[38;5;109;01mfrom[39;00m[38;5;7m [39m[38;5;109mbs4[39m[38;5;7m [39m[38;5;109;01mimport[39;00m[38;5;7m [39m[38;5;7mBeautifulSoup[39m

[38;5;7murl[39m[38;5;7m [39m[38;5;109;01m=[39;00m[38;5;7m [39m[38;5;144m'[39m[38;5;144mhttps://huggingface.co/blog[39m[38;5;144m'[39m
[38;5;7mresponse[39m[38;5;7m [39m[38;5;109;01m=[39;00m[38;5;7m [39m[38;5;7mrequests[39m[38;5;109;01m.[39;00m[38;5;7mget[39m[38;5;7m([39m[38;5;7murl[39m[38;5;7m)[39m
[38;5;7msoup[39m[38;5;7m [39m[38;5;109;01m=[39;00m[38;5;

{'title': 'Hugging Face – Blog'}