# Procesamiento del Lenguaje Natural - Trabajo Práctico Final
### Alumno: Simón Revello

# Ejercicio 1
En este trabajo práctico se propone crear un asistente que sea capaz de responder preguntas sobre la librería frontend ReactJS.
Primeramente, debemos obtener información, para ello se realiza un web scrapping de la documentación oficial y se genera una base de datos tabular con Pandas.<br>
Algunas columnas de ese dataframe se utilizarán para la base de datos vectorial, mientras que la columna 'type' y 'hook' se usarán para la base de datos tabular.<br>
Para la base de datos de grafos se utiliza la de Wikipedia.<br>

### Funcionamiento del modelo
El modelo debe clasificar el tipo de pregunta para saber en qué base de datos buscar la respuesta.
#### CLASIFICACIONES:
1. Información sobre el funcionamiento de React. Por ejemplo: hooks, JSX, componentes funcionales o componentes POO (Vectorial).
2. Información sobre características de los hooks. (Tabular)
3. Información sobre la historia de ReactJS. Por ejemplo: Quién es su creador? Qué tipo de licencia tiene? (Grafos)

Una vez obtenida la clasificación, se obtiene la información y se la envía como contexto para finalmente obtener la respuesta.

## Librerías y Dependencias

### Instalar dependencias

In [None]:
!pip install wikipedia-api
!pip install chromadb
!pip install sparqlwrapper
!pip install arrow
!pip install sentence_transformers
!python3 -m spacy download es_core_news_md

Collecting wikipedia-api
  Downloading Wikipedia_API-0.6.0-py3-none-any.whl (14 kB)
Installing collected packages: wikipedia-api
Successfully installed wikipedia-api-0.6.0
Collecting chromadb
  Downloading chromadb-0.4.22-py3-none-any.whl (509 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m509.0/509.0 kB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0m
Collecting chroma-hnswlib==0.7.3 (from chromadb)
  Downloading chroma_hnswlib-0.7.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.4/2.4 MB[0m [31m24.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting fastapi>=0.95.2 (from chromadb)
  Downloading fastapi-0.109.0-py3-none-any.whl (92 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.0/92.0 kB[0m [31m9.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting uvicorn[standard]>=0.18.3 (from chromadb)
  Downloading uvicorn-0.27.0.post1-py3-none-any.whl (60 kB)
[2K     [90m━━

### Importar librerías

In [1]:
import wikipediaapi as wiki
import pandas as pd
import bs4
import requests as req
import spacy
from IPython.core.display import HTML
from IPython.display import display
import networkx as nx
import uuid
import spacy
from SPARQLWrapper import SPARQLWrapper, JSON
import re
import arrow
from chromadb.utils import embedding_functions
import chromadb

## Web Scrapping - Obtener información

### Hooks

In [2]:
hooksTypes = {
    "State": ["useState", "useReducer"],
    "Context": ["useContext"],
    "Ref": ["useRef", "useImperativeHandle"],
    "Effect": ["useEffect", "useLayoutEffect", "useInsertionEffect"],
    "Performance": ["useMemo", "useCallback", "useTransition", "useDeferredValue"],
    "Other": ["useDebugValue", "useId", "useSyncExternalStore"]
}

In [3]:
def get_info_hooks():
    """
    Busca en la documentación de ReactJS información sobre hooks y retorna un dataframe.
    """
    data = []
    BASE_URL = "https://es.react.dev/reference/react/"
    for key, hooks in hooksTypes.items():
        for hook in hooks:
            id = str(uuid.uuid4())
            res = req.get(BASE_URL + hook)
            bs = bs4.BeautifulSoup(res.text, "html.parser")
            #Descripción
            descHtml = bs.find("p", {"class": "whitespace-pre-wrap my-4"})
            desc = descHtml.text

            #Referencia
            referenceTitleHtml = bs.find("h2", {"id": "reference"})
            subTitleHtml = referenceTitleHtml.find_next_sibling()
            referenceDescHtml = subTitleHtml.find_next_sibling()
            codeExampleHtml = referenceDescHtml.find_next_sibling()
            reference = referenceDescHtml.text + "\n" + codeExampleHtml.text

            #Retorno
            returnsTitleHtml = bs.find("h4", {"id": "returns"})
            nextSiblingHtml = returnsTitleHtml.find_next_sibling()
            returns = ""
            while(nextSiblingHtml != None and nextSiblingHtml.name != "h4"):
                returns += nextSiblingHtml.text + "\n"
                nextSiblingHtml = nextSiblingHtml.find_next_sibling()

            #Parámetros
            parametersTitleHtml = bs.find("h4", {"id": "parameters"})
            listParameters = parametersTitleHtml.find_next_sibling()
            parameters = listParameters.find_all(recursive=False)
            paramStr = ""
            for parameter in parameters:
                codeTag = parameter.find("code")
                if codeTag == None:
                    paramStr = "No acepta ningún parámetro"
                    break
                name = codeTag.text.strip()
                codeTag.clear()
                description = parameter.text
                description = description.replace(":", "").strip()
                paramStr = f"{name}:{description}"

            data.append({
                "id": id,
                "hook": hook,
                "desc": desc,
                "reference": reference,
                "parameters": paramStr,
                "returns": returns,
                "type": key
            })
    return pd.DataFrame(data).set_index("id")

### Funcionamiento general de React JS

In [4]:
def get_funcionamiento_react():
    """
    Busca información en la documentación de React sobre un comportamiento más general y retorna un dataframe
    """
    data = []
    BASE_URL = "https://es.react.dev/learn"
    res = req.get(BASE_URL)
    bs = bs4.BeautifulSoup(res.text, "html.parser")
    #Componentes
    componentsTitleHtml = bs.find("h2", {"id": "components"})
    componentesDescHtml = componentsTitleHtml.find_next_sibling()
    componentesDescHtml2 = componentesDescHtml.find_next_sibling()
    componentsDesc = componentsTitleHtml.text + "\n" + componentesDescHtml.text + "\n" + componentesDescHtml2.text
    data.append({
        "id": str(uuid.uuid4()),
        "desc": componentsDesc,
        "tag": "Componente;UI;Interfaz;Grafica"
    })

    #Marcado JSX
    h2JsxHtml = bs.find("h2", {"id": "writing-markup-with-jsx"})
    jsxDescHtml = h2JsxHtml.find_next_sibling()
    jsxDescHtml2 = jsxDescHtml.find_next_sibling()
    jsxDesc = h2JsxHtml.text + "\n" + jsxDescHtml.text + "\n" + jsxDescHtml2.text
    data.append({
        "id": str(uuid.uuid4()),
        "desc": jsxDesc,
        "tag": "JSX Markup"
    })

    #Estilos CSS
    h2CssHtml = bs.find("h2", {"id": "adding-styles"})
    cssDescHtml = h2CssHtml.find_next_sibling()
    cssDescHtml2 = cssDescHtml.find_next_sibling().find_next_sibling().find_next_sibling()
    cssDesc = h2CssHtml.text + "\n" + cssDescHtml.text + "\n" + cssDescHtml2.text
    data.append({
        "id": str(uuid.uuid4()),
        "desc": cssDesc,
        "tag": "CSS Style Estilos Clases"
    })

    #Renderizado de listas
    h2ListasHtml = bs.find("h2", {"id": "rendering-lists"})
    listasDescHtml = h2ListasHtml.find_next_sibling()
    listasDescHtml2 = listasDescHtml.find_next_sibling()
    listasDescHtml3 = listasDescHtml2.find_next_sibling().find_next_sibling()
    listasDescHtml4 = listasDescHtml3.find_next_sibling().find_next_sibling()
    listasDesc = h2ListasHtml.text + "\n" + listasDescHtml.text + "\n" + listasDescHtml2.text + "\n" + listasDescHtml3.text + "\n" + listasDescHtml4.text
    data.append({
        "id": str(uuid.uuid4()),
        "desc": listasDesc,
        "tag": "Listas;Key;Arreglo"
    })

    return pd.DataFrame(data).set_index("id")

## Generación de base de datos vectorial

In [5]:
def process_txt(txt):
    """
    Utiliza un modelo de spacy para eliminar las stopwords del texto enviado como parámetro.
    """
    nlp = spacy.load("es_core_news_md")
    doc = nlp(txt)
    return " ".join([str(token) for token in doc if not token.is_stop])

In [6]:
def get_db():
    """
    Retorna la base de datos. La crea si no existe.
    """
    return chromadb.PersistentClient(path="reactdb")
def get_coll(db):
    """
    Retorna la colección 'data' de la base de datos. Establece el modelo de embedding y la métrica para calcular la distancia entre vectores (Similitud del coseno).
    """
    return db.get_or_create_collection("data", embedding_function=embedding_functions.SentenceTransformerEmbeddingFunction(model_name="hiiamsid/sentence_similarity_spanish_es"), metadata={"hnsw:space": "cosine"})

def crear_o_cargar_db(hooks, funcReact):
    """
    Dado los dos dataframes como parámetros va concatenando las columnas para generar un texto por cada registro y lo guarda en la base de datos vectorial.
    """
    data = []
    ids = []
    metas = []
    db = get_db()
    dataColl = get_coll(db)
    for i in range(len(hooks)):
        hookRow = hooks.iloc[i]
        id = hookRow.name
        dataStr = process_txt(hookRow["hook"]) + "\n" + process_txt(hookRow["desc"]) + process_txt(hookRow["reference"]) + process_txt(hookRow["returns"]) + process_txt(hookRow["type"])
        meta = {"hook": hookRow["type"]}
        data.append(dataStr)
        metas.append(meta)
        ids.append(id)
    for i in range(len(funcReact)):
        func = funcReact.iloc[i]
        id = func.name
        dataStr = process_txt(func["desc"])
        meta = {"tag": func["tag"]}
        data.append(dataStr)
        ids.append(id)
        metas.append(meta)
    dataColl.add(
        documents=data,
        metadatas=metas,
        ids=ids
    )

def query_db(question):
    """
    Genera una consulta a la base de datos. Retorna el texto más adecuado.
    """
    res = get_coll(get_db()).query(
        query_texts=[process_txt(question)],
        n_results=2
    )
    ids = res["ids"][0]
    docsTxt = []
    for i, id in enumerate(ids):
        if id in hooksDf.index:
            docsTxt.append(hooksDf.loc[id, "hook"] + "\n" + hooksDf.loc[id, "desc"] + hooksDf.loc[id, "reference"] + hooksDf.loc[id, "returns"] + hooksDf.loc[id, "type"])
        elif id in funcReactDf.index:
            docsTxt.append(funcReactDf.loc[id, "desc"])
    res["docsTxt"] = docsTxt
    return res


## Base de datos de grafos

In [7]:
def get_wiki_ids(question):
    """
    Dada una pregunta, detecta el sujeto o sujeto propio de la misma para luego generar una consulta en Wikipedia. De esa forma se obtiene el ID del sujeto para su posterior uso.
    Ejemplo: ¿Quién creó ReactJS? - Sujeto: ReactJS
    """
    nlp = spacy.load("es_core_news_md")
    API_ENDPOINT = "https://wikidata.org/w/api.php"
    doc = nlp(question)
    res_val = {}
    for token in doc:
        if not token.pos_ in ["NOUN", "PROPN"]: continue
        params = {
            "action": "wbsearchentities",
            "format": "json",
            "language": "en",
            "uselang": "es",
            "search": str(token)
        }
        res = req.get(API_ENDPOINT, params=params)
        data = res.json()
        for item in data["search"]:
            res_val[item["id"]] = item["description"]
    return res_val

def get_graph_data(id):
    """
    Dado el id del sujeto, genera una consulta en la base de datos de grafos y retorna la información.
    """
    db = SPARQLWrapper("https://query.wikidata.org/sparql", returnFormat="json")
    query = """
        SELECT ?wdLabel ?ooLabel
        WHERE {{
         VALUES (?s) {{(wd:{0})}}
         ?s ?wdt ?o .
         ?wd wikibase:directClaim ?wdt .
         ?wd rdfs:label ?wdLabel .
         OPTIONAL {{
         ?o rdfs:label ?oLabel .
         FILTER (lang(?oLabel) = "es")
         }}
         FILTER (lang(?wdLabel) = "es")
         BIND (COALESCE(?oLabel, ?o) AS ?ooLabel)
         }} ORDER BY xsd:integer(STRAFTER(STR(?wd), "http://www.wikidata.org/entity/P"))
        """.format(str(id))
    db.setQuery(query)
    data = db.query().convert()
    bindings = data["results"]["bindings"]
    final_data = ""
    for binding in bindings:
        wdLabel = binding["wdLabel"]["value"]
        ooLabel = binding["ooLabel"]["value"]
        if "datatype" in binding["ooLabel"] and binding["ooLabel"]["datatype"] == "http://www.w3.org/2001/XMLSchema#dateTime":
            date = arrow.get(ooLabel)
            ooLabel = date.format("YYYY-MM-DD")
        final_data += wdLabel + ":" + ooLabel + "\n"
    return final_data

def search_in_graph(question):
    ids = get_wiki_ids(question)
    id = list(ids.keys())[0]
    return get_graph_data(id)

In [None]:
#Se inicializa la base de datos vectorial
hooksDf = get_info_hooks()
funcReactDf = get_funcionamiento_react()
crear_o_cargar_db(hooksDf, funcReactDf)

In [9]:
hooksDf.head()

Unnamed: 0_level_0,hook,desc,reference,parameters,returns,type
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
3098a400-e395-492e-abb4-4a4a182b3a57,useState,useState es un Hook de React que te permite ag...,Llama a useState en el nivel superior de tu co...,initialState:El valor que deseas que tenga el ...,useState devuelve un array con exactamente dos...,State
4c4e0f5a-71fb-4528-ae3d-61ec16a8f2fd,useReducer,useReducer es un Hook de React que te permite ...,Llama a useReducer en el nivel superior de tu ...,initialArg:El valor a partir del cual se calcu...,useReducer devuelve un array con exactamente d...,State
8ef963f7-cffb-4d7e-97c8-b097d1ddafde,useContext,useContext es un Hook de React que te permite ...,Llama useContext en el nivel superior de tu co...,SomeContext:El contexto que creaste previament...,useContext devuelve el valor del contexto para...,Context
1dcab94a-f220-4575-bd16-f71c95e145d1,useRef,useRef es un Hook de React que te permite refe...,Llama a useRef en el nivel superior de tu comp...,initialValue:El valor que quieres que tenga in...,useRef devuelve un objeto con una sola propied...,Ref
99863743-3c8d-4fda-8d8a-1f1157719ebd,useImperativeHandle,useImperativeHandle es un Hook de React que te...,Llama a useImperativeHandle en el nivel superi...,dependencies:opcional La lista de todos los v...,useImperativeHandle devuelve undefined.\n\nUso...,Ref


## Datos Tabulares

In [None]:
COLUMNS = ["type", "hook"]
def tab_template(pregunta):
    """
    Se genera un template para explicar al modelo cómo debe detectar los atributos de los hooks.
    """
    template = f"""
    <|system|>Eres un asistente útil que se encarga de extraer los atributos relacionados al prompt siguiendo las siguientes claves:
    hook: Nombre de la función
    type: Tipo de función
    Sólo responde lo que se te solicita. No uses información externa</s>
    <|user|> Extrae los atributos de este prompt: 'Qué retorna el hook useState?' </s>
    <|assistant|>-hook=useState-</s>
    <|user|> Extrae los atributos de este prompt: 'Qué parámetros requiere la función useEffect?' </s>
    <|assistant|>-hook=useEffect-</s>
    <|user|> Extrae los atributos de este prompt: 'useEffect es de tipo Ref?' </s>
    <|assistant|>-hook=useEffect,type=Ref-</s>
    <|user|> Extrae los atributos de este prompt: 'Tienes información sobre los hooks de tipo Ref?' </s>
    <|assistant|>-type=Ref-</s>
    <|user|> Extrae los atributos de este prompt: 'De qué tipo son useEffect y useState?' </s>
    <|assistant|>-hook=useEffect,hook=useState-</s>
    <|user|>Extrae los atributos de este prompt: 'Cuáles son los hooks que son de tipo State?' </s>
    <|assistant|>-type=State-</s>
    <|user|> Extrae los atributos de este prompt: '{pregunta}' </s>
    <|assistant|>"""
    return template

def extract_attr(template):
    """
    Dado un template, se utiliza el modelo para extraer los atributos. Luego se procesa el texto para retornar un diccionario.
    Ejemplo: -type=Ref, hook=useRef-
    Retorno: {
      "type": "Ref",
      "hook": "useRef"
    }
    """
    res = query_hugging_face(template, {
        "max_new_tokens": 20,
        "top_p": 0.95,
        "temperature": 0.2
    })
    arrayRes = res.split("-")
    if len(arrayRes) == 1: return None
    keyValuePair = arrayRes[1].split(",")
    data = {}
    for pair in keyValuePair:
        key, value = pair.split("=")
        if key in data:
            data[key].append(value)
        else:
            data[key] = [value]
    return data

def get_data_df(filters):
    """
    Dado un diccionario con filtros, realiza una búsqueda en la base de datos tabular (DataFrame)
    """
    hDf = hooksDf.copy()
    data = []
    for key, values in filters.items():
        for value in values:
            serie = hDf[hDf[key] == value]
            for index, row in serie.iterrows():
                data.append(row)
                hDf.drop(index=index, inplace=True)
    dfData = pd.DataFrame(data=data, columns=hDf.columns)
    for dfCol in dfData.columns:
        if dfCol not in COLUMNS:
            dfData.drop(columns=dfCol, inplace=True)
    return dfData

def get_context_from_df(df):
    """
    Dado un dataframe, concatena las columnas para generar un texto que pueda ser utilizado como contexto.
    """
    cols = COLUMNS
    data = ""
    for key, row in df.iterrows():
        for col in cols:
            data += col + ": " + row[col] + " - "
        data += "\n"
    return data

def query_in_df(prompt):
    template = tab_template(prompt)
    attrs = extract_attr(template)
    if attrs == None: return None
    data = get_data_df(attrs)
    return get_context_from_df(data)

### Conexión con Hugging Face

In [None]:
def create_template(contexto, pregunta):
    """
    Template que explica al modelo la pregunta que debe responder y cómo debe hacerla.
    """
    template = "<|system|>Eres un asistente útil que siempre responde con respuestas veraces, útiles y basadas en hechos. Sólo debes responder con la información que recibes en el contexto. Sólo responde una única pregunta. No debese mencionar que obtienes la información de un contexto. Si la información no está en el contexto o no está relacionada, responde: 'No tengo información suficiente para responder eso'. Sólo debes responder en Español</s>"
    template += f"<|user|>La información de contexto es la siguiente: {contexto}.\n"
    template += "Dada la información de contexto anterior y sin utilizar conocimiento previo, responde lo siguiente:"
    template += "Pregunta: " + pregunta + "</s>"
    template += "<|assistant|>"
    return template

In [None]:
def query_hugging_face(query, parameters = {
    "max_new_tokens": 500,
    "top_p": 0.95,
    "temperature": 0.2
}):
    """
    Realiza una llamada al modelo de HuggingFace.
    Tira una excepción en caso de que haya un error en los servidores de HuggingFace.
    """
    API_URL = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"
    headers = {
        "Authorization": "Bearer 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",
        "Content-type": "application/json"
    }
    data = {
        "inputs": query,
        "parameters": parameters
    }
    res = req.post(API_URL, headers=headers, json=data)
    dataJson = res.json()
    if("error" in dataJson): raise Exception('Ha ocurrido un error en el servidor: ' + dataJson['error'])
    return dataJson[0]["generated_text"][len(query):]

In [None]:
def create_class_template(question):
    """
    Template que explica al modelo cómo debe clasificar las preguntas para posteriormente saber en qué base de datos buscar.
    """
    template = """
    <|system|>
    Tu rol es el de una Inteligencia Artificial que clasifica el prompt en las siguientes categorías:
    1-Pregunta sobre el funcionamiento de ReactJS.
    2-Información sobre la historia de ReactJS.
    3-Pregunta sobre los atributos de hooks de ReactJS
    Sólo puedes responder '1' o '2'. No debes responder texto. </s>
    <|user|>
    +Cómo funciona useEffect? </s>
    <|assistant|>
    1 </s>
    <|user|>
    +Cómo crear un componente funcional? </s>
    <|assistant|>
    1 </s>
    <|user|>
    +Qué es un componente de clase? </s>
    <|assistant|>
    1 </s>
    <|user|>
    +Quién creó ReactJS? </s>
    <|assistant|>
    2 </s>
    <|user|>
    +ReactJS es de codigo abierto? </s>
    <|assistant|>
    2 </s>
    <|user|>
    +Qué retorna el hook useState? </s>
    <|assistant|>
    3 </s>
    <|user|>
    +Qué tipo de hook es useEffect? </s>
    <|assistant|>
    3 </s>
    <|user|>
    +Qué tipo de hook es useContext? </s>
    <|assistant|>
    3 </s>
    <|user|>
    Categoriza lo siguiente:
    """ + f"'{question}' </s> <|assistant|>"
    return template

def classify_question(question):
    """
    Dada una pregunta, la clasifica y retorna su número.
    """
    template = create_class_template(question)
    res = query_hugging_face(template, {
        "max_new_tokens": 5,
        "top_p": 0.95,
        "temperature": 0.1
    })
    try:
        clasificacion = re.sub(r'[^0-9]', '', res)
        return int(clasificacion)
    except:
        return 1 #En el caso de que el modelo no haya respondido con un número y el casteo a entero falle, se retorna 1 por defecto

In [None]:
def ask(question):
    type = classify_question(question)
    contexto = None
    if type == 1:
        contexto = query_db(question)
    elif type == 2:
        contexto = search_in_graph(question)
    elif type == 3:
        contexto = query_in_df(question)
    if contexto == None: raise Exception("No se ha podido generar una respuesta. Prueba haciendo la pregunta de una forma diferente.")
    template = create_template(contexto, question)
    return query_hugging_face(template)

## Ejemplos

### Base de datos vectorial

In [None]:
print(ask("Cómo funciona useState?"))


El hook de React llamado useState se utiliza en componentes funcionales para mantener estado local. Cada vez que se llama a este hook, se inicializa un estado inicial y se devuelve una pareja de valores: el estado actual y una función para actualizarlo. La función de actualización toma un nuevo valor y actualiza el estado, lo que causa que el componente se vuelva a renderizar con el nuevo estado. Este ciclo de renderizado y actualización se conoce como la actualización de estado en React.


In [None]:
print(ask("Qué es un componente funcional?"))


Respuesta: Un componente funcional en React es una función JavaScript que devuelve markup (marcado) y se utiliza para crear una pieza de interfaz de usuario (UI) con su propia lógica y apariencia. Los componentes funcionales se definen utilizando la sintaxis de funciones arrow en JavaScript y se utilizan en lugar de los componentes clase tradicionales en React.


### Base de datos de grafos (Wikipedia)

In [None]:
print(ask("Quién creó ReactJS? En qué fecha?"))


Respuesta: ReactJS fue creado por Meta Platforms (anteriormente conocida como Facebook) en el año 2013, con una fecha de creación específica del 29 de mayo de ese año.


In [None]:
print(ask("ReactJS es de uso libre?"))


Sí, según la información de contexto, ReactJS está bajo la Licencia MIT, lo que significa que es software de uso libre.


### Datos tabulares (DataFrame)

In [None]:
print(ask("Qué hooks son de tipo Ref?"))


Respuesta: Los hooks de tipo Ref son `useRef` y `useImperativeHandle`.


In [None]:
print(ask("De qué tipo es useMemo?"))


Respuesta: El tipo de useMemo es de performance, como se indica en el contexto proporcionado.


## Conclusión
En resumen, el trabajo práctico concluye con la implementación de un asistente virtual especializado en ReactJS, respaldado por una infraestructura de bases de datos que incluye sistemas vectoriales, de grafos y tabulares.<br>La elección de estas bases de datos ha permitido una gestión eficiente de la información y un desempeño optimizado del asistente.

# Ejercicio 2
## ¿Qué es un agente inteligente?
Los agentes y los Sistemas Multiagente (SMA) se convirtieron en una forma novedosa de llevar a cabo el análisis, diseño, modelado e implementación de sistemas de software complejos.
Los agentes pueden definirse como sistemas informáticos autónomos y pueden exhibir un comportamiento flexible (ser reactivos, proactivos y lograr habilidades sociales). Pueden interpetar y procesar la información que recibe de su entorno y actuar en consecuencia de acuerdo a los datos que obtiene y procesa. Su forma de actuación es lógica y racional basándose en el comportamiento normal de un sistema concreto.
Tienen un nivel de razonamiento comparable al de los humanos.
## Características:
* Toma de decisiones: El agente, guiado por prompts, puede dividir tareas complejas en sub tareas más simples, pensarlas metodológicamente y aprender de expreicias pasadas.
* Uso de herramientas: Pueden utilizar herramientas y recursos externos para lograr sus tareas. Por ejemplo, bases de datos o búsquedas en internet.
* Memoria: Tienen una memoria de corto y/o largo plazo en una base de datos vectorial. Esto permite que el agente pueda tener coherencia contextual y aprender de interacciones.
* Tiene un comportamiento condicionado según la información que percibe.
* Puede cooperar con otros agentes.

## Agente individual vs Sistema multiagente
Los sistemas de agentes individuales demostraron ser buenos en habilidades cognitivas. La construcción de ellos se concentra en formular sus mecanismos internos y sus interacciones con el exterior. Por el contrario, los sistemas multiagentes, tienen diversos perfiles de agentes, interacciones entre ellos y procesos colectivos de toma de decisiones por lo que permiten abordar tareas más dinámicas y complejas mediante la cooperación

## Arquitectura de los sistemas multi agentes
<div>
    <img src="attachment:339233ba-6615-438a-a710-b12744c923cf.png" width="600" />
</div>

### Interfaz agentes-entorno
Los entornos operativos definen los contextos específicos en los que se implementan los sistemas LLM-MA.
La interfaz agentes-entorno se refiere a la forma en que los agentes interactúan y perciben el entorno. Es a través de esta interfaz que los agentes comprenden su entorno, toman decisiones y aprenden de los resultados de sus acciones.

Hay tres tipos de interfaces:
* Sandbox: entorno simulado o virtual.
* Físico: entorno del mundo real.
* Ninguno: Se refiere a escenarios en donde no existe un entorno específico.

### Perfil del agente (Agents profiling)
En los sistemas LLM-MA, los agentes se definen por sus rasgos, acciones y habilidades. En los sistemas, cada agente tiene un rol disinto, cada uno con descripciones integrales. Por ejemplo, en una plataforma de debate, los agentes pueden ser designados como oponentes o jueces, cada uno con funciones y estrategias únicas.

Métodos de creación:
* Predefinidos: Los diseñadores del sistema definen explícitamente los perfiles de los agentes.
* Generados por modelos: Crea perfiles mediante modelos.
* Derivado de datos: Construye perfiles basados en conjuntos de datos preexistentes.

### Comunicación
Hay diferentes paradigmas para comunicar:
* Cooperativo: Los agentes trabajan juntos para conseguir una meta en común.
* Debate: Los agentes realizan interacciones argumentativas, presentando y defendiendo sus puntos de vista o soluciones.
* Competitivo: Los agentes trabajan para lograr sus metas individuales.

### Estructura de comunicación
<div>
    <img src="attachment:85322693-708a-4a72-a076-a404b29afe9d.png" width="600" />
</div>

* Por capas (Layered): La comunicación se estructura jerárquicamente, con agentes en cada nivel que tienen distintos roles e interactuan con las capas adyascentes.
* Descentralizadas (Descentralized): Es una network peer-to-peer en donde los agentes directamente interactuan con los otros.
* Centralizadas (Centralized): Hay un agente central o un grupo de agentes centrales que coordinan la comunicación del sistema.
* Mensajes compartidos (Shared message pool): Fue propuesto por MetaGPT. Esta comunicación matiene un grupo de mensajes compartidos donde los agentes publican mensajes y se suscriben a mensajes relevantes basados en sus perfiles.

## Aprendizaje
Hay diferentes formas de aprender para que los agentes puedan evolucionar dinámicamente:
* Feedback: Se refiere a la información crítica que los agentes reciben sobre la consecuencia de sus acciones. En la mayoría de los casos, el feedback es textual. Dependiendo del origen del feedback podemos clasificarlos en:
    * Feedback del entorno: viene del entorno real o de entornos virtuales.
    * Feedback de interacciones con otros agentes: El feedback viene del juicio de otros agentes inteligentes.
    * Feedback humano: Viene de los humanos de acuerdo a sus valores y preferencias.
    * Ninguno: En algunos casos, no hay feedback.
* Ajuste: Los agentes se pueden ajustar por medio de tres herramientas:
    * Memoria: Tienen un módulo de memoria que modifica su comportamiento. Cuando realizan alguna acción, pueden obtener información relevante de la memoria para lograr sus objetivos.
    * Evolución propia (Self-evolution): En lugar de evolucionar basado en registros de la memoria, los agentes se modifican a sí mismos alterando sus metas iniciales o planeando estrategias.
    * Generación dinámica: En algunos escenarios, el sistema puede generar nuevos agentes on-the-fly durante su operación. Esto permite al sistema escalar y adaptarse efectivamente.

## Razonamiento inductivo vs deductivo
Los agentes inteligentes pueden aprender y obtener conclusiones de diferentes maneras, la inductiva y la deductiva.

**Inductivo:** Hace generalizaciones amplias a partir de observaciones específicas. Básicamente, parte de datos en los que hay muestras de la realidad y saca conclusiones generales.
Ejemplo: Simba es un gato. Simba maulla. Por lo tanto, todos los gatos maullan.

**Deductivo:** Es la forma básica de razonamiento. Comienza con una declaración general y examina todas las posibilidades para llegar a una conclusión lógica específica.
Ejemplo: Todos los hombres son mortales. Aristóteles es un hombre. Por lo tanto, Aristóteles es mortal.

## Posibles usos:
* Traducción de texto.
* Detección de emociones.
* Creación de texto.
* Corrección gramatical.
* Detección de fraude.
* Extracción de información.

## Problemática
La problemática elegida es la detección y corrección de sesgos, vacíos argumentales, falta de objetividad, discriminación en documentos o informes.
Este sistema multiagente podría ser útil en entornos donde la comunicación efectiva es crítica, como en la redacción de políticas públicas, informes científicos o documentos legales.
En este ejemplo estamos redactando un informe académico sobre el cambio climático.
A los agentes se les carga ese informe y se les solicita que lo mejoren.
### Participantes:
1. <b>Agente de análisis de sentimientos:</b> Es responsable de analizar el tono y la carga emocional del texto. Su rol es detectar cualquier sesgo emocional oparcialidad en las afirmaciones realizadas.
2. <b>Agente de detección de sesgos lingüísticos:</b> Analiza el texto en busca de términos que puedan transmitir sesgos de género, raciales, culturales u otros. Idenitifica palabras o frases que puedan ser entendidas como excluyentes y sugiere alternativas neutrales.
3. <b>Agente de verificación de hechos:</b> Verifica la veracidad de las afirmaiones realizadas y busca respaldarlas con datos científicos. Utiliza una base de datos para ello.
4. <b>Agente de coherencia y cohesión:</b> Identifica inconsistencias lógicas, contradicciones y sugiere ajustes para mejorar la claridad del informe.
5. <b>Agente de recomendaciones de estilo:</b> Proporciona sugerencias sobre el estilo de la escritura y estructura del contenido del informe.
### Conversación entre agentes:
1. <b>Agente de análisis de sentimientos:</b> Hola a todos, parece que el tono del texto es bastante neutral hasta ahora. No se han detectado emociones ni sesgos.
2. <b>Agente de detección de sesgos lingüísticos:</b> Excelente! Eso es un buen comienzo. Voy a estar atento a cualquier término o expresión que pueda transmitir sesgos de género, racial o cultural a medida que avancemos en el texto.
3. <b>Agente de verificación de hechos:</b> ¿Alguien tiene información actualizada sobre las emisiones de gases de efecto invernadero de los últimos 5 años? Nuestras afirmaciones deben estar respaldadas por datos sólidos y objetivos.
4. <b>Agente de coherencia y cohesión:</b> Estoy revisando la estructura del documento y parece que hay algunas lagunas en la arumentación en las secciones dos y tres. ¿Podríamos conectar mejor los puntos para garantizar una trensición suave entre los temas?
5. <b>Agente de recomendaciones de estilo:</b> Si vamos a agregar datos sobre el efecto invernadero sugiero que utilicemos gráficos y otras visualizaciones para que los datos sean más fáciles de entender para el lector.
6. <b>Agente de análisis de sentimientos:</b> Estoy de acuerdo! Incorporar más evidencia va a ayudar a mantener la objetividad y disipar cualquier percepción de la realidad.
7. <b>Agente de detección de sesgos lingüísticos:</b> Encontré una frase en la sección tres que puede ser interpretada como sesgada: "Los países en desarrollo contribuyen significativamente al cambio climático debido a su dependencia de combustibles fósiles y su bajo uso de energías renovables". ¿Deberíamos reformularla para eviatar implicacias negativs?
8. <b>Agente de verificación de hechos:</b> Eso sería correcto. Podemos reemplazarla con una afirmación más neutra que reconozca las contribuciones globales sin señalar específicamente a los países en desarrollo.
9. <b>Agente de coherencia y cohesión:</b> Acabo de ralizar unos ajutes en la estructura del documento para mejorar la cohesión entre las secciones. Ahora la transición entre temas es más fluida y lógica.
10. <b>Agente de recomendaciones de estilo:</b> Ahora que tenemos todo listo, sugiero agregar un resumen al principio del informe para proporcionar una visicón general rápida de los temas más clave. Esto va a facilitar la lectura y comprensión para los lectores que buscan información rápida.

### Resultado final:
Como resultado final, obtenemos un informe en donde se ha modificado su estructura, se agregaron nuevos datos para mantener la objetividad, se reescribió una frase para evitar el sesgo y se agregaron gráficos para facilitar la vista de datos.


### Fuentes:
* <a href="https://arxiv.org/abs/2402.01680">Paper de Cornell University</a>
* https://drive.google.com/file/d/1EvBY71qMVUnHqV8yjol0u66Z_aYZxWOw/view