# Procesamiento del Lenguaje Natural - Trabajo Práctico Final
### Alumno: Simón Revello

## Importar librerías

In [1]:
import wikipediaapi as wiki
import pandas as pd
import bs4
import requests as req
import chromadb
from chromadb.utils import embedding_functions

### Obtener información - Hooks

In [3]:
hooksTypes = {
    "State": ["useState", "useReducer"],
    "Context": ["useContext"],
    "Ref": ["useRef", "useImperativeHandle"],
    "Effect": ["useEffect", "useLayoutEffect", "useInsertionEffect"],
    "Performance": ["useMemo", "useCallback", "useTransition", "useDeferredValue"],
    "Other": ["useDebugValue", "useId", "useSyncExternalStore"]
}

In [4]:
def get_info_hooks():
    data = []
    BASE_URL = "https://es.react.dev/reference/react/"
    for key, hooks in hooksTypes.items():
        for hook in hooks:
            res = req.get(BASE_URL + hook)
            bs = bs4.BeautifulSoup(res.text, "html.parser")
            descHtml = bs.find("p", {"class": "whitespace-pre-wrap my-4"})
            desc = descHtml.text
            
            referenceTitleHtml = bs.find("h2", {"id": "reference"})
            subTitleHtml = referenceTitleHtml.find_next_sibling()
            referenceDescHtml = subTitleHtml.find_next_sibling()
            codeExampleHtml = referenceDescHtml.find_next_sibling()
            reference = referenceDescHtml.text + "\n" + codeExampleHtml.text

            returnsTitleHtml = bs.find("h4", {"id": "returns"})
            nextSiblingHtml = returnsTitleHtml.find_next_sibling()
            returns = ""
            while(nextSiblingHtml != None and nextSiblingHtml.name != "h4"):
                returns += nextSiblingHtml.text + "\n"
                nextSiblingHtml = nextSiblingHtml.find_next_sibling()
            
            data.append({
                "hook": hook,
                "desc": desc,
                "reference": reference,
                "returns": returns,
                "type": key
            })
    return pd.DataFrame(data)

### Obtener información - Funcionamiento general

In [5]:
def get_funcionamiento_react():
    data = []
    BASE_URL = "https://es.react.dev/learn"
    res = req.get(BASE_URL)
    bs = bs4.BeautifulSoup(res.text, "html.parser")
    #Componentes
    componentsTitleHtml = bs.find("h2", {"id": "components"})
    componentesDescHtml = componentsTitleHtml.find_next_sibling()
    componentesDescHtml2 = componentesDescHtml.find_next_sibling()
    componentsDesc = componentsTitleHtml.text + "\n" + componentesDescHtml.text + "\n" + componentesDescHtml2.text
    data.append({
        "desc": componentsDesc,
        "tag": "Componente;UI;Interfaz;Grafica"
    })
    
    #Marcado JSX
    h2JsxHtml = bs.find("h2", {"id": "writing-markup-with-jsx"})
    jsxDescHtml = h2JsxHtml.find_next_sibling()
    jsxDescHtml2 = jsxDescHtml.find_next_sibling()
    jsxDesc = h2JsxHtml.text + "\n" + jsxDescHtml.text + "\n" + jsxDescHtml2.text
    data.append({
        "desc": jsxDesc,
        "tag": "JSX;Markup"
    })

    #Estilos CSS
    h2CssHtml = bs.find("h2", {"id": "adding-styles"})
    cssDescHtml = h2CssHtml.find_next_sibling()
    cssDescHtml2 = cssDescHtml.find_next_sibling().find_next_sibling().find_next_sibling()
    cssDesc = h2CssHtml.text + "\n" + cssDescHtml.text + "\n" + cssDescHtml2.text
    data.append({
        "desc": cssDesc,
        "tag": "CSS;Style;Estilos;Clases"
    })

    #Renderizado de listas
    h2ListasHtml = bs.find("h2", {"id": "rendering-lists"})
    listasDescHtml = h2ListasHtml.find_next_sibling()
    listasDescHtml2 = listasDescHtml.find_next_sibling()
    listasDescHtml3 = listasDescHtml2.find_next_sibling().find_next_sibling()
    listasDescHtml4 = listasDescHtml3.find_next_sibling().find_next_sibling()
    listasDesc = h2ListasHtml.text + "\n" + listasDescHtml.text + "\n" + listasDescHtml2.text + "\n" + listasDescHtml3.text + "\n" + listasDescHtml4.text
    data.append({
        "desc": listasDesc,
        "tag": "Listas;Key;Arreglo"
    })
    
    return pd.DataFrame(data)

### Generación de Base de Datos

In [6]:
def get_db():
    return chromadb.PersistentClient(path="reactdb")
def get_coll(db):
    return db.get_or_create_collection("data", embedding_function=embedding_functions.SentenceTransformerEmbeddingFunction(model_name="hiiamsid/sentence_similarity_spanish_es"), metadata={"hnsw:space": "cosine"})

def crear_o_cargar_db():
    data = []
    ids = []
    metas = []
    hooks = get_info_hooks()
    funcReact = get_funcionamiento_react()
    db = get_db()
    dataColl = get_coll(db)
    cont = 0
    for i in range(len(hooks)):
        id = f"id_{i}"
        hookRow = hooks.iloc[i]
        dataStr = hookRow["hook"] + "\n" + hookRow["desc"] + hookRow["reference"] + hookRow["returns"] + hookRow["type"]
        meta = {"hook": hookRow["type"]}
        data.append(dataStr)
        metas.append(meta)
        ids.append(id)
        cont += 1
    for i in range(cont, len(funcReact)):
        id = f"id_{i}"
        func = funcReact.iloc[i - cont]
        dataStr = funcReact["desc"]
        meta = {"tag": funcReact["tag"].split(";")}
        data.append(dataStr)
        ids.append(id)
        metas.append(meta)
    dataColl.add(
        documents=data,
        metadatas=metas,
        ids=ids
    )
    

In [7]:
crear_o_cargar_db()

### Conexión con Hugging Face

In [154]:
def create_template(contexto, pregunta):
    #template = "<|system|>Eres un asistente virtual que debe responder al usuario en base al contexto dado. Si el contexto no tiene información suficiente, responde: 'De momento no tengo información para responder eso'. No debes mencionar que obtienes la información de un contexto. Sólo debes responder en Español</s>"
    template = "<|system|>Eres un asistente útil que siempre responde con respuestas veraces, útiles y basadas en hechos. Sólo debes responder con la información que recibes en el contexto. Sólo responde una única pregunta. No debese mencionar que obtienes la información de un contexto. Si la información no está en el contexto o no está relacionada, responde: 'No tengo información suficiente para responder eso'. Sólo debes responder en Español</s>"
    template += f"<|user|>La información de contexto es la siguiente: {contexto}.\n"
    template += "Dada la información de contexto anterior y sin utilizar conocimiento previo, responde lo siguiente:"
    template += "Pregunta: " + pregunta + "</s>"
    template += "<|assistant|>"
    return template
    

In [155]:
def query_hugging_face(query):
    API_URL = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"
    headers = {
        "Authorization": "Bearer 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",
        "Content-type": "application/json"
    }
    data = {
        "inputs": query,
        "parameters": {
            "max_new_tokens": 500,
            #"top_k": 50,
            "top_p": 0.95,
            "temperature": 0.2
        }
    }
    res = req.post(API_URL, headers=headers, json=data)
    dataJson = res.json()
    return dataJson[0]["generated_text"][len(query):]
    return res

In [156]:
def ask(question):
    db = get_db()
    coll = get_coll(db)
    queryRes = coll.query(
        query_texts=[question],
        n_results=2
    )
    docs = queryRes["documents"][0]
    contexto = " ".join(docs)
    template = create_template(contexto, question)
    #print(template)
    return query_hugging_face(template)

In [158]:
print(ask("Qué es JSX?"))

Respuesta: JSX (JavaScript XML) es una sintaxis de marcado declarativa que permite escribir código de interfaz de usuario en React. Es una extensión de JavaScript que se convierte en código JavaScript válido durante la compilación. JSX es opcional en React, pero se recomienda para mejorar la legibilidad y la mantenibilidad del código.
