## Trabajo Práctico Final - Procesamiento de Lenguaje Natural

Alumno:

*   Garcia, Timoteo



## Dependencias

Instalamos e Importamos las dependecias a utilizar en el proyecto

In [None]:
!pip install llama_index sentence-transformers pypdf langchain python-decouple python-dotenv  chromadb SPARQLWrapper qwikidata

In [None]:
# !pip install llama_index sentence-transformers pypdf langchain python-decouple
from langchain.embeddings.huggingface import HuggingFaceEmbeddings
from llama_index.embeddings import LangchainEmbedding
from llama_index import ServiceContext
from llama_index import VectorStoreIndex, SimpleDirectoryReader
from jinja2 import Template
import requests
from decouple import config
from langchain.document_loaders import CSVLoader
from langchain.indexes import VectorstoreIndexCreator
from langchain.chains import RetrievalQA
import pandas as pd
import os
from decouple import config


## Pre-Procesamiento de documentos

Cargamos nuestro modelo de embeddings

In [None]:
print('Cargando modelo de embeddings...')
embed_model = LangchainEmbedding(
    HuggingFaceEmbeddings(model_name='sentence-transformers/paraphrase-multilingual-mpnet-base-v2'))

Cargando modelo de embeddings...


Cargamos y procesamos nuestros Documentos PDF, para luego armar nuestro retriever para realizar la búsqueda vectorial de información.

In [None]:
# Construimos un índice de documentos a partir de los datos de la carpeta Data
print('Indexando documentos...')
# Create a service context with the custom embedding model
documents = SimpleDirectoryReader("Data").load_data()
index = VectorStoreIndex.from_documents(documents, show_progress=True,
                                        service_context=ServiceContext.from_defaults(embed_model=embed_model, llm=None))

# Construimos un retriever a partir del índice, para realizar la búsqueda vectorial de documentos
retriever_txt = index.as_retriever(similarity_top_k=2)



Indexando documentos...
LLM is explicitly disabled. Using MockLLM.


Parsing nodes:   0%|          | 0/83 [00:00<?, ?it/s]

Generating embeddings:   0%|          | 0/87 [00:00<?, ?it/s]

Ahora similar con nuestro Documento Tabular. Pero antes le voy a hacer una transformacion a la información, generando una columna de 'contexto' para que sea mas nutritivo el dataset.

In [None]:
df = pd.read_csv("CSV/Expectativa.csv")
df['Context'] = df.apply(lambda row: f"Para el año {row['Year']}, {row['Entity']} tuvo una expectativa de vida de {row['Life expectancy']}", axis=1)

csv_file_path = 'CSV/Expectativa.csvExpectativa.csv'

# Exporta el DataFrame a un archivo CSV
df['Context'].to_csv(csv_file_path, index=False)


In [None]:
documents = SimpleDirectoryReader("CSV").load_data()

index = VectorStoreIndex.from_documents(documents, show_progress=True,
                                        service_context=ServiceContext.from_defaults(embed_model=embed_model, llm=None))

# Construimos un retriever a partir del índice, para realizar la búsqueda vectorial de documentos
retriever_csv = index.as_retriever(similarity_top_k=2)

LLM is explicitly disabled. Using MockLLM.


Parsing nodes:   0%|          | 0/2 [00:00<?, ?it/s]

Generating embeddings:   0%|          | 0/136 [00:00<?, ?it/s]

Importamos nuestro modelo LLM de Hugging Face

In [None]:
# Crear el archivo .env
with open('.env', 'w') as f:
    f.write('HUGGINGFACE_TOKEN=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')

# Cargar la variable de entorno manualmente
os.environ['HUGGINGFACE_TOKEN'] = config('HUGGINGFACE_TOKEN')

# Recuperar la clave usando decouple
huggingface_token = config('HUGGINGFACE_TOKEN')

# Imprimir la clave para verificar
print('Hugging Face Token:', huggingface_token)

Hugging Face Token: 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


Creamos el las funciones para obtener la informacion de la base de datos de Grafos, WikiData

In [None]:
import json
import requests
import nltk
from textblob import TextBlob
from SPARQLWrapper import SPARQLWrapper, JSON
from qwikidata.sparql import return_sparql_query_results
nltk.download('brown')
nltk.download('punkt')


def run_query(id):
    sparql = SPARQLWrapper("https://query.wikidata.org/sparql")
    query = """
    SELECT ?wdLabel ?ooLabel
    WHERE {{
     VALUES (?s) {{(wd:{0})}}
     ?s ?wdt ?o .
     ?wd wikibase:directClaim ?wdt .
     ?wd rdfs:label ?wdLabel .
     OPTIONAL {{
     ?o rdfs:label ?oLabel .
     FILTER (lang(?oLabel) = "en")
     }}
     FILTER (lang(?wdLabel) = "en")
     BIND (COALESCE(?oLabel, ?o) AS ?ooLabel)
     }} ORDER BY xsd:integer(STRAFTER(STR(?wd), "http://www.wikidata.org/entity/P"))
    """.format(id)
    sparql.setQuery(query)
    sparql.setReturnFormat(JSON)
    results = sparql.query().convert()
    return results

def get_related_wikidata(user_query):
    blob = TextBlob(user_query)
    wikidata_info = []

    for noun in blob.noun_phrases:
        params = {
            'action': 'wbsearchentities',
            'format': 'json',
            'language': 'en',
            'search': noun
        }

        API_ENDPOINT = "https://www.wikidata.org/w/api.php"
        response = requests.get(API_ENDPOINT, params=params)
        data = response.json()

        entities_id = []
        for entity in data['search']:
            entities_id.append(entity['id'])

        try:
            result = run_query(entities_id[0])  # Use the first entity ID
            for r in result["results"]["bindings"]:
                wikidata_info.append({
                    'entity_label': r["wdLabel"]["value"].strip(),
                    'property_label': r["ooLabel"]["value"]
                })
        except Exception as e:
            print(f'Error fetching Wikidata info for {noun}: {str(e)}')

    return wikidata_info

[nltk_data] Downloading package brown to /root/nltk_data...
[nltk_data]   Package brown is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Creamos los templates, la generación de respuestas, y la creación de prompt, de nuestro chatbot RAG

In [None]:
def zephyr_instruct_template(messages, add_generation_prompt=True):
    # Definir la plantilla Jinja
    template_str = "{% for message in messages %}"
    template_str += "{% if message['role'] == 'user' %}"
    template_str += "<|user|>{{ message['content'] }}</s>\n"
    template_str += "{% elif message['role'] == 'assistant' %}"
    template_str += "<|assistant|>{{ message['content'] }}</s>\n"
    template_str += "{% elif message['role'] == 'system' %}"
    template_str += "<|system|>{{ message['content'] }}</s>\n"
    template_str += "{% else %}"
    template_str += "<|unknown|>{{ message['content'] }}</s>\n"
    template_str += "{% endif %}"
    template_str += "{% endfor %}"
    template_str += "{% if add_generation_prompt %}"
    template_str += "<|assistant|>\n"
    template_str += "{% endif %}"

    # Crear un objeto de plantilla con la cadena de plantilla
    template = Template(template_str)

    # Renderizar la plantilla con los mensajes proporcionados
    return template.render(messages=messages, add_generation_prompt=add_generation_prompt)


# Aquí hacemos la llamada el modelo
def generate_answer(prompt: str, max_new_tokens: int = 768) -> None:
    try:
        # Tu clave API de Hugging Face
        api_key = config('HUGGINGFACE_TOKEN')

        # URL de la API de Hugging Face para la generación de texto
        api_url = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"

        # Cabeceras para la solicitud
        headers = {"Authorization": f"Bearer {api_key}"}

        # Datos para enviar en la solicitud POST
        # Sobre los parámetros: https://huggingface.co/docs/transformers/main_classes/text_generation
        data = {
            "inputs": prompt,
            "parameters": {
                "max_new_tokens": max_new_tokens,
                "temperature": 0.7,
                "top_k": 50,
                "top_p": 0.95
            }
        }

        # Realizamos la solicitud POST
        response = requests.post(api_url, headers=headers, json=data)

        # Extraer respuesta
        respuesta = response.json()[0]["generated_text"][len(prompt):]
        return respuesta

    except Exception as e:
        print(f"An error occurred: {e}")

# Esta función prepara el prompt en estilo QA
def prepare_prompt(query_str: str, nodes, category):
  TEXT_QA_PROMPT_TMPL = (
      "La información de contexto es la siguiente:\n"
      "---------------------\n"
      "{context_str}\n"
      "---------------------\n"
      "Dada la información de contexto anterior, y sin utilizar conocimiento previo, responde la siguiente pregunta.\n"
      "Pregunta: {query_str}\n"
      "Respuesta: "
  )
  if category == '0':
    # Construimos el contexto de la pregunta
    context_str = ''
    for node in nodes:
        page_label = node.metadata["page_label"]
        file_path = node.metadata["file_path"]
        context_str += f"\npage_label: {page_label}\n"
        context_str += f"file_path: {file_path}\n\n"
        context_str += f"{node.text}\n"
  elif category == '1':
    context_str = ''
    if nodes:
        for wd_info in nodes:
            context_str += f'\t{wd_info["entity_label"]}: {wd_info["property_label"]}\n'
    else:
        context_str = "No se encontró información relevante en Wikidata."
  elif category == '2':
    context_str = ''
    for node in nodes:
        file_path = node.metadata["file_path"]
        context_str += f"file_path: {file_path}\n\n"
        context_str += f"{node.text}\n"


  # Construimos los mensajes para el modelo
  messages = [
      {
          "role": "system",
          "content": "Eres un asistente útil que siempre responde con respuestas veraces, útiles y basadas en hechos.",
      },
      {"role": "user", "content": TEXT_QA_PROMPT_TMPL.format(context_str=context_str, query_str=query_str)},
  ]

  final_prompt = zephyr_instruct_template(messages)
  return final_prompt

Creamos un clasificador de Prompts, con el fin de clasificar el tipo de pregunta o instrucción que haga el usuario final, para asi decidir que fuente de datos de las 3 disponibles, va a utilizar el bot para generar la respuesta.

In [None]:
API_URL = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"
headers = {"Authorization": f"Bearer {config('HUGGINGFACE_TOKEN')}"}


def classify_query(payload):
    response = requests.post(API_URL, headers=headers, json=payload)
    return response.json()

def classify_instruction(user_query):
    quest_to_model = f"""
    You are a query classifier that doesnt response queries, but only classify queries on these categories:
    0 - regulations, changes and information about the dnu presented by javier milei
    1 - general knowledge
    2 - Countries Life Expectancy

    +"¿Que dicen acerca de la Ley N° 9.643?"</s>

    0</s>

    +"Hablame acerca del DNU"</s>

    0</s>

    +"¿Que va a pasar con la Ley de Alquileres?"</s>

    0</s>

    +"¿Que va a pasar con YPF?"</s>

    0</s>

    +"Explicame quien es Lionel Messi"</s>

    1</s>

    +"¿Cual es la capital de Egipto?"</s>

    1</s>

    +"¿Como se juega a?"</s>

    1</s>

    +"¿Como se juega al Futbol?"</s>

    1</s>

    +"¿Quien es Barak Obama?"</s>

    1</s>

    +"Expectativa de vida"</s>

    2</s>

    +"Expectativa de vida de Spain en 2020"</s>

    2</s>

    +"¿ Cual fue el Pais con menor expectativa de vida en 2010?"</s>

    2</s>

    +"¿Que puesto ocupo Australia en el ranking de Expectativa de vida en 2002?"</s>

    2</s>

    +"{user_query}"</s>

    """
    return quest_to_model


def generate_answer_based_on_category(category, user_query):
    if category == '0':
      nodes = retriever_txt.retrieve(user_query)
      final_prompt = prepare_prompt(user_query, nodes, category)
      final_answer = generate_answer(final_prompt)
      return final_answer
    elif category == '1':

      print("Buscando en Wikidata...\n")
      wikidata_info = get_related_wikidata(user_query)
      prepared_prompt = prepare_prompt(user_query, wikidata_info, category)
      final_answer = generate_answer(prepared_prompt)
      return final_answer

    elif category == "2":

      nodes = retriever_csv.retrieve(user_query)
      final_prompt = prepare_prompt(user_query, nodes, category)
      final_answer = generate_answer(final_prompt)
      return final_answer

    else:
        return "No se pudo determinar una categoría para la pregunta."


Armamos lo que seria el 'Programa'

In [None]:
def respuesta(query):
  output = classify_query({
    "inputs": classify_instruction(query),
    "parameters": {
        "do_sample": True,
        "max_new_tokens": 1,
        "return_full_text": False
    }
})
  categoria = output[0]['generated_text'].strip()


  # Genera la respuesta basada en la categoría
  response = generate_answer_based_on_category(categoria, query)
  return categoria, response

Probamos el modelo, con una serie de preguntas precargadas

In [None]:
print('Realizando llamada a HuggingFace para generar respuestas...\n')

queries = ['Segun el DNU , ¿Que pasara con la ley de alquileres?',
           '¿Que va a pasar con YPF?',
           '¿Que resolución llevaran a cabo con el Impuesto a las ganancias?',
           '¿Quien es Lionel Messi?',
           '¿Quien gano la copa libertadores de America en el año 2007?',
           '¿Que pais tuvo la mayor expectativa de vida en 2006?',
           'Expectativa de vida de Spain en 2008']

for query_str in queries:
  output = classify_query({
      "inputs": classify_instruction(query_str),
      "parameters": {
          "do_sample": True,
          "max_new_tokens": 1,
          "return_full_text": False
      }
  })

  try:
      # Imprime la categoría asignada por el modelo de clasificación
      print(f"Pregunta : {query_str}")

      category = output[0]['generated_text'].strip()
      # Genera la respuesta basada en la categoría
      response = generate_answer_based_on_category(category, query_str)
      print(f"Respuesta: {response}")

  except Exception as e:
      print(f"Error: {e}")


Realizando llamada a HuggingFace para generar respuestas...

Pregunta : Segun el DNU , ¿Que pasara con la ley de alquileres?
Categoría de la pregunta: 0
Respuesta: El DNU (Decreto de Necesidad y Urgencia) mencionado no hace referencia a una ley de alquileres en el fragmento de información proporcionado. Por lo tanto, no se puede responder a la pregunta. Se recomienda revisar el contenido completo del DNU en cuestión para determinar si se hace referencia a una ley de alquileres o no.
Pregunta : ¿Que va a pasar con YPF?
Categoría de la pregunta: 0
Respuesta: La información proporcionada no ofrece una pregunta específica sobre YPF. Sin embargo, en el texto se menciona que la deuda contraída por la administración anterior asciende a aproximadamente 112.000 millones de dólares, y YPF suma 25.000 millones de dólares a esa deuda. Además, se indica que la deuda del Tesoro pendiente suma unos 35.000 millones de dólares adicionales. En resumen, la situación financiera de YPF forma parte de un pr