##RAG
Crear un chatbot experto en un tema a elección, usando la técnica RAG (Retrieval Augmented Generation). Como fuentes de conocimiento se utilizarán al menos las siguientes fuentes:

-Documentos de texto

-Datos numéricos en formato tabular (por ej., Dataframes, CSV, sqlite, etc.)

-Base de datos de grafos (Online o local)

El sistema debe poder llevar a cabo una conversación en lenguaje español. El usuario podrá hacer preguntas, que el chatbot intentará responder a partir de datos de algunas de sus fuentes. El asistente debe poder clasificar las preguntas, para saber qué fuentes de datos utilizar como contexto para generar una respuesta.



Nuestro chatbot será un especialista en combustible en Argentina.

Instalación e importación de librerías

In [4]:
!pip install pdfplumber
!pip install langchain
!pip install chromadb
!pip install sentence_transformers
!pip install SPARQLWrapper
!pip install pandas

Collecting pdfplumber
  Downloading pdfplumber-0.10.4-py3-none-any.whl (54 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m54.7/54.7 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pdfminer.six==20221105 (from pdfplumber)
  Downloading pdfminer.six-20221105-py3-none-any.whl (5.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.6/5.6 MB[0m [31m37.9 MB/s[0m eta [36m0:00:00[0m
Collecting pypdfium2>=4.18.0 (from pdfplumber)
  Downloading pypdfium2-4.27.0-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.8/2.8 MB[0m [31m76.6 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pypdfium2, pdfminer.six, pdfplumber
Successfully installed pdfminer.six-20221105 pdfplumber-0.10.4 pypdfium2-4.27.0
Collecting langchain
  Downloading langchain-0.1.11-py3-none-any.whl (807 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m807.5/807.5

In [5]:
import gdown
import os
import shutil
import pdfplumber
import re
import chromadb
import spacy
import pandas as pd
import requests

from google.colab import drive
from langchain.text_splitter import RecursiveCharacterTextSplitter
from sentence_transformers import SentenceTransformer
from SPARQLWrapper import SPARQLWrapper, JSON
from textblob import TextBlob
from jinja2 import Template
from transformers import pipeline

Descarga de documentos.

In [6]:
drive.mount('/content/drive')

# Link con archivo sobre la nafta
url= 'https://drive.google.com/drive/u/0/folders/1z0k8unnxWuq75_ooa_kP2QFkkXb42xPE'
# Descarga carpeta 'NLP'
gdown.download_folder(url, quiet=True, output='NLP')
# Crear la carpeta 'datos_nafta' si no existe
carpeta_destino = 'datos_nafta'
if not os.path.exists(carpeta_destino):
  os.makedirs(carpeta_destino)
# Mover todos los archivos de 'NLP' a 'datos_nafta'
carpeta_origen = 'NLP'
for filename in os.listdir(carpeta_origen):
  ruta_origen = os.path.join(carpeta_origen, filename)
  ruta_destino = os.path.join(carpeta_destino, filename)
  shutil.move(ruta_origen, ruta_destino)
# Eliminar la carpeta 'NLP'
shutil.rmtree(carpeta_origen)
print("Archivos movidos con éxito.")

Mounted at /content/drive
Archivos movidos con éxito.


###Documento de texto

Extración del texto del archivo.

In [None]:
pdf_path = '/content/datos_nafta/analisis-precios-mercado-combustibles.pdf'

if os.path.exists(pdf_path):
    with pdfplumber.open(pdf_path) as pdf:
        texto = ""
        # Por cada página
        for pagina in pdf.pages:
            # Extraemos el texto
            texto_pagina = pagina.extract_text()

            texto += texto_pagina + "\n"

        # Mostramos el texto extraído
        print("Texto extraído:")
        print(texto)
else:
    print(f"El archivo {pdf_path} no se encuentra.")

#####Split del texto

In [8]:
texto= str(texto)

In [9]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1500, chunk_overlap=300)
texts = text_splitter.split_text(texto)

trozos_de_texto = []


for i, txt in enumerate(texts):
    #diccionario con el texto y su número de chunk
    trozo = {'chunk': i, 'texto': txt}

    trozos_de_texto.append(trozo)


Ejemplo

In [10]:
primer_trozo = trozos_de_texto[0]
print("Número de chunk:", primer_trozo['chunk'])
print("Texto:", primer_trozo['texto'])

Número de chunk: 0
Texto: Maestría en Administración de Empresas
Trabajo Final de Maestría
Análisis comercial del impacto de la regulación de
precios en el mercado de combustibles en Argentina
Autor: Gastón Villamea
N° Registro: 671930255
Director: Ciro García Resta
MBA edición 2019
Diciembre 2020
AGRADECIMIENTOS
Un especial agradecimiento a Carlos Grosso por compartir conmigo toda su sabiduría, y
por la dedicación con la cual aportó su conocimiento. Gracias a Ciro García Resta por su
acompañamiento, contribuyendo siempre con una mirada fresca e innovadora, ayudándome a
pensar y repensar los contenidos y enfoques de cada tema. Agradezco a Valeria Malach por su
apoyo constante, su paciencia, su mirada crítica y por aportar su conocimiento al presente trabajo.
Un agradecimiento a Mariano Valverde, colega y amigo, por haber compartido conmigo su
experiencia, habiendo transitado ya el mismo camino. Gracias al cuerpo docente y autoridades de
la Maestría en Administración de Empresas UCA por

#####Embeddings del texto

In [11]:
!python -m spacy download es_core_news_sm
nlp = spacy.load('es_core_news_sm')

Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m27.3 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [12]:
embeddings = []

for trozo in trozos_de_texto:
    # Procesar el texto con spaCy
    doc = nlp(trozo['texto'])
    # embedding promedio de las palabras en el documento
    embedding = doc.vector.tolist()
    # diccionario con el número de chunk y su embedding
    embedding_trozo = {'chunk': trozo['chunk'], 'embedding': embedding}

    embeddings.append(embedding_trozo)

Ejemplo

In [13]:
primer_embedding = embeddings[0]
print("Número de chunk:", primer_embedding['chunk'])
print("Embedding:", primer_embedding['embedding'])

Número de chunk: 0
Embedding: [0.48443326354026794, -0.09353192895650864, -0.012431441806256771, -0.3212052881717682, 0.4067836105823517, 0.28030771017074585, 0.5421172380447388, 0.3227706849575043, -0.11509433388710022, 0.19458657503128052, 0.13660207390785217, 0.17191384732723236, 0.09848155081272125, 0.5560622215270996, -0.033254414796829224, 0.7039345502853394, -0.0565485805273056, 0.37703895568847656, -0.4229962229728699, -0.08889001607894897, 0.05122673511505127, 0.1255168467760086, 0.3307746648788452, -0.2857779562473297, -0.100519098341465, 0.26337480545043945, 0.6301631927490234, -0.5725499391555786, -0.07420915365219116, 1.1988877058029175, -0.3956493139266968, -0.38561853766441345, -0.2552982270717621, -0.07560078054666519, 0.07625564932823181, 0.7650879621505737, 0.6479164361953735, -0.560592770576477, 0.43521422147750854, -0.3903268873691559, -1.0545063018798828, -0.3131096363067627, -0.06685872375965118, -0.4106380045413971, 0.4707447290420532, 0.11760660260915756, 0.0902

#####Base de datos vectorial

necesitamos tenerla ya que nos permite hacer las búsquedas y así poder realizar RAG.

In [14]:
bd_vectorial = chromadb.Client()
collection = bd_vectorial.create_collection("my-collection")
#collection = bd_vectorial.get_collection("my-collection")

In [15]:
nombres_documentos = ["analisis-precios-mercado-combustibles.pdf"] * len(embeddings)


collection.add(
    documents=nombres_documentos,
    metadatas=[{'chunk': embedding['chunk']} for embedding in embeddings],
    ids=[str(embedding['chunk']) for embedding in embeddings],
    embeddings=[embedding['embedding'] for embedding in embeddings]
)

###Base de datos de grafos

Buscamos obtener la información de la base de grafos ‘Wikidata’

In [17]:
def run_query(id):
    sparql = SPARQLWrapper("https://query.wikidata.org/sparql")
    query = """
    SELECT ?wdLabel ?ooLabel
    WHERE {{
     VALUES (?s) {{(wd:{0})}}
     ?s ?wdt ?o .
     ?wd wikibase:directClaim ?wdt .
     ?wd rdfs:label ?wdLabel .
     OPTIONAL {{
     ?o rdfs:label ?oLabel .
     FILTER (lang(?oLabel) = "en")
     }}
     FILTER (lang(?wdLabel) = "en")
     BIND (COALESCE(?oLabel, ?o) AS ?ooLabel)
     }} ORDER BY xsd:integer(STRAFTER(STR(?wd), "http://www.wikidata.org/entity/P"))
    """.format(id)
    sparql.setQuery(query)
    sparql.setReturnFormat(JSON)
    results = sparql.query().convert()
    return results

#consulta SPARQL a Wikidata(query)
def consulta_sparql(query):
    # URL donde se enviará la consulta
    url = "https://query.wikidata.org/sparql"

    # Configuración de la consulta SPARQL
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
        'Accept': 'application/json'
    }

    params = {
        'query': query,
        'format': 'json'
    }

    # Realización de la solicitud GET.
    response = requests.get(url, headers=headers, params=params)

    # Si la respuesta fue exitosa
    if response.status_code == 200:
        # Verificamos el json
        if response.json():
            # Obtenemos el primer resultado
            resultado = response.json()['results']['bindings'][0]
            respuesta_wikidata = ''
            for key in resultado.keys():
                respuesta_wikidata += f'{key}: {resultado[key]["value"]}\n'

            return respuesta_wikidata

    # Si hay un error
    else:
        print("Error al realizar la consulta. Código de estado:", response.status_code)

    # Si no hay resultados o hay algún error, devolvemos None
    return None

###Datos tabulares

Incluimos datos tabulares trabajando con un archivo xlsx donde tenemos información del precio del combustible tanto premium como comun en Argentina desde 2001 hasta 2022.

Será consultada en caso de que se solicite información relacionada precios.

In [18]:
csv_file_path = '/content/datos_nafta/precios.xlsx'
df = pd.read_excel(csv_file_path)
df

Unnamed: 0,indicator,País__ESTANDAR,Tipo de combustible,Componente,Años__ESTANDAR,value,unit,notes_ids,source_id
0,Precio de los combustibles (comparación en dól...,Argentina,Gasolina corriente,PRECIO FINAL (CONSUMIDOR),2001,0.999,Dólares corrientes por litro (GLP en dólares c...,5318,804
1,Precio de los combustibles (comparación en dól...,Argentina,Gasolina corriente,PRECIO FINAL (CONSUMIDOR),2002,0.493,Dólares corrientes por litro (GLP en dólares c...,5318,804
2,Precio de los combustibles (comparación en dól...,Argentina,Gasolina corriente,PRECIO FINAL (CONSUMIDOR),2003,0.644,Dólares corrientes por litro (GLP en dólares c...,5318,804
3,Precio de los combustibles (comparación en dól...,Argentina,Gasolina corriente,PRECIO FINAL (CONSUMIDOR),2004,0.639,Dólares corrientes por litro (GLP en dólares c...,5318,804
4,Precio de los combustibles (comparación en dól...,Argentina,Gasolina corriente,PRECIO FINAL (CONSUMIDOR),2005,0.647,Dólares corrientes por litro (GLP en dólares c...,5318,804
5,Precio de los combustibles (comparación en dól...,Argentina,Gasolina corriente,PRECIO FINAL (CONSUMIDOR),2006,0.615,Dólares corrientes por litro (GLP en dólares c...,5318,804
6,Precio de los combustibles (comparación en dól...,Argentina,Gasolina corriente,PRECIO FINAL (CONSUMIDOR),2007,0.637,Dólares corrientes por litro (GLP en dólares c...,5318,804
7,Precio de los combustibles (comparación en dól...,Argentina,Gasolina corriente,PRECIO FINAL (CONSUMIDOR),2008,0.755,Dólares corrientes por litro (GLP en dólares c...,5318,804
8,Precio de los combustibles (comparación en dól...,Argentina,Gasolina corriente,PRECIO FINAL (CONSUMIDOR),2009,0.796,Dólares corrientes por litro (GLP en dólares c...,5318,804
9,Precio de los combustibles (comparación en dól...,Argentina,Gasolina corriente,PRECIO FINAL (CONSUMIDOR),2010,0.951,Dólares corrientes por litro (GLP en dólares c...,5318,804


In [19]:
eliminar = ['Componente', 'País__ESTANDAR', 'notes_ids', 'source_id', 'indicator']
#datos = df.set_index('Años__ESTANDAR')
datos = df.drop(eliminar, axis=1)
datos

Unnamed: 0,Tipo de combustible,Años__ESTANDAR,value,unit
0,Gasolina corriente,2001,0.999,Dólares corrientes por litro (GLP en dólares c...
1,Gasolina corriente,2002,0.493,Dólares corrientes por litro (GLP en dólares c...
2,Gasolina corriente,2003,0.644,Dólares corrientes por litro (GLP en dólares c...
3,Gasolina corriente,2004,0.639,Dólares corrientes por litro (GLP en dólares c...
4,Gasolina corriente,2005,0.647,Dólares corrientes por litro (GLP en dólares c...
5,Gasolina corriente,2006,0.615,Dólares corrientes por litro (GLP en dólares c...
6,Gasolina corriente,2007,0.637,Dólares corrientes por litro (GLP en dólares c...
7,Gasolina corriente,2008,0.755,Dólares corrientes por litro (GLP en dólares c...
8,Gasolina corriente,2009,0.796,Dólares corrientes por litro (GLP en dólares c...
9,Gasolina corriente,2010,0.951,Dólares corrientes por litro (GLP en dólares c...


Función que nos transforma los datos a texto.


In [53]:
def dataframe_to_string(df):
    result = ""
    for index, row in df.iterrows():
        result += f"Tipo de combustible: {row['Tipo de combustible']}\n"
        result += f"Año: {row['Años__ESTANDAR']} \n"
        result += f"Precio: {row['value']} Dólares corrientes por litro.\n"
        result += "\n"

    return result
df_string = dataframe_to_string(datos)


print(df_string)

Tipo de combustible: Gasolina corriente
Año: 2001 
Precio: 0.999 Dólares corrientes por litro.

Tipo de combustible: Gasolina corriente
Año: 2002 
Precio: 0.493 Dólares corrientes por litro.

Tipo de combustible: Gasolina corriente
Año: 2003 
Precio: 0.644 Dólares corrientes por litro.

Tipo de combustible: Gasolina corriente
Año: 2004 
Precio: 0.639 Dólares corrientes por litro.

Tipo de combustible: Gasolina corriente
Año: 2005 
Precio: 0.647 Dólares corrientes por litro.

Tipo de combustible: Gasolina corriente
Año: 2006 
Precio: 0.615 Dólares corrientes por litro.

Tipo de combustible: Gasolina corriente
Año: 2007 
Precio: 0.637 Dólares corrientes por litro.

Tipo de combustible: Gasolina corriente
Año: 2008 
Precio: 0.755 Dólares corrientes por litro.

Tipo de combustible: Gasolina corriente
Año: 2009 
Precio: 0.796 Dólares corrientes por litro.

Tipo de combustible: Gasolina corriente
Año: 2010 
Precio: 0.951 Dólares corrientes por litro.

Tipo de combustible: Gasolina corriente


##**Implementación RAG**

Para clasificar las preguntas y elegir la fuente para dar contexto a esta, utilicé un LLM de Hugging face y un formato de prompt Few-Shot para que la respuesta sea más exacta.

In [70]:
def zephyr_instruct_template(messages, add_generation_prompt=True):
    # Definir la plantilla Jinja
    template_str  = "{% for message in messages %}"
    template_str += "{% if message['role'] == 'user' %}"
    template_str += "<|user|>{{ message['content'] }}</s>\n"
    template_str += "{% elif message['role'] == 'assistant' %}"
    template_str += "<|assistant|>{{ message['content'] }}</s>\n"
    template_str += "{% elif message['role'] == 'system' %}"
    template_str += "<|system|>{{ message['content'] }}</s>\n"
    template_str += "{% else %}"
    template_str += "<|unknown|>{{ message['content'] }}</s>\n"
    template_str += "{% endif %}"
    template_str += "{% endfor %}"
    template_str += "{% if add_generation_prompt %}"
    template_str += "<|assistant|>\n"
    template_str += "{% endif %}"

    # Crear un objeto de plantilla con la cadena de plantilla
    template = Template(template_str)

    # Renderizar la plantilla con los mensajes proporcionados
    return template.render(messages=messages, add_generation_prompt=add_generation_prompt)

api_key='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'

In [69]:
def choose_data_source(prompt: str, api_key, max_new_tokens: int = 768) -> None:
    messages: List[Dict[str, str]] = [
                                {
                                  "role": "system",
                                  "content": "Eres un asistente, especializado en identificar el sujeto u objeto al que se hace referencia en una pregunta o tarea."
                                },
                                {
                                  "role": "user",
                                  "content": "¿Que establece el Decreto 566/2019?"
                                },
                                {
                                  "role": "assistant",
                                  "content": "Analisis: [Decreto 566/2019]"
                                },
                                {
                                  "role": "user",
                                  "content": "¿En base a que se rige el precio de los combustibles?"
                                },
                                {
                                  "role": "assistant",
                                  "content": "Analisis: [Precio del combustible]"
                                },
                                {
                                  "role": "user",
                                  "content": "¿Cómo se analiza la inflacción?"
                                },
                                {
                                  "role": "assistant",
                                  "content": "Analisis: [Inflacción]"
                                },
                                {
                                  "role": "user",
                                  "content": "¿Costo de la gasolina corriente en 2001?"
                                },
                                {
                                  "role": "assistant",
                                  "content": "Precio"
                                },
                                {
                                  "role": "user",
                                  "content": "¿Costo de la gasolina premium en 2010?"
                                },
                                {
                                  "role": "assistant",
                                  "content": "Precio"
                                },
                                {
                                  "role": "user",
                                  "content": f'Responde sin usar conocimientos previos sobre el tema o agregar información que no esté contenida en la pregunta solo de una de las siguientes maneras:\n\
                                  "Analisis: [Nombre de la variable en cuestión]" si se trata de una pregunta sobre la variable de analisis, con el nombre en mayúscula.\n\
                                  "Precio" si se trata de una pregunta sobre los precios del combustible en determinado año. \n\
                                  -------------------------------------------\n\
                                   La pregunta es la siguiente:\n\
                                  {prompt}'
                                }
                              ]


    try:
        prompt_formatted: str = zephyr_instruct_template(messages, add_generation_prompt=True)

        # URL de la API de Hugging Face para la generación de texto
        api_url = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"

        # Cabeceras para la solicitud
        headers = {"Authorization": f"Bearer {api_key}"}

        # Datos para enviar en la solicitud POST
				# Sobre los parámetros: https://huggingface.co/docs/transformers/main_classes/text_generation
        data = {
            "inputs": prompt_formatted,
            "parameters": {
                "max_new_tokens": max_new_tokens,
                "temperature": 0.7,
                "top_k": 50,
                "top_p": 0.95
            }
        }

        # Realizamos la solicitud POST
        response = requests.post(api_url, headers=headers, json=data)

        # Extraer respuesta
        respuesta = response.json()[0]["generated_text"][len(prompt_formatted):]
        return respuesta

    except Exception as e:
        print(f"An error occurred: {e}")

Para obtener la información que necesito y así poder intrepretar la respuesta

In [61]:
def answer_cleaner(texto):
    palabras_clave = ["Analisis", "Precio"]

    for palabra in palabras_clave:
        if palabra in texto:
            return [palabra, None]
    return [None, None]

Teniendo el resultado de la clasificación, de cada fuente obtengo el contexto.

In [63]:
def devolver_contexto(respuesta_LLM, prompt):
    # Si no se halló nada, no devolver contexto
    if respuesta_LLM in ([None, None]):
        return ("", 'Error al identificar la fuente')

    # Si la pregunta o tarea es referida a un análisis
    elif respuesta_LLM[0] == "Analisis":
      contexto= ''
      bd_vectorial = chromadb.Client()
      collection = bd_vectorial.get_collection("my-collection")

      query_embedding = nlp(prompt).vector.tolist()
      results = collection.query(query_embeddings=[query_embedding], n_results=5)
      for result in results['documents'][0]:
        contexto += result
      return (contexto, 'Base de datos vectorial de Embeddings')

    # Si la pregunta o tarea es referida a los precios
    elif respuesta_LLM[0] == "Precio":
        precios_string=dataframe_to_string(datos)
        return (precios_string, 'Texto sobre precios')

    # Si la pregunta o tarea no se identifica claramente
    else:
        return ("", 'No se puede determinar la fuente')

Agregamos el contexto al modelo MLL

In [44]:
def ask_agent_context(prompt: str, context: str, api_key, max_new_tokens: int = 768) -> None:
    messages: List[Dict[str, str]] = [
                                    {
                                        "role": "system",
                                        "content": "Es un asistente útil que siempre responde con respuestas veraces, útiles y basadas en hechos.."
                                    },
                                    {
                                        "role": "user",
                                        "content": f"La información de contexto es la siguiente:\n\
                                        ---------------------\n\
                                        {context}\n\
                                        ---------------------\n\
                                        Dada la información de contexto anterior, y sin utilizar conocimientos previos, responda la siguiente pregunta.\n\
                                        Pregunta: {prompt}\n\
                                        Respuesta: "
                                    }
                                ]

    try:
        prompt_formatted: str = zephyr_instruct_template(messages, add_generation_prompt=True)

        # URL de la API de Hugging Face para la generación de texto
        api_url = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"

        # Cabeceras para la solicitud
        headers = {"Authorization": f"Bearer {api_key}"}

        # Datos para enviar en la solicitud POST
				# Sobre los parámetros: https://huggingface.co/docs/transformers/main_classes/text_generation
        data = {
            "inputs": prompt_formatted,
            "parameters": {
                "max_new_tokens": max_new_tokens,
                "temperature": 0.7,
                "top_k": 50,
                "top_p": 0.95
            }
        }

        # Realizamos la solicitud POST
        response = requests.post(api_url, headers=headers, json=data)

        # Extraer respuesta
        respuesta = response.json()[0]["generated_text"][len(prompt_formatted):]
        return respuesta

    except Exception as e:
        print(f"An error occurred: {e}")

Defino el RAG

In [45]:
def RAG(prompt, api_key):
    # Identificar la fuente
    source_raw = choose_data_source(prompt , api_key=api_key)

    # Formatear respuesta del LLM para la fuente
    source_clean = answer_cleaner(source_raw)

    # Obtener el contexto de la fuente indicada y el ID de la fuente
    contexto, id_source = devolver_contexto(source_clean, prompt)

    # Obtener la respuesta con el prompt original más el contexto obtenido de las fuentes externas
    respuesta_final = ask_agent_context(prompt, contexto, api_key=api_key)

    return (respuesta_final, id_source, contexto)

In [67]:
prompt = '¿Que establece el Decreto 566/2019?'

respuesta, fuente, contexto = RAG(prompt, api_key)


print(f'PREGUNTA:\n{prompt}')
print(f'FUENTE ESCOGIDA: {fuente}')
print(f'CONTEXTO BRINDADO:\n{contexto}')
print(f'RESPUESTA:\n{respuesta}')

PREGUNTA:
¿Que establece el Decreto 566/2019?
FUENTE ESCOGIDA: Base de datos vectorial de Embeddings
CONTEXTO BRINDADO:
analisis-precios-mercado-combustibles.pdfanalisis-precios-mercado-combustibles.pdfanalisis-precios-mercado-combustibles.pdfanalisis-precios-mercado-combustibles.pdfanalisis-precios-mercado-combustibles.pdf
RESPUESTA:
El Decreto 566/2019 establece medidas para regular el precio y la oferta de combustibles líquidos y gaseosos destinados al consumo final, con el objetivo de garantizar la seguridad energética, la competitividad y la protección de los consumidores. Esta medida se encuentra contenida en el documento "Análisis de precios del mercado de combustibles", que se encuentra disponible en el enlace proporcionado en el contexto dado.


In [68]:
prompt = '¿En base a que se rige el precio de los combustibles?'

respuesta, fuente, contexto = RAG(prompt, api_key)


print(f'PREGUNTA:\n{prompt}')
print(f'FUENTE ESCOGIDA: {fuente}')
print(f'CONTEXTO BRINDADO:\n{contexto}')
print(f'RESPUESTA:\n{respuesta}')

PREGUNTA:
¿En base a que se rige el precio de los combustibles?
FUENTE ESCOGIDA: Base de datos vectorial de Embeddings
CONTEXTO BRINDADO:
analisis-precios-mercado-combustibles.pdfanalisis-precios-mercado-combustibles.pdfanalisis-precios-mercado-combustibles.pdfanalisis-precios-mercado-combustibles.pdfanalisis-precios-mercado-combustibles.pdf
RESPUESTA:
El precio de los combustibles se rige principalmente por la demanda y oferta en el mercado, factores meteorológicos y geopolíticos, costos de producción y transporte, y el precio del crudo, que a su vez se ve afectado por la producción y reservas mundiales, la actividad económica global y las decisiones de los principales productores y consumidores.


In [66]:
# Pregunta:
prompt = input("Prompt: ")

respuesta, fuente, contexto = RAG(prompt, api_key)


print(f'PREGUNTA:\n{prompt}')
print(f'FUENTE ESCOGIDA: {fuente}')
print(f'CONTEXTO BRINDADO:\n{contexto}')
print(f'RESPUESTA:\n{respuesta}')

Prompt: Precio del combustible premium en 2010
PREGUNTA:
Precio del combustible premium en 2010
FUENTE ESCOGIDA: Texto sobre precios
CONTEXTO BRINDADO:
Tipo de combustible: Gasolina corriente
Año: 2001 
Precio: 0.999 Dólares corrientes por litro.

Tipo de combustible: Gasolina corriente
Año: 2002 
Precio: 0.493 Dólares corrientes por litro.

Tipo de combustible: Gasolina corriente
Año: 2003 
Precio: 0.644 Dólares corrientes por litro.

Tipo de combustible: Gasolina corriente
Año: 2004 
Precio: 0.639 Dólares corrientes por litro.

Tipo de combustible: Gasolina corriente
Año: 2005 
Precio: 0.647 Dólares corrientes por litro.

Tipo de combustible: Gasolina corriente
Año: 2006 
Precio: 0.615 Dólares corrientes por litro.

Tipo de combustible: Gasolina corriente
Año: 2007 
Precio: 0.637 Dólares corrientes por litro.

Tipo de combustible: Gasolina corriente
Año: 2008 
Precio: 0.755 Dólares corrientes por litro.

Tipo de combustible: Gasolina corriente
Año: 2009 
Precio: 0.796 Dólares corrien