##RAG
Crear un chatbot experto en un tema a elección, usando la técnica RAG (Retrieval Augmented Generation). Como fuentes de conocimiento se utilizarán al menos las siguientes fuentes:

-Documentos de texto

-Datos numéricos en formato tabular (por ej., Dataframes, CSV, sqlite, etc.)

-Base de datos de grafos (Online o local)

El sistema debe poder llevar a cabo una conversación en lenguaje español. El usuario podrá hacer preguntas, que el chatbot intentará responder a partir de datos de algunas de sus fuentes. El asistente debe poder clasificar las preguntas, para saber qué fuentes de datos utilizar como contexto para generar una respuesta.



Nuestro chatbot será un especialista en combustible en Argentina.

Instalación e importación de librerías

In [43]:
!pip install gdown
!pip install sentence_transformers
!pip install docx2txt
!pip install pymupdf
!pip install langchain
!pip install pandas
!pip install llama_index
!pip install decouple
!pip install chromadb
!pip install --upgrade typing-extensions
!pip install pypdf
!pip install fastapi==0.95.2

Collecting pypdf
  Downloading pypdf-4.0.1-py3-none-any.whl (283 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m284.0/284.0 kB[0m [31m2.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pypdf
Successfully installed pypdf-4.0.1


In [2]:
from google.colab import drive
import gdown
import os
import shutil
import fitz
import re
import torch
import chromadb
from langchain.text_splitter import RecursiveCharacterTextSplitter
from sentence_transformers import SentenceTransformer
import pandas as pd
from llama_index.embeddings import LangchainEmbedding
from langchain.embeddings.huggingface import HuggingFaceEmbeddings
from jinja2 import Template
import requests
from llama_index import VectorStoreIndex, SimpleDirectoryReader, ServiceContext

####Documentos de texto




Descarga

In [7]:
drive.mount('/content/drive')

Mounted at /content/drive


In [8]:
# Link con archivo sobre la nafta
url= 'https://drive.google.com/drive/u/0/folders/1z0k8unnxWuq75_ooa_kP2QFkkXb42xPE'
# Descarga carpeta 'NLP'
gdown.download_folder(url, quiet=True, output='NLP')
# Crear la carpeta 'datos_nafta' si no existe
carpeta_destino = 'datos_nafta'
if not os.path.exists(carpeta_destino):
  os.makedirs(carpeta_destino)
# Mover todos los archivos de 'NLP' a 'datos_nafta'
carpeta_origen = 'NLP'
for filename in os.listdir(carpeta_origen):
  ruta_origen = os.path.join(carpeta_origen, filename)
  ruta_destino = os.path.join(carpeta_destino, filename)
  shutil.move(ruta_origen, ruta_destino)
# Eliminar la carpeta 'NLP'
shutil.rmtree(carpeta_origen)
print("Archivos movidos con éxito.")

Archivos movidos con éxito.


Extración del texto de los archivo y limpieza de texto

In [9]:

def extraer_texto_pdf(ruta_documento):
    texto = ''
    doc = fitz.open(ruta_documento)
    for pagina_num in range(doc.page_count):
        pagina = doc[pagina_num]
        texto += pagina.get_text()
    return texto

def filtrar_lineas_numericas(parrafos):
    return [parrafo for parrafo in parrafos if not re.match(r'^\d+$', parrafo.strip())]

def limpiar_saltos_linea_seguidos(texto):
    return re.sub(r'\n\s*(\w)', r' \1', texto)


carpeta_pdf = '/content/datos_nafta'

texto_pdf = []

for filename in os.listdir(carpeta_pdf):
    if filename.endswith('.pdf'):
        ruta_documento = os.path.join(carpeta_pdf, filename)
        texto_documento = extraer_texto_pdf(ruta_documento)

        # Limpiar saltos de línea seguidos de una palabra
        texto_limpio = limpiar_saltos_linea_seguidos(texto_documento)

        # Dividir el texto en párrafos
        parrafos = texto_limpio.split('\n')

        # Filtrar líneas numéricas
        parrafos_filtrados = filtrar_lineas_numericas(parrafos)

        # Almacenar el texto filtrado
        texto_pdf.append(parrafos_filtrados)

print(texto_pdf)

[['  Maestría en Administración de Empresas  Trabajo Final de Maestría  Análisis comercial del impacto de la regulación de  precios en el mercado de combustibles en Argentina  Autor: Gastón Villamea  N° Registro: 671930255  Director: Ciro García Resta  MBA edición 2019  Diciembre 2020  2  AGRADECIMIENTOS  Un especial agradecimiento a Carlos Grosso por compartir conmigo toda su sabiduría, y  por la dedicación con la cual aportó su conocimiento. Gracias a Ciro García Resta por su  acompañamiento, contribuyendo siempre con una mirada fresca e innovadora, ayudándome a  pensar y repensar los contenidos y enfoques de cada tema. Agradezco a Valeria Malach por su  apoyo constante, su paciencia, su mirada crítica y por aportar su conocimiento al presente trabajo.  Un agradecimiento a Mariano Valverde, colega y amigo, por haber compartido conmigo su  experiencia, habiendo transitado ya el mismo camino. Gracias al cuerpo docente y autoridades de  la Maestría en Administración de Empresas UCA por 

Crear embeddings logrando la vectorización del texto debido a que tiene en cuenta la semántica y el contexto de lo que representa y así, logrando robustecer la representación del texto.

In [10]:
embed_model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-mpnet-base-v2')

embeddings_documentos = []

def generar_embedding_desde_pdf(pdf_ruta):
    pdf_documento = fitz.open(pdf_ruta)
    texto = ''
    for num_pagina in range(pdf_documento.page_count):
        pagina = pdf_documento[num_pagina]
        texto += pagina.get_text()

    # Generar el embedding para el documento
    embedding_documento = embed_model.encode(texto, convert_to_tensor=True)

    return embedding_documento

# Ruta al documento PDF
pdf_ruta = '/content/datos_nafta/analisis-precios-mercado-combustibles.pdf'

# Generar el embedding para el documento PDF
resultado_embedding = generar_embedding_desde_pdf(pdf_ruta)

# Añadir el nombre del documento y el embedding a la lista
embeddings_documentos.append({'nombre': 'nafta', 'embedding': resultado_embedding})

# Imprimir el resultado
for documento in embeddings_documentos:
    print(f"Nombre del documento: nafta")
    print(f"Embedding: {documento['embedding']}\n")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/4.10k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/723 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/402 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Nombre del documento: nafta
Embedding: tensor([-1.6426e-01,  8.4196e-02, -7.1721e-03,  2.3045e-02,  1.5377e-01,
        -3.1137e-02,  5.6147e-02, -3.2492e-02,  3.0835e-02, -1.2903e-02,
         7.0711e-03,  1.0738e-01, -4.8629e-02,  1.3836e-01,  3.8553e-03,
        -8.1679e-02,  2.8658e-02, -4.2698e-02,  1.0609e-01,  6.1982e-02,
         6.0900e-02, -9.2570e-02,  1.3567e-01,  1.7678e-02, -2.8689e-02,
        -4.4289e-02, -3.9730e-02, -9.2140e-02,  1.3885e-01,  1.9047e-02,
         1.4524e-01,  1.3198e-01,  2.7919e-03,  1.3403e-01,  3.5005e-02,
        -3.2497e-02, -1.1285e-01,  5.2018e-02,  4.3434e-02, -5.7186e-02,
         2.5262e-01,  2.2140e-02, -8.1769e-03,  1.3832e-02, -2.1156e-01,
        -8.3101e-03, -2.3430e-02, -7.5060e-02,  4.4345e-02, -1.0421e-02,
         2.2183e-02, -4.8745e-02, -5.0446e-02, -9.3289e-02,  3.5168e-02,
        -1.3864e-01, -4.1090e-02, -1.0623e-01, -5.5852e-02, -1.3117e-02,
         1.9807e-02,  1.3088e-02,  5.9099e-02, -1.1605e-01, -6.1308e-02,
        -6.0

Base de datos vectorial

Para poder realizar RAG, necesitamos tener una base de datos vectorial que nos permita hacer las búsquedas.

In [11]:
embeddings_documentos = [{'nombre': 'nafta', 'embedding':([-1.6426e-01,  8.4196e-02, -7.1721e-03,  2.3045e-02,  1.5377e-01,
        -3.1137e-02,  5.6147e-02, -3.2492e-02,  3.0835e-02, -1.2903e-02,
         7.0711e-03,  1.0738e-01, -4.8629e-02,  1.3836e-01,  3.8553e-03,
        -8.1679e-02,  2.8658e-02, -4.2698e-02,  1.0609e-01,  6.1982e-02,
         6.0900e-02, -9.2570e-02,  1.3567e-01,  1.7678e-02, -2.8689e-02,
        -4.4289e-02, -3.9730e-02, -9.2140e-02,  1.3885e-01,  1.9047e-02,
         1.4524e-01,  1.3198e-01,  2.7919e-03,  1.3403e-01,  3.5005e-02,
        -3.2497e-02, -1.1285e-01,  5.2018e-02,  4.3434e-02, -5.7186e-02,
         2.5262e-01,  2.2140e-02, -8.1769e-03,  1.3832e-02, -2.1156e-01,
        -8.3101e-03, -2.3430e-02, -7.5060e-02,  4.4345e-02, -1.0421e-02,
         2.2183e-02, -4.8745e-02, -5.0446e-02, -9.3289e-02,  3.5168e-02,
        -1.3864e-01, -4.1090e-02, -1.0623e-01, -5.5852e-02, -1.3117e-02,
         1.9807e-02,  1.3088e-02,  5.9099e-02, -1.1605e-01, -6.1308e-02,
        -6.0653e-02,  1.9391e-01,  4.1217e-02, -1.6123e-02,  4.1774e-02,
         2.2013e-01,  2.6191e-02, -8.4280e-02,  8.3466e-02,  1.1970e-02,
        -2.1899e-02, -1.9950e-02, -1.0018e-01,  6.0447e-02, -2.9751e-02,
         2.9310e-02,  1.2750e-01, -7.5307e-02,  4.6105e-04, -1.3843e-01,
         2.1138e-01, -9.7449e-02, -8.2913e-02,  1.5186e-01,  6.1860e-02,
        -1.3714e-01,  1.6384e-02, -1.6207e-01, -2.4270e-02,  1.9393e-02,
        -6.0060e-02,  1.2280e-01,  1.2524e-01, -5.4276e-02, -7.4311e-02,
        -5.8655e-02, -2.5014e-03,  2.3084e-01,  1.1373e-02, -7.5084e-04,
         6.1872e-02,  3.5171e-02, -5.1657e-02, -3.2944e-02, -4.8764e-02,
        -2.9122e-05,  9.8105e-03, -1.0009e-01, -5.1861e-02, -8.4697e-02,
         6.2337e-02,  2.8365e-02, -8.4148e-02, -1.5584e-01, -3.0615e-02,
         1.6696e-01,  8.5244e-02,  8.6902e-03, -7.4631e-02, -5.3127e-02,
         2.4105e-02, -2.4768e-02,  1.0630e-01,  7.1575e-02,  8.0213e-02,
        -1.2828e-01, -1.2279e-01,  2.5037e-02,  1.1354e-01,  5.1437e-02,
        -2.0683e-02,  6.8721e-02, -1.8623e-01, -8.7217e-02, -1.3879e-02,
         8.4286e-03, -4.4661e-02, -3.5954e-02,  3.8913e-02,  1.1629e-01,
        -8.3768e-02,  3.9606e-03,  9.3450e-02, -7.0650e-02, -1.6957e-02,
         1.6209e-01, -4.2629e-02, -5.7513e-04,  3.3249e-03, -3.5170e-02,
         2.8061e-02, -9.2628e-02, -8.7748e-03,  9.3109e-03, -6.5519e-03,
        -1.0913e-01, -9.6124e-03, -1.2220e-01,  1.7815e-02,  5.9040e-02,
         5.9260e-02, -9.1552e-02, -5.9051e-02, -1.5911e-01,  2.7231e-02,
        -4.7026e-02, -8.7050e-02, -2.3764e-02,  3.2243e-01,  7.6256e-02,
        -1.8065e-01, -4.6299e-02, -2.5774e-01,  1.5951e-01,  9.2700e-03,
         2.0235e-02, -1.3922e-01,  2.0234e-01, -9.5346e-02, -6.6517e-02,
         2.4623e-02, -9.2341e-02, -5.8388e-02, -9.0145e-02, -7.1076e-02,
         6.6294e-02,  9.6817e-02, -1.2155e-02,  3.3121e-02, -4.5256e-02,
        -8.5796e-02, -9.7005e-02, -1.4771e-01, -5.1010e-03,  1.5023e-01,
        -1.1868e-01, -3.7629e-02,  1.2392e-01, -7.6289e-02, -6.5310e-02,
         4.9332e-02,  6.4377e-03, -3.2862e-02,  7.4936e-02, -4.5625e-02,
         1.3624e-01, -1.7794e-02, -1.2447e-02,  6.4558e-02,  5.1926e-02,
        -6.4653e-02,  3.4636e-02,  3.4661e-02, -1.3295e-01,  1.2512e-01,
         4.2564e-02,  7.6336e-02,  2.1528e-02, -3.5545e-02,  1.0043e-01,
        -1.8820e-01, -4.7984e-02, -1.7279e-02, -4.9652e-02,  4.4241e-02,
         6.0330e-03, -3.0768e-02,  7.9644e-02, -3.0956e-02,  3.4909e-03,
         1.9441e-01, -4.8499e-02,  2.2459e-01,  6.5527e-02,  5.3980e-03,
        -8.1119e-02, -1.2396e-01, -3.0409e-02, -1.4835e-02,  3.5613e-03,
         8.9861e-02,  1.6505e-01, -7.1816e-02, -5.2025e-02, -1.3220e-01,
         1.4595e-01,  7.5958e-02, -7.6465e-02,  1.0825e-02,  4.4314e-02,
         5.8799e-02, -2.0478e-01, -2.0174e-02,  7.9745e-02,  1.1335e-01,
        -3.6459e-02,  1.5449e-02, -7.5445e-02, -1.1135e-01,  4.6641e-02,
         6.1797e-03,  1.6004e-01, -1.2135e-01,  5.1139e-02,  6.4932e-03,
        -7.3278e-02,  5.2071e-02, -6.3169e-02, -1.0442e-01,  7.1682e-02,
         6.0283e-02, -5.0710e-03,  9.6353e-02, -1.7746e-01,  3.5870e-02,
         1.3514e-01, -1.1095e-01, -1.2036e-02,  1.1608e-02, -5.9819e-02,
         7.8388e-02,  1.4379e-01, -1.2485e-01, -7.5280e-02,  6.3565e-03,
         1.8685e-02,  1.1341e-01,  1.1086e-01, -2.6829e-02, -5.1818e-02,
         9.6203e-02, -2.5102e-02,  6.8239e-02, -5.0946e-02, -4.8633e-02,
        -7.9268e-03, -5.5243e-02, -3.7501e-02, -6.4099e-02, -2.7137e-02,
         2.8899e-02,  1.1550e-02, -6.0092e-02,  1.7934e-01,  3.7101e-02,
         3.4911e-02, -3.8171e-02,  6.2036e-02,  2.5903e-01, -1.1345e-02,
        -8.8405e-02,  1.0981e-01,  7.5799e-02,  1.3331e-02,  4.6949e-02,
        -2.6442e-02, -2.3469e-02, -4.4046e-02, -5.6119e-02, -7.6324e-02,
        -8.8663e-02, -3.7608e-02, -3.6266e-02, -1.8449e-02, -1.8911e-02,
        -6.9203e-02,  6.7470e-02,  1.1028e-01, -3.6719e-02, -2.2323e-02,
         1.7876e-02,  1.2595e-01,  5.6653e-02, -2.9026e-02,  7.3240e-03,
        -5.1578e-02, -6.2731e-02,  1.2548e-01,  2.8297e-02,  3.4084e-02,
         1.5385e-01,  2.9042e-01,  1.0660e-01, -5.6931e-03, -2.8361e-02,
         6.1826e-02,  7.7713e-02, -1.3649e-02, -9.9933e-02, -2.0422e-02,
        -1.4014e-01, -4.3933e-02,  1.4202e-02,  5.7571e-02, -1.3497e-01,
         7.4131e-02, -2.9428e-02, -9.4446e-02, -1.2911e-01, -1.1214e-01,
        -4.5247e-02, -2.5997e-03,  1.3205e-01,  9.6023e-03, -1.0080e-01,
        -8.8229e-02, -5.7822e-02, -1.0726e-01,  5.4265e-02,  1.2453e-02,
         6.8336e-03,  8.8619e-02, -1.7244e-01, -4.0421e-02, -3.2390e-02,
         1.2182e-01, -3.8296e-02,  2.6701e-01, -1.4425e-02,  7.5142e-03,
        -1.7847e-02, -3.8827e-02, -9.3856e-02,  1.2447e-01,  1.3153e-01,
        -1.2741e-02,  9.8956e-02,  5.3698e-02, -4.5481e-02, -1.6246e-02,
        -8.1497e-02, -5.4195e-02,  1.8318e-02, -1.3878e-03,  2.1793e-02,
         1.3281e-01,  4.3442e-02, -1.5659e-01, -6.6210e-02,  1.7556e-01,
        -2.4908e-01,  8.5369e-02, -2.2741e-02, -4.5096e-02, -6.6634e-02,
         1.8976e-01,  1.0544e-01,  5.6036e-02, -6.9594e-02, -1.4798e-01,
         1.3317e-02, -9.2532e-02,  1.5307e-03, -7.2640e-02,  2.5178e-02,
         6.3777e-02,  1.1226e-01,  1.1151e-01, -4.5586e-02, -2.9964e-02,
        -2.4161e-02,  1.2984e-02, -7.2411e-04,  1.7015e-02,  2.8852e-02,
        -3.0510e-02, -1.2865e-01, -5.5641e-02, -1.9210e-02, -1.2924e-01,
         1.2142e-01, -1.6770e-01, -1.1210e-02,  9.7898e-02,  2.3981e-02,
         7.5204e-03,  4.7556e-02,  5.1518e-02, -2.3333e-02,  6.4281e-02,
         5.4230e-02,  6.8956e-03,  1.1038e-01, -1.3030e-01, -6.1934e-02,
         3.3268e-02, -2.1035e-02, -8.2099e-02, -7.8221e-02,  1.8264e-01,
        -3.4090e-02, -3.2403e-02, -1.7221e-01, -1.0939e-01, -4.6067e-02,
         1.7930e-02,  3.8749e-01,  6.0930e-02, -1.7010e-02, -7.5802e-02,
        -9.4866e-02,  9.6328e-02,  2.8084e-02,  6.1627e-02, -2.1177e-02,
         2.1173e-02,  7.7097e-02,  1.6503e-02,  1.3503e-01, -8.9703e-02,
        -5.3945e-02, -2.7392e-02, -1.4803e-01, -3.8177e-02,  4.0138e-02,
        -8.8743e-02,  1.6575e-01, -1.9307e-02, -7.3907e-02, -5.3010e-02,
         1.1799e-01,  1.7017e-01, -2.7167e-02, -4.4231e-02,  6.7140e-02,
         8.7060e-02, -2.1310e-02, -3.7835e-02,  4.5827e-02, -6.6333e-02,
        -2.4965e-02, -7.8453e-02,  1.7296e-01, -2.6333e-02, -1.2487e-01,
        -1.0237e-02,  5.6854e-02, -1.6170e-02, -1.2724e-01,  1.1305e-02,
         1.2557e-02, -1.7627e-02, -1.2043e-02, -9.8077e-03, -8.6629e-02,
         2.2850e-02,  1.1805e-01, -1.1117e-02, -4.7031e-02, -1.1481e-01,
         5.1382e-03,  8.7080e-02, -4.8774e-03, -3.7285e-02,  5.3642e-02,
        -1.8869e-02,  7.6328e-02, -5.4603e-02,  1.5849e-02,  5.8080e-02,
         2.2250e-02, -5.8965e-02, -3.3631e-02,  8.3339e-02,  1.1031e-01,
         5.3334e-02, -1.2055e-01, -2.2231e-01, -1.0247e-02, -3.6677e-02,
        -1.0444e-01,  1.2875e-01, -2.2706e-01,  2.9347e-02, -5.5563e-02,
        -2.3959e-02,  2.9131e-02, -1.5389e-02,  7.0891e-02, -2.8754e-02,
         8.6460e-02, -3.2514e-02,  3.3567e-02, -6.1620e-02,  7.7725e-02,
         6.1240e-02,  9.1658e-04, -3.4282e-02, -7.7823e-03,  2.1895e-02,
        -4.7644e-02, -4.0463e-02, -1.2336e-01, -6.3015e-02,  4.5617e-02,
        -1.2415e-02, -9.1520e-02,  1.5626e-02, -2.9227e-02, -7.2127e-02,
        -1.0121e-02, -1.8871e-02, -6.0421e-02,  5.8753e-02,  3.0278e-02,
         1.3841e-01,  4.3385e-02,  4.3281e-02,  1.8060e-02,  5.9199e-02,
        -7.6229e-02, -8.4062e-02,  1.6031e-01,  7.1723e-02, -2.2192e-01,
         2.6950e-01,  1.4224e-02, -2.1625e-02,  1.1435e-01, -1.3156e-01,
         6.5129e-02,  4.9696e-02, -1.8780e-02,  6.1952e-03, -6.0139e-02,
        -1.6382e-01,  1.3622e-02,  1.3374e-01, -1.5604e-01,  6.4744e-02,
         1.6049e-02,  3.5996e-02, -2.4007e-02,  1.3519e-01,  6.6334e-02,
        -3.9084e-02,  6.5530e-03, -3.5173e-02, -3.9376e-02,  7.2099e-02,
        -3.6816e-02, -8.1637e-02, -3.5326e-02,  3.5195e-03,  1.1082e-01,
         5.3527e-02,  1.6384e-01, -3.4862e-02, -7.6006e-03,  9.3440e-02,
         4.7372e-03,  2.9920e-02,  3.0186e-02,  2.6441e-02,  1.7887e-02,
         1.0428e-01,  4.2206e-02, -1.2558e-01,  8.1021e-02,  6.6047e-02,
        -5.8272e-03,  7.5510e-03, -6.9930e-02, -1.8458e-01,  8.6081e-02,
         7.7912e-03, -3.2221e-02, -9.6271e-02, -1.5212e-02, -8.5263e-03,
         1.3909e-01, -1.1442e-01, -4.3664e-02,  1.0446e-01,  4.3962e-02,
        -8.2226e-02, -2.2295e-02, -5.6560e-02,  9.0821e-03,  2.7138e-02,
         1.8772e-03, -1.1417e-02, -8.6129e-02, -9.2156e-02, -1.0500e-01,
         2.3581e-02, -4.8594e-02, -1.3945e-01, -4.4905e-02,  7.6556e-02,
         2.4456e-02, -2.2875e-01,  3.6002e-02, -1.3569e-01,  5.2284e-02,
        -9.7001e-02, -2.2249e-02,  5.7326e-02, -4.3339e-02,  8.8981e-02,
         5.9748e-02,  3.4683e-02, -3.0935e-02,  4.1133e-02,  8.0536e-03,
        -5.8350e-02,  9.9534e-02,  2.8826e-02,  1.0973e-01,  1.0919e-01,
         1.0037e-01,  4.5515e-02, -6.7201e-03,  6.3038e-03,  8.6251e-02,
        -3.0831e-02,  7.6905e-03,  2.2005e-01,  6.2811e-02,  2.7215e-02,
         2.5729e-02,  4.2281e-02, -5.9274e-02,  3.7140e-02,  6.4492e-02,
         5.7051e-02, -5.2079e-02,  2.1968e-02,  3.4895e-02,  3.6494e-02,
        -3.9246e-02,  1.4496e-01, -1.3352e-02,  1.1257e-01, -8.5531e-03,
         2.6693e-03, -7.0396e-02,  5.8083e-02,  3.7058e-03, -4.0358e-01,
         9.7125e-02, -1.2952e-01, -6.8307e-02, -2.9850e-02, -1.8868e-03,
         7.7860e-03,  1.2260e-01, -2.3496e-02, -9.7340e-02, -3.5088e-02,
         1.6955e-01, -1.6073e-01, -7.9439e-02,  5.5982e-02,  2.1525e-01,
         2.3714e-01, -4.0774e-02,  9.7952e-02,  4.7278e-02,  1.6374e-02,
        -1.2518e-01,  1.1837e-01,  9.1642e-02, -9.7998e-02,  1.3144e-01,
        -2.3376e-01,  2.1185e-03, -3.0332e-02,  7.0371e-02,  2.5456e-02,
         8.1003e-02,  1.2180e-01,  4.8309e-02, -2.2939e-02,  5.6411e-02,
        -1.2484e-01,  1.0451e-01,  3.7177e-02, -6.6481e-02, -5.3439e-02,
        -4.3490e-02,  1.7998e-01,  1.3871e-01,  7.3625e-02, -1.2899e-02,
        -1.2251e-01, -2.8816e-02,  5.4433e-02,  4.5614e-02,  1.0115e-02,
         5.4022e-02, -4.2565e-02, -6.6103e-02,  4.7474e-02,  4.0767e-02,
        -9.0106e-02,  9.9606e-03,  1.5100e-02, -1.2019e-01, -4.2597e-02,
         2.1603e-02, -3.4351e-02, -1.5753e-02])}]

In [23]:
client = chromadb.Client()
#collection = client.create_collection("my-collection")
collection = client.get_collection("my-collection")

collection.add(
    documents=['analisis-precios-mercado-combustibles.pdf'],
    metadatas=[{"categoria": "nafta", "nombre": "analisis-precios-mercado-combustibles.pdf"}],
    ids=["id1"],
    embeddings=[doc['embedding'] for doc in embeddings_documentos]
)



####Base de datos de grafos

####Datos tabulares

Incluimos datos tabulares trabajando con un archivo xlsx donde tenemos información del precio del combustible tanto premium como comun en Argentina desde 2001 hasta 2022.

Será consultada en caso de que se solicite información relacionada precios.

In [24]:
csv_file_path = '/content/precios.xlsx'
df = pd.read_excel(csv_file_path)
df

Unnamed: 0,indicator,País__ESTANDAR,Tipo de combustible,Componente,Años__ESTANDAR,value,unit,notes_ids,source_id
0,Precio de los combustibles (comparación en dól...,Argentina,Gasolina corriente,PRECIO FINAL (CONSUMIDOR),2001,0.999,Dólares corrientes por litro (GLP en dólares c...,5318,804
1,Precio de los combustibles (comparación en dól...,Argentina,Gasolina corriente,PRECIO FINAL (CONSUMIDOR),2002,0.493,Dólares corrientes por litro (GLP en dólares c...,5318,804
2,Precio de los combustibles (comparación en dól...,Argentina,Gasolina corriente,PRECIO FINAL (CONSUMIDOR),2003,0.644,Dólares corrientes por litro (GLP en dólares c...,5318,804
3,Precio de los combustibles (comparación en dól...,Argentina,Gasolina corriente,PRECIO FINAL (CONSUMIDOR),2004,0.639,Dólares corrientes por litro (GLP en dólares c...,5318,804
4,Precio de los combustibles (comparación en dól...,Argentina,Gasolina corriente,PRECIO FINAL (CONSUMIDOR),2005,0.647,Dólares corrientes por litro (GLP en dólares c...,5318,804
5,Precio de los combustibles (comparación en dól...,Argentina,Gasolina corriente,PRECIO FINAL (CONSUMIDOR),2006,0.615,Dólares corrientes por litro (GLP en dólares c...,5318,804
6,Precio de los combustibles (comparación en dól...,Argentina,Gasolina corriente,PRECIO FINAL (CONSUMIDOR),2007,0.637,Dólares corrientes por litro (GLP en dólares c...,5318,804
7,Precio de los combustibles (comparación en dól...,Argentina,Gasolina corriente,PRECIO FINAL (CONSUMIDOR),2008,0.755,Dólares corrientes por litro (GLP en dólares c...,5318,804
8,Precio de los combustibles (comparación en dól...,Argentina,Gasolina corriente,PRECIO FINAL (CONSUMIDOR),2009,0.796,Dólares corrientes por litro (GLP en dólares c...,5318,804
9,Precio de los combustibles (comparación en dól...,Argentina,Gasolina corriente,PRECIO FINAL (CONSUMIDOR),2010,0.951,Dólares corrientes por litro (GLP en dólares c...,5318,804


In [25]:
eliminar = ['Componente', 'País__ESTANDAR', 'notes_ids', 'source_id', 'indicator']
#datos = df.set_index('Años__ESTANDAR')
datos = df.drop(eliminar, axis=1)
datos

Unnamed: 0,Tipo de combustible,Años__ESTANDAR,value,unit
0,Gasolina corriente,2001,0.999,Dólares corrientes por litro (GLP en dólares c...
1,Gasolina corriente,2002,0.493,Dólares corrientes por litro (GLP en dólares c...
2,Gasolina corriente,2003,0.644,Dólares corrientes por litro (GLP en dólares c...
3,Gasolina corriente,2004,0.639,Dólares corrientes por litro (GLP en dólares c...
4,Gasolina corriente,2005,0.647,Dólares corrientes por litro (GLP en dólares c...
5,Gasolina corriente,2006,0.615,Dólares corrientes por litro (GLP en dólares c...
6,Gasolina corriente,2007,0.637,Dólares corrientes por litro (GLP en dólares c...
7,Gasolina corriente,2008,0.755,Dólares corrientes por litro (GLP en dólares c...
8,Gasolina corriente,2009,0.796,Dólares corrientes por litro (GLP en dólares c...
9,Gasolina corriente,2010,0.951,Dólares corrientes por litro (GLP en dólares c...


Se convierten a un string que conserva su estructura tabular

In [26]:
datos_str = datos.to_string(index=False)
print(datos_str)

Tipo de combustible  Años__ESTANDAR  value                                                                   unit
 Gasolina corriente            2001  0.999 Dólares corrientes por litro (GLP en dólares corrientes por kilogramo)
 Gasolina corriente            2002  0.493 Dólares corrientes por litro (GLP en dólares corrientes por kilogramo)
 Gasolina corriente            2003  0.644 Dólares corrientes por litro (GLP en dólares corrientes por kilogramo)
 Gasolina corriente            2004  0.639 Dólares corrientes por litro (GLP en dólares corrientes por kilogramo)
 Gasolina corriente            2005  0.647 Dólares corrientes por litro (GLP en dólares corrientes por kilogramo)
 Gasolina corriente            2006  0.615 Dólares corrientes por litro (GLP en dólares corrientes por kilogramo)
 Gasolina corriente            2007  0.637 Dólares corrientes por litro (GLP en dólares corrientes por kilogramo)
 Gasolina corriente            2008  0.755 Dólares corrientes por litro (GLP en dólares 

In [41]:
# Ruta del directorio
directorio = '/content/mi_directorio'

# Asegúrate de que el directorio exista, si no, créalo
if not os.path.exists(directorio):
    os.makedirs(directorio)

# Ruta completa del archivo dentro del directorio
ruta_texto = os.path.join(directorio, 'precios.txt')
# Ruta completa del archivo PDF dentro del directorio
pdf_ruta = '/content/datos_nafta/analisis-precios-mercado-combustibles.pdf'
ruta_pdf = os.path.join(directorio, 'analisis-precios-mercado-combustibles.pdf')

# Guarda la cadena de texto en el archivo de texto
with open(ruta_texto, 'w') as file:
    file.write(datos_str)

# Guarda el contenido del archivo PDF en el mismo directorio
with open(pdf_ruta, 'rb') as pdf_file:
    contenido_pdf = pdf_file.read()
    with open(ruta_pdf, 'wb') as pdf_destino:
        pdf_destino.write(contenido_pdf)

# Lee el contenido del archivo de texto
with open(ruta_texto, 'r') as file:
    contenido_texto = file.read()
    lineas = file.readlines()

# Lee el contenido del archivo PDF
with open(ruta_pdf, 'rb') as pdf_file:
    contenido_pdf = pdf_file.read()

# Imprime el contenido del archivo de texto
print(f'Contenido del archivo de texto:\n{contenido_texto}')

# Puedes imprimir el contenido del archivo PDF si es texto plano, o utilizar librerías como PyMuPDF para extraer texto de archivos PDF escaneados
print(f'Contenido del archivo PDF:\n{contenido_pdf}')


IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



####**Implementación RAG**

Instrucciónes de formación del prompt que se envía al modelo para realizar la consulta


In [31]:
def zephyr_chat_template(messages, add_generation_prompt=True):
    # Definir la plantilla Jinja
    template_str  = "{% for message in messages %}"
    template_str += "{% if message['role'] == 'user' %}"
    template_str += "<|user|>{{ message['content'] }}</s>\n"
    template_str += "{% elif message['role'] == 'assistant' %}"
    template_str += "<|assistant|>{{ message['content'] }}</s>\n"
    template_str += "{% elif message['role'] == 'system' %}"
    template_str += "<|system|>{{ message['content'] }}</s>\n"
    template_str += "{% else %}"
    template_str += "<|unknown|>{{ message['content'] }}</s>\n"
    template_str += "{% endif %}"
    template_str += "{% endfor %}"
    template_str += "{% if add_generation_prompt %}"
    template_str += "<|assistant|>\n"
    template_str += "{% endif %}"

    # Crear un objeto de plantilla con la cadena de plantilla
    template = Template(template_str)

    # Renderizar la plantilla con los mensajes proporcionados
    return template.render(messages=messages, add_generation_prompt=add_generation_prompt)

Realizar la request al modelo LLM

In [32]:
def generate_answer(prompt: str, max_new_tokens: int = 768) -> None:
    try:
        api_key = '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'

        api_url = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"

        headers = {"Authorization": f"Bearer {api_key}"}

        # Datos para enviar en la solicitud POST
        # Sobre los parámetros: https://huggingface.co/docs/transformers/main_classes/text_generation
        data = {
            "inputs": prompt,
            "parameters": {
                "max_new_tokens": max_new_tokens,
                "temperature": 0.7,
                "top_k": 50,
                "top_p": 0.95
            }
        }

        response = requests.post(api_url, headers=headers, json=data)

        respuesta = response.json()[0]["generated_text"][len(prompt):]
        return respuesta

    except Exception as e:
        print(f"An error occurred: {e}")

Adicionamos a la consulta el contexto brindado y lo transforma en el prompt específico de dicha consulta para procesarlo por el modelo.

In [33]:
def prepare_prompt(query_str: str, nodes: list):
    TEXT_QA_PROMPT_TMPL = (
        "La información de contexto es la siguiente:\n"
        "---------------------\n"
        "{context_str}\n"
        "---------------------\n"
        "Dada la información de contexto anterior, y sin utilizar conocimiento previo, responde la siguiente pregunta.\n"
        "Pregunta: {query_str}\n"
        "Respuesta: "
    )

    # Construimos el contexto de la pregunta
    context_str = ''
    for node in nodes:
        if isinstance(node, dict):
            # Si el nodo es un diccionario, intenta acceder a algunas claves comunes
            text = node.get('Text', '')
            score = node.get('Score', '')
            context_str += f"\nText: {text}\nScore: {score}\n\n"
        elif hasattr(node, 'text') and hasattr(node, 'score'):
            # Intenta manejar nodos con atributos text y score
            context_str += f"\nText: {node.text}\nScore: {node.score}\n\n"
        else:
            # Si el nodo no es un diccionario ni tiene los atributos esperados, ignóralo
            print(f"El nodo no es un diccionario o no tiene los atributos esperados: {node}")

    messages = [
        {
            "role": "system",
            "content": "Eres un asistente útil que siempre responde con respuestas veraces, útiles y basadas en hechos.",
        },
        {"role": "user", "content": TEXT_QA_PROMPT_TMPL.format(context_str=context_str, query_str=query_str)},
    ]

    final_prompt = zephyr_chat_template(messages)
    return final_prompt

In [44]:

# Importamos el modelo de embeddings y otras dependencias necesarias
print('Cargando modelo de embeddings...')
embed_model = LangchainEmbedding(
    HuggingFaceEmbeddings(model_name='sentence-transformers/paraphrase-multilingual-mpnet-base-v2'))

os.environ['HUGGINGFACE_TOKEN'] = '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'


# Rutas
ruta_completa = '/content/mi_directorio'

# Verificar si la carpeta existe
if not os.path.exists(ruta_completa):
    raise ValueError(f"Directory {ruta_completa} does not exist.")

# Indexamos documentos a partir de los datos en la carpeta
print('Indexando documentos...')
# Creamos un contexto de servicio con el modelo de embeddings personalizado
documents = SimpleDirectoryReader(ruta_completa).load_data()

index = VectorStoreIndex.from_documents(documents, show_progress=True,
                                       service_context=ServiceContext.from_defaults(embed_model=embed_model, llm=None))


# retriever, para realizar la búsqueda vectorial de documentos
retriever = index.as_retriever(similarity_top_k=2)
print('Realizando llamada a HuggingFace para generar respuestas...\n')

# Preguntas
queries = ['¿Costo de la gasolina corriente en 2001?',
           '¿En base a que se rige el precio de los combustibles?',
           '¿Que establece el Decreto 566/2019?']


# Procesar cada pregunta
for query_str in queries:
    # Recuperamos los documentos más relevantes para la consulta
    nodes = retriever.retrieve(query_str)

    # Preparamos el prompt final con la consulta y los nodos recuperados
    final_prompt = prepare_prompt(query_str, nodes)

    # Imprimimos la pregunta y generamos la respuesta
    print('Pregunta:', query_str)
    print('Respuesta:')
    print(generate_answer(final_prompt))
    print('-------------------------------------------------------')


Cargando modelo de embeddings...
Indexando documentos...
LLM is explicitly disabled. Using MockLLM.


Parsing nodes:   0%|          | 0/115 [00:00<?, ?it/s]

Generating embeddings:   0%|          | 0/116 [00:00<?, ?it/s]

Realizando llamada a HuggingFace para generar respuestas...

Pregunta: ¿Costo de la gasolina corriente en 2001?
Respuesta:
El costo de la gasolina corriente en 2001, según la información proporcionada, es de $0.999 dólares por litro (GLP en dólares corrientes por kilogramo).
-------------------------------------------------------
Pregunta: ¿En base a que se rige el precio de los combustibles?
Respuesta:
El precio de los combustibles se rige por precios internacionales, en particular, por el índice del Brent para el crudo, y por índices específicos para el gasoil y las naftas, como el Heating Oil y el e RBOB Gasoline, respectivamente. Estos índices se miden en dólares y son sensibles a las variaciones del tipo de cambio, debido a que el combustible es un commodity que se mide en función de precios internacionales. En contextos inflacionarios, se pueden producir salto importantes en el tipo de cambio, lo que obliga a regulaciones de precios para compensar la diferencia dada por la variac

Realizar preguntas propias sobre el tema y poder recibir la respuesta adecuada si se posee la información suficiente.

In [54]:
import time
while True:
    # El usuario ingresa una pregunta
    pregunta = input("Ingrese su pregunta (o escriba 'salir' para terminar): ")

    # Verificar si el usuario desea salir
    if pregunta.lower() == 'salir':
        print("¡Hasta luego!")
        break

    # Recuperar los documentos más relevantes para la consulta
    nodes = retriever.retrieve(pregunta)

    # Preparar el prompt final con la consulta y los nodos recuperados
    final_prompt = prepare_prompt(pregunta, nodes)

    # Obtener la respuesta utilizando RAG
    respuesta = generate_answer(final_prompt)

    # Mostrar la respuesta
    print("Respuesta:", respuesta)

    # Esperar un breve momento antes de la siguiente iteración
    time.sleep(1)

Ingrese su pregunta (o escriba 'salir' para terminar): costo combustible premium en 2019
Respuesta: La información de contexto proporciona detalles sobre la regulación de precios de los combustibles y los índices de precios internacionales, pero no específicamente sobre el costo del combustible premium en 2019. Sin embargo, la información indica que las variaciones en los precios de los combustibles están influenciadas por los precios internacionales y la devaluación de la moneda. También se menciona que las empresas refinadoras pueden incrementar los precios de sus calidades de combustibles hasta un 5% en relación con los precios vigentes desde septiembre de 2019, pero esto solo se ha autorizado hasta el plazo establecido por el decreto y no se han autorizado incrementos adicionales desde entonces. En resumen, el costo del combustible premium en 2019 no se menciona explícitamente en la información de contexto dada.
Ingrese su pregunta (o escriba 'salir' para terminar): costo gasolina 