Crear un chatbot experto en un tema a elección, usando la técnica RAG (Retrieval Augmented Generation).

Como fuentes de conocimiento se utilizarán al menos las siguientes fuentes:

Documentos de texto

Datos numéricos en formato tabular (por ej., Dataframes, CSV, sqlite, etc.)
Base de datos de grafos (Online o local)

El sistema debe poder llevar a cabo una conversación en lenguaje español. El usuario podrá hacer preguntas, que el chatbot intentará responder a partir de datos de algunas de sus fuentes.

El asistente debe poder clasificar las preguntas, para saber qué fuentes de datos utilizar como contexto para generar una respuesta.

Chatbot especialista en el filosofo Nicolas Maquiavelo

# Instalaciones e Importaciones

In [None]:
!pip install llama_index sentence-transformers pypdf langchain python-decouple PyMuPDF gdown chromadb fpdf SPARQLWrapper



In [None]:
from langchain.embeddings.huggingface import HuggingFaceEmbeddings
from llama_index.embeddings import LangchainEmbedding
from llama_index import ServiceContext
from llama_index import VectorStoreIndex, SimpleDirectoryReader
from jinja2 import Template
from decouple import config
import chromadb
import os
from llama_index.node_parser.text import SentenceSplitter
from llama_index.schema import TextNode
from llama_index.vector_stores import ChromaVectorStore
from llama_index.storage.storage_context import StorageContext
import requests
from bs4 import BeautifulSoup
from fpdf import FPDF
import gdown
import shutil



# Extraemos informacion de nuestra fuente de datos en Google Drive, de BBDD Online y web scrapping

Realizamos le procedimiento para obtener los datos desde la nube

In [None]:

# Link con archivos sobre historia Argentina
url = 'https://drive.google.com/drive/folders/1AEDfhcL9aLA5vLllLmrzeYl6zaL_yHur?usp=sharing'

# Descarga carpeta 'Historia Argentina'
gdown.download_folder(url, quiet=True, output='Nicolas Maquiavelo')

# Crear la carpeta 'llamaindex_data' si no existe
carpeta_destino = 'llamaindex_data'
if not os.path.exists(carpeta_destino):
    os.makedirs(carpeta_destino)

# Mover todos los archivos de 'Historia Argentina' a 'llamaindex_data'
carpeta_origen = 'Nicolas Maquiavelo'
for filename in os.listdir(carpeta_origen):
    ruta_origen = os.path.join(carpeta_origen, filename)
    ruta_destino = os.path.join(carpeta_destino, filename)
    shutil.move(ruta_origen, ruta_destino)

# Eliminar la carpeta 'Historia_Argentina'
shutil.rmtree(carpeta_origen)

print("Archivos movidos con éxito.")

Archivos movidos con éxito.


Ya que me parecio poco solamente extraer de pdfs en un drive, tambien extraemos la informacion bibliografica del autor realizando web scrapping a una pagina de wikipedia

In [None]:

def scrape_wikipedia(url):
    # Realiza la solicitud HTTP
    response = requests.get(url)

    # Verifica que la solicitud sea exitosa (código de estado 200)
    if response.status_code == 200:
        # Analiza el contenido HTML de la página
        soup = BeautifulSoup(response.content, 'html.parser')

        title = soup.find('h1', {'id': 'firstHeading'}).text
        paragraphs = soup.find('div', {'class': 'mw-parser-output'}).find_all('p')[:3]

        # Combina los textos de los párrafos
        content = ' '.join([paragraph.text for paragraph in paragraphs])

        return title, content
    else:
        # Imprime un mensaje de error si la solicitud no fue exitosa
        print(f"Error al solicitar la página. Código de estado: {response.status_code}")
        return None

def save_to_pdf(title, content, file_path):
    pdf = FPDF(orientation='P', unit='mm', format='A4')
    pdf.add_page()
    pdf.set_auto_page_break(auto=True, margin=15)
    pdf.set_font("Arial", size=12)
    pdf.cell(200, 10, txt=title, ln=True, align='C')
    pdf.multi_cell(0, 10, txt=content.encode('latin-1', 'replace').decode('latin-1'))
    pdf.output(file_path)

url = "https://es.wikipedia.org/wiki/Nicol%C3%A1s_Maquiavelo"
result = scrape_wikipedia(url)

if result:
    title, content = result
    save_to_pdf(title, content, "/content/llamaindex_data/biografia.pdf")
    print("PDF generado con éxito.")



PDF generado con éxito.


Vamos a usar una base de datos de grafos

In [None]:
from SPARQLWrapper import SPARQLWrapper, JSON
from fpdf import FPDF

# Configurar el endpoint de Wikidata y la consulta SPARQL
sparql = SPARQLWrapper("https://query.wikidata.org/sparql")
sparql.setQuery("""
    SELECT ?description
    WHERE {
        wd:Q1399 schema:description ?description .
        FILTER(LANG(?description) = "es")
    }
""")
sparql.setReturnFormat(JSON)
results = sparql.query().convert()

# Obtener la descripción en español
description = results["results"]["bindings"][0]["description"]["value"]

# Guardar la descripción en un archivo PDF en la raíz de Google Colab
pdf_path = "/content/llamaindex_data/descripcion_maquiavelo.pdf"

# Crear el archivo PDF
pdf = FPDF()
pdf.add_page()
pdf.set_font("Arial", size=12)
pdf.multi_cell(0, 10, txt=f"Descripción de Nicolás Maquiavelo en español:\n\n{description}")
pdf.output(pdf_path)

print(f"El PDF se ha guardado en: {pdf_path}")

El PDF se ha guardado en: /content/llamaindex_data/descripcion_maquiavelo.pdf


# Obtenemos el modelo que vamos a utilizar, en este caso Llama-index

Obtenemos el token de hugging face

In [None]:
with open('.env', 'w') as file:
    file.write('HUGGINGFACE_TOKEN=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')

In [None]:
# Cargar variables de entorno desde el archivo .env
os.environ['HUGGINGFACE_TOKEN'] = config('HUGGINGFACE_TOKEN', default='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')

Realizamos la configuracion basica del modelo LLM

In [None]:
def zephyr_instruct_template(messages, add_generation_prompt=True):
    # Definir la plantilla Jinja
    template_str = "{% for message in messages %}"
    template_str += "{% if message['role'] == 'user' %}"
    template_str += "<|user|>{{ message['content'] }}</s>\n"
    template_str += "{% elif message['role'] == 'assistant' %}"
    template_str += "<|assistant|>{{ message['content'] }}</s>\n"
    template_str += "{% elif message['role'] == 'system' %}"
    template_str += "<|system|>{{ message['content'] }}</s>\n"
    template_str += "{% else %}"
    template_str += "<|unknown|>{{ message['content'] }}</s>\n"
    template_str += "{% endif %}"
    template_str += "{% endfor %}"
    template_str += "{% if add_generation_prompt %}"
    template_str += "<|assistant|>\n"
    template_str += "{% endif %}"

    # Crear un objeto de plantilla con la cadena de plantilla
    template = Template(template_str)

    # Renderizar la plantilla con los mensajes proporcionados
    return template.render(messages=messages, add_generation_prompt=add_generation_prompt)


# Aquí hacemos la llamada el modelo
def generate_answer(prompt: str, max_new_tokens: int = 768) -> None:
    try:
        # Tu clave API de Hugging Face
        api_key = config('HUGGINGFACE_TOKEN')

        # URL de la API de Hugging Face para la generación de texto
        api_url = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"

        # Cabeceras para la solicitud
        headers = {"Authorization": f"Bearer {api_key}"}

        # Datos para enviar en la solicitud POST
        # Sobre los parámetros: https://huggingface.co/docs/transformers/main_classes/text_generation
        data = {
            "inputs": prompt,
            "parameters": {
                "max_new_tokens": max_new_tokens,
                "temperature": 0.7,
                "top_k": 50,
                "top_p": 0.95
            }
        }

        # Realizamos la solicitud POST
        response = requests.post(api_url, headers=headers, json=data)

        # Extraer respuesta
        respuesta = response.json()[0]["generated_text"][len(prompt):]
        return respuesta

    except Exception as e:
        print(f"An error occurred: {e}")

# Esta función prepara el prompt en estilo QA
def prepare_prompt(query_str: str, nodes: list):
  TEXT_QA_PROMPT_TMPL = (
      "La información de contexto es la siguiente:\n"
      "---------------------\n"
      "{context_str}\n"
      "---------------------\n"
      "Dada la información de contexto anterior, y sin utilizar conocimiento previo, responde la siguiente pregunta.\n"
      "Pregunta: {query_str}\n"
      "Respuesta: "
  )

  # Construimos el contexto de la pregunta
  context_str = ''
  for node in nodes:
      page_label = node.metadata["page_label"]
      file_path = node.metadata["file_path"]
      context_str += f"\npage_label: {page_label}\n"
      context_str += f"file_path: {file_path}\n\n"
      context_str += f"{node.text}\n"

  messages = [
      {
          "role": "system",
          "content": "Eres un asistente útil que siempre responde con respuestas veraces, útiles y basadas en hechos.",
      },
      {"role": "user", "content": TEXT_QA_PROMPT_TMPL.format(context_str=context_str, query_str=query_str)},
  ]

  final_prompt = zephyr_instruct_template(messages)
  return final_prompt

Obtenemos el modelo Langchain para obtener los respectivos embeddings

In [None]:
# Cargamos nuestro modelo de embeddings
print('Cargando modelo de embeddings...')
embed_model = LangchainEmbedding(
    HuggingFaceEmbeddings(model_name='sentence-transformers/paraphrase-multilingual-mpnet-base-v2'))


Cargando modelo de embeddings...


.gitattributes:   0%|          | 0.00/690 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/4.10k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/723 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/402 [00:00<?, ?B/s]

modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

# Creamos la base de datos vectorial con ChromaDB

Obtenemos los directorios donde esta nuestra data en pdf

In [None]:
print('Indexando documentos...')
documents = SimpleDirectoryReader("llamaindex_data").load_data()

Indexando documentos...


Definimos nuestra base de datos vectorial

In [None]:
chroma_client = chromadb.EphemeralClient()
chroma_collection = chroma_client.create_collection("quickstart")

Hacemos text split de los textos

In [None]:
text_parser = SentenceSplitter(
    chunk_size=1024,
)

[nltk_data] Downloading package punkt to /tmp/llama_index...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [None]:
text_chunks = []
doc_idxs = []
for doc_idx, doc in enumerate(documents):
    cur_text_chunks = text_parser.split_text(doc.text)
    text_chunks.extend(cur_text_chunks)
    doc_idxs.extend([doc_idx] * len(cur_text_chunks))

Creamos Nodos etiquetados con los metadatos que nos ayudara a darle contexto a nuestro modelo LLM

In [None]:
nodes = []
for idx, text_chunk in enumerate(text_chunks):
    node = TextNode(
        text=text_chunk,
    )
    src_doc = documents[doc_idxs[idx]]
    node.metadata = src_doc.metadata
    nodes.append(node)

Realizamos con los nodos embeddings

In [None]:
for node in nodes:
    node_embedding = embed_model.get_text_embedding(
        node.get_content(metadata_mode="all")
    )
    node.embedding = node_embedding

Guardamos en la base de datos vectorial

In [None]:
vector_store = ChromaVectorStore(chroma_collection=chroma_collection)
storage_context = StorageContext.from_defaults(vector_store=vector_store)
service_context = ServiceContext.from_defaults(embed_model=embed_model,llm=None)
index = VectorStoreIndex(
    nodes, storage_context=storage_context, service_context=service_context
)

LLM is explicitly disabled. Using MockLLM.


Creamos el retriever y le decimos que obtenga los 2 embeddings con mayor similitud de coseno de la base de datos vectorial

In [None]:
retriever = index.as_retriever(similarity_top_k=2)

# Ponemos en funcionamiento nuestro sistema RAG

De esta manera tenemos un Chatbot que es especialista en el filosofo politico Nicolas de Maquiavelo

In [None]:
print('Realizando llamada a HuggingFace para generar respuestas...\n')
while True:
  queries = input("Ingrese su pregunta para el Chat especialista en Nicolas Maquiavelo: (si desea salir ingrese 'salir')")
  if queries=="salir":
    break
  nodes = retriever.retrieve(queries)
  final_prompt = prepare_prompt(queries, nodes)
  print('Pregunta:', queries)
  node_metadata = node.metadata
  file_name = node_metadata['file_name']
  # Ahora puedes imprimir el nombre del archivo
  print(f"La respuesta se puede encontrar en el archivo: {file_name}")
  print('Respuesta:')
  print(generate_answer(final_prompt))
  print('-------------------------------------------------------')

Realizando llamada a HuggingFace para generar respuestas...

Ingrese su pregunta para el Chat especialista en Nicolas de Maquiavelo: (si desea salir ingrese 'salir')A que se dedico Nicolas Maquiavelo?
Pregunta: A que se dedico Nicolas Maquiavelo?
La respuesta se puede encontrar en el archivo: descripcion_maquiavelo.pdf
Respuesta:
Nicolás Maquiavelo se dedicó a la diplomacia, al servicio público, a la filosofía política y a la escritura, siendo considerado el padre de la Ciencia Política moderna. Fue un figura relevante del Renacimiento italiano y escribió el tratado de doctrina política titulado El príncipe, publicado póstumamente en Roma en 1531. Además, se desempeñó en una oficina pública entre 1498 y 1512, visitó varias cortes en Europa en misiones diplomáticas, y estuvo brevemente encarcelado y posteriormente exiliado en 1512. Falleció en Florencia en 1527 y fue sepultado en la Basílica de la Santa Cruz.
-------------------------------------------------------
Ingrese su pregunta pa