# Chatbot Experto utilizando RAG

##Instalar e importar las librerias que vamos a utilizar

In [None]:
!pip install kaggle
!pip install sentence-transformers
!pip install PyPDF2
!pip install langchain
!pip install python-decouple
!pip install PyMuPDF
!pip install gdown
!pip install chromadb
!pip install fpdf
!pip install SPARQLWrapper
!pip install wikidataintegrator
!pip install openpyxl
!pip install pycryptodome --force

In [13]:
from google.colab import files, drive
import zipfile
import os
from PyPDF2 import PdfReader
import re
import pandas as pd
import numpy as np
import requests
from langchain.text_splitter import RecursiveCharacterTextSplitter
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
import nltk
from sentence_transformers import SentenceTransformer
from langchain_core.documents.base import Document
import chromadb
from transformers import MarianMTModel, MarianTokenizer
import json
from jinja2 import Template
from decouple import config
from typing import Any, Dict, List
import os
from fpdf import FPDF
import gdown
import shutil
import warnings
from SPARQLWrapper import SPARQLWrapper, JSON
warnings.filterwarnings("ignore")

## Carga del token de Hugging Face


In [3]:
# Cargar variables de entorno desde el archivo .env
os.environ['HUGGINGFACE_TOKEN'] = config('HUGGINGFACE_TOKEN', default='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')

In [4]:
with open('.env', 'w') as file:
    file.write('HUGGINGFACE_TOKEN=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')

## 1. Fuentes de datos

En este punto cargaremos las diferentes fuentes de datos que vamos a utilizar

### 1. Texto
Para la fuente de texto elegí la trilogia del "Señor de los Anillos" y "El Hobbit" que se descargan de una carpeta de google drive. Los archivos se encuentran en formato PDF.

In [5]:
# Montar Google Drive en Google Colab
drive.mount('/content/drive')

# Carpeta de origen en Google Drive
source_folder_drive = '/content/drive/MyDrive/Señor de los Anillos'

# Carpeta de destino en Google Colab
destination_folder = '/content/data_pdf'
if not os.path.exists(destination_folder):
    os.makedirs(destination_folder)

# Copiar archivos a la nueva carpeta
for filename in os.listdir(source_folder_drive):
    source_path = os.path.join(source_folder_drive, filename)
    destination_path = os.path.join(destination_folder, filename)
    shutil.copy(source_path, destination_path)

print("Archivos copiados con éxito.")

Mounted at /content/drive
Archivos copiados con éxito.


In [7]:
def extraer_texto_PDF(pdf_folder):
    pdf_texts = []

    for pdf_file in os.listdir(pdf_folder):
        if pdf_file.endswith('.pdf'):
            pdf_path = os.path.join(pdf_folder, pdf_file)
            with open(pdf_path, 'rb') as file:
                pdf_reader = PdfReader(file)
                text = ""
                for page_num in range(len(pdf_reader.pages)):
                    page_text = pdf_reader.pages[page_num].extract_text()
                    # Reemplazar saltos de línea simples con espacios y conservar solo dobles
                    cleaned_text = "\n\n".join(para.strip() for para in page_text.split('\n\n'))
                    text += cleaned_text
            pdf_texts.append(text)

    return pdf_texts

In [8]:
# Ruta de la carpeta con los archivos PDF
ruta_PDF = '/content/data_pdf'

# Extraer texto de los PDFs
pdf_texto = extraer_texto_PDF(ruta_PDF)

# Mostrar el texto extraído de un ejemplo de PDF
print(pdf_texto[0][:500])  # Muestra los primeros 500 caracteres del primer PDF

En	la	adormecida	e	idílica	Comarca,	un	joven	hobbit	recibe	un	encargo:
custodiar	el	Anillo	Único	y	emprender	el	viaje	para	su	destrucción	en	la	Grieta
del	Destino.	Acompañado	por	magos,	hombres,	elfos	y	enanos,	atravesará	la
Tierra	Media	y	se	internará	en	las	sombras	de	Mordor,	perseguido	siempre
por	las	huestes	de	Sauron,	el	Señor	Oscuro,	dispuesto	a	recuperar	su
creación	para	establecer	el	dominio	definitivo	del	Mal.
www.lectulandia.com	-	Página	2J.	R.	R.	Tolkien
La	comunidad	del	anillo
El	señ


In [9]:
def limpiar_saltos(text):
    # Utilizamos una expresión regular para buscar saltos de línea seguidos de una palabra
    cleaned_text = re.sub(r'\n(?=\w)', ' ', text)
    return cleaned_text

Se limpian los saltos de línea. Lo realizamos porque el splitter de texto de langchain utiliza los saltos de línea como guía para dividir el texto.

In [10]:
# Limpiar saltos de línea pegados a palabras en todos los PDFs
limpiar_texto = [limpiar_saltos(pdf_text) for pdf_text in pdf_texto]

# Mostrar el texto limpio de un ejemplo de PDF
print(limpiar_texto[0][:500])  # Muestra los primeros 500 caracteres del primer texto limpio

En	la	adormecida	e	idílica	Comarca,	un	joven	hobbit	recibe	un	encargo: custodiar	el	Anillo	Único	y	emprender	el	viaje	para	su	destrucción	en	la	Grieta del	Destino.	Acompañado	por	magos,	hombres,	elfos	y	enanos,	atravesará	la Tierra	Media	y	se	internará	en	las	sombras	de	Mordor,	perseguido	siempre por	las	huestes	de	Sauron,	el	Señor	Oscuro,	dispuesto	a	recuperar	su creación	para	establecer	el	dominio	definitivo	del	Mal. www.lectulandia.com	-	Página	2J.	R.	R.	Tolkien La	comunidad	del	anillo El	señ


### 2. Datos numéricos tabulares

Para los datos numéricos tabulares utilicé un pequeño dataset con datos sobre el año de lanzamiento, la duracion, la fecha de estreno,presupuesto y recaudacion total de la Trilogia del Señor de los anillos y el Hobbit.El dataset es de origen propio. El mismo esta en formato XLSX

In [None]:
# URL de la página de Wikipedia
url = 'https://es.wikipedia.org/wiki/Trilog%C3%ADa_cinematogr%C3%A1fica_de_El_Se%C3%B1or_de_los_Anillos'

# Leer las tablas de la página
tables = pd.read_html(url)

# Seleccionar la tabla de interés (en este caso, la tercera)
recaudacion_table = tables[2]

# Agregar una columna con los índices como datos
recaudacion_table['Indice'] = recaudacion_table.index + 1

# Eliminar el índice actual y reiniciar el índice
recaudacion_table.reset_index(drop=True, inplace=True)

# Verificar la cantidad de niveles en el índice
num_levels = recaudacion_table.columns.nlevels

# Eliminar el MultiIndex en las columnas solo si hay más de un nivel
if num_levels > 1:
    recaudacion_table.columns = recaudacion_table.columns.droplevel()

# Guardar la tabla en un archivo Excel
recaudacion_table.to_excel('recaudacion_el_hobbit.xlsx', index=False)

print("Tabla guardada con éxito en el archivo 'recaudacion_el_hobbit.xlsx'.")

In [11]:
df_senior_anillos = pd.read_excel("/content/recaudacion_de_las_trilogias.xlsx")
df_senior_anillos

Unnamed: 0,Titulo,Fecha de Estreno,Duracion,Presupuesto (USD),Recaudacion total mundial (USD)
0,El Señor de los Anillos: La Comunidad del Anillo,19 de diciembre de 2001,178 min,$93 millones,871530324
1,El Señor de los Anillos: Las dos torres,18 de diciembre de 2002,179 min,$94 millones,926047111
2,El Señor de los Anillos: El retorno del Rey,17 de diciembre de 2003,200 min,$94 millones,1119929521
3,El Hobbit: Un viaje inesperado,12 de diciembre de 2012,169 min,$200 millones,1021103568
4,El Hobbit: La desolación de Smaug,13 de diciembre de 2013,161 min,$225 millones,958366855
5,El Hobbit: La batalla de los Cinco Ejércitos,17 de diciembre de 2014,144 min,$250 millones,956019788


Para brindar contexto con esta tabla, se define una función que la transforma en texto.

In [12]:
def dataframe_to_string(df):
    result = ""
    for index, row in df.iterrows():
        result += f"Titulo: {row['Titulo']}\n"
        result += f"Fecha de Estreno: {row['Fecha de Estreno']}\n"
        result += f"Duracion: {row['Duracion']}\n"
        result += f"Presupuesto: {row['Presupuesto (USD)']}\n"
        result += f"Recaudacion Total Mundial: {row['Recaudacion total mundial (USD)']}\n\n"

    return result


# Convertir el DataFrame en un string
result_string = dataframe_to_string(df_senior_anillos)

print(result_string)

Titulo: El Señor de los Anillos: La Comunidad del Anillo
Fecha de Estreno: 19 de diciembre de 2001
Duracion: 178 min
Presupuesto: $93 millones
Recaudacion Total Mundial: 871530324

Titulo: El Señor de los Anillos: Las dos torres
Fecha de Estreno: 18 de diciembre de 2002
Duracion: 179 min
Presupuesto: $94 millones
Recaudacion Total Mundial: 926047111

Titulo: El Señor de los Anillos: El retorno del Rey
Fecha de Estreno: 17 de diciembre de 2003
Duracion: 200 min
Presupuesto: $94 millones
Recaudacion Total Mundial: 1119929521

Titulo: El Hobbit: Un viaje inesperado
Fecha de Estreno: 12 de diciembre de 2012
Duracion: 169 min
Presupuesto: $200 millones
Recaudacion Total Mundial: 1021103568

Titulo: El Hobbit: La desolación de Smaug
Fecha de Estreno: 13 de diciembre de 2013
Duracion: 161 min
Presupuesto: $225 millones
Recaudacion Total Mundial: 958366855

Titulo: El Hobbit: La batalla de los Cinco Ejércitos
Fecha de Estreno: 17 de diciembre de 2014
Duracion: 144 min
Presupuesto: $250 millone

### 3. Base de datos de Grafos

Opté por Wikidata como la base de datos de grafos para realizar consultas en línea. Esta fuente se empleará exclusivamente cuando se formulen preguntas relacionadas con datos de personajes. En este proceso, se realiza una consulta para obtener el ID del personaje y, posteriormente, se obtienen las etiquetas de los objetos correspondientes a un conjunto de predicados previamente seleccionados.

In [71]:
def obtener_valores_por_personaje_tolkien(label_personaje):
    # Configurar el endpoint de Wikidata y la consulta SPARQL
    sparql = SPARQLWrapper("https://query.wikidata.org/sparql")
    sparql.setQuery(f"""
        SELECT ?personaje ?personajeLabel ?description ?countryLabel ?genderLabel ?memberOfLabel ?enemyLabel ?occupationLabel
        WHERE {{
            ?personaje rdfs:label "{label_personaje}"@es.
            SERVICE wikibase:label {{ bd:serviceParam wikibase:language "[AUTO_LANGUAGE],es". }}
            OPTIONAL {{ ?personaje schema:description ?description. FILTER(LANG(?description) = "es") }}
            OPTIONAL {{ ?personaje wdt:P27 ?country. }}
            OPTIONAL {{ ?personaje wdt:P21 ?gender. }}
            OPTIONAL {{ ?personaje wdt:P463 ?memberOf. }}
            OPTIONAL {{ ?personaje wdt:P1773 ?enemy. }}
            OPTIONAL {{ ?personaje wdt:P106 ?occupation. }}
        }}
    """)
    sparql.setReturnFormat(JSON)

    # Ejecutar la consulta SPARQL
    results = sparql.query().convert()

    # Verificar si hay resultados
    if "results" in results and "bindings" in results["results"] and results["results"]["bindings"]:
        # Obtener la descripción en español
        description = results["results"]["bindings"][0].get("description", {}).get("value", "Sin descripción disponible")
        # Obtener otras propiedades
        country = results["results"]["bindings"][0].get("countryLabel", {}).get("value", "Desconocido")
        gender = results["results"]["bindings"][0].get("genderLabel", {}).get("value", "Desconocido")
        member_of = results["results"]["bindings"][0].get("memberOfLabel", {}).get("value", "Desconocido")
        enemy = results["results"]["bindings"][0].get("enemyLabel", {}).get("value", "Desconocido")
        occupation = results["results"]["bindings"][0].get("occupationLabel", {}).get("value", "Desconocido")

        return f'{label_personaje} :\nDescripción: {description}\nReino: {country}\nRaza: {gender}\nMiembro de: {member_of}\nEnemigo: {enemy}\nPapel: {occupation}'
    else:
        return f'No se encontró información para {label_personaje}'

# Uso de la función
label_personaje_hobbit_senior_anillos = "Thorin"  # Reemplaza con el personaje deseado
print(obtener_valores_por_personaje_tolkien(label_personaje_hobbit_senior_anillos))

Thorin :
Descripción: personaje de El hobbit, de J. R. R. Tolkien, un enano
Reino: Desconocido
Raza: masculino
Miembro de: Compañía de Thorin
Enemigo: Desconocido
Papel: espadachín


## 2. Base de datos vectorial de embeddings

Ahora que ya tengo los PDFs en el formato necesario vamos a realizar la base de datos vectorial con los embeddings.

Para la base de datos utilizare ChromaDB y para los embeddings SentenceTransformer.

#### 1. Split de textos

Aquí utilicé RecursiveCharacterTextSplitter de langchain para dividir los textos.


In [25]:
# Definir el tamaño y solapamiento de los fragmentos
chunk_size = 1000
chunk_overlap = 200

# Crear el objeto text_splitter
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    length_function=len,
    is_separator_regex=False
)

# Aplicar la división a los textos de los PDFs
split_texto = text_splitter.create_documents(limpiar_texto)

# Mostrar algunos ejemplos de los fragmentos divididos
for i in range(min(3, len(split_texto))):
    print(f"Fragmento {i + 1}:\n{split_texto[i].page_content}\n")


Fragmento 1:
En	la	adormecida	e	idílica	Comarca,	un	joven	hobbit	recibe	un	encargo: custodiar	el	Anillo	Único	y	emprender	el	viaje	para	su	destrucción	en	la	Grieta del	Destino.	Acompañado	por	magos,	hombres,	elfos	y	enanos,	atravesará	la Tierra	Media	y	se	internará	en	las	sombras	de	Mordor,	perseguido	siempre por	las	huestes	de	Sauron,	el	Señor	Oscuro,	dispuesto	a	recuperar	su creación	para	establecer	el	dominio	definitivo	del	Mal. www.lectulandia.com	-	Página	2J.	R.	R.	Tolkien La	comunidad	del	anillo El	señor	de	los	anillos	I Ed.	Ilustrada	por	Alan	Lee	y	otros ePUB	v2.0 ikero

Fragmento 2:
04.07.12 www.lectulandia.com	-	Página	3www.lectulandia.com	-	Página	4Tres	Anillos	para	los	Reyes	Elfos	bajo	el	cielo. Siete	para	los	Señores	Enanos	en	palacios	de	piedra. Nueve	para	los	Hombres	Mortales	condenados	a	morir. Uno	para	el	Señor	Oscuro,	sobre	el	trono	oscuro en	la	Tierra	de	Mordor	donde	se	extienden	las	Sombras. Un	Anillo	para	gobernarlos	a	todos.	Un	Anillo	para	encontrarlos, un	Anillo	p

#### 2. Limpieza
Para mejorar la calidad de los embeddings eliminé los símbolos, stop words y lematicé los chunks de texto.

In [26]:
nltk.download('stopwords')
nltk.download('wordnet')

def clean_text_english(text):

    # Convertir a minúsculas
    text = text.lower()

    # Eliminar puntuación
    text = re.sub(r'[^\w\s]', '', text)

    # Eliminar números
    text = re.sub(r'\d', '', text)

    # Conservar símbolos especiales relevantes (agrega otros si es necesario)
    text = re.sub(r"[^a-zA-Z0-9À-ž\s]", '', text)

    # Eliminar stop words en inglés
    stop_words = set(stopwords.words('english'))
    words = text.split()
    filtered_words = [word for word in words if word.lower() not in stop_words]
    text = ' '.join(filtered_words)

    # Aplicar lematización
    lemmatizer = WordNetLemmatizer()
    words = text.split()
    lemmatized_words = [lemmatizer.lemmatize(word) for word in words]
    text = ' '.join(lemmatized_words)

    return text

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...


In [27]:
# Aplicar la limpieza a los documentos divididos
cleaned_documents = []

for document in split_texto:
    document.page_content = clean_text_english(document.page_content)
    cleaned_documents.append(document)

# Mostrar el texto limpio de un ejemplo de documento
print(cleaned_documents[1].page_content[:])

wwwlectulandiacom página wwwlectulandiacom página tres anillos para los reyes elfos bajo el cielo siete para los señores enanos en palacios de piedra nueve para los hombre mortales condenados morir uno para el señor oscuro sobre el trono oscuro en la tierra de mordor donde se extienden la sombras un anillo para gobernarlos todos un anillo para encontrarlos un anillo para atraerlos todos atarlos en la tinieblas en la tierra de mordor donde se extienden la sombras wwwlectulandiacom página wwwlectulandiacom página de los hobbit este libro trata principalmente de los hobbit el lector descubrirá en sus páginas mucho del carácter algo de la historia de este pueblo podrá encontrarse más información en los extractos del libro rojo de la frontera del oeste que ya han sido publicados con el título de el hobbit el relato tuvo su origen en los primeros capítulos del libro


####3. Embeddings
En este punto realizaremos la conversion de embeddings, Una vez que se tienen los chunks limpios se puede llamar a Sentence Transformer para vectorizarlos.

In [28]:
# Cargar el modelo de embeddings
model_name = 'sentence-transformers/paraphrase-multilingual-mpnet-base-v2'
embed_model = SentenceTransformer(model_name)

modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/4.10k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/723 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/402 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [None]:
# Obtener embeddings para cada documento limpio
embedding_vectors = [embed_model.encode(doc.page_content) for doc in cleaned_documents]

# Mostrar los primeros 5 números del primer embedding como ejemplo
print("Embedding del primer documento:")
print(embedding_vectors[0])

#### 4. Almacenar los embeddings en una base de datos Chromadb

Una vez obtenidos los embeddings de los fragmentos de texto, los almaceno en una base de datos vectorial ChromaDB.

In [31]:
# Obtener el cliente Chroma
chroma_client = chromadb.Client()

# Crear la colección
collection = chroma_client.create_collection(name="seniordelosanillos_embeddings")

In [32]:
# Transformar los chunks sin limpiar de una lista de objetos de langchain a una lista de str
documents_str = [langchain_doc_obj.page_content for langchain_doc_obj in split_texto]

# Crear IDs
ids = [f'id{i+1}' for i in range(len(documents_str))]

embedding_vectors_list = [[float(value) for value in embedding] for embedding in embedding_vectors]

for embeddings,documents,ids_1 in zip(embedding_vectors_list,documents_str,ids):
  collection.add(
      embeddings = [embeddings],
      documents = documents,
      ids = ids_1
  )

Ejemplo de realizar una query a la base de datos. Primero hay que obtener el embedding de la query y la base buscará los vectores más cercanos, y en este caso, traerá los 5 más cercanos.

In [33]:
# Example query
query_texts = "¿who was Bilbo Bolsón?"
query_embedding = embed_model.encode(query_texts).tolist()

results = collection.query(query_embeddings= [query_embedding], n_results=3)
for result in results['documents'][0]:
    print(result)
    print('\n')

creía que bilbo hubiera muerto cuando le preguntaban dónde está entonces se encogía de hombros vivía solo como había vivido bilbo pero tenía muchos buenos amigo especialmente entre los hobbit más jóvenes casi todos descendientes del viejo tuk que de niños habían simpatizado con bilbo dentro fuera de bolsón cerrado entre ellos estaban folco boffin fredegar bolger pero sus amigo íntimos eran peregrin tuk llamado comúnmente pippin merry brandigamo cuyo nombre verdadero muy poco recordado era meriadoc frodo correteaba con ellos por la comarca pero más menudo vagabundeaba solo asombrando la gente razonable pues lo vieron muchas veces lejos de la casa caminando por la lomas los bosques la luz de la wwwlectulandiacom página estrellas merry pippin sospechaban que visitaba de vez en cuando los elfos continuando la costumbre de bilbo


cómo lo descubrió preguntó frodo en cuanto al nombre se lo dijo bilbo mismo muy tontamente luego le fue difícil averiguar de qué país venía bilbo una vez que sali

## 2. Implementación del RAG

### 1. Traducción de prompt y respuestas

Decidí traducir las preguntas de entrada al inglés para facilitar la interacción con el chatbot, dado que los modelos de lenguaje natural tienden a ser más avanzados en inglés debido a su entrenamiento. Utilicé los modelos "opus-mt-es-en" y "opus-mt-es-en" de Helsinki-NLP, disponibles en HuggingFace, para realizar la traducción al inglés. Luego, trabajé en este idioma y finalmente, volví a traducir al español la respuesta final.

#### Funcion Español a Inglés

In [34]:
def translate_sentence(sentence, model_name="Helsinki-NLP/opus-mt-es-en"):
    # Cargar el tokenizador y el modelo
    tokenizer = MarianTokenizer.from_pretrained(model_name)
    model = MarianMTModel.from_pretrained(model_name)

    # Preprocesar la frase de entrada
    input_text = sentence
    input_ids = tokenizer.encode(input_text, return_tensors="pt")

    # Realizar la traducción
    translation_ids = model.generate(input_ids, max_length=1000, num_beams=4, length_penalty=2.0)

    # Decodificar la traducción
    translation = tokenizer.decode(translation_ids[0], skip_special_tokens=True)
    return translation

In [35]:
# Ejemplo de uso
spanish_sentence = "Hola, ¿cómo estás?"
english_translation = translate_sentence(spanish_sentence)

print(f"Frase en español: {spanish_sentence}")
print(f"Traducción al inglés: {english_translation}")

tokenizer_config.json:   0%|          | 0.00/44.0 [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/826k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.59M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.44k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/312M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

Frase en español: Hola, ¿cómo estás?
Traducción al inglés: Hey, how are you?


#### Funcion Inglés a Español

In [36]:
def translate_sentence_to_spanish(sentence, model_name="Helsinki-NLP/opus-mt-en-es"):
    # Cargar el tokenizador y el modelo
    tokenizer = MarianTokenizer.from_pretrained(model_name)
    model = MarianMTModel.from_pretrained(model_name)

    # Preprocesar la frase de entrada
    input_text = sentence
    input_ids = tokenizer.encode(input_text, return_tensors="pt")

    # Realizar la traducción
    translation_ids = model.generate(input_ids, max_length=1000, num_beams=4, length_penalty=2.0)

    # Decodificar la traducción
    translation = tokenizer.decode(translation_ids[0], skip_special_tokens=True)
    return translation

In [37]:
# Ejemplo de uso
english_sentence = "Hello, how are you?"
spanish_translation = translate_sentence_to_spanish(english_sentence)

print(f"English Sentence: {english_sentence}")
print(f"Spanish Translation: {spanish_translation}")

tokenizer_config.json:   0%|          | 0.00/44.0 [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/826k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.59M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.47k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/312M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

English Sentence: Hello, how are you?
Spanish Translation: Hola, ¿cómo estás?


### 2. Clasificación para elegir fuente de contexto
Para la clasificación de preguntas y la selección de la fuente contextual, empleé un Modelo de Lenguaje de Aprendizaje Profundo (LLM) específico, el "zephyr-7b-beta", disponible en Hugging Face. Utilicé un formato de prompt Few-Shot para obtener respuestas más precisas en función del contexto proporcionado.

In [72]:
def zephyr_chat_template(messages, add_generation_prompt=True):
    # Definir la plantilla Jinja
    template_str  = "{% for message in messages %}"
    template_str += "{% if message['role'] == 'user' %}"
    template_str += "{{ message['content'] }}\n"
    template_str += "{% elif message['role'] == 'assistant' %}"
    template_str += "{{ message['content'] }}\n"
    template_str += "{% elif message['role'] == 'system' %}"
    template_str += "{{ message['content'] }}\n"
    template_str += "{% else %}"
    template_str += "{{ message['content'] }}\n"
    template_str += "{% endif %}"
    template_str += "{% endfor %}"
    template_str += "{% if add_generation_prompt %}"
    template_str += "\n"
    template_str += "{% endif %}"

    # Crear un objeto de plantilla con la cadena de plantilla
    template = Template(template_str)

    # Renderizar la plantilla con los mensajes proporcionados
    return template.render(messages=messages, add_generation_prompt=add_generation_prompt)

# Aquí hacemos la llamada el modelo
def choose_data_source(prompt: str, api_key, max_new_tokens: int = 768) -> None:
    messages: List[Dict[str, str]] = [

        {"role": "system", "content": "You are a bibliographic assistant, specialized in identifying the subject or object referred to in a question or task."},

        {"role": "user", "content": "Tell me about Bilbo Bolsón."},

        {"role": "assistant", "content": "Personaje: [Bilbo Bolsón]"},

        {"role": "user", "content": "Who is Aragorn in The Lord of the Rings?"},

        {"role": "assistant", "content": "Personaje: [Aragorn]"},

        {"role": "user", "content": "Tell me about Samwise Gamgee."},

        {"role": "assistant", "content": "Personaje: [Samwise Gamgee]"},

        {"role": "user", "content": "Who is the brother of Legolas?"},

        {"role": "assistant", "content": "Personaje: [Legolas]"},

        {"role": "user", "content": "What is the main plot of The Hobbit?"},

        {"role": "assistant", "content": "Libros"},

        {"role": "user", "content": "What is the significance of the One Ring in The Lord of the Rings trilogy?"},

        {"role": "assistant", "content": "Libros"},

        {"role": "user", "content": "What is the role of Gollum in The Lord of the Rings?"},

        {"role": "assistant", "content": "Libros"},

        {"role": "user", "content": "How many movies are there in The Lord of the Rings trilogy?"},

        {"role": "assistant", "content": "Peliculas"},

        {"role": "user", "content": "Which actor played Gandalf in the movies?"},

        {"role": "assistant", "content": "Peliculas"},

        {"role": "user", "content": "How many Oscars did The Lord of the Rings trilogy win?"},

        {"role": "assistant", "content": "Peliculas"},

        {"role": "user", "content": f'Respond only in one of the following ways without using prior knowledge of the topic or adding information not contained in the question:\n\
          "Personaje: [Name of the explicitly mentioned character in the question]" if it is a question or task about a character, with the name capitalized.\n\
          "Libros" if it is a question or task about the books of The Lord of the Rings or The Hobbit.\n\
          "Peliculas" if it is a question about the films.\n\
          -------------------------------------------\n\
          The question or task is as follows:\n\
          {prompt}'},
    ]

    try:
        prompt_formatted: str = zephyr_chat_template(messages, add_generation_prompt=True)

        # URL de la API de Hugging Face para la generación de texto
        api_url = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"

        # Cabeceras para la solicitud
        headers = {"Authorization": f"Bearer {api_key}"}

        # Datos para enviar en la solicitud POST
        data = {
            "inputs": prompt_formatted,
            "parameters": {
                "max_new_tokens": max_new_tokens,
                "temperature": 0.7,
                "top_k": 50,
                "top_p": 0.95
            }
        }

        # Realizamos la solicitud POST
        response = requests.post(api_url, headers=headers, json=data)

        # Extraer respuesta
        respuesta = response.json()[0]["generated_text"][len(prompt_formatted):]
        return respuesta

    except Exception as e:
        print(f"An error occurred: {e}")

In [77]:
# Ejemplo)
prompt = '¿cómo influye el Anillo Único en los personajes principales y cuáles son los desafíos específicos que enfrentan debido a su presencia en la historia?'
answer = choose_data_source(prompt, api_key="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")
print('\nRESPUESTA: \n', answer)


RESPUESTA: 
           Respuesta: "Los personajes principales de La Comunidad del Anillo enfrentan desafíos específicos debido a la presencia del Anillo Único en la historia. El Anillo Único influye en los personajes principales, transformándolos y afectando su comportamiento."

          Explicación: "Personaje: [Frodo Bolsón, Boromir, Gandalf, etc.]" no es necesario porque la pregunta menciona "los personajes principales", y "Libros" no es necesario porque la pregunta menciona "La Comunidad del Anillo". Solo se menciona "Anillo Único" y "historia", lo que significa que se refiere a la trilogía de libros y no a la película o cualquier otra adaptación.

          Respuesta alternativa: "Los personajes principales de la trilogía de libros de J.R.R. Tolkien enfrentan desafíos específicos debido a la presencia del Anillo Único en la historia. El Anillo Único influye en los personajes principales de La Comunidad del Anillo, transformándolos y afectando su comportamiento."

          Expli

### 3. Interpretar respuesta

Dado que solicité un formato de respuesta específico al LLM, ahora puedo utilizar una función para obtener la información necesaria. La información se formateará en una lista con dos elementos: el primero indicará el tema de la pregunta ("Personaje", "Libros", "Películas"), y el segundo será "None" a menos que se trate de una pregunta sobre un personaje. En ese caso, también se proporcionará el nombre del personaje para realizar la consulta en la base de datos de grafos.

In [78]:
def answer_cleaner(texto):
    palabras_clave = ["Personaje", "Libros", "Peliculas"]

    for palabra in palabras_clave:
        if palabra in texto:
            if palabra == "Personaje":
                match = re.search(r'\[([^]]*)\]', texto)
                if match:
                    texto_entre_corchetes = match.group(1)
                    return [palabra, texto_entre_corchetes]
            else:
                return [palabra, None]

    return [None, None]

# Ejemplo de uso:
respuesta_limpia = answer_cleaner(answer)
print(respuesta_limpia)

['Personaje', 'Frodo Bolsón, Boromir, Gandalf, etc.']


### 4. Devolver contexto

Ahora teniendo el resultado de la clasificación, le paso la información necesaria a cada fuente para obtener el contexto.

In [79]:
def devolver_contexto(respuesta_LLM, prompt):
    # Si no se halló nada, no devolver contexto
    if respuesta_LLM in ([None, None], ["Personaje", None]):
        return ("", 'Error al identificar la fuente')

    # Si la pregunta o tarea es referida a un personaje
    elif respuesta_LLM[0] == "Personaje":
        propiedades_personaje = obtener_valores_por_personaje_tolkien(respuesta_LLM[1])
        return (propiedades_personaje, 'Base de datos de grafos')

    # Si la pregunta o tarea es referida a las nobelas
    elif respuesta_LLM[0] == "Peliculas":
        dataframe_string = dataframe_to_string(df_senior_anillos)
        return (dataframe_string, 'Dataframe')

    # Si la pregunta o tarea es referida a la historia
    elif respuesta_LLM[0] == "Libros":
        contexto = ''
        # Obtener el cliente Chroma
        chroma_client = chromadb.Client()
        # Obtener la colección
        collection = chroma_client.get_collection(name="seniordelosanillos_embeddings")
        # Query
        query_embedding = embed_model.encode(prompt).tolist()
        results = collection.query(query_embeddings= [query_embedding], n_results=5)
        for result in results['documents'][0]:
          contexto += result

        return (contexto, "Base de datos vectorial de Embeddings")

In [80]:
# Ejemplo
contexto = devolver_contexto(respuesta_limpia, prompt)[1]

print(contexto)

Base de datos de grafos


### 5. Preguntar al agente con contexto

El último paso es preguntarle al LLM pero añadiendo a la pregunta el contexto y pidiéndole que no utilice su conocimiento previo.

In [81]:
def pregunta_agent_context(prompt: str, context: str, api_key, max_new_tokens: int = 768) -> None:
    messages: List[Dict[str, str]] = [
                                    {
                                        "role": "system",
                                        "content": "You are a helpful assistant that always responds with truthful, useful, and fact-based answers."
                                    },
                                    {
                                        "role": "user",
                                        "content": f"The context information is as follows:\n\
                                        ---------------------\n\
                                        {context}\n\
                                        ---------------------\n\
                                        Given the above context information, and without using prior knowledge, answer the following question.\n\
                                        Question: {prompt}\n\
                                        Answer: "
                                    }
                                ]

    try:
        prompt_formatted: str = zephyr_chat_template(messages, add_generation_prompt=True)

        # URL de la API de Hugging Face para la generación de texto
        api_url = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"

        # Cabeceras para la solicitud
        headers = {"Authorization": f"Bearer {api_key}"}

        # Datos para enviar en la solicitud POST
				# Sobre los parámetros: https://huggingface.co/docs/transformers/main_classes/text_generation
        data = {
            "inputs": prompt_formatted,
            "parameters": {
                "max_new_tokens": max_new_tokens,
                "temperature": 0.7,
                "top_k": 50,
                "top_p": 0.95
            }
        }

        # Realizamos la solicitud POST
        response = requests.post(api_url, headers=headers, json=data)

        # Extraer respuesta
        respuesta = response.json()[0]["generated_text"][len(prompt_formatted):]
        return respuesta

    except Exception as e:
        print(f"An error occurred: {e}")

In [82]:
#Ejemplo
respuesta_final = pregunta_agent_context(prompt, contexto, api_key="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")

print(f'Prompt: {prompt}\n')
print('-----------------------------------------------------------------------')
print(f'Contexto: {contexto}\n')
print('-----------------------------------------------------------------------')
print(f'Respuesta:\n {respuesta_final}')

Prompt: ¿cómo influye el Anillo Único en los personajes principales y cuáles son los desafíos específicos que enfrentan debido a su presencia en la historia?

-----------------------------------------------------------------------
Contexto: Base de datos de grafos

-----------------------------------------------------------------------
Respuesta:
 El Anillo Único es un elemento central en la historia de La Comunidad del Anillo, y su presencia influye de manera significativa en los personajes principales. En primer lugar, Frodo, el hobbit elegido para destruir el Anillo, se ve obligado a abandonar su hogar y viajar hacia Rivendel para entregarlo a Elrond. Esta misión es peligrosa y difícil, y Frodo se enfrenta a desafíos como la tentación del Anillo y la persecución de los enemigos de Sauron.

A medida que el viaje se extiende, Frodo recibe ayuda de otros personajes, como Sam, Merry, y Pippin. Sin embargo, el Anillo también se vuelve un obstáculo para ellos, ya que pueden ser influencia

##3. RESULTADO FINAL

### 1. Función RAG

Se crea una función para utilizar el sistema RAG.

In [83]:
def RAG(prompt, api_key):
    #Traducir el prompt al inglés
    english_prompt = translate_sentence(prompt)

    # Identificar la fuente
    source_raw = choose_data_source(english_prompt , api_key="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")

    # Formatear respuesta del LLM para la fuente
    source_clean = answer_cleaner(source_raw)

    # Obtener el contexto de la fuente indicada y el ID de la fuente
    contexto, id_source = devolver_contexto(source_clean, prompt)

    # Obtener la respuesta con el prompt original más el contexto obtenido de las fuentes externas
    respuesta_final = pregunta_agent_context(prompt, contexto, api_key="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")

    # Traducir la respuesta al Español
    respuesta_final_español = translate_sentence_to_spanish(respuesta_final)

    return (respuesta_final_español, id_source, contexto)

###2. Uso del RAG

#### Ejemplo 1

In [90]:
# Prompt:
prompt = 'Personaje: Bilbo Bolsón quien fue y que hizo'

# Llamar a la función del RAG
respuesta, fuente, contexto = RAG(prompt, "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")

# Imprimir el resultado
print('------------------------------------------------------------------------')
print(f'PREGUNTA:\n{prompt}')
print('------------------------------------------------------------------------')
print(f'FUENTE ESCOGIDA: {fuente}')
print('------------------------------------------------------------------------')
print(f'CONTEXTO BRINDADO:\n{contexto}')
print('------------------------------------------------------------------------')
print(f'RESPUESTA:\n{respuesta}')

------------------------------------------------------------------------
PREGUNTA:
Personaje: Bilbo Bolsón quien fue y que hizo
------------------------------------------------------------------------
FUENTE ESCOGIDA: Base de datos vectorial de Embeddings
------------------------------------------------------------------------
CONTEXTO BRINDADO:
cómo lo descubrió preguntó frodo en cuanto al nombre se lo dijo bilbo mismo muy tontamente luego le fue difícil averiguar de qué país venía bilbo una vez que salió la luz pues se atrevió salir el deseo de recobrar el anillo era más fuerte que su temor los orcos la luz pasó un año do dejó la montañas como f aunque dominado por el deseo del anillo ya pensaba que lo devoraban comenzó revivir un poco se sentía viejo muy viejo aunque menos tímido con mucha hambre seguía seguirá temiendo la luz del sol de la luna pero era astuto supo esconderse de la luz del día del fulgor de la luna abrirse camino veloz calladamente en lo profundo de la noche con pá

#### Ejemplo 2

In [94]:
# Prompt:
prompt = 'Peliculas: Cual fue la duracion del Señor de los Anillos: La Comunidad del Anillo'

# Llamar a la función del RAG
respuesta, fuente, contexto = RAG(prompt, "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")

# Imprimir el resultado
print('------------------------------------------------------------------------')
print(f'PREGUNTA:\n{prompt}')
print('------------------------------------------------------------------------')
print(f'FUENTE ESCOGIDA: {fuente}')
print('------------------------------------------------------------------------')
print(f'CONTEXTO BRINDADO:\n{contexto}')
print('------------------------------------------------------------------------')
print(f'RESPUESTA:\n{respuesta}')

------------------------------------------------------------------------
PREGUNTA:
Peliculas: Cual fue la duracion del Señor de los Anillos: La Comunidad del Anillo
------------------------------------------------------------------------
FUENTE ESCOGIDA: Base de datos vectorial de Embeddings
------------------------------------------------------------------------
CONTEXTO BRINDADO:
amigo nosotros la guerra del anillo aquí terminaba la letra de bilbo luego frodo había escrito la caída del señor de los anillos el retorno del rey tal como los vio la gente pequeña siendo éstas la memorias de bilbo frodo de la comarca completadas con la narraciones de sus amigo la erudición del sabio junto con extractos de los libros de tradición traducidos por bilbo en rivendelsauron e vencido por elendil gilgalad que mueren en combate isildur se apodera del anillo único sauron desaparece los espectros del anillo entran en la sombra fin de la segunda edad la tercera edad wwwlectulandiacom página fueron ést

#### Ejemplo 3

In [100]:
# Prompt:
prompt = 'Libros: ¿¿Cuál es el papel clave que desempeña el personaje de Aragorn en la batalla final y el desenlace de la historia en "El retorno del rey"?'

# Llamar a la función del RAG
respuesta, fuente, contexto = RAG(prompt, "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")

# Imprimir el resultado
print('------------------------------------------------------------------------')
print(f'PREGUNTA:\n{prompt}')
print('------------------------------------------------------------------------')
print(f'FUENTE ESCOGIDA: {fuente}')
print('------------------------------------------------------------------------')
print(f'CONTEXTO BRINDADO:\n{contexto}')
print('------------------------------------------------------------------------')
print(f'RESPUESTA:\n{respuesta}')

------------------------------------------------------------------------
PREGUNTA:
Libros: ¿¿Cuál es el papel clave que desempeña el personaje de Aragorn en la batalla final y el desenlace de la historia en "El retorno del rey"?
------------------------------------------------------------------------
FUENTE ESCOGIDA: Base de datos de grafos
------------------------------------------------------------------------
CONTEXTO BRINDADO:
No se encontró información para Name of the explicitly mentioned character in the question
------------------------------------------------------------------------
RESPUESTA:
En respuesta a la pregunta, el personaje de Aragorn desempeña un papel clave en la batalla final y el desenlace de la historia en "El retorno del rey" como el rey guerrero elegido, cuyo verdadero identidad es revelada en ese momento. Aragorn lidera los ejércitos alias de Gondor y Rohan contra Sauron y su ejército, ayudando a derrotarlo definitivamente y restaurar la paz en Middle-earth. 

## 4. HAZ TU PREGUNTA SOBRE EL SEÑOR DE LOS ANILLOS O EL HOBBIT


In [None]:
# Prompt:
prompt = input("Prompt: ")

# Llamar a la función del RAG
respuesta, fuente, contexto = RAG(prompt, "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")

# Imprimir el resultado
print('------------------------------------------------------------------------')
print(f'PREGUNTA:\n{prompt}')
print('------------------------------------------------------------------------')
print(f'FUENTE ESCOGIDA: {fuente}')
print('------------------------------------------------------------------------')
print(f'CONTEXTO BRINDADO:\n{contexto}')
print('------------------------------------------------------------------------')
print(f'RESPUESTA:\n{respuesta}')