# **Trabajo Práctico Final - TUIA NLP 2024**

## **Chatbot experto en Eurogames con RAG y Agentes ReAct**

### **Autor**: Tomás Valentino Avecilla
### **legajo**: --------
### **Fecha**: 16 de diciembre de 2024
### **Materia**: Procesamiento del Lenguaje Natural (NLP)  
### **Institución**: Facultad de Ciencias Exactas, ingenieria y Agrimensura -- UNR

---

## **Descripción del Trabajo**
Este cuaderno contiene el desarrollo del Trabajo Práctico Final para la materia TUIA NLP 2024. El objetivo es implementar un **chatbot experto** sobre un juego de mesa tipo Eurogame, utilizando las técnicas de **Retrieval-Augmented Generation (RAG)** y **Agentes ReAct**.

El proyecto incluye:
- Recolección de información desde múltiples fuentes: texto, datos tabulares y bases de grafos.
- Construcción de bases de datos vectoriales, tabulares y de grafos.
- Implementación de clasificadores y sistemas de recuperación dinámica de información.
- Desarrollo de un agente que combina herramientas para responder consultas complejas.

---

## Preparación del Entorno de Trabajo

In [110]:
%%capture
# --- 1. Actualización del Sistema ---
!apt-get update
!apt-get install -y poppler-utils tesseract-ocr tesseract-ocr-spa tesseract-ocr-eng  # Herramientas de OCR y dependencias
!pip install python-decouple

# --- 2. Instalación de Bibliotecas Generales ---
!pip install gdown requests python-docx  # Descarga de archivos, solicitudes web, manejo de archivos docx

# --- 3. Procesamiento de Imágenes y OCR ---
!pip install pdf2image pytesseract  # Extracción de imágenes y OCR desde PDFs

# --- 4. Web Scraping y Automatización ---
!pip install selenium webdriver-manager  # Automatización de navegación web

# --- 5. Procesamiento del Lenguaje Natural ---
!pip install transformers  # Modelos de Hugging Face y Sentence Transformers
!pip install --upgrade sentence_transformers
!python -m spacy download es_core_news_md en_core_web_sm  # Modelo en español para spaCy
!pip install translators  # Traducción automática de texto
!pip install langdetect

# --- 6. Bases de Datos ---
!pip install --upgrade chromadb neo4j pydgraph  # Bases de datos vectoriales, de grafos y almacenamiento

# --- 7. Modelos de Machine Learning y Deep Learning ---
!pip install torch
!pip install --upgrade huggingface_hub
!pip install rank_bm25

# --- 8. Herramientas para Agentes ReAct ---
!pip install llama-index-llms-ollama llama-index pygoogleweather wikipedia  # Agentes y conectores para datos externos


In [111]:
%%capture

# --- 1. Importaciones Básicas y Manejo de Archivos ---
import os
import re
import time
import uuid
import unicodedata
from collections import defaultdict
from concurrent.futures import ThreadPoolExecutor
import logging
from time import time
import json


import numpy as np
import pandas as pd
from PIL import Image
import docx
from docx import Document

# --- 2. Procesamiento de Imágenes y OCR ---
from pdf2image import convert_from_path
import pytesseract

# --- 3. Web Scraping ---
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager

# --- 4. Procesamiento del Lenguaje Natural ---
import spacy
from spacy.matcher import Matcher
import translators as ts
from langdetect import detect
from langchain.text_splitter import RecursiveCharacterTextSplitter

# --- 5. Modelos & Embeddings ---
import torch
import torch.nn.functional as F
from sklearn.metrics.pairwise import cosine_similarity
from torch import Tensor
from transformers import AutoTokenizer, AutoModel, AutoModelForCausalLM, pipeline
from sentence_transformers import SentenceTransformer, util
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score
from huggingface_hub import InferenceClient
from rank_bm25 import BM25Okapi
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')


# --- 6. Bases de Datos ---
import chromadb  # Base de datos vectorial
from neo4j import GraphDatabase  # Base de datos de grafos

# --- 7. Agentes y Herramientas ReAct ---
from llama_index.llms.ollama import Ollama
from llama_index.core.agent import ReActAgent
from llama_index.core.tools import FunctionTool
from llama_index.core.agent.react.formatter import ReActChatFormatter


## Recolección de Información

### **1:** 🎮 Reglas y Jugabilidad

#### Archivos Descargados

Primero vamos a usar tres documentos descargados de la seccion ***files*** del sitio BGG _[link](https://boardgamegeek.com/boardgame/371942/the-white-castle/files)_
Contamos con 3 documentos PDF


1.   Reglamento en Español
2.   Reglamento en Ingles
3.   Guia Rapida en ingles




In [None]:
!gdown "1UnwbtxzLsqUMgN2JT-xGayOHgm1B6ZGi" --output "reglamento_en.pdf"
!gdown "1k_cyEVOoBqrP3od8dYUKFAQ4sLPaRzVI" --output "qs_en.pdf"

Downloading...
From: https://drive.google.com/uc?id=1UnwbtxzLsqUMgN2JT-xGayOHgm1B6ZGi
To: /content/reglamento_en.pdf
100% 13.2M/13.2M [00:00<00:00, 23.1MB/s]
Downloading...
From: https://drive.google.com/uc?id=1k_cyEVOoBqrP3od8dYUKFAQ4sLPaRzVI
To: /content/qs_en.pdf
100% 446k/446k [00:00<00:00, 105MB/s]


Los 3 PDFs son imagenes por lo cual vamos a tener que extraer el texto y para eso usaremos un ocr

In [None]:
# Función para crear carpetas si no existen
def crear_carpeta(nombre_carpeta):
    if not os.path.exists(nombre_carpeta):
        os.makedirs(nombre_carpeta)

# Carpetas para guardar las imágenes
carpeta_en = "imgs_reglamento_en"
carpeta_qs = "imgs_qs_en"

# Crear carpetas
crear_carpeta(carpeta_en)
crear_carpeta(carpeta_qs)

# Convertir PDFs en listas de imágenes
imgs_reglamento_en = convert_from_path("reglamento_en.pdf")
imgs_qs_en = convert_from_path("qs_en.pdf")

# Guardar las imágenes en sus carpetas correspondientes
for i, imagen in enumerate(imgs_reglamento_en):
    imagen.save(os.path.join(carpeta_en, f'pagina_en_{i + 1}.png'), 'PNG')

for i, imagen in enumerate(imgs_qs_en):
    imagen.save(os.path.join(carpeta_qs, f'qs_en_{i + 1}.png'), 'PNG')



In [None]:
# Configurar pytesseract
pytesseract.pytesseract.tesseract_cmd = r'/usr/bin/tesseract'

# Función para procesar imágenes y extraer texto
def procesar_imagenes(carpeta_imagenes, carpeta_salida, idioma="eng"):
    # Crear carpeta de salida si no existe
    if not os.path.exists(carpeta_salida):
        os.makedirs(carpeta_salida)

    # Iterar sobre las imágenes en la carpeta
    for imagen_nombre in sorted(os.listdir(carpeta_imagenes)):  # Ordenar para mantener secuencia
        if imagen_nombre.endswith(".png"):
            ruta_imagen = os.path.join(carpeta_imagenes, imagen_nombre)

            # Extraer texto de la imagen
            texto = pytesseract.image_to_string(Image.open(ruta_imagen), lang=idioma)

            # Guardar texto en un archivo
            nombre_txt = os.path.splitext(imagen_nombre)[0] + ".txt"
            ruta_salida = os.path.join(carpeta_salida, nombre_txt)

            with open(ruta_salida, "w", encoding="utf-8") as file:
                file.write(texto)

    print(f"Texto procesado y guardado en: {carpeta_salida}")

# Procesar las imágenes de cada carpeta
procesar_imagenes("imgs_reglamento_en", "texto_reglamento_en", idioma="eng")
procesar_imagenes("imgs_qs_en", "texto_qs_en", idioma="eng")


Texto procesado y guardado en: texto_reglamento_en
Texto procesado y guardado en: texto_qs_en


In [None]:

# Función avanzada para limpiar texto y normalizarlo
def limpiar_texto(texto):

    # Paso 1: Normalizar texto a Unicode estándar (NFKC)
    texto = unicodedata.normalize("NFKC", texto)

    # Paso 2: Eliminar múltiples espacios, tabulaciones y líneas redundantes
    texto = re.sub(r'\s+', ' ', texto).strip()

    texto = re.sub(r'[^a-zA-Z0-9\s.,!?¿¡]', '', texto)

    # Paso 3: Convertir a minúsculas para uniformidad semántica
    texto = texto.lower()

    return texto


# Función para crear documentos a partir de los archivos .txt en cada carpeta
def crear_documentos(carpeta_lista, carpeta_destino_docs):
    # Crear carpeta de destino para los documentos si no existe
    if not os.path.exists(carpeta_destino_docs):
        os.makedirs(carpeta_destino_docs)

    # Iterar sobre las carpetas en la lista proporcionada
    for carpeta in sorted(carpeta_lista):  # Ordenar para mantener consistencia
        if os.path.isdir(carpeta):  # Procesar solo carpetas
            # Crear un documento Word
            doc = Document()

            # Iterar sobre los archivos .txt en la carpeta
            for archivo_txt in sorted(os.listdir(carpeta)):  # Ordenar para mantener secuencia
                if archivo_txt.endswith(".txt"):
                    ruta_txt = os.path.join(carpeta, archivo_txt)

                    with open(ruta_txt, "r", encoding="utf-8") as file:
                        texto = file.read()

                    # Limpiar el texto antes de agregarlo al documento
                    texto = limpiar_texto(texto)

                    doc.add_paragraph(texto)

            # Guardar el documento en la carpeta de destino
            nombre_doc = f"{os.path.basename(carpeta)}.docx"
            ruta_doc = os.path.join(carpeta_destino_docs, nombre_doc)
            doc.save(ruta_doc)

    print(f"Documentos creados en: {carpeta_destino_docs}")

# Lista de carpetas y carpeta de destino
carpetas = ["texto_reglamento_en", "texto_qs_en"]
carpeta_destino_docs = "documentos"

# Crear documentos
crear_documentos(carpetas, carpeta_destino_docs)


Documentos creados en: documentos


#### Scrapping de jugabilidad

Haremos un scrapping de la siguiente [reseña](https://misutmeeple.com/2023/11/resena-the-white-castle/).

In [None]:

# URL de la página que deseas scrapear
url = 'https://misutmeeple.com/2023/11/resena-the-white-castle/'

# Hacer la solicitud HTTP para obtener el HTML de la página
response = requests.get(url)
html = response.text

# Parsear el HTML con BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

# Seleccionar el div con la clase específica
div = soup.find('div', class_='entry-content single-content')

# Asegurarse de que el div existe antes de continuar
if div:
    # Crear un nuevo documento Word
    doc = Document()

    # Iterar sobre los elementos h2, h3 y p dentro del div
    for elemento in div.find_all(['h2', 'h3', 'p'], recursive=True):
        etiqueta = elemento.name
        texto = elemento.get_text(strip=True)

        # Agregar texto al documento según el tipo de etiqueta
        if etiqueta == 'h2':
            doc.add_heading(texto, level=1)
        elif etiqueta == 'h3':
            doc.add_heading(texto, level=2)
        elif etiqueta == 'p':
            doc.add_paragraph(texto)

    # Guardar el documento Word
    doc_name = "reseña.docx"
    doc.save(doc_name)

    print(f"Documento guardado como: {doc_name}")
else:
    print("Error.")


Documento guardado como: reseña.docx


### **2:** 🏯 The White Castle Overview

##### Configuracion de drivers para no generar conflictos en el uso de selenium

Nos aseguramos de que el sistema tiene las bibliotecas necesarias para ejecutar aplicaciones gráficas (como Chrome) en un entorno Linux.

In [None]:
# Actualizar los repositorios
!apt-get update
!apt-get install -y wget curl unzip
!apt-get install -y libx11-dev libx11-xcb1 libglu1-mesa libxi6 libgconf-2-4

Hit:1 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease
Hit:2 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
Hit:3 http://archive.ubuntu.com/ubuntu jammy InRelease
Hit:4 http://archive.ubuntu.com/ubuntu jammy-updates InRelease
Hit:5 http://archive.ubuntu.com/ubuntu jammy-backports InRelease
Hit:6 http://security.ubuntu.com/ubuntu jammy-security InRelease
Hit:7 https://r2u.stat.illinois.edu/ubuntu jammy InRelease
Hit:8 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy InRelease
Hit:9 https://ppa.launchpadcontent.net/graphics-drivers/ppa/ubuntu jammy InRelease
Hit:10 https://ppa.launchpadcontent.net/ubuntugis/ppa/ubuntu jammy InRelease
Reading package lists... Done
W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)
Reading package lists... Done
Building dependency tree... Done
Reading

Descargamos e instalamos Google Chrome para poder usarlo con Selenium.

In [None]:
# Instalar Google Chrome (última versión estable)
!wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
!dpkg -i google-chrome-stable_current_amd64.deb
!apt --fix-broken install -y

--2024-12-15 21:30:57--  https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
Resolving dl.google.com (dl.google.com)... 142.251.175.136, 142.251.175.190, 142.251.175.91, ...
Connecting to dl.google.com (dl.google.com)|142.251.175.136|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 112421156 (107M) [application/x-debian-package]
Saving to: ‘google-chrome-stable_current_amd64.deb’


2024-12-15 21:30:58 (235 MB/s) - ‘google-chrome-stable_current_amd64.deb’ saved [112421156/112421156]

Selecting previously unselected package google-chrome-stable.
(Reading database ... 123883 files and directories currently installed.)
Preparing to unpack google-chrome-stable_current_amd64.deb ...
Unpacking google-chrome-stable (131.0.6778.139-1) ...
[1mdpkg:[0m dependency problems prevent configuration of google-chrome-stable:
 google-chrome-stable depends on libvulkan1; however:
  Package libvulkan1 is not installed.

[1mdpkg:[0m error processing package

Descargamos ChromeDriver (necesario para Selenium) y lo mueve a una ubicación accesible globalmente en el sistema.

In [None]:
!wget https://chromedriver.storage.googleapis.com/131.0.6778.87/chromedriver_linux64.zip
!unzip chromedriver_linux64.zip
!mv chromedriver /usr/local/bin/chromedriver

--2024-12-15 21:31:17--  https://chromedriver.storage.googleapis.com/131.0.6778.87/chromedriver_linux64.zip
Resolving chromedriver.storage.googleapis.com (chromedriver.storage.googleapis.com)... 172.217.194.207, 172.253.118.207, 74.125.200.207, ...
Connecting to chromedriver.storage.googleapis.com (chromedriver.storage.googleapis.com)|172.217.194.207|:443... connected.
HTTP request sent, awaiting response... 404 Not Found
2024-12-15 21:31:18 ERROR 404: Not Found.

unzip:  cannot find or open chromedriver_linux64.zip, chromedriver_linux64.zip.zip or chromedriver_linux64.zip.ZIP.
mv: cannot stat 'chromedriver': No such file or directory


Configura el navegador para ejecutarse en segundo plano sin mostrar interfaz gráfica, ideal para entornos como servidores.

In [None]:
# Configurar las opciones de Chrome para usarlo en modo headless
chrome_options = Options()
chrome_options.add_argument('--headless')  # Modo sin cabeza
chrome_options.add_argument('--no-sandbox')  # Evitar problemas de sandboxing
chrome_options.add_argument('--disable-dev-shm-usage')  # Usar en contenedores o entornos con poca memoria


#### Datos Tabulares

A continuacion haremos el scrapping de la pagina [board game geek](https://boardgamegeek.com/boardgame/371942/the-white-castle/) para extraer datos numericos e insertarlos en un DataFrame

In [None]:
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)

# URL del juego
url = 'https://boardgamegeek.com/boardgame/371942/the-white-castle'

# Abrir la página
driver.get(url)

# Esperar unos segundos para que cargue el contenido dinámico
time.sleep(8)

# Obtener el HTML completo de la página cargada
html = driver.page_source

# Parsear el HTML con BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

# Extraer los datos y guardarlos en variables
rating_value = soup.find('span', itemprop='ratingValue')
rating_value = rating_value.text.strip() if rating_value else 'N/A'

year_section = soup.find('span', class_='game-year')
game_year = year_section.text.strip() if year_section else 'N/A'
game_year = game_year.strip("()").strip()  # Eliminar paréntesis y espacios adicionales
game_year = int(game_year) if game_year.isdigit() else 'N/A'

review_count_section = soup.find('meta', itemprop='reviewCount')
review_count_value = int(review_count_section['content']) if review_count_section else 'N/A'

min_players = max_players = play_time = suggested_age = complexity = 'N/A'

# Extraer los elementos de gameplay
gameplay_section = soup.find('ul', class_='gameplay')
if gameplay_section:
    gameplay_items = gameplay_section.find_all('li', class_='gameplay-item')
    for item in gameplay_items:
        title = item.find('h3').text.strip() if item.find('h3') else 'N/A'

        if title == "Number of Players":
            min_players = int(item.find('meta', itemprop='minValue')['content']) if item.find('meta', itemprop='minValue') else 'N/A'
            max_players = int(item.find('meta', itemprop='maxValue')['content']) if item.find('meta', itemprop='maxValue') else 'N/A'

        elif title == "Play Time":
            play_time = int(item.find('span', class_='ng-binding').text.strip()) if item.find('span', class_='ng-binding') else 'N/A'

        elif title == "Suggested Age":
            suggested_age = int(item.find('span', class_='ng-binding').text.strip()) if item.find('span', class_='ng-binding') else 'N/A'

        elif title == "Complexity":
            complexity = float(item.find('span', class_='ng-binding').text.strip()) if item.find('span', class_='ng-binding') else 'N/A'

like_count_section = soup.find('a', class_='game-action-play-count')
likes = like_count_section.text.strip() if like_count_section else 'N/A'

# Extraer precios sugeridos
prices = soup.find_all('div', class_='summary-sale-item-price')
precio_sugerido = prices[1].text.strip() if len(prices) > 0 else 'N/A'

# Cerrar el WebDriver
driver.quit()

# Crear un diccionario para los datos
data = {
    "Rating": [float(rating_value) if rating_value != 'N/A' else None],
    "Year": [game_year if game_year != 'N/A' else None],
    "Review Count": [review_count_value if review_count_value != 'N/A' else None],
    "Min Players": [min_players if min_players != 'N/A' else None],
    "Max Players": [max_players if max_players != 'N/A' else None],
    "Play Time (min)": [play_time if play_time != 'N/A' else None],
    "Suggested Age": [suggested_age if suggested_age != 'N/A' else None],
    "Complexity": [complexity if complexity != 'N/A' else None],
    "Likes": [int(likes.replace('K', '000').replace('.', '')) if 'K' in likes else int(likes) if likes != 'N/A' else None],
    "Price (USD)": [float(precio_sugerido.replace("from $", "").replace("$", "")) if precio_sugerido != 'N/A' else None]
}
# Crear el DataFrame
df_castle = pd.DataFrame(data)
df_castle.head()

# Descargar df en csv
df_castle.to_csv('castle.csv', index=False)

### **3:** 💬 Comentarios y opiniones

Con el siguiente scrapping traemos a un documento todos lo comentarios en el [foro](https://boardgamegeek.com/boardgame/371942/the-white-castle/forums).

In [None]:
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)
# Crear un nuevo documento Word
doc = Document()

# Función para scrapear los hilos individuales
def get_thread_details(thread_url):
    driver.get(thread_url)
    time.sleep(3)  # Esperar a que se cargue el contenido dinámico
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')

    # Buscar los comentarios dentro de las etiquetas <gg-markup-safe-html>
    comments = soup.find_all('gg-markup-safe-html')
    thread_content = ""

    for comment in comments:
        thread_content += comment.get_text(separator="\n", strip=True) + "\n\n"

    return thread_content

# Loop para iterar sobre varias páginas
for id in [1, 2, 3, 4]:
    url = f'https://boardgamegeek.com/boardgame/371942/the-white-castle/forums/0?pageid={id}'
    driver.get(url)
    time.sleep(3)

    # Obtener el HTML completo de la página cargada
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')

    # Seleccionar todos los <li> con la clase 'summary-item ng-scope'
    li_items = soup.find_all('li', class_='summary-item ng-scope')

    # Iterar sobre cada elemento <li>
    for li in li_items:
        # Extraer el título
        title = li.find('h3', class_='m-0 fs-sm text-inherit leading-inherit text-inline')
        if title:
            title_text = title.get_text(strip=True)
            doc.add_paragraph(f"Título: {title_text}")

        # Extraer el enlace del hilo
        link = li.find('a', {'ng-href': True})
        if link:
            thread_url = "https://boardgamegeek.com" + link['ng-href']

            # Obtener los detalles del hilo (comentarios)
            thread_details = get_thread_details(thread_url)
            doc.add_paragraph(thread_details)

        # Agregar un salto de página después de cada hilo
        doc.add_paragraph('')

# Guardar el documento Word con el contenido scrapeado
doc.save('comentarios.docx')
print("Documento guardado como 'comentarios.docx'")

# Cerrar el navegador al final
driver.quit()


Documento guardado como 'comentarios.docx'




---



Organizados los documentos que usaremos en la carpeta documentos, el archivo reseña.docx y el archivo comentarios.docx vamos a proceder a crear las bdds.
Cabe destacar que se accedera a los documentos a partir de una carpeta drive para no tener que repetir el proceso de recoleccion.

## Terminada la Recolección

In [112]:
# @title Docs
!gdown "1DGso0ohjApz582O2Csbn9-2mRvGW2p_0" --output "rulebook_english.docx"
!gdown "1mS1vO-bzjAC2zaLRZtStZ4rW-e_tbA4z" --output "quick_start_english.docx"
!gdown "1fzsEmSo3z-y3pocef1tpTx2hnCr28qF1" --output "reseña_español.docx"
!gdown "1c3_yLh7TluobQvNxZRdz_DaONxZbWyjN" --output "comentarios.docx"
!gdown "1K7yXNjC3yZyYIruafLb-93sWn8tkKtYX" --output "castle.csv"
df_castle = pd.read_csv('castle.csv')

Downloading...
From: https://drive.google.com/uc?id=1DGso0ohjApz582O2Csbn9-2mRvGW2p_0
To: /content/rulebook_english.docx
100% 30.6k/30.6k [00:00<00:00, 41.8MB/s]
Downloading...
From: https://drive.google.com/uc?id=1mS1vO-bzjAC2zaLRZtStZ4rW-e_tbA4z
To: /content/quick_start_english.docx
100% 21.0k/21.0k [00:00<00:00, 31.9MB/s]
Downloading...
From: https://drive.google.com/uc?id=1fzsEmSo3z-y3pocef1tpTx2hnCr28qF1
To: /content/reseña_español.docx
100% 31.1k/31.1k [00:00<00:00, 37.7MB/s]
Downloading...
From: https://drive.google.com/uc?id=1c3_yLh7TluobQvNxZRdz_DaONxZbWyjN
To: /content/comentarios.docx
100% 257k/257k [00:00<00:00, 5.45MB/s]
Downloading...
From: https://drive.google.com/uc?id=1K7yXNjC3yZyYIruafLb-93sWn8tkKtYX
To: /content/castle.csv
100% 150/150 [00:00<00:00, 497kB/s]


In [113]:
# Función para dividir texto en fragmentos más pequeños
def dividir_texto(texto, max_length=1000):
    palabras = texto.split()
    fragmentos = []
    fragmento_actual = ""

    for palabra in palabras:
        if len(fragmento_actual) + len(palabra) + 1 > max_length:
            fragmentos.append(fragmento_actual)
            fragmento_actual = palabra
        else:
            fragmento_actual += " " + palabra if fragmento_actual else palabra

    if fragmento_actual:
        fragmentos.append(fragmento_actual)

    return fragmentos

# Función para traducir un texto a inglés
def traducir_a_ingles(texto):
      fragmentos = dividir_texto(texto)
      traduccion = ""
      for fragmento in fragmentos:
          traduccion += ts.translate_text(fragmento, translator='bing', from_language='auto', to_language='en') + "\n"
      return traduccion


# Función para extraer texto de un archivo .docx
def extract_text_from_docx(file_path):
    try:
        doc = Document(file_path)
        text = "\n".join([para.text for para in doc.paragraphs])
        return text
    except Exception as e:
        print(f"Error al leer el archivo {file_path}: {e}")
        return ""

# Función para guardar texto en un archivo .docx
def save_text_to_docx(text, file_path):
    try:
        doc = Document()
        doc.add_paragraph(text)
        doc.save(file_path)
    except Exception as e:
        print(f"Error al guardar el archivo {file_path}: {e}")

# Procesar múltiples archivos
def procesar_archivos(file_names):
    for filename in file_names:
        if not os.path.exists(filename):
            print(f"El archivo {filename} no existe. Verifica la ruta.")
            continue

        try:
            # Extraer texto del archivo
            text = extract_text_from_docx(filename)
            if not text.strip():
                print(f"El archivo {filename} está vacío o no se pudo leer.")
                continue

            # Traducir texto a inglés
            translated_text = traducir_a_ingles(text)

            # Guardar el texto traducido en un nuevo archivo
            new_filename = f"translated_{os.path.basename(filename)}"
            save_text_to_docx(translated_text, new_filename)

            # Eliminar archivo original
            os.remove(filename)
            print(f"Archivo {filename} procesado y eliminado correctamente. Traducción guardada en {new_filename}.")
        except Exception as e:
            print(f"Error procesando el archivo {filename}: {e}")

# Lista de archivos a procesar
archivos = ["reseña_español.docx", "comentarios.docx"]
procesar_archivos(archivos)


Archivo reseña_español.docx procesado y eliminado correctamente. Traducción guardada en translated_reseña_español.docx.
Archivo comentarios.docx procesado y eliminado correctamente. Traducción guardada en translated_comentarios.docx.


## Construccion de Bases de Datos

### Base de Datos Vectorial

In [115]:
nlp = spacy.load("en_core_web_sm")

# Función para dividir texto en chunks por oraciones usando SpaCy
def dividir_texto_por_oraciones(texto, max_length=1000):
    doc = nlp(texto)
    oraciones = [sent.text for sent in doc.sents]
    fragmentos, fragmento_actual = [], ""

    for oracion in oraciones:
        if len(fragmento_actual) + len(oracion) + 1 > max_length:
            fragmentos.append(fragmento_actual.strip())
            fragmento_actual = oracion
        else:
            fragmento_actual += " " + oracion if fragmento_actual else oracion

    if fragmento_actual:
        fragmentos.append(fragmento_actual.strip())
    return fragmentos

# Función para extraer metadatos con NER y POS, refinados
from collections import Counter

def extraer_metadatos(texto, n_keywords=3):
    """
    Extrae metadatos de un texto incluyendo entidades nombradas y las palabras clave más relevantes.

    :param texto: Texto del cual extraer los metadatos.
    :param n_keywords: Número de palabras clave más relevantes a extraer.
    :return: Un diccionario con entidades y palabras clave.
    """
    doc = nlp(texto)

    # Extraer entidades relevantes
    entidades = [ent.text for ent in doc.ents if ent.label_ in {"PERSON", "ORG", "GPE", "DATE", "TIME", "MONEY"}]

    # Extraer palabras clave relevantes: solo sustantivos (NOUN) y verbos (VERB)
    palabras_clave = [token.text.lower() for token in doc if token.pos_ in {"NOUN", "VERB"} and len(token.text) > 2]

    # Contar la frecuencia de las palabras clave
    palabras_frecuentes = Counter(palabras_clave).most_common(n_keywords)

    # Seleccionar las palabras clave más frecuentes
    palabras_clave_relevantes = [palabra for palabra, _ in palabras_frecuentes]

    # Convertir las listas a strings
    return {
        "entities": ", ".join(entidades),  # Unir las entidades en un string separado por comas
        "keywords": ", ".join(palabras_clave_relevantes)  # Unir las palabras clave en un string separado por comas
    }


# Función para calcular embeddings promediados
def average_pool(last_hidden_states: torch.Tensor, attention_mask: torch.Tensor) -> torch.Tensor:
    last_hidden = last_hidden_states.masked_fill(~attention_mask[..., None].bool(), 0.0)
    return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]

# Función para generar embeddings normalizados
def generar_embeddings(texto, tokenizer, model):
    inputs = tokenizer(texto, max_length=512, padding=True, truncation=True, return_tensors="pt")
    with torch.no_grad():
        outputs = model(**inputs)
        embeddings = average_pool(outputs.last_hidden_state, inputs['attention_mask'])
    return F.normalize(embeddings, p=2, dim=1).squeeze().numpy()

# Crear la conexión a ChromaDB
client_castle = chromadb.Client()

#client_castle.delete_collection(name="white_castle_embeddings")
collection = client_castle.create_collection(name="white_castle_embeddings")

# Procesar archivos y llenar la base de datos
def procesar_archivos_y_llenar_bd(file_names, tokenizer, model, collection):
    for filename in file_names:
        if not os.path.exists(filename):
            print(f"El archivo {filename} no existe. Verifica la ruta.")
            continue

        text = extract_text_from_docx(filename)
        if not text.strip():
            print(f"El archivo {filename} está vacío o no se pudo leer.")
            continue

        # Dividir el texto en chunks por oraciones
        chunks = dividir_texto_por_oraciones(text, max_length=1000)

        # Determinar el tipo de archivo basado en el nombre (por ejemplo, por el título del archivo)
        if "rulebook" in filename:
            tipo = "rules"
        elif "comentarios" in filename:
            tipo = "comments"
        elif "quick_start" in filename:
            tipo = "quick_start"
        elif "reseña" in filename:
            tipo = "review"
        else:
            tipo = "unknown"  # Si no se reconoce, se marca como "unknown"

        for i, chunk in enumerate(chunks):
            try:
                # Generar embeddings
                embedding = generar_embeddings(chunk, tokenizer, model)

                # Extraer metadatos dinámicos con NER y POS
                dynamic_metadata = extraer_metadatos(chunk)

                # Combinar metadatos
                metadatos = {**dynamic_metadata, "type": tipo, "filename": filename}

                # Agregar a la base de datos
                collection.add(
                    documents=[chunk],
                    metadatas=[metadatos],
                    ids=[str(uuid.uuid4())],
                    embeddings=[embedding]
                )
            except Exception as e:
                print(f"Error al procesar el chunk {i} del archivo {filename}: {e}")

# Configuración del modelo y tokenizador
tokenizer_e5 = AutoTokenizer.from_pretrained('intfloat/multilingual-e5-small')
model_e5 = AutoModel.from_pretrained('intfloat/multilingual-e5-small')

# Lista de archivos a procesar
archivos = ["quick_start_english.docx", "rulebook_english.docx", "translated_comentarios.docx", "translated_reseña_español.docx"]

procesar_archivos_y_llenar_bd(archivos, tokenizer_e5, model_e5, collection)


In [None]:
def realizar_consulta(texto, tokenizer, model, collection, k=3):
    # Generar el embedding del texto de consulta
    embedding = generar_embeddings(texto, tokenizer, model)

    # Realizar la búsqueda en la colección de ChromaDB
    resultados = collection.query(
        query_embeddings=[embedding],
        n_results=k  # Número de resultados que deseas obtener
    )

    return resultados

# Consulta de ejemplo
texto_consulta = "Explain the rules of the game."

# Realizar la consulta en la colección
r = realizar_consulta(texto_consulta, tokenizer_e5, model_e5, collection)
print(r['documents'])
# Mostrar los resultados de la consulta, incluyendo el score de similitud
for i, doc in enumerate(r['documents'][0]):
    similarity_score = r['distances'][0][i]
    metadata = r['metadatas'][0][i]  # Metadatos asociados con el documento
    print(f"Resultado {i+1}:")
    print(f"Texto: {doc}")  # Texto del documento
    print(f"Metadatos: {metadata}")  # Metadatos del documento
    print(f"Similitud: {similarity_score:.4f}")  # Formatear el primer score de similitud
    print("-" * 50)



### Base de Datos de Grafos

In [None]:
# Configuración de Neo4j
NEO4J_URI = "neo4j+s://db16de97.databases.neo4j.io"
NEO4J_USERNAME = "neo4j"
NEO4J_PASSWORD = "PYNWCagVuuOIaUJ1Ef9-lyiB0WbcQ5CrwfhFHwWjM_M"

# Crear el cliente de Hugging Face con tu API Key
qwen_client = InferenceClient(api_key="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")

# Función para crear el nodo central "The White Castle"
def crear_nodo_central(driver):
    with driver.session() as session:
        try:
            session.run("""
                MERGE (central:Game {name: 'The White Castle'})
            """)
            print("Nodo central 'The White Castle' creado o ya existente.")
        except Exception as e:
            print(f"Error al crear el nodo central: {e}")

# Función para leer archivos .docx y dividir el texto en fragmentos
def leer_documento(file_path, max_length=1000):
    try:
        # Leer el documento .docx
        doc = docx.Document(file_path)
        texto = "\n".join([parrafo.text.strip() for parrafo in doc.paragraphs])

        # Dividir el texto en fragmentos si excede el max_length
        palabras = texto.split()
        fragmentos = []
        fragmento_actual = ""

        for palabra in palabras:
            if len(fragmento_actual) + len(palabra) + 1 > max_length:
                fragmentos.append(fragmento_actual)
                fragmento_actual = palabra
            else:
                fragmento_actual += " " + palabra if fragmento_actual else palabra

        if fragmento_actual:
            fragmentos.append(fragmento_actual)

        return fragmentos
    except Exception as e:
        print(f"Error al leer el archivo {file_path}: {e}")
        return []

# Función para extraer las tríadas RDF de un párrafo
def extraer_triadass_rdf(texto_parrafo):
    try:
        # Usar el cliente de Hugging Face para obtener la respuesta del modelo
        response = qwen_client.chat.completions.create(
            model="Qwen/Qwen2.5-72B-Instruct",
            messages=[{
                    "role": "system",
                    "content": (
                        "You are a system used to generate RDF triplets for a graph in a Neo4j Aura database. "
                        "The central node 'The White Castle' has already been created in the database. "
                        "Your priority must be finding relevant information related to the game 'The White Castle', "
                        "such as the designer, creators, or important relationships. "
                        "Focus only on triplets where either the subject or object is 'The White Castle'. "
                        "Do not attempt to recreate 'The White Castle'. "
                        "Your output must be like this: (subject, predicate, object)"
                    ),
                },
                {"role": "user", "content": f"extract this in RDF triples: {texto_parrafo}"}
            ],
            max_tokens=500
        )

        triadass_rdf_texto = response.choices[0].message['content'].strip()
        if not triadass_rdf_texto:
            print("No triples found.")
            return []

        print(triadass_rdf_texto)
        return triadass_rdf_texto
    except Exception as e:
        print(f"Error al obtener la respuesta del modelo: {e}")
        return []

# Función para parsear las tríadas RDF extraídas
def parsear_triadass_rdf(texto):
    triadass = []
    lineas = texto.split("\n")
    for linea in lineas:
        if linea.strip():
            # Asumimos que las tripletas se presentan entre paréntesis
            partes = linea.replace('(', '').replace(')', '').split(",")  # Separar por comas y eliminar paréntesis
            if len(partes) == 3:
                sujeto = partes[0].strip()
                predicado = partes[1].strip()
                objeto = partes[2].strip()

                # Verificar si 'The White Castle' está presente
                if "The White Castle" in (sujeto, objeto):
                    triadass.append((sujeto, predicado, objeto))
                else:
                    print(f"Tripleta descartada (no incluye 'The White Castle'): {linea}")
    return triadass

# Función para almacenar las tríadas RDF en Neo4j
def almacenar_triadass_rdf(triadass, driver):
    with driver.session() as session:
        for sujeto, predicado, objeto in triadass:
            try:
                # Asegurarse de que las cadenas no tengan caracteres problemáticos
                sujeto = sujeto.replace("'", "\\'").replace('"', '\\"')
                objeto = objeto.replace("'", "\\'").replace('"', '\\"')

                # Crear nodos y relaciones
                cypher_query = f"""
                MERGE (sujeto:Entity {{name: '{sujeto}'}})
                MERGE (objeto:Entity {{name: '{objeto}'}})
                MERGE (sujeto)-[:{predicado.replace(' ', '_').upper()}]->(objeto)
                """
                session.run(cypher_query)
            except Exception as e:
                print(f"Error al procesar la tríada ({sujeto}, {predicado}, {objeto}): {e}")

# Función para procesar múltiples archivos y almacenarlos en Neo4j
def procesar_documentos(archivos, driver):
    for file_path in archivos:
        print(f"Procesando el archivo: {file_path}")
        parrafos = leer_documento(file_path)
        for parrafo in parrafos:
            print(f"Extrayendo tríadas para el párrafo: {parrafo}")
            triadass_rdf_texto = extraer_triadass_rdf(parrafo)
            if triadass_rdf_texto:  # Solo procesar si se extrajeron tríadas
                triadass = parsear_triadass_rdf(triadass_rdf_texto)
                if triadass:
                    almacenar_triadass_rdf(triadass, driver)
                else:
                    print(f"No se encontraron tríadas válidas en el párrafo: {parrafo}")

# Función principal para inicializar la conexión con Neo4j y procesar los documentos
def main():
    from neo4j import GraphDatabase

    # Conectar a Neo4j
    driver = GraphDatabase.driver(NEO4J_URI, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))

    # Crear el nodo central
    crear_nodo_central(driver)

    # Archivos a procesar
    archivos = ["quick_start_english.docx", "rulebook_english.docx", "translated_reseña_español.docx"]

    # Procesar los documentos y almacenar las tríadas RDF en Neo4j
    procesar_documentos(archivos, driver)

    # Cerrar la conexión con Neo4j
    driver.close()

if __name__ == "__main__":
    main()


## Clasificador Basado en modelo entrenado con ejemplos

In [116]:
# Cargar modelo de embeddings
model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')

# Dataset ampliado de prompts
dataset = [
    # Reglas (rules)
    (0, "¿Cuáles son las reglas para construir un edificio?"),
    (0, "¿Qué pasa si hay un empate en los puntos?"),
    (0, "¿Cuántas acciones puedo realizar en un turno?"),
    (0, "¿Qué ocurre si no puedo pagar un recurso necesario?"),
    (0, "¿Cómo se resuelve un desempate en el final del juego?"),
    (0, "¿Puedo construir más de un edificio en un solo turno?"),
    (0, "¿Qué limitaciones existen para colocar fichas?"),
    (0, "¿Es obligatorio usar todos los recursos en un turno?"),
    (0, "¿Qué pasa si termino un turno con más de tres cartas?"),
    (0, "¿Cómo se distribuyen los puntos al final del juego?"),
    (0, "¿Puedo intercambiar recursos con otros jugadores?"),
    (0, "¿Qué acciones están permitidas en la fase de preparación?"),
    (0, "¿Cuántos turnos tiene cada ronda?"),
    (0, "¿Cuál es el orden para activar habilidades especiales?"),
    (0, "¿Qué reglas aplican para las cartas especiales?"),
    (0, "¿Puedo usar habilidades en el turno de otro jugador?"),
    (0, "¿Qué ocurre si el mazo de cartas se agota?"),
    (0, "¿Hay un límite de fichas que puedo usar en un turno?"),

    # Reseñas (reviews)
    (1, "¿Qué opinan los jugadores sobre la temática del juego?"),
    (1, "¿Este juego es recomendado para principiantes?"),
    (1, "¿Cómo describen los jugadores la complejidad del juego?"),
    (1, "¿Qué tan rejugable es este juego según las reseñas?"),
    (1, "¿Es un buen juego para jugar en familia?"),
    (1, "¿Cuál es la duración típica de una partida?"),
    (1, "¿Qué tan equilibradas están las estrategias disponibles?"),
    (1, "¿Cómo se compara este juego con otros del mismo género?"),
    (1, "¿Los componentes del juego tienen buena calidad?"),
    (1, "¿Qué aspectos destacan más los jugadores en sus reseñas?"),
    (1, "¿Hay alguna reseña negativa sobre el juego?"),
    (1, "¿Este juego es más adecuado para expertos o principiantes?"),
    (1, "¿Qué tan divertido es jugar con grupos grandes?"),
    (1, "¿Las reglas son fáciles de aprender según las reseñas?"),
    (1, "¿Los gráficos del juego ayudan a la inmersión?"),
    (1, "¿Es un juego más social o estratégico?"),
    (1, "¿Los jugadores mencionan algún problema recurrente en el diseño?"),
    (1, "¿Se necesitan expansiones para disfrutar el juego al máximo?"),

    # Comentarios (comments)
    (2, "¿Cuáles son las mejores estrategias iniciales?"),
    (2, "¿Hay estrategias avanzadas para ganar más puntos?"),
    (2, "¿Qué tipo de combinaciones de cartas son más efectivas?"),
    (2, "¿Cómo maximizar los recursos en las primeras rondas?"),
    (2, "¿Es mejor centrarse en la defensa o en la ofensiva?"),
    (2, "¿Qué habilidades son más útiles para principiantes?"),
    (2, "¿Hay estrategias específicas para jugar con 2 jugadores?"),
    (2, "¿Cuál es la mejor manera de gestionar los recursos limitados?"),
    (2, "¿Cómo sacar ventaja de los bonos de las cartas especiales?"),
    (2, "¿Qué tácticas recomiendan los jugadores experimentados?"),
    (2, "¿Cómo adaptar la estrategia dependiendo de los oponentes?"),
    (2, "¿Es más beneficioso priorizar los edificios grandes?"),
    (2, "¿Qué estrategias funcionan mejor en partidas rápidas?"),
    (2, "¿Cómo influye el orden de turno en la estrategia?"),
    (2, "¿Cuál es el mejor momento para usar cartas especiales?"),
    (2, "¿Qué cartas son clave para asegurar la victoria?"),
    (2, "¿Cómo combinar habilidades de edificios para optimizar el puntaje?"),
    (2, "¿Qué errores comunes se deben evitar en estrategias avanzadas?"),
]


# Mapeo de categorías
categories = {0: "rules", 1: "reviews", 2: "comments"}

# Preparar datos
X = [text for _, text in dataset]
y = [label for label, _ in dataset]

# Generar embeddings para el dataset
X_vectorized = model.encode(X)

# Dividir datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_vectorized, y, test_size=0.2, random_state=42)

# Entrenar el modelo
classifier = LogisticRegression(max_iter=1000)
classifier.fit(X_train, y_train)

# Evaluar el modelo
y_pred = classifier.predict(X_test)
print("Precisión:", accuracy_score(y_test, y_pred))
print("Reporte de clasificación:\n", classification_report(y_test, y_pred))

# Nuevos prompts de prueba
new_prompts = [
    "¿Qué dice el manual sobre el uso de cartas especiales?",
    "¿Es este juego adecuado para jugadores avanzados?",
    "¿Cómo recomiendan jugar en partidas de 2 jugadores?",
    "¿Qué pasa si se agotan los recursos en el tablero?",
    "¿Es más divertido jugar en parejas o individualmente?",
    "¿Qué estrategias funcionan mejor con 4 jugadores?",
]
new_embeddings = model.encode(new_prompts)
new_predictions = classifier.predict(new_embeddings)

# Mostrar resultados
for prompt, pred in zip(new_prompts, new_predictions):
    print(f"Prompt: '{prompt}' - Clasificación: {categories[pred]}")


Precisión: 0.9090909090909091
Reporte de clasificación:
               precision    recall  f1-score   support

           0       1.00      0.80      0.89         5
           1       1.00      1.00      1.00         2
           2       0.80      1.00      0.89         4

    accuracy                           0.91        11
   macro avg       0.93      0.93      0.93        11
weighted avg       0.93      0.91      0.91        11

Prompt: '¿Qué dice el manual sobre el uso de cartas especiales?' - Clasificación: rules
Prompt: '¿Es este juego adecuado para jugadores avanzados?' - Clasificación: reviews
Prompt: '¿Cómo recomiendan jugar en partidas de 2 jugadores?' - Clasificación: reviews
Prompt: '¿Qué pasa si se agotan los recursos en el tablero?' - Clasificación: rules
Prompt: '¿Es más divertido jugar en parejas o individualmente?' - Clasificación: reviews
Prompt: '¿Qué estrategias funcionan mejor con 4 jugadores?' - Clasificación: reviews


## Queries Dinamicas



#### Doc Search

In [171]:


class DocSearch:
    def __init__(self, db_client, collection):
        self.db_client = db_client
        self.collection = collection
        self.tokenizer_e5 = AutoTokenizer.from_pretrained('intfloat/multilingual-e5-small')
        self.model_e5 = AutoModel.from_pretrained('intfloat/multilingual-e5-small')
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        self.model_e5.to(self.device)

        # Usar el pipeline de Hugging Face para el modelo BGE ReRanker
        self.reranker = pipeline("text-classification", model="BAAI/bge-reranker-v2-m3", device=0 if torch.cuda.is_available() else -1)

    def average_pool(self, last_hidden_states: torch.Tensor, attention_mask: torch.Tensor) -> torch.Tensor:
        last_hidden = last_hidden_states.masked_fill(~attention_mask[..., None].bool(), 0.0)
        return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]

    def generar_embeddings(self, texto):
        inputs = self.tokenizer_e5(texto, max_length=512, padding=True, truncation=True, return_tensors="pt")
        inputs = {key: val.to(self.device) for key, val in inputs.items()}
        with torch.no_grad():
            outputs = self.model_e5(**inputs)
            embeddings = self.average_pool(outputs.last_hidden_state, inputs['attention_mask'])
        return F.normalize(embeddings, p=2, dim=1).squeeze().cpu().numpy()

    def rerank(self, query, top_documents):
        query_prediction = self.reranker(query)
        query_score = query_prediction[0]['score']

        document_scores = [
            self.reranker(doc["document"])[0]['score'] for doc in top_documents
        ]

        min_score, max_score = min(document_scores), max(document_scores)
        document_scores = [(score - min_score) / (max_score - min_score) for score in document_scores]
        scores = [0.5 * query_score + 0.5 * doc_score for doc_score in document_scores]

        for i, doc in enumerate(top_documents):
            doc["rerank_score"] = scores[i]

        return sorted(top_documents, key=lambda x: x["rerank_score"], reverse=True)

    def realizar_consulta(self, texto, k=3):
        embedding = self.generar_embeddings(texto)
        resultados = self.collection.query(
            query_embeddings=[embedding], n_results=k
        )
        return resultados

    def penalizar_redundancia(self, top_documents, threshold=0.95, penalty_score=0.5):
        """
        Penaliza documentos similares usando similitud coseno entre embeddings.
        Garantiza que al menos un documento será devuelto.
        También penaliza documentos con el metadato 'filename: translated_comentarios.docx' reduciendo su puntuación.
        """
        if not top_documents:
            return top_documents  # Retornar directamente si la lista está vacía

        embeddings = [self.generar_embeddings(doc["document"]) for doc in top_documents]
        sim_matrix = cosine_similarity(embeddings)

        penalized_docs = []
        added_indices = set()

        for i, doc in enumerate(top_documents):
            score = 1.0  # Puntuación predeterminada

            # Penalizar documentos con filename: translated_comentarios.docx
            if doc.get("metadata", {}).get("filename") == "translated_comentarios.docx":
                score -= penalty_score  # Reducir la puntuación de estos documentos

            # Incluir documentos solo si no son demasiado similares a los ya seleccionados
            if all(sim_matrix[i][j] < threshold for j in range(len(top_documents)) if i != j and j in added_indices):
                penalized_docs.append({**doc, "penalized_score": score})
                added_indices.add(i)

        # Garantizar que al menos un documento esté presente
        if not penalized_docs:
            penalized_docs.append(top_documents[0])  # Incluir el primer documento por defecto

        # Ordenar los documentos penalizados por su puntuación
        penalized_docs.sort(key=lambda x: x.get("penalized_score", 1.0), reverse=True)

        return penalized_docs


    def hybrid_search(self, prompt, n_results=3, n_rerank=8, redundancy_threshold=0.95) -> str:
        try:
            resultados = self.realizar_consulta(prompt, k=n_rerank)
            documents = resultados['documents'][0]
            metadatas = resultados['metadatas'][0]
            distances = resultados['distances'][0]

            tokenized_documents = [doc.split() for doc in documents]
            tokenized_query = prompt.split()
            bm25 = BM25Okapi(tokenized_documents)
            keyword_scores = bm25.get_scores(tokenized_query)
            keyword_scores = (np.array(keyword_scores) - np.min(keyword_scores)) / (np.max(keyword_scores) - np.min(keyword_scores))

            semantic_scores = 1 - (np.array(distances) - np.min(distances)) / (np.max(distances) - np.min(distances))
            combined_scores = 0.7 * semantic_scores + 0.3 * keyword_scores

            top_documents = [
                {"document": doc, "metadata": meta, "score": score}
                for doc, meta, score in zip(documents, metadatas, combined_scores)
            ]
            top_documents = sorted(top_documents, key=lambda x: x["score"], reverse=True)[:n_rerank]

            # Aplicar penalización de redundancia
            top_documents = self.penalizar_redundancia(top_documents, threshold=redundancy_threshold)

            # Reordenar con el modelo ReRanker
            reranked_results = self.rerank(prompt, top_documents)[:n_results]

            result_string = "\n\n".join(
                [
                    f"{i+1}. Document:\n\"{res['document'][:1000]}...\"\n"
                ]
            )
            return f"Results:\n\n{result_string}"
        except Exception as e:
            return f"Error en hybrid_search: {e}"


In [163]:
doc_search = DocSearch(client_castle, collection)
query = "What are the rules of the white castel"
results = doc_search.hybrid_search(query, n_results=3, n_rerank=8, redundancy_threshold=0.9)
print(results)


Top 3 Results:

1. Document:
"I kind of want to tell someone "we're playing White Castle tonight" and then bring that thing out. That would actually be funny! Enlace al hilo: https://boardgamegeek.com/thread/3220134/number-of-courtiers-in-the-rooms Hi all, at the gate field of the castle there is no limit of courtiers. This rule is mentioned in the rulebook. But how is the situation in the rooms of the castle? thanks, rolwin https://boardgamegeek.com/thread/3168240/can-there-be-two-co... No limit There is no limit of courtiers in the rooms. btw: We thought about this and tried a house rule of 1 meeple per color per room to push players to move upwards in the castle. Didn't change anything in the game experience Enlace al hilo:
https://boardgamegeek.com/thread/3220104/daimyo-seals-for-passing-checkpoint..."
Metadata: {'entities': 'tonight, Enlace al, Enlace al', 'filename': 'translated_comentarios.docx', 'keywords': 'castle, limit, courtiers', 'type': 'comments'}
Score: 0.5001

2. Docum

#### Tabular Search

In [136]:
class TabularSearch:
    def __init__(self, data_frame: pd.DataFrame):
        """
        Inicializa la clase de búsqueda tabular con parámetros fijos.

        :param data_frame: DataFrame de Pandas donde se realizará la búsqueda.
        """
        self.data_frame = data_frame
        self.temperature = 0.4  # Configuración fija
        self.stop_sequences = ["END_RESPONSE"]  # Configuración fija
        self.qwen_client = InferenceClient(api_key="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")

    def query_model_for_tabular(self, prompt: str) -> str:
        """
        Envía un prompt al modelo Qwen para generar la consulta tabular.

        :param prompt: Prompt que incluye instrucción, contexto, entrada, y salida deseada.
        :return: Consulta generada por el modelo.
        """
        try:
            response = self.qwen_client.chat.completions.create(
                model="Qwen/Qwen2.5-72B-Instruct",
                messages=[
                    {
                        "role": "system",
                        "content": (
                            "You are a system used to generate a query to a tabular search into a dataframe. "
                            "The dataframe contains the following columns: "
                            "'Rating', 'Year', 'Review Count', 'Min Players', 'Max Players', 'Play Time (min)', "
                            "'Suggested Age', 'Complexity', 'Likes', 'Price (USD)'. "
                            "Your queries should be simple and direct. You just need to give the column content"
                            "You have only one observation so dont extend the query"
                            "Your Output must be just the code to access the column"
                        ),
                    },
                    {"role": "user", "content": prompt},
                ],
                max_tokens=100,
                temperature=self.temperature,
                stop=self.stop_sequences,
            )
            return response.choices[0].message["content"].strip()
        except Exception as e:
            raise Exception(f"Error al llamar al modelo Qwen: {e}")

    def tabular_search(self, prompt: str) -> str:
        """
        Realiza una búsqueda tabular basada en el prompt generado y devuelve los resultados como una cadena.

        :param prompt: Prompt que el modelo usará para generar una consulta.
        :return: Resultados filtrados del DataFrame formateados como una cadena.
        """
        try:
            # Llamar al modelo para generar la consulta tabular
            tabular_query = self.query_model_for_tabular(prompt)
            print(f"Consulta generada: {tabular_query}")

            # Limpiar la consulta generada
            cleaned_tabular_query = (
                tabular_query.replace('```python', '')
                .replace("```", '')
                .replace("df", 'self.data_frame')
                .strip()
            )

            # Ejecutar la consulta generada usando eval()
            result = eval(f"{cleaned_tabular_query}")

            # Verificar si hay resultados
            if result.empty:
                return "No se encontraron resultados para la consulta."

            # Convertir los resultados en un string formateado
            result_string = result.to_string(index=False)  # Sin índices para una salida más limpia
            return f"Resultados obtenidos:\n{result_string}"
        except Exception as e:
            print(f"Error al realizar la búsqueda tabular: {e}")
            return f"Error al procesar la consulta: {e}"



#### Graph Search

In [142]:

class GraphSearch:
    def __init__(self, graph_client, api_key: str):
        """
        Inicializa la clase para búsquedas en una base de datos de grafos.

        :param graph_client: Cliente conectado a la base de datos de grafos.
        :param api_key: Clave de API para autenticar el cliente de Hugging Face.
        """
        self.api_key = api_key
        self.headers = {"Authorization": f"Bearer {self.api_key}"}
        self.graph_client = graph_client
        self.temperature = 0.4
        self.stop_sequences = ["END_RESPONSE"]
        self.qwen_client = InferenceClient(api_key="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")

    def query_model_for_cypher(self, prompt: str, pos_context: str) -> str:
        if not prompt:
            print("Error: El prompt está vacío.")
            return None

        try:
            response = self.qwen_client.chat.completions.create(
                model="Qwen/Qwen2.5-72B-Instruct",
                messages=[{
                    "role": "system",
                    "content": (
                        "You are a system specialized in generating Cypher queries for graph databases. "
                        "The database contains a single node and its relationships with other entities. The central node is labeld 'The White Castle' but you just have to match it like twc: Entity, "
                        "Examples of relatiosns can be, HAS_DESIGNER, HAS_COVER_ART_BY, INVOLVES, HASMECHANIC OR HASRULE "
                        "All nodes in the graph are Entity"
                        "Your task is to analyze the relationships found in the database and generate Cypher queries based on the user’s request. "
                        "Your output must be just cypher code."
                    ),
                }, {
                    "role": "user",
                    "content": (
                        f"Relationships extracted from the graph database (raw data): {pos_context}\n"
                        f"Prompt: {prompt}"
                    ),
                }],
                max_tokens=500,
                temperature=self.temperature,
                stop=self.stop_sequences,
            )
            cypher_query = response.choices[0].message["content"].strip()
            return cypher_query.replace("```cypher", "").replace("```", "")
        except KeyError:
            print("Error: Respuesta mal formada del modelo.")
            return None
        except Exception as e:
            print(f"Error al generar la consulta Cypher: {e}")
            return None

    def graph_search(self, prompt: str, pos_context: str = ""):
        """
        Genera y ejecuta una consulta Cypher basada en un prompt y contexto POS.

        :param prompt: Prompt proporcionado por el usuario.
        :param pos_context: Contexto adicional obtenido a partir de POS.
        :return: Resultados formateados como una cadena.
        """
        try:
            # Generar la consulta Cypher
            cypher_query = self.query_model_for_cypher(prompt, pos_context)
            if not cypher_query:
                print("Error: No se pudo generar la consulta Cypher.")
                return "Error: No se pudo generar una consulta válida."
            # Ejecutar la consulta en el cliente Neo4j
            with self.graph_client.session() as session:
                result = session.run(cypher_query)
                records = result.data()

            # Convertir los resultados en un string formateado
            if records:
                result_string = "\n".join([str(record) for record in records])
                return f"Resultados obtenidos:\n{result_string}"
            else:
                return "No se encontraron resultados en la base de datos de grafos."
        except Exception as e:
            print(f"Error al realizar la búsqueda en grafos: {e}")
            return f"Error al buscar en la base de datos: {e}"


    def search_relations_by_pos(self, pos_word: str):
        """
        Realiza una consulta para encontrar relaciones cuyo nombre contenga la palabra clave extraída con POS.

        :param pos_word: Palabra clave extraída del texto.
        :return: Resultado de la búsqueda de relaciones o None si ocurre un error.
        """
        try:
            cypher_query = f"""
              MATCH ()-[r]->()
              WHERE type(r) =~ '.*{pos_word.upper()}.*'
              RETURN r
              """

            # Ejecutar la consulta en el cliente de grafos
            with self.graph_client.session() as session:
                result = session.run(cypher_query)
                # Obtener todos los resultados
                records = result.data()
                return records  # Retorna los resultados de la consulta
        except Exception as e:
            print(f"Error al realizar la búsqueda de relaciones: {e}")
            return None


def add_pos_context(prompt: str, graph_search_instance) -> str:
    """
    Toma el prompt, realiza un análisis POS para agregar entidades al contexto y busca relaciones con esas entidades.

    :param prompt: Texto de entrada del usuario.
    :param graph_search_instance: Instancia de GraphSearch que se utilizará para buscar relaciones.
    :return: Texto con contexto adicional de las palabras clave y relaciones encontradas.
    """
    # Cargar modelo de spaCy
    nlp = spacy.load("en_core_web_sm")

    # Procesar el texto y extraer palabras clave con POS
    doc = nlp(prompt)
    pos_words = [token.text for token in doc if token.pos_ in {"NOUN", "PROPN", "ADJ", "VERB"}]
    # Agregar contexto para cada palabra clave y realizar la búsqueda de relaciones
    pos_context = ""
    for pos_word in pos_words:
        # Buscar relaciones en Neo4j que contienen la palabra clave en su nombre
        relations = graph_search_instance.search_relations_by_pos(pos_word)
        if relations:
            pos_context += f"Found the following relationships containing '{pos_word}': {relations}. "

    # Verifica el contexto POS generado
    return pos_context


In [None]:
# Configuración de Neo4j
NEO4J_URI = "neo4j+s://db16de97.databases.neo4j.io"
NEO4J_USERNAME = "neo4j"
NEO4J_PASSWORD = "PYNWCagVuuOIaUJ1Ef9-lyiB0WbcQ5CrwfhFHwWjM_M"

# Inicializar el cliente de Neo4j
graph_client = GraphDatabase.driver(NEO4J_URI, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))

# Instancia de la clase GraphSearch
graph_search_instance = GraphSearch(graph_client=graph_client, api_key="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")

prompt = "Who created The White Castle??"
pos_context = add_pos_context(prompt, graph_search_instance)
print("Contexto POS:", pos_context)

# Realizar búsqueda en el grafo
results = graph_search_instance.graph_search(prompt, pos_context)
print("Resultados de la búsqueda:", results)


## Clasificador Basado en LLM

In [184]:
class Classifier:
    def __init__(self, model_name="Qwen/Qwen2.5-72B-Instruct", context=None):
        """
        Inicializa el clasificador con un modelo de Hugging Face y un contexto base.

        :param model_name: Nombre del modelo pre-entrenado en Hugging Face.
        :param context: Contexto inicial que describe las bases de datos.
        """

        self.api_key = "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"  # Tu token de autenticación
        self.headers = {"Authorization": f"Bearer {self.api_key}"}
        self.model_name = model_name
        self.temperature = 0.4
        self.stop_sequences = ["END_RESPONSE"]


        # Usar el cliente de inferencia de Hugging Face
        self.qwen_client = InferenceClient(api_key=self.api_key)

        # Contexto configurable con valor por defecto
        self.context = context or self._default_context()

        # Definición de las categorías
        self.labels = ["Documents", "Graph", "Table"]

    def _default_context(self):
        return (
            "Documents: This category is for any question regarding the rules, strategies, and textual information of the game.\n"
            "Examples:\n"
            "  - 'What are the rules?' => 'Documents'\n"
            "  - 'How do you play the game?' => 'Documents'\n\n"

            "Graph: This category is for questions related to game creators, designers, and interactions between people.\n"
            "Examples:\n"
            "  - 'Who designed the game?' => 'Graph'\n"
            "  - 'What is the connection between the game designers?' => 'Graph'\n\n"

            "Table: This category includes specific data about the game, such as number of players, price, and other game statistics.\n"
            "Examples:\n"
            "  - 'How much does the game cost?' => 'Table'\n"
            "  - 'How long does the game last?' => 'Table'\n\n"
        )

    def clasificar(self, prompt: str) -> str:
        """
        Clasifica un prompt en una de las categorías: 'Documents', 'Graph' o 'Table'.

        :param prompt: Consulta del usuario en texto.
        :return: Etiqueta de clasificación con mayor probabilidad.
        """
        if not prompt.strip():
            raise ValueError("El prompt proporcionado está vacío.")

        # Combinar contexto y prompt
        input_text = f"{self.context} Prompt: {prompt}"

        try:
            # Llamar a Qwen para obtener la clasificación (utilizando InferenceClient)
            response = self.qwen_client.chat.completions.create(
                model=self.model_name,
                messages=[{
                    "role": "system",
                    "content": "You are a classifier that categorizes queries into Documents, Graph, or Table."
                }, {
                    "role": "user",
                    "content": input_text
                }],
                temperature=self.temperature,
                stop=self.stop_sequences,
                max_tokens=100  # Limitamos el tamaño de la respuesta
            )

            # El modelo Qwen proporcionará una respuesta de clasificación
            classification = response.choices[0].message['content'].strip()

            # Aquí asumimos que el modelo devolverá una respuesta adecuada
            return classification

        except Exception as e:
            print(f"Error al clasificar el prompt: {e}")
            return "unknown"



In [118]:
# Crear una instancia del clasificador
classifier = Classifier()

# Listado de prompts a probar
prompts = [
    "What are the rules of the game?",  # Debería ser clasificado como 'Documents'
    "Who designed the game?",          # Debería ser clasificado como 'Graph'
    "How much does the game cost?",    # Debería ser clasificado como 'Table'
    "What is the connection between the game designers?",  # Debería ser 'Graph'
    "How long does the game last?"     # Debería ser 'Table'
]

# Probar clasificación para cada prompt
for prompt in prompts:
    category = classifier.clasificar(prompt)
    print(f"Prompt: {prompt}\nCategoría clasificada: {category}\n")


Prompt: What are the rules of the game?
Categoría clasificada: Documents

Prompt: Who designed the game?
Categoría clasificada: Graph

Prompt: How much does the game cost?
Categoría clasificada: Table

Prompt: What is the connection between the game designers?
Categoría clasificada: Graph

Prompt: How long does the game last?
Categoría clasificada: Table



# ***The White Castle Chatbot***
## Chat whith an expert in the famous board game

In [185]:
import requests
from langdetect import detect
from jinja2 import Template

chat_graph_client = GraphDatabase.driver(NEO4J_URI, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))

def dividir_texto(texto, max_length=1000):
    palabras = texto.split()
    fragmentos = []
    fragmento_actual = ""

    for palabra in palabras:
        if len(fragmento_actual) + len(palabra) + 1 > max_length:
            fragmentos.append(fragmento_actual)
            fragmento_actual = palabra
        else:
            fragmento_actual += " " + palabra if fragmento_actual else palabra

    if fragmento_actual:
        fragmentos.append(fragmento_actual)

    return fragmentos

# Función para traducir un texto a inglés
def traducir_a_español(texto):
      fragmentos = dividir_texto(texto)
      traduccion = ""
      for fragmento in fragmentos:
          traduccion += ts.translate_text(fragmento, translator='bing', from_language='en', to_language='es') + "\n"
      return traduccion



# Función para detectar el idioma del texto
def detect_language(text):
    return detect(text)

# Función para generar el template del chat
def zephyr_chat_template(messages, add_generation_prompt=True):
    template_str  = "{% for message in messages %}"
    template_str += "{% if message['role'] == 'user' %}"
    template_str += "<|user|>{{ message['content'] }}</s>\n"
    template_str += "{% elif message['role'] == 'assistant' %}"
    template_str += "<|assistant|>{{ message['content'] }}</s>\n"
    template_str += "{% elif message['role'] == 'system' %}"
    template_str += "<|system|>{{ message['content'] }}</s>\n"
    template_str += "{% else %}"
    template_str += "<|unknown|>{{ message['content'] }}</s>\n"
    template_str += "{% endif %}"
    template_str += "{% endfor %}"
    template_str += "{% if add_generation_prompt %}"
    template_str += "<|assistant|>\n"
    template_str += "{% endif %}"

    # Crear un objeto de plantilla con la cadena de plantilla
    template = Template(template_str)

    # Renderizar la plantilla con los mensajes proporcionados
    return template.render(messages=messages, add_generation_prompt=add_generation_prompt)

# Función para obtener el modelo generativo (en este caso usando Zephyr)
def generate_response_with_model(context):
    api_key = "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"

    api_url = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"
    headers = {"Authorization": f"Bearer {api_key}"}

    data = {
        "inputs": context,
        "parameters": {
            "max_new_tokens": 256,
            "temperature": 0.68,
            "top_k": 50,
            "top_p": 0.95
        }
    }

    response = requests.post(api_url, headers=headers, json=data)

    if response.status_code == 200:
        result = response.json()
        if isinstance(result, list):
            return result[0].get('generated_text', 'No se generó texto.')
        else:
            return "Error en la respuesta del modelo: la respuesta no es una lista."
    else:
        return f"Error en la solicitud: {response.status_code} - {response.text}"

game_state = """
    You are a chatbot specialized in the famous board game *The White Castle*.
    You may want to think and process step by step the information that you have before yoy respond
    Your task is to generate responses based on the user's question and the relevant information retrieved from the database.
    You should take into account the question, the retrieved information, and the context to provide a detailed and accurate response.
    You will rearly recive the exact information to the question but you have to formulate your answer based on what you know.
    For instance you may no be provided with the entire rulebook but you can say "Some of the rules consist of ..."
    Your answers should be clear, concise, and directly related to the game, *The White Castle* and you dont hace to cite any retrieved information, take it as if you already know it.
    """
loop_flag = True
while loop_flag:
    # Paso 1: Obtener el prompt del usuario
    user_prompt = input(" (Ingrese 'exit' para salir) Por favor, ingrese su consulta sobre el juego: ")
    if user_prompt.lower() == "exit":
        print("¡Hasta luego!")
        break
    esp_flag = False

    # Detectar el idioma del texto
    if detect_language(user_prompt) == "es":
        user_prompt = ts.translate_text(user_prompt, translator='bing', from_language='es', to_language='en')
        esp_flag = True

    # Paso 2: Clasificar el prompt
    classifier = Classifier()
    category = classifier.clasificar(user_prompt)
    print(f"Categoría del prompt: {category}")

    # Paso 3: Recuperar la información basada en la clasificación
    if category == "Documents":
        doc_search = DocSearch(client_castle, collection)
        retrieved_info = doc_search.hybrid_search(user_prompt)
    elif category == "Graph":
        graph_search = GraphSearch(graph_client=chat_graph_client, api_key="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")
        pos_context = add_pos_context(prompt, graph_search_instance)
        # Realizar búsqueda en el grafo
        retrieved_info = graph_search.graph_search(user_prompt, pos_context)
    elif category == "Table":
        tabular_search = TabularSearch(df_castle)
        retrieved_info = tabular_search.tabular_search(user_prompt)
    else:
        retrieved_info = "No se pudo clasificar la consulta adecuadamente."



    # Ajusta el contexto para que sea relevante y claro
    context = f"""
    Role: {game_state}
    Question: {user_prompt}

    Retrieved Information: {retrieved_info}

    Please provide only the direct answer, no extra steps or explanations.
    """

    # Paso 5: Generar respuesta con un modelo generativo (Zephyr)
    response = generate_response_with_model(context)

    if "Answer:" in response:
        answer = response.split("Answer:")[1].strip()
    elif "Response:" in response:
        answer = response.split("Response:")[1].strip()
    else:
        answer = response


    # Si el texto original estaba en español, traducimos la respuesta generada al español
    if esp_flag:
        answer = traducir_a_español(answer)
    print(f"Respuesta generada: {answer}")
    print(f"{'-' * 50}  \n")



 (Ingrese 'exit' para salir) Por favor, ingrese su consulta sobre el juego: who designed this game?
Categoría del prompt: Graph
Respuesta generada: The designers of The White Castle are Isra and Shei.
--------------------------------------------------  

 (Ingrese 'exit' para salir) Por favor, ingrese su consulta sobre el juego: who covered the art of the game?
Categoría del prompt: Graph

This question is about the person or people who created or designed the art for the game, which falls under the category of interactions between people involved in the game's creation.
Respuesta generada: The art of The White Castle is covered by an artist named Kwanchai Moriuchi.
--------------------------------------------------  

 (Ingrese 'exit' para salir) Por favor, ingrese su consulta sobre el juego: hay algun otro artista detras del juego
Categoría del prompt: Graph
Respuesta generada: El artista detrás de El Castillo Blanco es Joan Guardiet.

------------------------------------------------

# ReAct Agent

Este ejercicio se basa en el ejercicio 1, e incorpora el concepto de Agente, basado en el concepto ReAct. Nuestro agente debe cumplir con los siguientes requisitos:
Utilizar al menos 3 herramientas, aprovechando el trabajo anterior:
- doc_search(): Busca información en los documentos
- graph_search(): Busca información en la base de datos de grafos
- table_search(): Busca información sobre los datos tabulares

Se puede implementar alguna nueva herramienta que se considere necesaria y que pueda enriquecer las capacidades del agente.
Utilizar la librería Llama-Index para desarrollar el agente:
**llama_index.core.agent.ReActAgent**
**llama_index.core.tools.FunctionTool**
Se debe construir el prompt adecuado para incorporar las herramientas al agente ReAct
### Presentar en el informe los resultados:
1. Presentar 5 ejemplos de prompts donde se deba recurrir a más de una herramienta para responder al usuario. Evaluar los resultados obtenidos
3. Explicar con 3 ejemplos, donde el agente falla o las respuestas no son precisas.
4. Explicar cuáles son las mejoras que sería conveniente realizar para mejorar los resultados.


In [None]:
%%capture
!ollama pull phi3:medium > ollama.loga

!pip install litellm[proxy]
!nohup litellm --model ollama/phi3:medium --port 8000 > litellm.log 2>&1 &

In [None]:
def doc_search(query):
    """
    Simula una búsqueda en documentos.
    :param query: Pregunta del usuario.
    :return: Resultados de la búsqueda (simulados).
    """
    # Simulamos que encontramos un documento relevante
    return [{
        "document": f"Información relevante sobre el tema '{query}' en los documentos.",
        "metadata": {"source": "document_1.pdf", "date": "2023-01-01"},
        "score": 0.95
    }]

def graph_search(query):
    """
    Simula una búsqueda en la base de datos de grafos.
    :param query: Pregunta del usuario.
    :return: Resultados de la búsqueda (simulados).
    """
    return [{
        "creator": {"name": "Israel Cendrero"}
    }]

def table_search(query):
    """
    Simula una búsqueda en una tabla de datos.
    :param query: Pregunta del usuario.
    :return: Resultados de la búsqueda (simulados).
    """
    # Simulamos que encontramos información tabular
    return pd.DataFrame({
        "Player": ["Player 1", "Player 2"],
        "Score": [50, 45]
    })


In [None]:


class AgentPipeline:
    """
    Clase para gestionar el flujo entre el chatbot, herramientas de búsqueda y el agente ReAct.
    """
    def __init__(self, doc_search, graph_search, table_search, llm_model="phi3:medium", temperature=0.2):
        self.doc_search = doc_search
        self.graph_search = graph_search
        self.table_search = table_search

        # Inicializar las herramientas para el agente ReAct
        self.tools = [
            FunctionTool.from_defaults(fn=doc_search, description="Busca información en documentos."),
            FunctionTool.from_defaults(fn=graph_search, description="Busca relaciones en bases de datos de grafos."),
            FunctionTool.from_defaults(fn=table_search, description="Busca información en datos tabulares."),
        ]

        # Configuración del modelo LLM (phi3:medium de Ollama)
        self.llm = Ollama(model=llm_model, temperature=temperature)

        # Configurar el sistema de agentes
        self.system_prompt = """
        Eres un agente experto que responde preguntas complejas utilizando herramientas.
        Tienes acceso a las siguientes herramientas:
        1. doc_search: Busca información en documentos extensos.
        2. graph_search: Busca relaciones en una base de datos de grafos.
        3. table_search: Busca datos específicos en tablas estructuradas.

        Para cada pregunta:
        1. Analiza qué información necesitas.
        2. Usa las herramientas con el siguiente formato:

        Thought: Pienso en lo que necesito buscar.
        Action: [nombre de la herramienta]
        Action Input: [entrada para la herramienta]

        Observation: [resultado de la herramienta]
        Final Answer: [respuesta final]
        """

        # Crear el agente ReAct
        self.agent = ReActAgent.from_tools(
            tools=self.tools,
            llm=self.llm,
            system_prompt=self.system_prompt,
            verbose=True
        )

    def process_query(self, user_query):
        """
        Procesa la consulta del usuario utilizando las herramientas de búsqueda.

        :param user_query: Consulta proporcionada por el usuario.
        :return: Respuesta generada para el usuario.
        """
        response = self.agent.chat(user_query)
        return response


In [None]:
#@title Citas
@misc{qwen2.5,
    title = {Qwen2.5: A Party of Foundation Models},
    url = {https://qwenlm.github.io/blog/qwen2.5/},
    author = {Qwen Team},
    month = {September},
    year = {2024}
}

@article{qwen2,
    title={Qwen2 Technical Report},
    author={An Yang and Baosong Yang and Binyuan Hui and Bo Zheng and Bowen Yu and Chang Zhou and Chengpeng Li and Chengyuan Li and Dayiheng Liu and Fei Huang and Guanting Dong and Haoran Wei and Huan Lin and Jialong Tang and Jialin Wang and Jian Yang and Jianhong Tu and Jianwei Zhang and Jianxin Ma and Jin Xu and Jingren Zhou and Jinze Bai and Jinzheng He and Junyang Lin and Kai Dang and Keming Lu and Keqin Chen and Kexin Yang and Mei Li and Mingfeng Xue and Na Ni and Pei Zhang and Peng Wang and Ru Peng and Rui Men and Ruize Gao and Runji Lin and Shijie Wang and Shuai Bai and Sinan Tan and Tianhang Zhu and Tianhao Li and Tianyu Liu and Wenbin Ge and Xiaodong Deng and Xiaohuan Zhou and Xingzhang Ren and Xinyu Zhang and Xipin Wei and Xuancheng Ren and Yang Fan and Yang Yao and Yichang Zhang and Yu Wan and Yunfei Chu and Yuqiong Liu and Zeyu Cui and Zhenru Zhang and Zhihao Fan},
    journal={arXiv preprint arXiv:2407.10671},
    year={2024}
}

@misc{intfloat2023e5,
    title = {Multilingual E5: A Text Embedding Model for Retrieval Tasks},
    author = {Intfloat Team},
    year = {2023},
    howpublished = {\url{https://huggingface.co/intfloat/multilingual-e5-small}}
}


@misc{bge2023reranker,
    title = {BAAI General Embedding Reranker v2 (BGE ReRanker)},
    author = {BAAI Team},
    year = {2023},
    howpublished = {\url{https://huggingface.co/BAAI/bge-reranker-v2-m3}}
}

@misc{phi3ollama2024,
    title = {Phi-3: A Series of Lightweight Language Models},
    author = {Ollama Team},
    year = {2024},
    howpublished = {\url{https://ollama.ai/library/phi3}}
}

@misc{distilbert2019,
    title = {DistilBERT: A distilled version of BERT for faster NLP tasks},
    author = {Sanh, Victor and Debut, Lysandre and Chaumond, Julien and Wolf, Thomas},
    year = {2019},
    journal = {arXiv preprint arXiv:1910.01108},
    url = {https://huggingface.co/distilbert-base-uncased}
}


SyntaxError: invalid syntax. Perhaps you forgot a comma? (<ipython-input-85-5605d1378c5d>, line 2)