# **Trabajo Práctico Final - TUIA NLP 2024**

## **Chatbot experto en Eurogames con RAG y Agentes ReAct**

### **Autor**: Tomás Valentino Avecilla
### **legajo**: --------
### **Fecha**: 16 de diciembre de 2024
### **Materia**: Procesamiento del Lenguaje Natural (NLP)  
### **Institución**: Facultad de Ciencias Exactas, ingenieria y Agrimensura -- UNR

---

## **Descripción del Trabajo**
Este cuaderno contiene el desarrollo del Trabajo Práctico Final para la materia TUIA NLP 2024. El objetivo es implementar un **chatbot experto** sobre un juego de mesa tipo Eurogame, utilizando las técnicas de **Retrieval-Augmented Generation (RAG)** y **Agentes ReAct**.

El proyecto incluye:
- Recolección de información desde múltiples fuentes: texto, datos tabulares y bases de grafos.
- Construcción de bases de datos vectoriales, tabulares y de grafos.
- Implementación de clasificadores y sistemas de recuperación dinámica de información.
- Desarrollo de un agente que combina herramientas para responder consultas complejas.

---

## Preparación del Entorno de Trabajo

In [1]:
!apt-get update
!pip install gdown
!pip install pdf2image
!apt-get install -y poppler-utils
!pip install pytesseract
!apt-get install -y tesseract-ocr
!apt-get install -y tesseract-ocr-spa  # Para español
!apt-get install -y tesseract-ocr-eng  # Para inglés
!pip install requests
!pip install selenium
!pip install webdriver-manager
!pip install python-docx
!pip install --upgrade chromadb
!pip install sentence_transformers~=2.2.2
!python -m spacy download es_core_news_md
!pip install translators
!pip install pydgraph
!pip install torch
!pip install transformers
!pip install neo4j
!pip install huggingface_hub
!pip install --upgrade sentence-transformers


0% [Working]            Get:1 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease [3,626 B]
Hit:2 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
Get:3 http://security.ubuntu.com/ubuntu jammy-security InRelease [129 kB]
Hit:4 http://archive.ubuntu.com/ubuntu jammy InRelease
Get:5 http://archive.ubuntu.com/ubuntu jammy-updates InRelease [128 kB]
Hit:6 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy InRelease
Hit:7 https://ppa.launchpadcontent.net/graphics-drivers/ppa/ubuntu jammy InRelease
Get:8 https://r2u.stat.illinois.edu/ubuntu jammy InRelease [6,555 B]
Hit:9 https://ppa.launchpadcontent.net/ubuntugis/ppa/ubuntu jammy InRelease
Get:10 https://r2u.stat.illinois.edu/ubuntu jammy/main all Packages [8,548 kB]
Get:11 http://archive.ubuntu.com/ubuntu jammy-backports InRelease [127 kB]
Get:12 http://security.ubuntu.com/ubuntu jammy-security/restricted amd64 Packages [3,364 kB]
Get:13 http://archive.ubuntu.com/ubuntu jam

In [2]:
import numpy as np
import pandas as pd
from pdf2image import convert_from_path
import os
import pytesseract
from PIL import Image
import requests
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
import time
from docx import Document
import re, unicodedata
from langchain.text_splitter import RecursiveCharacterTextSplitter
import chromadb
import uuid
import spacy
from spacy.matcher import Matcher
import translators as ts
import torch.nn.functional as F
from torch import Tensor
from transformers import AutoTokenizer, AutoModel, AutoModelForCausalLM
import torch
from collections import defaultdict
from concurrent.futures import ThreadPoolExecutor
from neo4j import GraphDatabase
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score
from sentence_transformers import SentenceTransformer
from huggingface_hub import InferenceClient
import docx

## Recolección de Información

### **1:** 🎮 Reglas y Jugabilidad

#### Archivos Descargados

Primero vamos a usar tres documentos descargados de la seccion ***files*** del sitio BGG _[link](https://boardgamegeek.com/boardgame/371942/the-white-castle/files)_
Contamos con 3 documentos PDF


1.   Reglamento en Español
2.   Reglamento en Ingles
3.   Guia Rapida en ingles




In [3]:
!gdown "1UnwbtxzLsqUMgN2JT-xGayOHgm1B6ZGi" --output "reglamento_en.pdf"
!gdown "1k_cyEVOoBqrP3od8dYUKFAQ4sLPaRzVI" --output "qs_en.pdf"

Downloading...
From: https://drive.google.com/uc?id=1UnwbtxzLsqUMgN2JT-xGayOHgm1B6ZGi
To: /content/reglamento_en.pdf
100% 13.2M/13.2M [00:00<00:00, 23.1MB/s]
Downloading...
From: https://drive.google.com/uc?id=1k_cyEVOoBqrP3od8dYUKFAQ4sLPaRzVI
To: /content/qs_en.pdf
100% 446k/446k [00:00<00:00, 105MB/s]


Los 3 PDFs son imagenes por lo cual vamos a tener que extraer el texto y para eso usaremos un ocr

In [4]:
# Función para crear carpetas si no existen
def crear_carpeta(nombre_carpeta):
    if not os.path.exists(nombre_carpeta):
        os.makedirs(nombre_carpeta)

# Carpetas para guardar las imágenes
carpeta_en = "imgs_reglamento_en"
carpeta_qs = "imgs_qs_en"

# Crear carpetas
crear_carpeta(carpeta_en)
crear_carpeta(carpeta_qs)

# Convertir PDFs en listas de imágenes
imgs_reglamento_en = convert_from_path("reglamento_en.pdf")
imgs_qs_en = convert_from_path("qs_en.pdf")

# Guardar las imágenes en sus carpetas correspondientes
for i, imagen in enumerate(imgs_reglamento_en):
    imagen.save(os.path.join(carpeta_en, f'pagina_en_{i + 1}.png'), 'PNG')

for i, imagen in enumerate(imgs_qs_en):
    imagen.save(os.path.join(carpeta_qs, f'qs_en_{i + 1}.png'), 'PNG')



In [5]:
# Configurar pytesseract
pytesseract.pytesseract.tesseract_cmd = r'/usr/bin/tesseract'

# Función para procesar imágenes y extraer texto
def procesar_imagenes(carpeta_imagenes, carpeta_salida, idioma="eng"):
    # Crear carpeta de salida si no existe
    if not os.path.exists(carpeta_salida):
        os.makedirs(carpeta_salida)

    # Iterar sobre las imágenes en la carpeta
    for imagen_nombre in sorted(os.listdir(carpeta_imagenes)):  # Ordenar para mantener secuencia
        if imagen_nombre.endswith(".png"):
            ruta_imagen = os.path.join(carpeta_imagenes, imagen_nombre)

            # Extraer texto de la imagen
            texto = pytesseract.image_to_string(Image.open(ruta_imagen), lang=idioma)

            # Guardar texto en un archivo
            nombre_txt = os.path.splitext(imagen_nombre)[0] + ".txt"
            ruta_salida = os.path.join(carpeta_salida, nombre_txt)

            with open(ruta_salida, "w", encoding="utf-8") as file:
                file.write(texto)

    print(f"Texto procesado y guardado en: {carpeta_salida}")

# Procesar las imágenes de cada carpeta
procesar_imagenes("imgs_reglamento_en", "texto_reglamento_en", idioma="eng")
procesar_imagenes("imgs_qs_en", "texto_qs_en", idioma="eng")


Texto procesado y guardado en: texto_reglamento_en
Texto procesado y guardado en: texto_qs_en


In [6]:

# Función avanzada para limpiar texto y normalizarlo
def limpiar_texto(texto):

    # Paso 1: Normalizar texto a Unicode estándar (NFKC)
    texto = unicodedata.normalize("NFKC", texto)

    # Paso 2: Eliminar múltiples espacios, tabulaciones y líneas redundantes
    texto = re.sub(r'\s+', ' ', texto).strip()

    texto = re.sub(r'[^a-zA-Z0-9\s.,!?¿¡]', '', texto)

    # Paso 3: Convertir a minúsculas para uniformidad semántica
    texto = texto.lower()

    return texto


# Función para crear documentos a partir de los archivos .txt en cada carpeta
def crear_documentos(carpeta_lista, carpeta_destino_docs):
    # Crear carpeta de destino para los documentos si no existe
    if not os.path.exists(carpeta_destino_docs):
        os.makedirs(carpeta_destino_docs)

    # Iterar sobre las carpetas en la lista proporcionada
    for carpeta in sorted(carpeta_lista):  # Ordenar para mantener consistencia
        if os.path.isdir(carpeta):  # Procesar solo carpetas
            # Crear un documento Word
            doc = Document()

            # Iterar sobre los archivos .txt en la carpeta
            for archivo_txt in sorted(os.listdir(carpeta)):  # Ordenar para mantener secuencia
                if archivo_txt.endswith(".txt"):
                    ruta_txt = os.path.join(carpeta, archivo_txt)

                    with open(ruta_txt, "r", encoding="utf-8") as file:
                        texto = file.read()

                    # Limpiar el texto antes de agregarlo al documento
                    texto = limpiar_texto(texto)

                    doc.add_paragraph(texto)

            # Guardar el documento en la carpeta de destino
            nombre_doc = f"{os.path.basename(carpeta)}.docx"
            ruta_doc = os.path.join(carpeta_destino_docs, nombre_doc)
            doc.save(ruta_doc)

    print(f"Documentos creados en: {carpeta_destino_docs}")

# Lista de carpetas y carpeta de destino
carpetas = ["texto_reglamento_en", "texto_qs_en"]
carpeta_destino_docs = "documentos"

# Crear documentos
crear_documentos(carpetas, carpeta_destino_docs)


Documentos creados en: documentos


#### Scrapping de jugabilidad

Haremos un scrapping de la siguiente [reseña](https://misutmeeple.com/2023/11/resena-the-white-castle/).

In [7]:

# URL de la página que deseas scrapear
url = 'https://misutmeeple.com/2023/11/resena-the-white-castle/'

# Hacer la solicitud HTTP para obtener el HTML de la página
response = requests.get(url)
html = response.text

# Parsear el HTML con BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

# Seleccionar el div con la clase específica
div = soup.find('div', class_='entry-content single-content')

# Asegurarse de que el div existe antes de continuar
if div:
    # Crear un nuevo documento Word
    doc = Document()

    # Iterar sobre los elementos h2, h3 y p dentro del div
    for elemento in div.find_all(['h2', 'h3', 'p'], recursive=True):
        etiqueta = elemento.name
        texto = elemento.get_text(strip=True)

        # Agregar texto al documento según el tipo de etiqueta
        if etiqueta == 'h2':
            doc.add_heading(texto, level=1)
        elif etiqueta == 'h3':
            doc.add_heading(texto, level=2)
        elif etiqueta == 'p':
            doc.add_paragraph(texto)

    # Guardar el documento Word
    doc_name = "reseña.docx"
    doc.save(doc_name)

    print(f"Documento guardado como: {doc_name}")
else:
    print("Error.")


Documento guardado como: reseña.docx


### **2:** 🏯 The White Castle Overview

##### Configuracion de drivers para no generar conflictos en el uso de selenium

Nos aseguramos de que el sistema tiene las bibliotecas necesarias para ejecutar aplicaciones gráficas (como Chrome) en un entorno Linux.

In [8]:
# Actualizar los repositorios
!apt-get update
!apt-get install -y wget curl unzip
!apt-get install -y libx11-dev libx11-xcb1 libglu1-mesa libxi6 libgconf-2-4

Hit:1 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease
Hit:2 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
Hit:3 http://archive.ubuntu.com/ubuntu jammy InRelease
Hit:4 http://archive.ubuntu.com/ubuntu jammy-updates InRelease
Hit:5 http://archive.ubuntu.com/ubuntu jammy-backports InRelease
Hit:6 http://security.ubuntu.com/ubuntu jammy-security InRelease
Hit:7 https://r2u.stat.illinois.edu/ubuntu jammy InRelease
Hit:8 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy InRelease
Hit:9 https://ppa.launchpadcontent.net/graphics-drivers/ppa/ubuntu jammy InRelease
Hit:10 https://ppa.launchpadcontent.net/ubuntugis/ppa/ubuntu jammy InRelease
Reading package lists... Done
W: Skipping acquire of configured file 'main/source/Sources' as repository 'https://r2u.stat.illinois.edu/ubuntu jammy InRelease' does not seem to provide it (sources.list entry misspelt?)
Reading package lists... Done
Building dependency tree... Done
Reading

Descargamos e instalamos Google Chrome para poder usarlo con Selenium.

In [9]:
# Instalar Google Chrome (última versión estable)
!wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
!dpkg -i google-chrome-stable_current_amd64.deb
!apt --fix-broken install -y

--2024-12-15 21:30:57--  https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
Resolving dl.google.com (dl.google.com)... 142.251.175.136, 142.251.175.190, 142.251.175.91, ...
Connecting to dl.google.com (dl.google.com)|142.251.175.136|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 112421156 (107M) [application/x-debian-package]
Saving to: ‘google-chrome-stable_current_amd64.deb’


2024-12-15 21:30:58 (235 MB/s) - ‘google-chrome-stable_current_amd64.deb’ saved [112421156/112421156]

Selecting previously unselected package google-chrome-stable.
(Reading database ... 123883 files and directories currently installed.)
Preparing to unpack google-chrome-stable_current_amd64.deb ...
Unpacking google-chrome-stable (131.0.6778.139-1) ...
[1mdpkg:[0m dependency problems prevent configuration of google-chrome-stable:
 google-chrome-stable depends on libvulkan1; however:
  Package libvulkan1 is not installed.

[1mdpkg:[0m error processing package

Descargamos ChromeDriver (necesario para Selenium) y lo mueve a una ubicación accesible globalmente en el sistema.

In [10]:
!wget https://chromedriver.storage.googleapis.com/131.0.6778.87/chromedriver_linux64.zip
!unzip chromedriver_linux64.zip
!mv chromedriver /usr/local/bin/chromedriver

--2024-12-15 21:31:17--  https://chromedriver.storage.googleapis.com/131.0.6778.87/chromedriver_linux64.zip
Resolving chromedriver.storage.googleapis.com (chromedriver.storage.googleapis.com)... 172.217.194.207, 172.253.118.207, 74.125.200.207, ...
Connecting to chromedriver.storage.googleapis.com (chromedriver.storage.googleapis.com)|172.217.194.207|:443... connected.
HTTP request sent, awaiting response... 404 Not Found
2024-12-15 21:31:18 ERROR 404: Not Found.

unzip:  cannot find or open chromedriver_linux64.zip, chromedriver_linux64.zip.zip or chromedriver_linux64.zip.ZIP.
mv: cannot stat 'chromedriver': No such file or directory


Configura el navegador para ejecutarse en segundo plano sin mostrar interfaz gráfica, ideal para entornos como servidores.

In [11]:
# Configurar las opciones de Chrome para usarlo en modo headless
chrome_options = Options()
chrome_options.add_argument('--headless')  # Modo sin cabeza
chrome_options.add_argument('--no-sandbox')  # Evitar problemas de sandboxing
chrome_options.add_argument('--disable-dev-shm-usage')  # Usar en contenedores o entornos con poca memoria


#### Datos Tabulares

A continuacion haremos el scrapping de la pagina [board game geek](https://boardgamegeek.com/boardgame/371942/the-white-castle/) para extraer datos numericos e insertarlos en un DataFrame

In [12]:
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)

# URL del juego
url = 'https://boardgamegeek.com/boardgame/371942/the-white-castle'

# Abrir la página
driver.get(url)

# Esperar unos segundos para que cargue el contenido dinámico
time.sleep(8)

# Obtener el HTML completo de la página cargada
html = driver.page_source

# Parsear el HTML con BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

# Extraer los datos y guardarlos en variables
rating_value = soup.find('span', itemprop='ratingValue')
rating_value = rating_value.text.strip() if rating_value else 'N/A'

year_section = soup.find('span', class_='game-year')
game_year = year_section.text.strip() if year_section else 'N/A'
game_year = game_year.strip("()").strip()  # Eliminar paréntesis y espacios adicionales
game_year = int(game_year) if game_year.isdigit() else 'N/A'

review_count_section = soup.find('meta', itemprop='reviewCount')
review_count_value = int(review_count_section['content']) if review_count_section else 'N/A'

min_players = max_players = play_time = suggested_age = complexity = 'N/A'

# Extraer los elementos de gameplay
gameplay_section = soup.find('ul', class_='gameplay')
if gameplay_section:
    gameplay_items = gameplay_section.find_all('li', class_='gameplay-item')
    for item in gameplay_items:
        title = item.find('h3').text.strip() if item.find('h3') else 'N/A'

        if title == "Number of Players":
            min_players = int(item.find('meta', itemprop='minValue')['content']) if item.find('meta', itemprop='minValue') else 'N/A'
            max_players = int(item.find('meta', itemprop='maxValue')['content']) if item.find('meta', itemprop='maxValue') else 'N/A'

        elif title == "Play Time":
            play_time = int(item.find('span', class_='ng-binding').text.strip()) if item.find('span', class_='ng-binding') else 'N/A'

        elif title == "Suggested Age":
            suggested_age = int(item.find('span', class_='ng-binding').text.strip()) if item.find('span', class_='ng-binding') else 'N/A'

        elif title == "Complexity":
            complexity = float(item.find('span', class_='ng-binding').text.strip()) if item.find('span', class_='ng-binding') else 'N/A'

like_count_section = soup.find('a', class_='game-action-play-count')
likes = like_count_section.text.strip() if like_count_section else 'N/A'

# Extraer precios sugeridos
prices = soup.find_all('div', class_='summary-sale-item-price')
precio_sugerido = prices[1].text.strip() if len(prices) > 0 else 'N/A'

# Cerrar el WebDriver
driver.quit()

# Crear un diccionario para los datos
data = {
    "Rating": [float(rating_value) if rating_value != 'N/A' else None],
    "Year": [game_year if game_year != 'N/A' else None],
    "Review Count": [review_count_value if review_count_value != 'N/A' else None],
    "Min Players": [min_players if min_players != 'N/A' else None],
    "Max Players": [max_players if max_players != 'N/A' else None],
    "Play Time (min)": [play_time if play_time != 'N/A' else None],
    "Suggested Age": [suggested_age if suggested_age != 'N/A' else None],
    "Complexity": [complexity if complexity != 'N/A' else None],
    "Likes": [int(likes.replace('K', '000').replace('.', '')) if 'K' in likes else int(likes) if likes != 'N/A' else None],
    "Price (USD)": [float(precio_sugerido.replace("from $", "").replace("$", "")) if precio_sugerido != 'N/A' else None]
}
# Crear el DataFrame
df_castle = pd.DataFrame(data)
df_castle.head()

# Descargar df en csv
df_castle.to_csv('castle.csv', index=False)

### **3:** 💬 Comentarios y opiniones

Con el siguiente scrapping traemos a un documento todos lo comentarios en el [foro](https://boardgamegeek.com/boardgame/371942/the-white-castle/forums).

In [13]:
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)
# Crear un nuevo documento Word
doc = Document()

# Función para scrapear los hilos individuales
def get_thread_details(thread_url):
    driver.get(thread_url)
    time.sleep(3)  # Esperar a que se cargue el contenido dinámico
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')

    # Buscar los comentarios dentro de las etiquetas <gg-markup-safe-html>
    comments = soup.find_all('gg-markup-safe-html')
    thread_content = ""

    for comment in comments:
        thread_content += comment.get_text(separator="\n", strip=True) + "\n\n"

    return thread_content

# Loop para iterar sobre varias páginas
for id in [1, 2, 3, 4]:
    url = f'https://boardgamegeek.com/boardgame/371942/the-white-castle/forums/0?pageid={id}'
    driver.get(url)
    time.sleep(3)

    # Obtener el HTML completo de la página cargada
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')

    # Seleccionar todos los <li> con la clase 'summary-item ng-scope'
    li_items = soup.find_all('li', class_='summary-item ng-scope')

    # Iterar sobre cada elemento <li>
    for li in li_items:
        # Extraer el título
        title = li.find('h3', class_='m-0 fs-sm text-inherit leading-inherit text-inline')
        if title:
            title_text = title.get_text(strip=True)
            doc.add_paragraph(f"Título: {title_text}")

        # Extraer el enlace del hilo
        link = li.find('a', {'ng-href': True})
        if link:
            thread_url = "https://boardgamegeek.com" + link['ng-href']

            # Obtener los detalles del hilo (comentarios)
            thread_details = get_thread_details(thread_url)
            doc.add_paragraph(thread_details)

        # Agregar un salto de página después de cada hilo
        doc.add_paragraph('')

# Guardar el documento Word con el contenido scrapeado
doc.save('comentarios.docx')
print("Documento guardado como 'comentarios.docx'")

# Cerrar el navegador al final
driver.quit()


Documento guardado como 'comentarios.docx'




---



Organizados los documentos que usaremos en la carpeta documentos, el archivo reseña.docx y el archivo comentarios.docx vamos a proceder a crear las bdds.
Cabe destacar que se accedera a los documentos a partir de una carpeta drive para no tener que repetir el proceso de recoleccion.

## Terminada la Recolección

In [16]:
# @title Docs
!gdown "1DGso0ohjApz582O2Csbn9-2mRvGW2p_0" --output "rulebook_english.docx"
!gdown "1mS1vO-bzjAC2zaLRZtStZ4rW-e_tbA4z" --output "quick_start_english.docx"
!gdown "1fzsEmSo3z-y3pocef1tpTx2hnCr28qF1" --output "reseña_español.docx"
!gdown "1c3_yLh7TluobQvNxZRdz_DaONxZbWyjN" --output "comentarios.docx"
!gdown "1K7yXNjC3yZyYIruafLb-93sWn8tkKtYX" --output "castle.csv"
df_castle = pd.read_csv('castle.csv')

Downloading...
From: https://drive.google.com/uc?id=1DGso0ohjApz582O2Csbn9-2mRvGW2p_0
To: /content/rulebook_english.docx
100% 30.6k/30.6k [00:00<00:00, 75.3MB/s]
Downloading...
From: https://drive.google.com/uc?id=1mS1vO-bzjAC2zaLRZtStZ4rW-e_tbA4z
To: /content/quick_start_english.docx
100% 21.0k/21.0k [00:00<00:00, 67.3MB/s]
Downloading...
From: https://drive.google.com/uc?id=1fzsEmSo3z-y3pocef1tpTx2hnCr28qF1
To: /content/reseña_español.docx
100% 31.1k/31.1k [00:00<00:00, 57.2MB/s]
Downloading...
From: https://drive.google.com/uc?id=1c3_yLh7TluobQvNxZRdz_DaONxZbWyjN
To: /content/comentarios.docx
100% 257k/257k [00:00<00:00, 87.7MB/s]
Downloading...
From: https://drive.google.com/uc?id=1K7yXNjC3yZyYIruafLb-93sWn8tkKtYX
To: /content/castle.csv
100% 150/150 [00:00<00:00, 683kB/s]


In [17]:
# Función para dividir texto en fragmentos más pequeños
def dividir_texto(texto, max_length=1000):
    palabras = texto.split()
    fragmentos = []
    fragmento_actual = ""

    for palabra in palabras:
        if len(fragmento_actual) + len(palabra) + 1 > max_length:
            fragmentos.append(fragmento_actual)
            fragmento_actual = palabra
        else:
            fragmento_actual += " " + palabra if fragmento_actual else palabra

    if fragmento_actual:
        fragmentos.append(fragmento_actual)

    return fragmentos

# Función para traducir un texto a inglés
def traducir_a_ingles(texto):
      fragmentos = dividir_texto(texto)
      traduccion = ""
      for fragmento in fragmentos:
          traduccion += ts.translate_text(fragmento, translator='bing', from_language='auto', to_language='en') + "\n"
      return traduccion



# Función para extraer texto de un archivo .docx
def extract_text_from_docx(file_path):
    try:
        doc = Document(file_path)
        text = "\n".join([para.text for para in doc.paragraphs])
        return text
    except Exception as e:
        print(f"Error al leer el archivo {file_path}: {e}")
        return ""

# Función para guardar texto en un archivo .docx
def save_text_to_docx(text, file_path):
    try:
        doc = Document()
        doc.add_paragraph(text)
        doc.save(file_path)
    except Exception as e:
        print(f"Error al guardar el archivo {file_path}: {e}")

# Procesar múltiples archivos
def procesar_archivos(file_names):
    for filename in file_names:
        if not os.path.exists(filename):
            print(f"El archivo {filename} no existe. Verifica la ruta.")
            continue

        try:
            # Extraer texto del archivo
            text = extract_text_from_docx(filename)
            if not text.strip():
                print(f"El archivo {filename} está vacío o no se pudo leer.")
                continue

            # Traducir texto a inglés
            translated_text = traducir_a_ingles(text)

            # Guardar el texto traducido en un nuevo archivo
            new_filename = f"translated_{os.path.basename(filename)}"
            save_text_to_docx(translated_text, new_filename)

            # Eliminar archivo original
            os.remove(filename)
            print(f"Archivo {filename} procesado y eliminado correctamente. Traducción guardada en {new_filename}.")
        except Exception as e:
            print(f"Error procesando el archivo {filename}: {e}")

# Lista de archivos a procesar
archivos = ["reseña_español.docx", "comentarios.docx"]
procesar_archivos(archivos)


Archivo reseña_español.docx procesado y eliminado correctamente. Traducción guardada en translated_reseña_español.docx.
Archivo comentarios.docx procesado y eliminado correctamente. Traducción guardada en translated_comentarios.docx.


## Construccion de Bases de Datos

### Base de Datos Vectorial

In [18]:
nlp = spacy.load("en_core_web_sm")

# Función para dividir texto en chunks por oraciones usando SpaCy
def dividir_texto_por_oraciones(texto, max_length=1000):
    doc = nlp(texto)
    oraciones = [sent.text for sent in doc.sents]
    fragmentos, fragmento_actual = [], ""

    for oracion in oraciones:
        if len(fragmento_actual) + len(oracion) + 1 > max_length:
            fragmentos.append(fragmento_actual.strip())
            fragmento_actual = oracion
        else:
            fragmento_actual += " " + oracion if fragmento_actual else oracion

    if fragmento_actual:
        fragmentos.append(fragmento_actual.strip())
    return fragmentos

# Función para extraer metadatos con NER y POS, refinados
def extraer_metadatos(texto):
    doc = nlp(texto)

    # Extraer entidades
    entidades = [ent.text for ent in doc.ents if ent.label_ in {"PERSON", "ORG", "GPE", "DATE", "TIME", "MONEY"}]

    # Extraer palabras clave relevantes: solo sustantivos (NOUN) y verbos (VERB)
    palabras_clave = [token.text for token in doc if token.pos_ in {"NOUN", "VERB"} and len(token.text) > 2]

    # Convertir las listas a strings
    return {
        "entities": ", ".join(entidades),  # Unir las entidades en un string separado por comas
        "keywords": ", ".join(palabras_clave)  # Unir las palabras clave en un string separado por comas
    }

# Función para calcular embeddings promediados
def average_pool(last_hidden_states: torch.Tensor, attention_mask: torch.Tensor) -> torch.Tensor:
    last_hidden = last_hidden_states.masked_fill(~attention_mask[..., None].bool(), 0.0)
    return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]

# Función para generar embeddings normalizados
def generar_embeddings(texto, tokenizer, model):
    inputs = tokenizer(texto, max_length=512, padding=True, truncation=True, return_tensors="pt")
    with torch.no_grad():
        outputs = model(**inputs)
        embeddings = average_pool(outputs.last_hidden_state, inputs['attention_mask'])
    return F.normalize(embeddings, p=2, dim=1).squeeze().numpy()

# Crear la conexión a ChromaDB
client_castle = chromadb.Client()

#client_castle.delete_collection(name="white_castle_embeddings")
collection = client_castle.create_collection(name="white_castle_embeddings")

# Procesar archivos y llenar la base de datos
def procesar_archivos_y_llenar_bd(file_names, tokenizer, model, collection):
    for filename in file_names:
        if not os.path.exists(filename):
            print(f"El archivo {filename} no existe. Verifica la ruta.")
            continue

        text = extract_text_from_docx(filename)
        if not text.strip():
            print(f"El archivo {filename} está vacío o no se pudo leer.")
            continue

        # Dividir el texto en chunks por oraciones
        chunks = dividir_texto_por_oraciones(text, max_length=1000)

        # Determinar el tipo de archivo basado en el nombre (por ejemplo, por el título del archivo)
        if "rulebook" in filename:
            tipo = "rules"
        elif "comentarios" in filename:
            tipo = "comments"
        elif "quick_start" in filename:
            tipo = "quick_start"
        elif "reseña" in filename:
            tipo = "review"
        else:
            tipo = "unknown"  # Si no se reconoce, se marca como "unknown"

        for i, chunk in enumerate(chunks):
            try:
                # Generar embeddings
                embedding = generar_embeddings(chunk, tokenizer, model)

                # Extraer metadatos dinámicos con NER y POS
                dynamic_metadata = extraer_metadatos(chunk)

                # Combinar metadatos
                metadatos = {**dynamic_metadata, "type": tipo, "filename": filename}

                # Agregar a la base de datos
                collection.add(
                    documents=[chunk],
                    metadatas=[metadatos],
                    ids=[str(uuid.uuid4())],
                    embeddings=[embedding]
                )
            except Exception as e:
                print(f"Error al procesar el chunk {i} del archivo {filename}: {e}")

# Configuración del modelo y tokenizador
tokenizer_e5 = AutoTokenizer.from_pretrained('intfloat/multilingual-e5-small')
model_e5 = AutoModel.from_pretrained('intfloat/multilingual-e5-small')

# Lista de archivos a procesar
archivos = ["quick_start_english.docx", "rulebook_english.docx", "translated_comentarios.docx", "translated_reseña_español.docx"]

procesar_archivos_y_llenar_bd(archivos, tokenizer_e5, model_e5, collection)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/443 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/167 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/655 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/471M [00:00<?, ?B/s]

In [19]:
def realizar_consulta(texto, tokenizer, model, collection, k=3):
    # Generar el embedding del texto de consulta
    embedding = generar_embeddings(texto, tokenizer, model)

    # Realizar la búsqueda en la colección de ChromaDB
    resultados = collection.query(
        query_embeddings=[embedding],
        n_results=k  # Número de resultados que deseas obtener
    )

    # Mostrar los resultados de la consulta
    for i, result in enumerate(resultados['documents']):
        print(f"Resultado {i+1}:")
        print(f"Texto: {result}")
        print(f"Metadatos: {resultados['metadatas'][i]}")
        print("-" * 50)

# Consulta de ejemplo
texto_consulta = "Explain the rules of the game."

# Realizar la consulta en la colección
realizar_consulta(texto_consulta, tokenizer_e5, model_e5, collection)


Resultado 1:
Texto: ["Throughout the game, you are going to send your Courtiers, your Warriors, and your Gardeners out into the land to curry favour with the Emperor so that you can earn your prestige. The player with the most prestige at the end of the game wins. The entire game lasts nine turns, so, in case you missed it in the first paragraph. This game is very tight. In your turn you will pick up one die from one of the three bridges, here you'll need to pick either the highest\nnumber die or the lowest number die and depending on its colour or its number you will place it on one of the action slots on the board (all of which change every game). You will then fire off the action of that location. And maybe some sub-actions. And maybe some more sub actions; if you've been really, really clever. Turn then passes to your opponent where they will do something similar. However, no matter what they do, their action is pretty much guaranteed to utterly piss in your chips. Play continues t

### Base de Datos de Grafos

In [None]:

# Configuración de Neo4j
NEO4J_URI = "neo4j+s://db16de97.databases.neo4j.io"
NEO4J_USERNAME = "neo4j"
NEO4J_PASSWORD = "PYNWCagVuuOIaUJ1Ef9-lyiB0WbcQ5CrwfhFHwWjM_M"

# Crear el cliente de Hugging Face con tu API Key
qwen_client = InferenceClient(api_key="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")


# Función para leer archivos .docx y dividir el texto en fragmentos
def leer_documento(file_path, max_length=1000):
    try:
        # Leer el documento .docx
        doc = docx.Document(file_path)
        texto = "\n".join([parrafo.text.strip() for parrafo in doc.paragraphs])

        # Dividir el texto en fragmentos si excede el max_length
        palabras = texto.split()
        fragmentos = []
        fragmento_actual = ""

        for palabra in palabras:
            if len(fragmento_actual) + len(palabra) + 1 > max_length:
                fragmentos.append(fragmento_actual)
                fragmento_actual = palabra
            else:
                fragmento_actual += " " + palabra if fragmento_actual else palabra

        if fragmento_actual:
            fragmentos.append(fragmento_actual)

        return fragmentos
    except Exception as e:
        print(f"Error al leer el archivo {file_path}: {e}")
        return []

# Función para extraer las tríadas RDF de un párrafo
def extraer_triadass_rdf(texto_parrafo):
    try:
        # Usar el cliente de Hugging Face para obtener la respuesta del modelo
        response = qwen_client.chat.completions.create(
            model="Qwen/Qwen2.5-72B-Instruct",
            messages=[{
                    "role": "system",
                    "content": (
                        "You are a system used to generate a triplet for a graph in Neo4j aura database. "
                        "Your priority must be finding relevant information related to the game The White Castle"
                        "like the designer or the creators of the game."
                        "Look for clear relationships, do not pass ambiguous texts. "
                        "Your output must be like this: (subject, predicate, object)"
                    ),
                },
                {"role": "user", "content": f"extract this in RDF triples: {texto_parrafo}"}
            ],
            max_tokens=500
        )

        triadass_rdf_texto = response.choices[0].message['content'].strip()
        if not triadass_rdf_texto:
            print("No triples found.")
            return []

        print(triadass_rdf_texto)
        return triadass_rdf_texto
    except Exception as e:
        print(f"Error al obtener la respuesta del modelo: {e}")
        return []

# Función para parsear las tríadas RDF extraídas
def parsear_triadass_rdf(texto):
    triadass = []
    lineas = texto.split("\n")
    for linea in lineas:
        if linea.strip():
            # Asumimos que las tripletas se presentan entre paréntesis
            partes = linea.replace('(', '').replace(')', '').split(",")  # Separar por comas y eliminar paréntesis
            if len(partes) == 3:
                sujeto = partes[0].strip()
                predicado = partes[1].strip()
                objeto = partes[2].strip()

                # Verificación de que los tripletes sean válidos
                if sujeto and predicado and objeto:
                    triadass.append((sujeto, predicado, objeto))
                else:
                    print(f"Invalid triplet: {linea}")
    return triadass


def almacenar_triadass_rdf(triadass, driver):
    session = driver.session()
    for sujeto, predicado, objeto in triadass:
        try:
            # Asegurarse de que los nombres no contengan comillas o saltos de línea que causen problemas
            sujeto = sujeto.replace("'", "\\'").replace('"', '\\"')
            objeto = objeto.replace("'", "\\'").replace('"', '\\"')

            # Crear los nodos (sujeto y objeto)
            cypher_query = f"""
            MERGE (sujeto:Subject {{name: '{sujeto}'}})
            MERGE (objeto:Object {{name: '{objeto}'}})
            """

            # Crear la relación (predicado), reemplazando guiones por guiones bajos y asegurando que todo esté en mayúsculas
            predicado_formateado = predicado.replace(' ', '_').replace('-', '_').upper()

            cypher_query += f"""
            MERGE (sujeto)-[:{predicado_formateado}]->(objeto)
            """

            # Ejecutar la consulta
            session.run(cypher_query)
        except Exception as e:
            print(f"Error al procesar la tríada ({sujeto}, {predicado}, {objeto}): {e}")
    session.close()



# Función para procesar múltiples archivos y almacenarlos en Neo4j
def procesar_documentos(archivos, driver):
    for file_path in archivos:
        print(f"Procesando el archivo: {file_path}")
        parrafos = leer_documento(file_path)
        for parrafo in parrafos:
            print(f"Extrayendo tríadas para el párrafo: {parrafo}")
            triadass_rdf_texto = extraer_triadass_rdf(parrafo)
            if triadass_rdf_texto:  # Solo procesar si se extrajeron tríadas
                triadass = parsear_triadass_rdf(triadass_rdf_texto)
                if triadass:
                    almacenar_triadass_rdf(triadass, driver)
                else:
                    print(f"No se encontraron tríadas válidas en el párrafo: {parrafo}")

# Función principal para inicializar la conexión con Neo4j y procesar los documentos
def main():
    # Conectar a Neo4j
    driver = GraphDatabase.driver(NEO4J_URI, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))

    # Archivos a procesar
    archivos = ["quick_start_english.docx", "rulebook_english.docx", "translated_reseña_español.docx"]
    # Procesar los documentos y almacenar las tríadas RDF en Neo4j
    procesar_documentos(archivos, driver)

    # Cerrar la conexión con Neo4j
    driver.close()

if __name__ == "__main__":

    main()


Procesando el archivo: quick_start_english.docx
Extrayendo tríadas para el párrafo: white castle setup place board, rnd marker on 1, steward diplomat decks on castle level 1 cl1 2. fill card slots w 1 faceup card if all cards show the same dark bg action, redo. place 1 faceup daimyo card on cl3. Place 1 dietile of each color randomly decided on green spaces on cl1, then fill all rooms randomly in numerical order if all die tiles would match color, place the last tile in the next space instead. well tiles go dieside down. place 345 dice in ascending order on bridges for 234 players. seed garden w faceup cards match rockplant training yards yard wall tiles match color. player setup take domain board db, place 15 clan meeples, 3 cubes on 0 space. place fan tokens beside clan pts cp track heron tokens on turn order track randomly. stack influence markers on passage of time pot track in turn order, 1st on top. place p1 orange cards faceup paired with yellow cards. draft 1 pair in reverse tu

## Clasificador Basado en modelo entrenado con ejemplos

In [None]:
# Cargar modelo de embeddings
model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')

# Dataset ampliado de prompts
dataset = [
    # Reglas (rules)
    (0, "¿Cuáles son las reglas para construir un edificio?"),
    (0, "¿Qué pasa si hay un empate en los puntos?"),
    (0, "¿Cuántas acciones puedo realizar en un turno?"),
    (0, "¿Qué ocurre si no puedo pagar un recurso necesario?"),
    (0, "¿Cómo se resuelve un desempate en el final del juego?"),
    (0, "¿Puedo construir más de un edificio en un solo turno?"),
    (0, "¿Qué limitaciones existen para colocar fichas?"),
    (0, "¿Es obligatorio usar todos los recursos en un turno?"),
    (0, "¿Qué pasa si termino un turno con más de tres cartas?"),
    (0, "¿Cómo se distribuyen los puntos al final del juego?"),
    (0, "¿Puedo intercambiar recursos con otros jugadores?"),
    (0, "¿Qué acciones están permitidas en la fase de preparación?"),
    (0, "¿Cuántos turnos tiene cada ronda?"),
    (0, "¿Cuál es el orden para activar habilidades especiales?"),
    (0, "¿Qué reglas aplican para las cartas especiales?"),
    (0, "¿Puedo usar habilidades en el turno de otro jugador?"),
    (0, "¿Qué ocurre si el mazo de cartas se agota?"),
    (0, "¿Hay un límite de fichas que puedo usar en un turno?"),

    # Reseñas (reviews)
    (1, "¿Qué opinan los jugadores sobre la temática del juego?"),
    (1, "¿Este juego es recomendado para principiantes?"),
    (1, "¿Cómo describen los jugadores la complejidad del juego?"),
    (1, "¿Qué tan rejugable es este juego según las reseñas?"),
    (1, "¿Es un buen juego para jugar en familia?"),
    (1, "¿Cuál es la duración típica de una partida?"),
    (1, "¿Qué tan equilibradas están las estrategias disponibles?"),
    (1, "¿Cómo se compara este juego con otros del mismo género?"),
    (1, "¿Los componentes del juego tienen buena calidad?"),
    (1, "¿Qué aspectos destacan más los jugadores en sus reseñas?"),
    (1, "¿Hay alguna reseña negativa sobre el juego?"),
    (1, "¿Este juego es más adecuado para expertos o principiantes?"),
    (1, "¿Qué tan divertido es jugar con grupos grandes?"),
    (1, "¿Las reglas son fáciles de aprender según las reseñas?"),
    (1, "¿Los gráficos del juego ayudan a la inmersión?"),
    (1, "¿Es un juego más social o estratégico?"),
    (1, "¿Los jugadores mencionan algún problema recurrente en el diseño?"),
    (1, "¿Se necesitan expansiones para disfrutar el juego al máximo?"),

    # Comentarios (comments)
    (2, "¿Cuáles son las mejores estrategias iniciales?"),
    (2, "¿Hay estrategias avanzadas para ganar más puntos?"),
    (2, "¿Qué tipo de combinaciones de cartas son más efectivas?"),
    (2, "¿Cómo maximizar los recursos en las primeras rondas?"),
    (2, "¿Es mejor centrarse en la defensa o en la ofensiva?"),
    (2, "¿Qué habilidades son más útiles para principiantes?"),
    (2, "¿Hay estrategias específicas para jugar con 2 jugadores?"),
    (2, "¿Cuál es la mejor manera de gestionar los recursos limitados?"),
    (2, "¿Cómo sacar ventaja de los bonos de las cartas especiales?"),
    (2, "¿Qué tácticas recomiendan los jugadores experimentados?"),
    (2, "¿Cómo adaptar la estrategia dependiendo de los oponentes?"),
    (2, "¿Es más beneficioso priorizar los edificios grandes?"),
    (2, "¿Qué estrategias funcionan mejor en partidas rápidas?"),
    (2, "¿Cómo influye el orden de turno en la estrategia?"),
    (2, "¿Cuál es el mejor momento para usar cartas especiales?"),
    (2, "¿Qué cartas son clave para asegurar la victoria?"),
    (2, "¿Cómo combinar habilidades de edificios para optimizar el puntaje?"),
    (2, "¿Qué errores comunes se deben evitar en estrategias avanzadas?"),
]


# Mapeo de categorías
categories = {0: "rules", 1: "reviews", 2: "comments"}

# Preparar datos
X = [text for _, text in dataset]
y = [label for label, _ in dataset]

# Generar embeddings para el dataset
X_vectorized = model.encode(X)

# Dividir datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_vectorized, y, test_size=0.2, random_state=42)

# Entrenar el modelo
classifier = LogisticRegression(max_iter=1000)
classifier.fit(X_train, y_train)

# Evaluar el modelo
y_pred = classifier.predict(X_test)
print("Precisión:", accuracy_score(y_test, y_pred))
print("Reporte de clasificación:\n", classification_report(y_test, y_pred))

# Nuevos prompts de prueba
new_prompts = [
    "¿Qué dice el manual sobre el uso de cartas especiales?",
    "¿Es este juego adecuado para jugadores avanzados?",
    "¿Cómo recomiendan jugar en partidas de 2 jugadores?",
    "¿Qué pasa si se agotan los recursos en el tablero?",
    "¿Es más divertido jugar en parejas o individualmente?",
    "¿Qué estrategias funcionan mejor con 4 jugadores?",
]
new_embeddings = model.encode(new_prompts)
new_predictions = classifier.predict(new_embeddings)

# Mostrar resultados
for prompt, pred in zip(new_prompts, new_predictions):
    print(f"Prompt: '{prompt}' - Clasificación: {categories[pred]}")


#Esplicacion que justifique la proxima implementaion de un clasificador basado en LLm

## Queries Dinamicas



#### Doc Search

In [None]:
class DocSearch:
    def __init__(self, db_client: chromadb.Client, collection: chromadb.Collection):
        """
        Inicializa el buscador híbrido para realizar búsqueda semántica y por palabras clave.
        """
        self.db_client = db_client
        self.collection = collection
        self.tokenizer_e5 = AutoTokenizer.from_pretrained('intfloat/multilingual-e5-small')
        self.model_e5 = AutoModel.from_pretrained('intfloat/multilingual-e5-small')

        # Configuración del dispositivo (GPU si está disponible)
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        self.model_e5.to(self.device)

    def realizar_consulta(self, texto, k=3):
        """
        Realiza la consulta generando el embedding y buscando en la base de datos ChromaDB.
        """
        # Generar el embedding del texto de consulta
        embedding = generar_embeddings(texto, self.tokenizer_e5, self.model_e5)

        # Realizar la búsqueda en la colección de ChromaDB
        resultados = self.collection.query(
            query_embeddings=[embedding],
            n_results=k  # Número de resultados que deseas obtener
        )

        # Devolver los resultados (documentos y sus metadatos)
        return resultados['documents'], resultados['metadatas']  # Devuelves también los metadatos

    def hybrid_search(self, prompt: str, n_results: int = 5):
        """
        Realiza una búsqueda híbrida (semántica y por palabras clave) sobre los documentos.
        :param prompt: Consulta de búsqueda que será procesada.
        :param n_results: Número de resultados que se deben retornar.
        :return: Resultados de la búsqueda híbrida (documentos más relevantes y sus metadatos).
        """
        # Paso 1: Búsqueda semántica (embedding)
        semantic_results, semantic_metadatas = self.realizar_consulta(prompt, k=n_results)

        # Paso 2: Búsqueda por palabras clave (en este caso buscamos un match simple de palabras clave)
        keyword_results = self.collection.query(
            query_texts=[prompt],
            n_results=n_results
        )

        # Paso 3: Combinar los resultados semánticos y por palabras clave
        semantic_results_texts = [result for result in semantic_results]  # Extrae el texto de los resultados
        semantic_scores = [1.0] * len(semantic_results)  # Suponiendo que no hay un puntaje específico

        # Búsqueda por palabras clave
        keyword_results_texts = [result for result in keyword_results['documents']]  # Extrae el texto de los resultados
        keyword_scores = [1.0] * len(keyword_results['documents'])  # Suponiendo que no hay un puntaje específico

        # Ajustar la combinación de resultados
        combined_scores = np.array(semantic_scores) * 0.25 + np.array(keyword_scores) * 0.11
        combined_scores = np.clip(combined_scores, 0, 0.99)  # Evitar puntajes máximos de 1

        combined_results = list(zip(semantic_results_texts, keyword_results_texts, combined_scores))

        # Devolver los resultados más relevantes con sus metadatos
        return combined_results[:n_results], semantic_metadatas





#### Tabular Search

In [None]:
class TabularSearch:
    def __init__(self, data_frame: pd.DataFrame):
        """
        Inicializa la clase de búsqueda tabular con parámetros fijos.

        :param data_frame: DataFrame de Pandas donde se realizará la búsqueda.
        """
        self.data_frame = data_frame
        self.temperature = 0.4  # Configuración fija
        self.stop_sequences = ["END_RESPONSE"]  # Configuración fija

    def query_model_for_tabular(self, prompt: str) -> str:
        """
        Envía un prompt al modelo Qwen para generar la consulta tabular.

        :param prompt: Prompt que incluye instrucción, contexto, entrada, y salida deseada.
        :return: Consulta generada por el modelo.
        """
        try:
            response = qwen_client.chat.completions.create(
                model="Qwen/Qwen2.5-72B-Instruct",
                messages=[
                    {
                        "role": "system",
                        "content": (
                            "You are a system used to generate a query to a tabular search into a dataframe. "
                            "The dataframe contains the following columns: "
                            "'Rating', 'Year', 'Review Count', 'Min Players', 'Max Players', 'Play Time (min)', "
                            "'Suggested Age', 'Complexity', 'Likes', 'Price (USD)'. "
                            "Your queries should be simple and direct. You just need to give the column content"
                            "You have only one observation so dont extend the query"
                            "Your Output must be just the code to access the column"
                        ),
                    },
                    {"role": "user", "content": prompt},
                ],
                max_tokens=100,
                temperature=self.temperature,
                stop=self.stop_sequences,
            )
            return response.choices[0].message["content"].strip()
        except Exception as e:
            raise Exception(f"Error al llamar al modelo Qwen: {e}")

    def tabular_search(self, prompt: str):
        """
        Realiza una búsqueda tabular basada en el prompt generado.

        :param prompt: Prompt que el modelo usará para generar una consulta.
        :return: Resultado filtrado del DataFrame o None si ocurre un error.
        """
        try:
            # Llamar al modelo para generar la consulta tabular
            tabular_query = self.query_model_for_tabular(prompt)
            print(f"Consulta generada: {tabular_query}")
            cleaned_tabular_query = tabular_query.replace('```python', '').replace("```", '').replace("df", 'df_castle').strip()

            # Usar eval() para las consultas que involucran expresiones más complejas
            result = eval(f"{cleaned_tabular_query}")

            if result.empty:
                print("No se encontraron resultados para la consulta.")
            return result
        except Exception as e:
            print(f"Error al realizar la búsqueda tabular: {e}")
            return None


#### Graph Search

In [None]:
class GraphSearch:
    def __init__(self, graph_client, api_key: str):
        """
        Inicializa la clase para búsquedas en una base de datos de grafos.

        :param graph_client: Cliente conectado a la base de datos de grafos.
        :param api_key: Clave de API para autenticar el cliente de Hugging Face.
        """
        self.api_key = api_key  # Usar el valor correcto de la API del modelo
        self.headers = {"Authorization": f"Bearer {self.api_key}"}
        self.graph_client = graph_client
        self.temperature = 0.4  # Configuración fija para la generación del modelo
        self.stop_sequences = ["END_RESPONSE"]  # Configuración fija para el modelo

    def query_model_for_cypher(self, prompt: str) -> str:
        """
        Envía el prompt al modelo Qwen para generar una consulta Cypher.

        :param prompt: Prompt que incluye instrucción, contexto y salida deseada.
        :return: Consulta Cypher generada por el modelo.
        """
        try:
            # Llamar al modelo para obtener la consulta Cypher
            response = qwen_client.chat.completions.create(
                model="Qwen/Qwen2.5-72B-Instruct",
                messages=[{
                    "role": "system",
                    "content": (
                        "You are a system specialized in generating Cypher queries for graph databases. "
                        "The database contains nodes and relationships related to the board game The White castle, "
                        "connections, and preferences. Generate queries that are direct and executable."
                        "Output must be just code and you will always ask for relations with the node The White castle"
                    ),
                }, {
                    "role": "user",
                    "content": prompt,
                }],
                max_tokens=500,
                temperature=self.temperature,
                stop=self.stop_sequences,
            )


            return response.choices[0].message["content"].strip()

        except Exception as e:
            print(f"Error al llamar al modelo Qwen: {e}")
            return None

    def graph_search(self, prompt: str):
        """
        Genera una consulta Cypher y la ejecuta en la base de datos de grafos.

        :param prompt: Prompt para que el modelo genere la consulta Cypher.
        :return: Resultado de la búsqueda o None si ocurre un error.
        """
        try:
            # Generar la consulta Cypher usando el modelo
            cypher_query = self.query_model_for_cypher(prompt)
            if cypher_query is None:
                return None

            print(f"Consulta generada: {cypher_query}")

            # Ejecutar la consulta en el cliente de grafos
            with self.graph_client.session() as session:
                result = session.run(cypher_query)
                return result.data()  # Retorna los resultados de la consulta
        except Exception as e:
            print(f"Error al realizar la búsqueda en grafos: {e}")
            return None




In [None]:
# Crear el cliente de Neo4j
graph_client = GraphDatabase.driver(NEO4J_URI, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))

api_key = "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"
graph_search = GraphSearch(graph_client=graph_client, api_key=api_key)

# Ejemplo de un prompt para hacer una consulta en Neo4j
prompt = ""

# Ejecutar la búsqueda en grafos
resultados = graph_search.graph_search(prompt)

# Imprimir los resultados
if resultados:
    print("Resultados de la búsqueda:")
    print(resultados)
else:
    print("No se encontraron resultados o hubo un error en la consulta.")

# Cerrar la conexión con Neo4j cuando hayas terminado
graph_client.close()


Consulta generada: ```cypher
MATCH (t:Game {name: 'The White Castle'})-[:CONNECTED_TO]-(entity)
RETURN entity
```
Error al realizar la búsqueda en grafos: {code: Neo.ClientError.Statement.SyntaxError} {message: Invalid input '```cypher\nMATCH (t:Game {name: 'The White Castle'})-[:CONNECTED_TO]-(entity)\nRETURN entity\n```': expected 'FOREACH', 'ALTER', 'ORDER BY', 'CALL', 'USING PERIODIC COMMIT', 'CREATE', 'LOAD CSV', 'START DATABASE', 'STOP DATABASE', 'DEALLOCATE', 'DELETE', 'DENY', 'DETACH', 'DROP', 'DRYRUN', 'FINISH', 'GRANT', 'INSERT', 'LIMIT', 'MATCH', 'MERGE', 'NODETACH', 'OFFSET', 'OPTIONAL', 'REALLOCATE', 'REMOVE', 'RENAME', 'RETURN', 'REVOKE', 'ENABLE SERVER', 'SET', 'SHOW', 'SKIP', 'TERMINATE', 'UNWIND', 'USE' or 'WITH' (line 1, column 1 (offset: 0))
"```cypher"
 ^}
No se encontraron resultados o hubo un error en la consulta.


## Clasificador Basado en LLM

In [None]:
class Classifier:
  pass

# Rag Pipeline

In [None]:
from transformers import pipeline

# Inicialización de pipelines de HuggingFace
conversational_model = pipeline("text2text-generation", model="google/byt5-small")

class Chatbot:
    """
    Esta clase representa al chatbot principal. El chatbot será un modelo conversacional basado en LLM.
    """
    def __init__(self, conversational_model, max_length=1000, temperature=0.6):
        self.conversational_model = conversational_model
        self.history = []
        self.max_length = max_length
        self.temperature = temperature

    def generate_response(self, user_prompt):
        """
        Genera una respuesta basada en el prompt del usuario, considerando el historial del chatbot.

        :param user_prompt: El mensaje del usuario.
        :return: La respuesta generada por el modelo.
        """
        # Concatenar historial con la consulta actual
        context = "\n".join(self.history + [user_prompt])

        # Generar la respuesta utilizando el modelo conversacional
        response = self.conversational_model(
            context,
            max_length=self.max_length,
            temperature=self.temperature,
            num_return_sequences=1
        )

        # Extraer el texto generado y actualizar el historial
        generated_text = response[0]['generated_text']
        self.history.append(user_prompt)
        self.history.append(generated_text)

        # Limitar el tamaño del historial para evitar un crecimiento indefinido
        if len(self.history) > 10:  # Mantener solo los últimos 20 intercambios
            self.history = self.history[-10:]

        return generated_text


class ChatbotPipeline:
    def __init__(self, chatbot, classifier, doc_search, tabular_search, graph_search):
        """
        Inicializa el pipeline principal para interactuar con el chatbot y realizar búsquedas.

        :param chatbot: Instancia del chatbot principal.
        :param classifier: Modelo de clasificación de consultas.
        :param doc_search: Instancia de DocSearch.
        :param tabular_search: Instancia de TabularSearch.
        :param graph_search: Instancia de GraphSearch.
        """
        self.chatbot = chatbot
        self.classifier = classifier
        self.doc_search = doc_search
        self.tabular_search = tabular_search
        self.graph_search = graph_search

    def process_query(self, user_query):
        """
        Procesa una consulta del usuario a través del chatbot y redirige la búsqueda según la clasificación.

        :param user_query: Consulta proporcionada por el usuario.
        :return: Respuesta generada para el usuario.
        """
        # Paso 1: Clasificar la consulta
        classification = self.classifier.classify(user_query) if self.classifier else "document"
        print(f"Consulta clasificada como: {classification}")

        # Paso 2: Realizar la búsqueda en el módulo correspondiente
        if classification == "document":
            print("Realizando búsqueda en documentos...")
            results, metadata = self.doc_search.hybrid_search(user_query)
            response = self.format_results(results, metadata)

        elif classification == "tabular":
            print("Realizando búsqueda en tabla...")
            results = self.tabular_search.tabular_search(user_query)
            response = results.to_string() if results is not None else "No se encontraron resultados."

        elif classification == "graph":
            print("Realizando búsqueda en grafo...")
            results = self.graph_search.graph_search(user_query)
            response = results if results else "No se encontraron resultados."

        else:
            response = "Lo siento, no pude entender tu consulta. ¿Podrías reformularla?"

        # Si la clasificación no es "document", puedes llamar al chatbot
        if classification != "document":
            chatbot_response = self.chatbot.generate_response(user_query)
            return chatbot_response

        return response

    @staticmethod
    def format_results(results, metadata):
        """
        Formatea los resultados para presentarlos al usuario.

        :param results: Resultados de la búsqueda.
        :param metadata: Metadatos asociados a los resultados.
        :return: Cadena formateada de los resultados.
        """
        formatted = []
        for doc, meta in zip(results, metadata):
            formatted.append(f"Documento: {doc}\nMetadatos: {meta}\n")
        return "\n".join(formatted)


# ***The White Castle Chatbot***
## Chat whith an expert in the famous board game

In [None]:
# Inicializar los módulos
chatbot = Chatbot(conversational_model)
classifier = Classifier(classifier_model)

# Inicializar buscadores con sus configuraciones respectivas
doc_search = DocSearch(client_castle, collection)  # db_client y collection deben estar definidos
tabular_search = TabularSearch(df_castle)  # data_frame debe estar definido
graph_search = GraphSearch(api_key, graph_client)  # Configurar estos parámetros

# Crear el pipeline
pipeline = ChatbotPipeline(chatbot, classifier, doc_search, tabular_search, graph_search)

# Loop principal para interactuar con el usuario
print("Bienvenido al sistema de búsqueda asistida. Escribe 'salir' para terminar.")
while True:
    user_query = input("\nUsuario: ")
    if user_query.lower() == "salir":
        print("Gracias por usar el sistema. ¡Hasta luego!")
        break

    # Procesar la consulta a través del pipeline
    response = pipeline.process_query(user_query)
    print(f"\nRespuesta: {response}")


In [None]:
#@title Citas
@misc{qwen2.5,
    title = {Qwen2.5: A Party of Foundation Models},
    url = {https://qwenlm.github.io/blog/qwen2.5/},
    author = {Qwen Team},
    month = {September},
    year = {2024}
}

@article{qwen2,
      title={Qwen2 Technical Report},
      author={An Yang and Baosong Yang and Binyuan Hui and Bo Zheng and Bowen Yu and Chang Zhou and Chengpeng Li and Chengyuan Li and Dayiheng Liu and Fei Huang and Guanting Dong and Haoran Wei and Huan Lin and Jialong Tang and Jialin Wang and Jian Yang and Jianhong Tu and Jianwei Zhang and Jianxin Ma and Jin Xu and Jingren Zhou and Jinze Bai and Jinzheng He and Junyang Lin and Kai Dang and Keming Lu and Keqin Chen and Kexin Yang and Mei Li and Mingfeng Xue and Na Ni and Pei Zhang and Peng Wang and Ru Peng and Rui Men and Ruize Gao and Runji Lin and Shijie Wang and Shuai Bai and Sinan Tan and Tianhang Zhu and Tianhao Li and Tianyu Liu and Wenbin Ge and Xiaodong Deng and Xiaohuan Zhou and Xingzhang Ren and Xinyu Zhang and Xipin Wei and Xuancheng Ren and Yang Fan and Yang Yao and Yichang Zhang and Yu Wan and Yunfei Chu and Yuqiong Liu and Zeyu Cui and Zhenru Zhang and Zhihao Fan},
      journal={arXiv preprint arXiv:2407.10671},
      year={2024}
}
