# **Trabajo Pr√°ctico Final - TUIA NLP 2024**

## 1. **Chatbot experto con RAG**
## 2. **Agente ReAct**



### **Autor**: Tom√°s Valentino Avecilla
### **legajo**: A-4239/9
### **Fecha**: 18 de diciembre de 2024
### **Materia**: Procesamiento del Lenguaje Natural (NLP)  
### **Instituci√≥n**: Facultad de Ciencias Exactas, ingenieria y Agrimensura - UNR

---

## **Descripci√≥n del Trabajo**
Este cuaderno contiene el desarrollo del Trabajo Pr√°ctico Final para la materia NLP. El objetivo es implementar un **chatbot experto** sobre un juego de mesa tipo Eurogame, utilizando las t√©cnicas de **Retrieval-Augmented Generation (RAG)** y **Agentes ReAct**.

El proyecto incluye:
- Recolecci√≥n de informaci√≥n desde m√∫ltiples fuentes: PDFs, webs, etc...
- Construcci√≥n de bases de datos vectorial, tabular y de grafo.
- Implementaci√≥n de clasificadores y sistemas de recuperaci√≥n din√°mica de informaci√≥n.
- Desarrollo de un agente que combina herramientas para responder consultas complejas.



## Preparaci√≥n del Entorno de Trabajo

In [None]:
%%capture
# --- 1. Actualizaci√≥n del Sistema ---
!apt-get update
!apt-get install -y poppler-utils tesseract-ocr tesseract-ocr-spa tesseract-ocr-eng  # Herramientas de OCR y dependencias
!pip install python-decouple

# --- 2. Instalaci√≥n de Bibliotecas Generales ---
!pip install gdown requests python-docx  # Descarga de archivos, solicitudes web, manejo de archivos docx

# --- 3. Procesamiento de Im√°genes y OCR ---
!pip install pdf2image pytesseract  # Extracci√≥n de im√°genes y OCR desde PDFs

# --- 4. Web Scraping y Automatizaci√≥n ---
!pip install selenium webdriver-manager  # Automatizaci√≥n de navegaci√≥n web

# --- 5. Procesamiento del Lenguaje Natural ---
!pip install transformers  # Modelos de Hugging Face y Sentence Transformers
!pip install --upgrade sentence_transformers
!python -m spacy download es_core_news_md en_core_web_sm  # Modelo en espa√±ol para spaCy
!pip install translators  # Traducci√≥n autom√°tica de texto
!pip install langdetect

# --- 6. Bases de Datos ---
!pip install --upgrade chromadb neo4j pydgraph  # Bases de datos vectoriales, de grafos y almacenamiento

# --- 7. Modelos de Machine Learning y Deep Learning ---
!pip install torch
!pip install --upgrade huggingface_hub
!pip install rank_bm25
!pip install --upgrade tokenizers

# --- 8. Herramientas para Agentes ReAct ---
!pip install llama-index-llms-ollama llama-index pygoogleweather wikipedia  # Agentes y conectores para datos externos
!pip install ollama


In [7]:
%%capture

# --- 1. Importaciones B√°sicas y Manejo de Archivos ---
import os
import re
import time
import uuid
import unicodedata
from collections import defaultdict
from concurrent.futures import ThreadPoolExecutor
import logging
from time import time
import json
import numpy as np
import pandas as pd
from PIL import Image
import docx
from docx import Document

# --- 2. Procesamiento de Im√°genes y OCR ---
from pdf2image import convert_from_path
import pytesseract

# --- 3. Web Scraping ---
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager

# --- 4. Procesamiento del Lenguaje Natural ---
import spacy
from spacy.matcher import Matcher
import translators as ts
from langdetect import detect
from langchain.text_splitter import RecursiveCharacterTextSplitter

# --- 5. Modelos & Embeddings ---
import torch
import torch.nn.functional as F
from sklearn.metrics.pairwise import cosine_similarity
from torch import Tensor
from transformers import AutoTokenizer, AutoModel, AutoModelForCausalLM, pipeline
from sentence_transformers import SentenceTransformer, util
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score
from huggingface_hub import InferenceClient
from rank_bm25 import BM25Okapi
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')


# --- 6. Bases de Datos ---
import chromadb  # Base de datos vectorial
from neo4j import GraphDatabase  # Base de datos de grafos




## Recolecci√≥n de Informaci√≥n

### **1:** üéÆ Reglas y Jugabilidad

#### Archivos Descargados

Primero vamos a usar dos documentos descargados de la seccion ***files*** del sitio BGG _[link](https://boardgamegeek.com/boardgame/371942/the-white-castle/files)_
Contamos con 3 documentos PDF


1.   Reglamento en Ingles
2.   Guia Rapida en ingles




In [None]:
!gdown "1UnwbtxzLsqUMgN2JT-xGayOHgm1B6ZGi" --output "reglamento_en.pdf"
!gdown "1k_cyEVOoBqrP3od8dYUKFAQ4sLPaRzVI" --output "qs_en.pdf"

Downloading...
From: https://drive.google.com/uc?id=1UnwbtxzLsqUMgN2JT-xGayOHgm1B6ZGi
To: /content/reglamento_en.pdf
100% 13.2M/13.2M [00:00<00:00, 23.1MB/s]
Downloading...
From: https://drive.google.com/uc?id=1k_cyEVOoBqrP3od8dYUKFAQ4sLPaRzVI
To: /content/qs_en.pdf
100% 446k/446k [00:00<00:00, 105MB/s]


Los 2 PDFs son imagenes por lo cual vamos a tener que extraer el texto y para eso usaremos un ocr

In [None]:
# Funci√≥n para crear carpetas si no existen
def crear_carpeta(nombre_carpeta):
    if not os.path.exists(nombre_carpeta):
        os.makedirs(nombre_carpeta)

# Carpetas para guardar las im√°genes
carpeta_en = "imgs_reglamento_en"
carpeta_qs = "imgs_qs_en"

# Crear carpetas
crear_carpeta(carpeta_en)
crear_carpeta(carpeta_qs)

# Convertir PDFs en listas de im√°genes
imgs_reglamento_en = convert_from_path("reglamento_en.pdf")
imgs_qs_en = convert_from_path("qs_en.pdf")

# Guardar las im√°genes en sus carpetas correspondientes
for i, imagen in enumerate(imgs_reglamento_en):
    imagen.save(os.path.join(carpeta_en, f'pagina_en_{i + 1}.png'), 'PNG')

for i, imagen in enumerate(imgs_qs_en):
    imagen.save(os.path.join(carpeta_qs, f'qs_en_{i + 1}.png'), 'PNG')



In [None]:
# Configurar pytesseract
pytesseract.pytesseract.tesseract_cmd = r'/usr/bin/tesseract'

# Funci√≥n para procesar im√°genes y extraer texto
def procesar_imagenes(carpeta_imagenes, carpeta_salida, idioma="eng"):
    # Crear carpeta de salida si no existe
    if not os.path.exists(carpeta_salida):
        os.makedirs(carpeta_salida)

    # Iterar sobre las im√°genes en la carpeta
    for imagen_nombre in sorted(os.listdir(carpeta_imagenes)):  # Ordenar para mantener secuencia
        if imagen_nombre.endswith(".png"):
            ruta_imagen = os.path.join(carpeta_imagenes, imagen_nombre)

            # Extraer texto de la imagen
            texto = pytesseract.image_to_string(Image.open(ruta_imagen), lang=idioma)

            # Guardar texto en un archivo
            nombre_txt = os.path.splitext(imagen_nombre)[0] + ".txt"
            ruta_salida = os.path.join(carpeta_salida, nombre_txt)

            with open(ruta_salida, "w", encoding="utf-8") as file:
                file.write(texto)

    print(f"Texto procesado y guardado en: {carpeta_salida}")

# Procesar las im√°genes de cada carpeta
procesar_imagenes("imgs_reglamento_en", "texto_reglamento_en", idioma="eng")
procesar_imagenes("imgs_qs_en", "texto_qs_en", idioma="eng")


Texto procesado y guardado en: texto_reglamento_en
Texto procesado y guardado en: texto_qs_en


In [None]:

# Funci√≥n avanzada para limpiar texto y normalizarlo
def limpiar_texto(texto):

    # Paso 1: Normalizar texto a Unicode est√°ndar (NFKC)
    texto = unicodedata.normalize("NFKC", texto)

    # Paso 2: Eliminar m√∫ltiples espacios, tabulaciones y l√≠neas redundantes
    texto = re.sub(r'\s+', ' ', texto).strip()

    texto = re.sub(r'[^a-zA-Z0-9\s.,!?¬ø¬°]', '', texto)

    # Paso 3: Convertir a min√∫sculas para uniformidad sem√°ntica
    texto = texto.lower()

    return texto


# Funci√≥n para crear documentos a partir de los archivos .txt en cada carpeta
def crear_documentos(carpeta_lista, carpeta_destino_docs):
    # Crear carpeta de destino para los documentos si no existe
    if not os.path.exists(carpeta_destino_docs):
        os.makedirs(carpeta_destino_docs)

    # Iterar sobre las carpetas en la lista proporcionada
    for carpeta in sorted(carpeta_lista):  # Ordenar para mantener consistencia
        if os.path.isdir(carpeta):  # Procesar solo carpetas
            # Crear un documento Word
            doc = Document()

            # Iterar sobre los archivos .txt en la carpeta
            for archivo_txt in sorted(os.listdir(carpeta)):  # Ordenar para mantener secuencia
                if archivo_txt.endswith(".txt"):
                    ruta_txt = os.path.join(carpeta, archivo_txt)

                    with open(ruta_txt, "r", encoding="utf-8") as file:
                        texto = file.read()

                    # Limpiar el texto antes de agregarlo al documento
                    texto = limpiar_texto(texto)

                    doc.add_paragraph(texto)

            # Guardar el documento en la carpeta de destino
            nombre_doc = f"{os.path.basename(carpeta)}.docx"
            ruta_doc = os.path.join(carpeta_destino_docs, nombre_doc)
            doc.save(ruta_doc)

    print(f"Documentos creados en: {carpeta_destino_docs}")

# Lista de carpetas y carpeta de destino
carpetas = ["texto_reglamento_en", "texto_qs_en"]
carpeta_destino_docs = "documentos"

# Crear documentos
crear_documentos(carpetas, carpeta_destino_docs)


Documentos creados en: documentos


### **2:** üèØ The White Castle Overview

#### Scrapping de jugabilidad

Haremos un scrapping de la siguiente [rese√±a](https://misutmeeple.com/2023/11/resena-the-white-castle/).

In [None]:

# URL de la p√°gina que deseas scrapear
url = 'https://misutmeeple.com/2023/11/resena-the-white-castle/'

# Hacer la solicitud HTTP para obtener el HTML de la p√°gina
response = requests.get(url)
html = response.text

# Parsear el HTML con BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

# Seleccionar el div con la clase espec√≠fica
div = soup.find('div', class_='entry-content single-content')

# Asegurarse de que el div existe antes de continuar
if div:
    # Crear un nuevo documento Word
    doc = Document()

    # Iterar sobre los elementos h2, h3 y p dentro del div
    for elemento in div.find_all(['h2', 'h3', 'p'], recursive=True):
        etiqueta = elemento.name
        texto = elemento.get_text(strip=True)

        # Agregar texto al documento seg√∫n el tipo de etiqueta
        if etiqueta == 'h2':
            doc.add_heading(texto, level=1)
        elif etiqueta == 'h3':
            doc.add_heading(texto, level=2)
        elif etiqueta == 'p':
            doc.add_paragraph(texto)

    # Guardar el documento Word
    doc_name = "rese√±a.docx"
    doc.save(doc_name)

    print(f"Documento guardado como: {doc_name}")
else:
    print("Error.")


Documento guardado como: rese√±a.docx


#### Configuracion de drivers para no generar conflictos en el uso de selenium

Nos aseguramos de que el sistema tiene las bibliotecas necesarias para ejecutar aplicaciones gr√°ficas (como Chrome) en un entorno Linux.

In [None]:
%%capture
# Actualizar los repositorios
!apt-get update
!apt-get install -y wget curl unzip
!apt-get install -y libx11-dev libx11-xcb1 libglu1-mesa libxi6 libgconf-2-4

Descargamos e instalamos Google Chrome para poder usarlo con Selenium.

In [None]:
%%capture
# Instalar Google Chrome (√∫ltima versi√≥n estable)
!wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
!dpkg -i google-chrome-stable_current_amd64.deb
!apt --fix-broken install -y

Descargamos ChromeDriver (necesario para Selenium) y lo mueve a una ubicaci√≥n accesible globalmente en el sistema.

In [None]:
%%capture
!wget https://chromedriver.storage.googleapis.com/131.0.6778.87/chromedriver_linux64.zip
!unzip chromedriver_linux64.zip
!mv chromedriver /usr/local/bin/chromedriver

Configura el navegador para ejecutarse en segundo plano sin mostrar interfaz gr√°fica, ideal para entornos como servidores.

In [None]:
# Configurar las opciones de Chrome para usarlo en modo headless
chrome_options = Options()
chrome_options.add_argument('--headless')  # Modo sin cabeza
chrome_options.add_argument('--no-sandbox')  # Evitar problemas de sandboxing
chrome_options.add_argument('--disable-dev-shm-usage')  # Usar en contenedores o entornos con poca memoria


#### Datos Tabulares

A continuacion haremos el scrapping de la pagina [board game geek](https://boardgamegeek.com/boardgame/371942/the-white-castle/) para extraer datos numericos e insertarlos en un DataFrame

In [None]:
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)

# URL del juego
url = 'https://boardgamegeek.com/boardgame/371942/the-white-castle'

# Abrir la p√°gina
driver.get(url)

# Esperar unos segundos para que cargue el contenido din√°mico
time.sleep(8)

# Obtener el HTML completo de la p√°gina cargada
html = driver.page_source

# Parsear el HTML con BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

# Extraer los datos y guardarlos en variables
rating_value = soup.find('span', itemprop='ratingValue')
rating_value = rating_value.text.strip() if rating_value else 'N/A'

year_section = soup.find('span', class_='game-year')
game_year = year_section.text.strip() if year_section else 'N/A'
game_year = game_year.strip("()").strip()  # Eliminar par√©ntesis y espacios adicionales
game_year = int(game_year) if game_year.isdigit() else 'N/A'

review_count_section = soup.find('meta', itemprop='reviewCount')
review_count_value = int(review_count_section['content']) if review_count_section else 'N/A'

min_players = max_players = play_time = suggested_age = complexity = 'N/A'

# Extraer los elementos de gameplay
gameplay_section = soup.find('ul', class_='gameplay')
if gameplay_section:
    gameplay_items = gameplay_section.find_all('li', class_='gameplay-item')
    for item in gameplay_items:
        title = item.find('h3').text.strip() if item.find('h3') else 'N/A'

        if title == "Number of Players":
            min_players = int(item.find('meta', itemprop='minValue')['content']) if item.find('meta', itemprop='minValue') else 'N/A'
            max_players = int(item.find('meta', itemprop='maxValue')['content']) if item.find('meta', itemprop='maxValue') else 'N/A'

        elif title == "Play Time":
            play_time = int(item.find('span', class_='ng-binding').text.strip()) if item.find('span', class_='ng-binding') else 'N/A'

        elif title == "Suggested Age":
            suggested_age = int(item.find('span', class_='ng-binding').text.strip()) if item.find('span', class_='ng-binding') else 'N/A'

        elif title == "Complexity":
            complexity = float(item.find('span', class_='ng-binding').text.strip()) if item.find('span', class_='ng-binding') else 'N/A'

like_count_section = soup.find('a', class_='game-action-play-count')
likes = like_count_section.text.strip() if like_count_section else 'N/A'

# Extraer precios sugeridos
prices = soup.find_all('div', class_='summary-sale-item-price')
precio_sugerido = prices[1].text.strip() if len(prices) > 0 else 'N/A'

# Cerrar el WebDriver
driver.quit()

# Crear un diccionario para los datos
data = {
    "Rating": [float(rating_value) if rating_value != 'N/A' else None],
    "Year": [game_year if game_year != 'N/A' else None],
    "Review Count": [review_count_value if review_count_value != 'N/A' else None],
    "Min Players": [min_players if min_players != 'N/A' else None],
    "Max Players": [max_players if max_players != 'N/A' else None],
    "Play Time (min)": [play_time if play_time != 'N/A' else None],
    "Suggested Age": [suggested_age if suggested_age != 'N/A' else None],
    "Complexity": [complexity if complexity != 'N/A' else None],
    "Likes": [int(likes.replace('K', '000').replace('.', '')) if 'K' in likes else int(likes) if likes != 'N/A' else None],
    "Price (USD)": [float(precio_sugerido.replace("from $", "").replace("$", "")) if precio_sugerido != 'N/A' else None]
}
# Crear el DataFrame
df_castle = pd.DataFrame(data)
df_castle.head()

# Descargar df en csv
df_castle.to_csv('castle.csv', index=False)

### **3:** üí¨ Comentarios y opiniones

Con el siguiente scrapping traemos a un documento todos lo comentarios en el [foro](https://boardgamegeek.com/boardgame/371942/the-white-castle/forums).

In [None]:
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)
# Crear un nuevo documento Word
doc = Document()

# Funci√≥n para scrapear los hilos individuales
def get_thread_details(thread_url):
    driver.get(thread_url)
    time.sleep(3)  # Esperar a que se cargue el contenido din√°mico
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')

    # Buscar los comentarios dentro de las etiquetas <gg-markup-safe-html>
    comments = soup.find_all('gg-markup-safe-html')
    thread_content = ""

    for comment in comments:
        thread_content += comment.get_text(separator="\n", strip=True) + "\n\n"

    return thread_content

# Loop para iterar sobre varias p√°ginas
for id in [1, 2, 3, 4]:
    url = f'https://boardgamegeek.com/boardgame/371942/the-white-castle/forums/0?pageid={id}'
    driver.get(url)
    time.sleep(3)

    # Obtener el HTML completo de la p√°gina cargada
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')

    # Seleccionar todos los <li> con la clase 'summary-item ng-scope'
    li_items = soup.find_all('li', class_='summary-item ng-scope')

    # Iterar sobre cada elemento <li>
    for li in li_items:
        # Extraer el t√≠tulo
        title = li.find('h3', class_='m-0 fs-sm text-inherit leading-inherit text-inline')
        if title:
            title_text = title.get_text(strip=True)
            doc.add_paragraph(f"T√≠tulo: {title_text}")

        # Extraer el enlace del hilo
        link = li.find('a', {'ng-href': True})
        if link:
            thread_url = "https://boardgamegeek.com" + link['ng-href']

            # Obtener los detalles del hilo (comentarios)
            thread_details = get_thread_details(thread_url)
            doc.add_paragraph(thread_details)

        # Agregar un salto de p√°gina despu√©s de cada hilo
        doc.add_paragraph('')

# Guardar el documento Word con el contenido scrapeado
doc.save('comentarios.docx')
print("Documento guardado como 'comentarios.docx'")

# Cerrar el navegador al final
driver.quit()


Documento guardado como 'comentarios.docx'




---



Organizados los documentos que usaremos en la carpeta documentos, el archivo rese√±a.docx y el archivo comentarios.docx vamos a proceder a crear las bdds.
Cabe destacar que se accedera a los documentos a partir de una carpeta drive para no tener que repetir el proceso de recoleccion.

## Terminada la Recolecci√≥n

In [3]:
# @title Docs
!gdown "1DGso0ohjApz582O2Csbn9-2mRvGW2p_0" --output "rulebook_english.docx"
!gdown "1mS1vO-bzjAC2zaLRZtStZ4rW-e_tbA4z" --output "quick_start_english.docx"
!gdown "1fzsEmSo3z-y3pocef1tpTx2hnCr28qF1" --output "rese√±a_espa√±ol.docx"
!gdown "1c3_yLh7TluobQvNxZRdz_DaONxZbWyjN" --output "comentarios.docx"
!gdown "1K7yXNjC3yZyYIruafLb-93sWn8tkKtYX" --output "castle.csv"
df_castle = pd.read_csv('castle.csv')

Downloading...
From: https://drive.google.com/uc?id=1DGso0ohjApz582O2Csbn9-2mRvGW2p_0
To: /content/rulebook_english.docx
100% 30.6k/30.6k [00:00<00:00, 11.4MB/s]
Downloading...
From: https://drive.google.com/uc?id=1mS1vO-bzjAC2zaLRZtStZ4rW-e_tbA4z
To: /content/quick_start_english.docx
100% 21.0k/21.0k [00:00<00:00, 45.2MB/s]
Downloading...
From: https://drive.google.com/uc?id=1fzsEmSo3z-y3pocef1tpTx2hnCr28qF1
To: /content/rese√±a_espa√±ol.docx
100% 31.1k/31.1k [00:00<00:00, 54.2MB/s]
Downloading...
From: https://drive.google.com/uc?id=1c3_yLh7TluobQvNxZRdz_DaONxZbWyjN
To: /content/comentarios.docx
100% 257k/257k [00:00<00:00, 9.29MB/s]
Downloading...
From: https://drive.google.com/uc?id=1K7yXNjC3yZyYIruafLb-93sWn8tkKtYX
To: /content/castle.csv
100% 150/150 [00:00<00:00, 685kB/s]


In [4]:
# Funci√≥n para dividir texto en fragmentos m√°s peque√±os
def dividir_texto(texto, max_length=1000):
    palabras = texto.split()
    fragmentos = []
    fragmento_actual = ""

    for palabra in palabras:
        if len(fragmento_actual) + len(palabra) + 1 > max_length:
            fragmentos.append(fragmento_actual)
            fragmento_actual = palabra
        else:
            fragmento_actual += " " + palabra if fragmento_actual else palabra

    if fragmento_actual:
        fragmentos.append(fragmento_actual)

    return fragmentos

# Funci√≥n para traducir un texto a ingl√©s
def traducir_a_ingles(texto):
      fragmentos = dividir_texto(texto)
      traduccion = ""
      for fragmento in fragmentos:
          traduccion += ts.translate_text(fragmento, translator='bing', from_language='auto', to_language='en') + "\n"
      return traduccion


# Funci√≥n para extraer texto de un archivo .docx
def extract_text_from_docx(file_path):
    try:
        doc = Document(file_path)
        text = "\n".join([para.text for para in doc.paragraphs])
        return text
    except Exception as e:
        print(f"Error al leer el archivo {file_path}: {e}")
        return ""

# Funci√≥n para guardar texto en un archivo .docx
def save_text_to_docx(text, file_path):
    try:
        doc = Document()
        doc.add_paragraph(text)
        doc.save(file_path)
    except Exception as e:
        print(f"Error al guardar el archivo {file_path}: {e}")

# Procesar m√∫ltiples archivos
def procesar_archivos(file_names):
    for filename in file_names:
        if not os.path.exists(filename):
            print(f"El archivo {filename} no existe. Verifica la ruta.")
            continue

        try:
            # Extraer texto del archivo
            text = extract_text_from_docx(filename)
            if not text.strip():
                print(f"El archivo {filename} est√° vac√≠o o no se pudo leer.")
                continue

            # Traducir texto a ingl√©s
            translated_text = traducir_a_ingles(text)

            # Guardar el texto traducido en un nuevo archivo
            new_filename = f"translated_{os.path.basename(filename)}"
            save_text_to_docx(translated_text, new_filename)

            # Eliminar archivo original
            os.remove(filename)
            print(f"Archivo {filename} procesado y eliminado correctamente. Traducci√≥n guardada en {new_filename}.")
        except Exception as e:
            print(f"Error procesando el archivo {filename}: {e}")

# Lista de archivos a procesar
archivos = ["rese√±a_espa√±ol.docx", "comentarios.docx"]
procesar_archivos(archivos)


Archivo rese√±a_espa√±ol.docx procesado y eliminado correctamente. Traducci√≥n guardada en translated_rese√±a_espa√±ol.docx.
Archivo comentarios.docx procesado y eliminado correctamente. Traducci√≥n guardada en translated_comentarios.docx.


## Construccion de Bases de Datos

### Base de Datos Vectorial

In [8]:
nlp = spacy.load("en_core_web_sm")

# Funci√≥n para dividir texto en chunks por oraciones usando SpaCy
def dividir_texto_por_oraciones(texto, max_length=1000):
    doc = nlp(texto)
    oraciones = [sent.text for sent in doc.sents]
    fragmentos, fragmento_actual = [], ""

    for oracion in oraciones:
        if len(fragmento_actual) + len(oracion) + 1 > max_length:
            fragmentos.append(fragmento_actual.strip())
            fragmento_actual = oracion
        else:
            fragmento_actual += " " + oracion if fragmento_actual else oracion

    if fragmento_actual:
        fragmentos.append(fragmento_actual.strip())
    return fragmentos

# Funci√≥n para extraer metadatos con NER y POS, refinados
from collections import Counter

def extraer_metadatos(texto, n_keywords=3):
    """
    Extrae metadatos de un texto incluyendo entidades nombradas y las palabras clave m√°s relevantes.

    :param texto: Texto del cual extraer los metadatos.
    :param n_keywords: N√∫mero de palabras clave m√°s relevantes a extraer.
    :return: Un diccionario con entidades y palabras clave.
    """
    doc = nlp(texto)

    # Extraer entidades relevantes
    entidades = [ent.text for ent in doc.ents if ent.label_ in {"PERSON", "ORG", "GPE", "DATE", "TIME", "MONEY"}]

    # Extraer palabras clave relevantes: solo sustantivos (NOUN) y verbos (VERB)
    palabras_clave = [token.text.lower() for token in doc if token.pos_ in {"NOUN", "VERB"} and len(token.text) > 2]

    # Contar la frecuencia de las palabras clave
    palabras_frecuentes = Counter(palabras_clave).most_common(n_keywords)

    # Seleccionar las palabras clave m√°s frecuentes
    palabras_clave_relevantes = [palabra for palabra, _ in palabras_frecuentes]

    # Convertir las listas a strings
    return {
        "entities": ", ".join(entidades),  # Unir las entidades en un string separado por comas
        "keywords": ", ".join(palabras_clave_relevantes)  # Unir las palabras clave en un string separado por comas
    }


# Funci√≥n para calcular embeddings promediados
def average_pool(last_hidden_states: torch.Tensor, attention_mask: torch.Tensor) -> torch.Tensor:
    last_hidden = last_hidden_states.masked_fill(~attention_mask[..., None].bool(), 0.0)
    return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]

# Funci√≥n para generar embeddings normalizados
def generar_embeddings(texto, tokenizer, model):
    inputs = tokenizer(texto, max_length=512, padding=True, truncation=True, return_tensors="pt")
    with torch.no_grad():
        outputs = model(**inputs)
        embeddings = average_pool(outputs.last_hidden_state, inputs['attention_mask'])
    return F.normalize(embeddings, p=2, dim=1).squeeze().numpy()

# Crear la conexi√≥n a ChromaDB
client_castle = chromadb.Client()

#client_castle.delete_collection(name="white_castle_embeddings")
collection = client_castle.create_collection(name="white_castle_embeddings")

# Procesar archivos y llenar la base de datos
def procesar_archivos_y_llenar_bd(file_names, tokenizer, model, collection):
    for filename in file_names:
        if not os.path.exists(filename):
            print(f"El archivo {filename} no existe. Verifica la ruta.")
            continue

        text = extract_text_from_docx(filename)
        if not text.strip():
            print(f"El archivo {filename} est√° vac√≠o o no se pudo leer.")
            continue

        # Dividir el texto en chunks por oraciones
        chunks = dividir_texto_por_oraciones(text, max_length=1000)

        # Determinar el tipo de archivo basado en el nombre (por ejemplo, por el t√≠tulo del archivo)
        if "rulebook" in filename:
            tipo = "rules"
        elif "comentarios" in filename:
            tipo = "comments"
        elif "quick_start" in filename:
            tipo = "quick_start"
        elif "rese√±a" in filename:
            tipo = "review"
        else:
            tipo = "unknown"  # Si no se reconoce, se marca como "unknown"

        for i, chunk in enumerate(chunks):
            try:
                # Generar embeddings
                embedding = generar_embeddings(chunk, tokenizer, model)

                # Extraer metadatos din√°micos con NER y POS
                dynamic_metadata = extraer_metadatos(chunk)

                # Combinar metadatos
                metadatos = {**dynamic_metadata, "type": tipo, "filename": filename}

                # Agregar a la base de datos
                collection.add(
                    documents=[chunk],
                    metadatas=[metadatos],
                    ids=[str(uuid.uuid4())],
                    embeddings=[embedding]
                )
            except Exception as e:
                print(f"Error al procesar el chunk {i} del archivo {filename}: {e}")

# Configuraci√≥n del modelo y tokenizador
tokenizer_e5 = AutoTokenizer.from_pretrained('intfloat/multilingual-e5-small')
model_e5 = AutoModel.from_pretrained('intfloat/multilingual-e5-small')

# Lista de archivos a procesar
archivos = ["quick_start_english.docx", "rulebook_english.docx", "translated_comentarios.docx", "translated_rese√±a_espa√±ol.docx"]

procesar_archivos_y_llenar_bd(archivos, tokenizer_e5, model_e5, collection)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/443 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/167 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/655 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/471M [00:00<?, ?B/s]

In [9]:
def realizar_consulta(texto, tokenizer, model, collection, k=3):
    # Generar el embedding del texto de consulta
    embedding = generar_embeddings(texto, tokenizer, model)

    # Realizar la b√∫squeda en la colecci√≥n de ChromaDB
    resultados = collection.query(
        query_embeddings=[embedding],
        n_results=k  # N√∫mero de resultados que deseas obtener
    )

    return resultados

# Consulta de ejemplo
texto_consulta = "Explain the rules of the game."

# Realizar la consulta en la colecci√≥n
r = realizar_consulta(texto_consulta, tokenizer_e5, model_e5, collection)
print(r['documents'])
# Mostrar los resultados de la consulta, incluyendo el score de similitud
for i, doc in enumerate(r['documents'][0]):
    similarity_score = r['distances'][0][i]
    metadata = r['metadatas'][0][i]  # Metadatos asociados con el documento
    print(f"Resultado {i+1}:")
    print(f"Texto: {doc}")  # Texto del documento
    print(f"Metadatos: {metadata}")  # Metadatos del documento
    print(f"Similitud: {similarity_score:.4f}")  # Formatear el primer score de similitud
    print("-" * 50)



[["Throughout the game, you are going to send your Courtiers, your Warriors, and your Gardeners out into the land to curry favour with the Emperor so that you can earn your prestige. The player with the most prestige at the end of the game wins. The entire game lasts nine turns, so, in case you missed it in the first paragraph. This game is very tight. In your turn you will pick up one die from one of the three bridges, here you'll need to pick either the highest\nnumber die or the lowest number die and depending on its colour or its number you will place it on one of the action slots on the board (all of which change every game). You will then fire off the action of that location. And maybe some sub-actions. And maybe some more sub actions; if you've been really, really clever. Turn then passes to your opponent where they will do something similar. However, no matter what they do, their action is pretty much guaranteed to utterly piss in your chips. Play continues to the next player."

### Base de Datos de Grafos

In [None]:
# Configuraci√≥n de Neo4j
NEO4J_URI = "neo4j+s://db16de97.databases.neo4j.io"
NEO4J_USERNAME = "neo4j"
NEO4J_PASSWORD = "PYNWCagVuuOIaUJ1Ef9-lyiB0WbcQ5CrwfhFHwWjM_M"

# Crear el cliente de Hugging Face con tu API Key
qwen_client = InferenceClient(api_key="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")

# Funci√≥n para crear el nodo central "The White Castle"
def crear_nodo_central(driver):
    with driver.session() as session:
        try:
            session.run("""
                MERGE (central:Game {name: 'The White Castle'})
            """)
            print("Nodo central 'The White Castle' creado o ya existente.")
        except Exception as e:
            print(f"Error al crear el nodo central: {e}")

# Funci√≥n para leer archivos .docx y dividir el texto en fragmentos
def leer_documento(file_path, max_length=1000):
    try:
        # Leer el documento .docx
        doc = docx.Document(file_path)
        texto = "\n".join([parrafo.text.strip() for parrafo in doc.paragraphs])

        # Dividir el texto en fragmentos si excede el max_length
        palabras = texto.split()
        fragmentos = []
        fragmento_actual = ""

        for palabra in palabras:
            if len(fragmento_actual) + len(palabra) + 1 > max_length:
                fragmentos.append(fragmento_actual)
                fragmento_actual = palabra
            else:
                fragmento_actual += " " + palabra if fragmento_actual else palabra

        if fragmento_actual:
            fragmentos.append(fragmento_actual)

        return fragmentos
    except Exception as e:
        print(f"Error al leer el archivo {file_path}: {e}")
        return []

# Funci√≥n para extraer las tr√≠adas RDF de un p√°rrafo
def extraer_triadass_rdf(texto_parrafo):
    try:
        # Usar el cliente de Hugging Face para obtener la respuesta del modelo
        response = qwen_client.chat.completions.create(
            model="Qwen/Qwen2.5-72B-Instruct",
            messages=[{
                    "role": "system",
                    "content": (
                        "You are a system used to generate RDF triplets for a graph in a Neo4j Aura database. "
                        "The central node 'The White Castle' has already been created in the database. "
                        "Your priority must be finding relevant information related to the game 'The White Castle', "
                        "such as the designer, creators, or important relationships. "
                        "Focus only on triplets where either the subject or object is 'The White Castle'. "
                        "Do not attempt to recreate 'The White Castle'. "
                        "Your output must be like this: (subject, predicate, object)"
                    ),
                },
                {"role": "user", "content": f"extract this in RDF triples: {texto_parrafo}"}
            ],
            max_tokens=500
        )

        triadass_rdf_texto = response.choices[0].message['content'].strip()
        if not triadass_rdf_texto:
            print("No triples found.")
            return []

        print(triadass_rdf_texto)
        return triadass_rdf_texto
    except Exception as e:
        print(f"Error al obtener la respuesta del modelo: {e}")
        return []

# Funci√≥n para parsear las tr√≠adas RDF extra√≠das
def parsear_triadass_rdf(texto):
    triadass = []
    lineas = texto.split("\n")
    for linea in lineas:
        if linea.strip():
            # Asumimos que las tripletas se presentan entre par√©ntesis
            partes = linea.replace('(', '').replace(')', '').split(",")  # Separar por comas y eliminar par√©ntesis
            if len(partes) == 3:
                sujeto = partes[0].strip()
                predicado = partes[1].strip()
                objeto = partes[2].strip()

                # Verificar si 'The White Castle' est√° presente
                if "The White Castle" in (sujeto, objeto):
                    triadass.append((sujeto, predicado, objeto))
                else:
                    print(f"Tripleta descartada (no incluye 'The White Castle'): {linea}")
    return triadass

# Funci√≥n para almacenar las tr√≠adas RDF en Neo4j
def almacenar_triadass_rdf(triadass, driver):
    with driver.session() as session:
        for sujeto, predicado, objeto in triadass:
            try:
                # Asegurarse de que las cadenas no tengan caracteres problem√°ticos
                sujeto = sujeto.replace("'", "\\'").replace('"', '\\"')
                objeto = objeto.replace("'", "\\'").replace('"', '\\"')

                # Crear nodos y relaciones
                cypher_query = f"""
                MERGE (sujeto:Entity {{name: '{sujeto}'}})
                MERGE (objeto:Entity {{name: '{objeto}'}})
                MERGE (sujeto)-[:{predicado.replace(' ', '_').upper()}]->(objeto)
                """
                session.run(cypher_query)
            except Exception as e:
                print(f"Error al procesar la tr√≠ada ({sujeto}, {predicado}, {objeto}): {e}")

# Funci√≥n para procesar m√∫ltiples archivos y almacenarlos en Neo4j
def procesar_documentos(archivos, driver):
    for file_path in archivos:
        print(f"Procesando el archivo: {file_path}")
        parrafos = leer_documento(file_path)
        for parrafo in parrafos:
            print(f"Extrayendo tr√≠adas para el p√°rrafo: {parrafo}")
            triadass_rdf_texto = extraer_triadass_rdf(parrafo)
            if triadass_rdf_texto:  # Solo procesar si se extrajeron tr√≠adas
                triadass = parsear_triadass_rdf(triadass_rdf_texto)
                if triadass:
                    almacenar_triadass_rdf(triadass, driver)
                else:
                    print(f"No se encontraron tr√≠adas v√°lidas en el p√°rrafo: {parrafo}")

# Funci√≥n principal para inicializar la conexi√≥n con Neo4j y procesar los documentos
def main():
    from neo4j import GraphDatabase

    # Conectar a Neo4j
    driver = GraphDatabase.driver(NEO4J_URI, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))

    # Crear el nodo central
    crear_nodo_central(driver)

    # Archivos a procesar
    archivos = ["quick_start_english.docx", "rulebook_english.docx", "translated_rese√±a_espa√±ol.docx"]

    # Procesar los documentos y almacenar las tr√≠adas RDF en Neo4j
    procesar_documentos(archivos, driver)

    # Cerrar la conexi√≥n con Neo4j
    driver.close()

if __name__ == "__main__":
    main()


## Queries Dinamicas



#### Doc Search

In [10]:


class DocSearch:
    def __init__(self, db_client, collection):
        self.db_client = db_client
        self.collection = collection
        self.tokenizer_e5 = AutoTokenizer.from_pretrained('intfloat/multilingual-e5-small')
        self.model_e5 = AutoModel.from_pretrained('intfloat/multilingual-e5-small')
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        self.model_e5.to(self.device)

        # Usar el pipeline de Hugging Face para el modelo BGE ReRanker
        self.reranker = pipeline("text-classification", model="BAAI/bge-reranker-v2-m3", device=0 if torch.cuda.is_available() else -1)

    def average_pool(self, last_hidden_states: torch.Tensor, attention_mask: torch.Tensor) -> torch.Tensor:
        last_hidden = last_hidden_states.masked_fill(~attention_mask[..., None].bool(), 0.0)
        return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]

    def generar_embeddings(self, texto):
        inputs = self.tokenizer_e5(texto, max_length=512, padding=True, truncation=True, return_tensors="pt")
        inputs = {key: val.to(self.device) for key, val in inputs.items()}
        with torch.no_grad():
            outputs = self.model_e5(**inputs)
            embeddings = self.average_pool(outputs.last_hidden_state, inputs['attention_mask'])
        return F.normalize(embeddings, p=2, dim=1).squeeze().cpu().numpy()

    def rerank(self, query, top_documents):
        query_prediction = self.reranker(query)
        query_score = query_prediction[0]['score']

        document_scores = [
            self.reranker(doc["document"])[0]['score'] for doc in top_documents
        ]

        min_score, max_score = min(document_scores), max(document_scores)
        document_scores = [(score - min_score) / (max_score - min_score) for score in document_scores]
        scores = [0.5 * query_score + 0.5 * doc_score for doc_score in document_scores]

        for i, doc in enumerate(top_documents):
            doc["rerank_score"] = scores[i]

        return sorted(top_documents, key=lambda x: x["rerank_score"], reverse=True)

    def realizar_consulta(self, texto, k=3):
        embedding = self.generar_embeddings(texto)
        resultados = self.collection.query(
            query_embeddings=[embedding], n_results=k
        )
        return resultados

    def penalizar_redundancia(self, top_documents, threshold=0.95, penalty_score=0.5):
        """
        Penaliza documentos similares usando similitud coseno entre embeddings.
        Garantiza que al menos un documento ser√° devuelto.
        Tambi√©n penaliza documentos con el metadato 'filename: translated_comentarios.docx' reduciendo su puntuaci√≥n.
        """
        if not top_documents:
            return top_documents  # Retornar directamente si la lista est√° vac√≠a

        embeddings = [self.generar_embeddings(doc["document"]) for doc in top_documents]
        sim_matrix = cosine_similarity(embeddings)

        penalized_docs = []
        added_indices = set()

        for i, doc in enumerate(top_documents):
            score = 1.0  # Puntuaci√≥n predeterminada

            # Penalizar documentos con filename: translated_comentarios.docx
            if doc.get("metadata", {}).get("filename") == "translated_comentarios.docx":
                score -= penalty_score  # Reducir la puntuaci√≥n de estos documentos

            # Incluir documentos solo si no son demasiado similares a los ya seleccionados
            if all(sim_matrix[i][j] < threshold for j in range(len(top_documents)) if i != j and j in added_indices):
                penalized_docs.append({**doc, "penalized_score": score})
                added_indices.add(i)

        # Garantizar que al menos un documento est√© presente
        if not penalized_docs:
            penalized_docs.append(top_documents[0])  # Incluir el primer documento por defecto

        # Ordenar los documentos penalizados por su puntuaci√≥n
        penalized_docs.sort(key=lambda x: x.get("penalized_score", 1.0), reverse=True)

        return penalized_docs


    def hybrid_search(self, prompt, n_results=3, n_rerank=8, redundancy_threshold=0.95) -> str:
        try:
            resultados = self.realizar_consulta(prompt, k=n_rerank)
            documents = resultados['documents'][0]
            metadatas = resultados['metadatas'][0]
            distances = resultados['distances'][0]

            tokenized_documents = [doc.split() for doc in documents]
            tokenized_query = prompt.split()
            bm25 = BM25Okapi(tokenized_documents)
            keyword_scores = bm25.get_scores(tokenized_query)
            keyword_scores = (np.array(keyword_scores) - np.min(keyword_scores)) / (np.max(keyword_scores) - np.min(keyword_scores))

            semantic_scores = 1 - (np.array(distances) - np.min(distances)) / (np.max(distances) - np.min(distances))
            combined_scores = 0.7 * semantic_scores + 0.3 * keyword_scores

            top_documents = [
                {"document": doc, "metadata": meta, "score": score}
                for doc, meta, score in zip(documents, metadatas, combined_scores)
            ]
            top_documents = sorted(top_documents, key=lambda x: x["score"], reverse=True)[:n_rerank]

            # Aplicar penalizaci√≥n de redundancia
            top_documents = self.penalizar_redundancia(top_documents, threshold=redundancy_threshold)

            # Reordenar con el modelo ReRanker
            reranked_results = self.rerank(prompt, top_documents)[:n_results]

            result_string = "\n\n".join(
                [
                    f"{i+1}. Document:\n\"{res['document'][:1000]}...\"\n"
                ]
            )
            return f"Results:\n\n{result_string}"
        except Exception as e:
            return f"Error en hybrid_search: {e}"


In [11]:
doc_search = DocSearch(client_castle, collection)
query = "What are the rules of the white castel"
results = doc_search.hybrid_search(query, n_results=3, n_rerank=8, redundancy_threshold=0.9)
print(results)


config.json:   0%|          | 0.00/795 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.27G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.17k [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

Error en hybrid_search: name 'res' is not defined


#### Tabular Search

In [12]:
class TabularSearch:
    def __init__(self, data_frame: pd.DataFrame):
        """
        Inicializa la clase de b√∫squeda tabular con par√°metros fijos.

        :param data_frame: DataFrame de Pandas donde se realizar√° la b√∫squeda.
        """
        self.data_frame = data_frame
        self.temperature = 0.4  # Configuraci√≥n fija
        self.stop_sequences = ["END_RESPONSE"]  # Configuraci√≥n fija
        self.qwen_client = InferenceClient(api_key="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")

    def query_model_for_tabular(self, prompt: str) -> str:
        """
        Env√≠a un prompt al modelo Qwen para generar la consulta tabular.

        :param prompt: Prompt que incluye instrucci√≥n, contexto, entrada, y salida deseada.
        :return: Consulta generada por el modelo.
        """
        try:
            response = self.qwen_client.chat.completions.create(
                model="Qwen/Qwen2.5-72B-Instruct",
                messages=[
                    {
                        "role": "system",
                        "content": (
                            "You are a system used to generate a query to a tabular search into a dataframe. "
                            "The dataframe contains the following columns: "
                            "'Rating', 'Year', 'Review Count', 'Min Players', 'Max Players', 'Play Time (min)', "
                            "'Suggested Age', 'Complexity', 'Likes', 'Price (USD)'. "
                            "Your queries should be simple and direct. You just need to give the column content"
                            "You have only one observation so dont extend the query"
                            "Your Output must be just the code to access the column"
                        ),
                    },
                    {"role": "user", "content": prompt},
                ],
                max_tokens=100,
                temperature=self.temperature,
                stop=self.stop_sequences,
            )
            return response.choices[0].message["content"].strip()
        except Exception as e:
            raise Exception(f"Error al llamar al modelo Qwen: {e}")

    def tabular_search(self, prompt: str) -> str:
        """
        Realiza una b√∫squeda tabular basada en el prompt generado y devuelve los resultados como una cadena.

        :param prompt: Prompt que el modelo usar√° para generar una consulta.
        :return: Resultados filtrados del DataFrame formateados como una cadena.
        """
        try:
            # Llamar al modelo para generar la consulta tabular
            tabular_query = self.query_model_for_tabular(prompt)
            print(f"Consulta generada: {tabular_query}")

            # Limpiar la consulta generada
            cleaned_tabular_query = (
                tabular_query.replace('```python', '')
                .replace("```", '')
                .replace("df", 'self.data_frame')
                .strip()
            )

            # Ejecutar la consulta generada usando eval()
            result = eval(f"{cleaned_tabular_query}")

            # Verificar si hay resultados
            if result.empty:
                return "No se encontraron resultados para la consulta."

            # Convertir los resultados en un string formateado
            result_string = result.to_string(index=False)  # Sin √≠ndices para una salida m√°s limpia
            return f"Resultados obtenidos:\n{result_string}"
        except Exception as e:
            print(f"Error al realizar la b√∫squeda tabular: {e}")
            return f"Error al procesar la consulta: {e}"



#### Graph Search

In [13]:

class GraphSearch:
    def __init__(self, graph_client, api_key: str):
        """
        Inicializa la clase para b√∫squedas en una base de datos de grafos.

        :param graph_client: Cliente conectado a la base de datos de grafos.
        :param api_key: Clave de API para autenticar el cliente de Hugging Face.
        """
        self.api_key = api_key
        self.headers = {"Authorization": f"Bearer {self.api_key}"}
        self.graph_client = graph_client
        self.temperature = 0.4
        self.stop_sequences = ["END_RESPONSE"]
        self.qwen_client = InferenceClient(api_key="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")

    def query_model_for_cypher(self, prompt: str, pos_context: str) -> str:
        if not prompt:
            print("Error: El prompt est√° vac√≠o.")
            return None

        try:
            response = self.qwen_client.chat.completions.create(
                model="Qwen/Qwen2.5-72B-Instruct",
                messages=[{
                    "role": "system",
                    "content": (
                        "You are a system specialized in generating Cypher queries for graph databases. "
                        "The database contains a single node and its relationships with other entities. The central node is labeld 'The White Castle' but you just have to match it like twc: Entity, "
                        "Examples of relatiosns can be, HAS_DESIGNER, HAS_COVER_ART_BY, INVOLVES, HASMECHANIC OR HASRULE "
                        "All nodes in the graph are Entity"
                        "Your task is to analyze the relationships found in the database and generate Cypher queries based on the user‚Äôs request. "
                        "Your output must be just cypher code."
                    ),
                }, {
                    "role": "user",
                    "content": (
                        f"Relationships extracted from the graph database (raw data): {pos_context}\n"
                        f"Prompt: {prompt}"
                    ),
                }],
                max_tokens=500,
                temperature=self.temperature,
                stop=self.stop_sequences,
            )
            cypher_query = response.choices[0].message["content"].strip()
            return cypher_query.replace("```cypher", "").replace("```", "")
        except KeyError:
            print("Error: Respuesta mal formada del modelo.")
            return None
        except Exception as e:
            print(f"Error al generar la consulta Cypher: {e}")
            return None

    def graph_search(self, prompt: str, pos_context: str = ""):
        """
        Genera y ejecuta una consulta Cypher basada en un prompt y contexto POS.

        :param prompt: Prompt proporcionado por el usuario.
        :param pos_context: Contexto adicional obtenido a partir de POS.
        :return: Resultados formateados como una cadena.
        """
        try:
            # Generar la consulta Cypher
            cypher_query = self.query_model_for_cypher(prompt, pos_context)
            if not cypher_query:
                print("Error: No se pudo generar la consulta Cypher.")
                return "Error: No se pudo generar una consulta v√°lida."
            # Ejecutar la consulta en el cliente Neo4j
            with self.graph_client.session() as session:
                result = session.run(cypher_query)
                records = result.data()

            # Convertir los resultados en un string formateado
            if records:
                result_string = "\n".join([str(record) for record in records])
                return f"Resultados obtenidos:\n{result_string}"
            else:
                return "No se encontraron resultados en la base de datos de grafos."
        except Exception as e:
            print(f"Error al realizar la b√∫squeda en grafos: {e}")
            return f"Error al buscar en la base de datos: {e}"


    def search_relations_by_pos(self, pos_word: str):
        """
        Realiza una consulta para encontrar relaciones cuyo nombre contenga la palabra clave extra√≠da con POS.

        :param pos_word: Palabra clave extra√≠da del texto.
        :return: Resultado de la b√∫squeda de relaciones o None si ocurre un error.
        """
        try:
            cypher_query = f"""
              MATCH ()-[r]->()
              WHERE type(r) =~ '.*{pos_word.upper()}.*'
              RETURN r
              """

            # Ejecutar la consulta en el cliente de grafos
            with self.graph_client.session() as session:
                result = session.run(cypher_query)
                # Obtener todos los resultados
                records = result.data()
                return records  # Retorna los resultados de la consulta
        except Exception as e:
            print(f"Error al realizar la b√∫squeda de relaciones: {e}")
            return None


def add_pos_context(prompt: str, graph_search_instance) -> str:
    """
    Toma el prompt, realiza un an√°lisis POS para agregar entidades al contexto y busca relaciones con esas entidades.

    :param prompt: Texto de entrada del usuario.
    :param graph_search_instance: Instancia de GraphSearch que se utilizar√° para buscar relaciones.
    :return: Texto con contexto adicional de las palabras clave y relaciones encontradas.
    """
    # Cargar modelo de spaCy
    nlp = spacy.load("en_core_web_sm")

    # Procesar el texto y extraer palabras clave con POS
    doc = nlp(prompt)
    pos_words = [token.text for token in doc if token.pos_ in {"NOUN", "PROPN", "ADJ", "VERB"}]
    # Agregar contexto para cada palabra clave y realizar la b√∫squeda de relaciones
    pos_context = ""
    for pos_word in pos_words:
        # Buscar relaciones en Neo4j que contienen la palabra clave en su nombre
        relations = graph_search_instance.search_relations_by_pos(pos_word)
        if relations:
            pos_context += f"Found the following relationships containing '{pos_word}': {relations}. "

    # Verifica el contexto POS generado
    return pos_context


In [14]:
# Configuraci√≥n de Neo4j
NEO4J_URI = "neo4j+s://db16de97.databases.neo4j.io"
NEO4J_USERNAME = "neo4j"
NEO4J_PASSWORD = "PYNWCagVuuOIaUJ1Ef9-lyiB0WbcQ5CrwfhFHwWjM_M"

# Inicializar el cliente de Neo4j
graph_client = GraphDatabase.driver(NEO4J_URI, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))

# Instancia de la clase GraphSearch
graph_search_instance = GraphSearch(graph_client=graph_client, api_key="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")

prompt = "Who created The White Castle??"
pos_context = add_pos_context(prompt, graph_search_instance)
print("Contexto POS:", pos_context)

# Realizar b√∫squeda en el grafo
results = graph_search_instance.graph_search(prompt, pos_context)
print("Resultados de la b√∫squeda:", results)




Contexto POS: 
Resultados de la b√∫squeda: Resultados obtenidos:
{'creator': {'name': 'Isra'}}
{'creator': {'name': 'Shei'}}


## Clasificador Basado en modelo entrenado con ejemplos

In [None]:
# Cargar modelo de embeddings
model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')

# Dataset ampliado de prompts
dataset = [
    # Reglas (rules)
    (0, "¬øCu√°les son las reglas para construir un edificio?"),
    (0, "¬øQu√© pasa si hay un empate en los puntos?"),
    (0, "¬øCu√°ntas acciones puedo realizar en un turno?"),
    (0, "¬øQu√© ocurre si no puedo pagar un recurso necesario?"),
    (0, "¬øC√≥mo se resuelve un desempate en el final del juego?"),
    (0, "¬øPuedo construir m√°s de un edificio en un solo turno?"),
    (0, "¬øQu√© limitaciones existen para colocar fichas?"),
    (0, "¬øEs obligatorio usar todos los recursos en un turno?"),
    (0, "¬øQu√© pasa si termino un turno con m√°s de tres cartas?"),
    (0, "¬øC√≥mo se distribuyen los puntos al final del juego?"),
    (0, "¬øPuedo intercambiar recursos con otros jugadores?"),
    (0, "¬øQu√© acciones est√°n permitidas en la fase de preparaci√≥n?"),
    (0, "¬øCu√°ntos turnos tiene cada ronda?"),
    (0, "¬øCu√°l es el orden para activar habilidades especiales?"),
    (0, "¬øQu√© reglas aplican para las cartas especiales?"),
    (0, "¬øPuedo usar habilidades en el turno de otro jugador?"),
    (0, "¬øQu√© ocurre si el mazo de cartas se agota?"),
    (0, "¬øHay un l√≠mite de fichas que puedo usar en un turno?"),

    # Rese√±as (reviews)
    (1, "¬øQu√© opinan los jugadores sobre la tem√°tica del juego?"),
    (1, "¬øEste juego es recomendado para principiantes?"),
    (1, "¬øC√≥mo describen los jugadores la complejidad del juego?"),
    (1, "¬øQu√© tan rejugable es este juego seg√∫n las rese√±as?"),
    (1, "¬øEs un buen juego para jugar en familia?"),
    (1, "¬øCu√°l es la duraci√≥n t√≠pica de una partida?"),
    (1, "¬øQu√© tan equilibradas est√°n las estrategias disponibles?"),
    (1, "¬øC√≥mo se compara este juego con otros del mismo g√©nero?"),
    (1, "¬øLos componentes del juego tienen buena calidad?"),
    (1, "¬øQu√© aspectos destacan m√°s los jugadores en sus rese√±as?"),
    (1, "¬øHay alguna rese√±a negativa sobre el juego?"),
    (1, "¬øEste juego es m√°s adecuado para expertos o principiantes?"),
    (1, "¬øQu√© tan divertido es jugar con grupos grandes?"),
    (1, "¬øLas reglas son f√°ciles de aprender seg√∫n las rese√±as?"),
    (1, "¬øLos gr√°ficos del juego ayudan a la inmersi√≥n?"),
    (1, "¬øEs un juego m√°s social o estrat√©gico?"),
    (1, "¬øLos jugadores mencionan alg√∫n problema recurrente en el dise√±o?"),
    (1, "¬øSe necesitan expansiones para disfrutar el juego al m√°ximo?"),

    # Comentarios (comments)
    (2, "¬øCu√°les son las mejores estrategias iniciales?"),
    (2, "¬øHay estrategias avanzadas para ganar m√°s puntos?"),
    (2, "¬øQu√© tipo de combinaciones de cartas son m√°s efectivas?"),
    (2, "¬øC√≥mo maximizar los recursos en las primeras rondas?"),
    (2, "¬øEs mejor centrarse en la defensa o en la ofensiva?"),
    (2, "¬øQu√© habilidades son m√°s √∫tiles para principiantes?"),
    (2, "¬øHay estrategias espec√≠ficas para jugar con 2 jugadores?"),
    (2, "¬øCu√°l es la mejor manera de gestionar los recursos limitados?"),
    (2, "¬øC√≥mo sacar ventaja de los bonos de las cartas especiales?"),
    (2, "¬øQu√© t√°cticas recomiendan los jugadores experimentados?"),
    (2, "¬øC√≥mo adaptar la estrategia dependiendo de los oponentes?"),
    (2, "¬øEs m√°s beneficioso priorizar los edificios grandes?"),
    (2, "¬øQu√© estrategias funcionan mejor en partidas r√°pidas?"),
    (2, "¬øC√≥mo influye el orden de turno en la estrategia?"),
    (2, "¬øCu√°l es el mejor momento para usar cartas especiales?"),
    (2, "¬øQu√© cartas son clave para asegurar la victoria?"),
    (2, "¬øC√≥mo combinar habilidades de edificios para optimizar el puntaje?"),
    (2, "¬øQu√© errores comunes se deben evitar en estrategias avanzadas?"),
]


# Mapeo de categor√≠as
categories = {0: "rules", 1: "reviews", 2: "comments"}

# Preparar datos
X = [text for _, text in dataset]
y = [label for label, _ in dataset]

# Generar embeddings para el dataset
X_vectorized = model.encode(X)

# Dividir datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_vectorized, y, test_size=0.2, random_state=42)

# Entrenar el modelo
classifier = LogisticRegression(max_iter=1000)
classifier.fit(X_train, y_train)

# Evaluar el modelo
y_pred = classifier.predict(X_test)
print("Precisi√≥n:", accuracy_score(y_test, y_pred))
print("Reporte de clasificaci√≥n:\n", classification_report(y_test, y_pred))

# Nuevos prompts de prueba
new_prompts = [
    "¬øQu√© dice el manual sobre el uso de cartas especiales?",
    "¬øEs este juego adecuado para jugadores avanzados?",
    "¬øC√≥mo recomiendan jugar en partidas de 2 jugadores?",
    "¬øQu√© pasa si se agotan los recursos en el tablero?",
    "¬øEs m√°s divertido jugar en parejas o individualmente?",
    "¬øQu√© estrategias funcionan mejor con 4 jugadores?",
]
new_embeddings = model.encode(new_prompts)
new_predictions = classifier.predict(new_embeddings)

# Mostrar resultados
for prompt, pred in zip(new_prompts, new_predictions):
    print(f"Prompt: '{prompt}' - Clasificaci√≥n: {categories[pred]}")


Precisi√≥n: 0.9090909090909091
Reporte de clasificaci√≥n:
               precision    recall  f1-score   support

           0       1.00      0.80      0.89         5
           1       1.00      1.00      1.00         2
           2       0.80      1.00      0.89         4

    accuracy                           0.91        11
   macro avg       0.93      0.93      0.93        11
weighted avg       0.93      0.91      0.91        11

Prompt: '¬øQu√© dice el manual sobre el uso de cartas especiales?' - Clasificaci√≥n: rules
Prompt: '¬øEs este juego adecuado para jugadores avanzados?' - Clasificaci√≥n: reviews
Prompt: '¬øC√≥mo recomiendan jugar en partidas de 2 jugadores?' - Clasificaci√≥n: reviews
Prompt: '¬øQu√© pasa si se agotan los recursos en el tablero?' - Clasificaci√≥n: rules
Prompt: '¬øEs m√°s divertido jugar en parejas o individualmente?' - Clasificaci√≥n: reviews
Prompt: '¬øQu√© estrategias funcionan mejor con 4 jugadores?' - Clasificaci√≥n: reviews


## Clasificador Basado en LLM

In [None]:
class Classifier:
    def __init__(self, model_name="Qwen/Qwen2.5-72B-Instruct", context=None):
        """
        Inicializa el clasificador con un modelo de Hugging Face y un contexto base.

        :param model_name: Nombre del modelo pre-entrenado en Hugging Face.
        :param context: Contexto inicial que describe las bases de datos.
        """

        self.api_key = "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"  # Tu token de autenticaci√≥n
        self.headers = {"Authorization": f"Bearer {self.api_key}"}
        self.model_name = model_name
        self.temperature = 0.4
        self.stop_sequences = ["END_RESPONSE"]


        # Usar el cliente de inferencia de Hugging Face
        self.qwen_client = InferenceClient(api_key=self.api_key)

        # Contexto configurable con valor por defecto
        self.context = context or self._default_context()

        # Definici√≥n de las categor√≠as
        self.labels = ["Documents", "Graph", "Table"]

    def _default_context(self):
        return (
            "Documents: This category is for any question regarding the rules, strategies, and textual information of the game.\n"
            "Examples:\n"
            "  - 'What are the rules?' => 'Documents'\n"
            "  - 'How do you play the game?' => 'Documents'\n\n"

            "Graph: This category is for questions related to game creators, designers, and interactions between people.\n"
            "Examples:\n"
            "  - 'Who designed the game?' => 'Graph'\n"
            "  - 'What is the connection between the game designers?' => 'Graph'\n\n"

            "Table: This category includes specific data about the game, such as number of players, price, and other game statistics.\n"
            "Examples:\n"
            "  - 'How much does the game cost?' => 'Table'\n"
            "  - 'How long does the game last?' => 'Table'\n\n"
        )

    def clasificar(self, prompt: str) -> str:
        """
        Clasifica un prompt en una de las categor√≠as: 'Documents', 'Graph' o 'Table'.

        :param prompt: Consulta del usuario en texto.
        :return: Etiqueta de clasificaci√≥n con mayor probabilidad.
        """
        if not prompt.strip():
            raise ValueError("El prompt proporcionado est√° vac√≠o.")

        # Combinar contexto y prompt
        input_text = f"{self.context} Prompt: {prompt}"

        try:
            # Llamar a Qwen para obtener la clasificaci√≥n (utilizando InferenceClient)
            response = self.qwen_client.chat.completions.create(
                model=self.model_name,
                messages=[{
                    "role": "system",
                    "content": "You are a classifier that categorizes queries into Documents, Graph, or Table."
                }, {
                    "role": "user",
                    "content": input_text
                }],
                temperature=self.temperature,
                stop=self.stop_sequences,
                max_tokens=100  # Limitamos el tama√±o de la respuesta
            )

            # El modelo Qwen proporcionar√° una respuesta de clasificaci√≥n
            classification = response.choices[0].message['content'].strip()

            # Aqu√≠ asumimos que el modelo devolver√° una respuesta adecuada
            return classification

        except Exception as e:
            print(f"Error al clasificar el prompt: {e}")
            return "unknown"



In [None]:
# Crear una instancia del clasificador
classifier = Classifier()

# Listado de prompts a probar
prompts = [
    "What are the rules of the game?",  # Deber√≠a ser clasificado como 'Documents'
    "Who designed the game?",          # Deber√≠a ser clasificado como 'Graph'
    "How much does the game cost?",    # Deber√≠a ser clasificado como 'Table'
    "What is the connection between the game designers?",  # Deber√≠a ser 'Graph'
    "How long does the game last?"     # Deber√≠a ser 'Table'
]

# Probar clasificaci√≥n para cada prompt
for prompt in prompts:
    category = classifier.clasificar(prompt)
    print(f"Prompt: {prompt}\nCategor√≠a clasificada: {category}\n")


Prompt: What are the rules of the game?
Categor√≠a clasificada: Documents

Prompt: Who designed the game?
Categor√≠a clasificada: Graph

Prompt: How much does the game cost?
Categor√≠a clasificada: Table

Prompt: What is the connection between the game designers?
Categor√≠a clasificada: Graph

Prompt: How long does the game last?
Categor√≠a clasificada: Table



# ***The White Castle Chatbot***
## Chat whith an expert in the famous board game

In [None]:
import requests
from langdetect import detect
from jinja2 import Template

chat_graph_client = GraphDatabase.driver(NEO4J_URI, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))

def dividir_texto(texto, max_length=1000):
    palabras = texto.split()
    fragmentos = []
    fragmento_actual = ""

    for palabra in palabras:
        if len(fragmento_actual) + len(palabra) + 1 > max_length:
            fragmentos.append(fragmento_actual)
            fragmento_actual = palabra
        else:
            fragmento_actual += " " + palabra if fragmento_actual else palabra

    if fragmento_actual:
        fragmentos.append(fragmento_actual)

    return fragmentos

# Funci√≥n para traducir un texto a ingl√©s
def traducir_a_espa√±ol(texto):
      fragmentos = dividir_texto(texto)
      traduccion = ""
      for fragmento in fragmentos:
          traduccion += ts.translate_text(fragmento, translator='bing', from_language='en', to_language='es') + "\n"
      return traduccion



# Funci√≥n para detectar el idioma del texto
def detect_language(text):
    return detect(text)

# Funci√≥n para generar el template del chat
def zephyr_chat_template(messages, add_generation_prompt=True):
    template_str  = "{% for message in messages %}"
    template_str += "{% if message['role'] == 'user' %}"
    template_str += "<|user|>{{ message['content'] }}</s>\n"
    template_str += "{% elif message['role'] == 'assistant' %}"
    template_str += "<|assistant|>{{ message['content'] }}</s>\n"
    template_str += "{% elif message['role'] == 'system' %}"
    template_str += "<|system|>{{ message['content'] }}</s>\n"
    template_str += "{% else %}"
    template_str += "<|unknown|>{{ message['content'] }}</s>\n"
    template_str += "{% endif %}"
    template_str += "{% endfor %}"
    template_str += "{% if add_generation_prompt %}"
    template_str += "<|assistant|>\n"
    template_str += "{% endif %}"

    # Crear un objeto de plantilla con la cadena de plantilla
    template = Template(template_str)

    # Renderizar la plantilla con los mensajes proporcionados
    return template.render(messages=messages, add_generation_prompt=add_generation_prompt)

# Funci√≥n para obtener el modelo generativo (en este caso usando Zephyr)
def generate_response_with_model(context):
    api_key = "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"

    api_url = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"
    headers = {"Authorization": f"Bearer {api_key}"}

    data = {
        "inputs": context,
        "parameters": {
            "max_new_tokens": 256,
            "temperature": 0.68,
            "top_k": 50,
            "top_p": 0.95
        }
    }

    response = requests.post(api_url, headers=headers, json=data)

    if response.status_code == 200:
        result = response.json()
        if isinstance(result, list):
            return result[0].get('generated_text', 'No se gener√≥ texto.')
        else:
            return "Error en la respuesta del modelo: la respuesta no es una lista."
    else:
        return f"Error en la solicitud: {response.status_code} - {response.text}"

game_state = """
    You are a chatbot specialized in the famous board game *The White Castle*.
    You may want to think and process step by step the information that you have before yoy respond
    Your task is to generate responses based on the user's question and the relevant information retrieved from the database.
    You should take into account the question, the retrieved information, and the context to provide a detailed and accurate response.
    You will rearly recive the exact information to the question but you have to formulate your answer based on what you know.
    For instance you may no be provided with the entire rulebook but you can say "Some of the rules consist of ..."
    Your answers should be clear, concise, and directly related to the game, *The White Castle* and you dont hace to cite any retrieved information, take it as if you already know it.
    """
loop_flag = True
while loop_flag:
    # Paso 1: Obtener el prompt del usuario
    user_prompt = input(" (Ingrese 'exit' para salir) Por favor, ingrese su consulta sobre el juego: ")
    if user_prompt.lower() == "exit":
        print("¬°Hasta luego!")
        break
    esp_flag = False

    # Detectar el idioma del texto
    if detect_language(user_prompt) == "es":
        user_prompt = ts.translate_text(user_prompt, translator='bing', from_language='es', to_language='en')
        esp_flag = True

    # Paso 2: Clasificar el prompt
    classifier = Classifier()
    category = classifier.clasificar(user_prompt)
    print(f"Categor√≠a del prompt: {category}")

    # Paso 3: Recuperar la informaci√≥n basada en la clasificaci√≥n
    if category == "Documents":
        doc_search = DocSearch(client_castle, collection)
        retrieved_info = doc_search.hybrid_search(user_prompt)
    elif category == "Graph":
        graph_search = GraphSearch(graph_client=chat_graph_client, api_key="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")
        pos_context = add_pos_context(prompt, graph_search_instance)
        # Realizar b√∫squeda en el grafo
        retrieved_info = graph_search.graph_search(user_prompt, pos_context)
    elif category == "Table":
        tabular_search = TabularSearch(df_castle)
        retrieved_info = tabular_search.tabular_search(user_prompt)
    else:
        retrieved_info = "No se pudo clasificar la consulta adecuadamente."



    # Ajusta el contexto para que sea relevante y claro
    context = f"""
    Role: {game_state}
    Question: {user_prompt}

    Retrieved Information: {retrieved_info}

    Please provide only the direct answer, no extra steps or explanations.
    """

    # Paso 5: Generar respuesta con un modelo generativo (Zephyr)
    response = generate_response_with_model(context)

    if "Answer:" in response:
        answer = response.split("Answer:")[1].strip()
    elif "Response:" in response:
        answer = response.split("Response:")[1].strip()
    else:
        answer = response


    # Si el texto original estaba en espa√±ol, traducimos la respuesta generada al espa√±ol
    if esp_flag:
        answer = traducir_a_espa√±ol(answer)
    print(f"Respuesta generada: {answer}")
    print(f"{'-' * 50}  \n")



 (Ingrese 'exit' para salir) Por favor, ingrese su consulta sobre el juego: who designed this game?
Categor√≠a del prompt: Graph
Respuesta generada: The designers of The White Castle are Isra and Shei.
--------------------------------------------------  

 (Ingrese 'exit' para salir) Por favor, ingrese su consulta sobre el juego: who covered the art of the game?
Categor√≠a del prompt: Graph

This question is about the person or people who created or designed the art for the game, which falls under the category of interactions between people involved in the game's creation.
Respuesta generada: The art of The White Castle is covered by an artist named Kwanchai Moriuchi.
--------------------------------------------------  

 (Ingrese 'exit' para salir) Por favor, ingrese su consulta sobre el juego: hay algun otro artista detras del juego
Categor√≠a del prompt: Graph
Respuesta generada: El artista detr√°s de El Castillo Blanco es Joan Guardiet.

--------------------------------------------

# ReAct Agent



In [44]:
!pip install pyngrok
!nohup litellm --model ollama/phi3:medium --host 0.0.0.0 --port 8000 > litellm.log 2>&1 &




In [45]:
# Importar las librer√≠as necesarias
import logging

# Configuraci√≥n del logger
logging.basicConfig(
    level=logging.INFO,
    format="%(asctime)s - %(levelname)s - %(message)s"
)
logger = logging.getLogger(__name__)

# Funciones ya definidas (doc_search, graph_search, table_search)
def doc_search(query):
    try:
        searcher = DocSearch(client_castle, collection)
        return searcher.hybrid_search(query)
    except Exception as e:
        logger.error(f"Error en doc_search: {str(e)}")
        return "No se pudo obtener informaci√≥n de la base de datos vectorial."

def graph_search(query):
    try:
        searcher = GraphSearch(graph_client=chat_graph_client, api_key="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")
        pos_context = add_pos_context(query, searcher)
        return searcher.graph_search(query, pos_context)
    except Exception as e:
        logger.error(f"Error en graph_search: {str(e)}")
        return "No se pudo obtener informaci√≥n de la base de datos de grafos."

def table_search(query):
    try:
        searcher = TabularSearch(df_castle)
        return searcher.tabular_search(query)
    except Exception as e:
        logger.error(f"Error en table_search: {str(e)}")
        return "No se pudo obtener informaci√≥n de la base de datos tabular."

# Crear las herramientas para el agente
tools_list = [
    FunctionTool.from_defaults(fn=graph_search, description="Busca informaci√≥n en la base de datos de grafos. Usar: texto de consulta"),
    FunctionTool.from_defaults(fn=table_search, description="Busca informaci√≥n en la base de datos tabular. Usar: texto de consulta"),
    FunctionTool.from_defaults(fn=doc_search, description="Busca informaci√≥n en la base de datos vectorial. Usar: texto de consulta")
]

# Configurar el LLM de Ollama para usar Llama 3.2
llm = Ollama(
    model="llama3.2:latest",
    request_timeout=15.0,
    temperature=0.1,
    context_window=4096
)

# Asignar la configuraci√≥n del LLM al objeto Settings para usarla globalmente
Settings.llm = llm

# Crear el agente ReAct con herramientas y configuraciones definidas
agent = ReActAgent.from_tools(
    tools_list,
    llm=llm,
    verbose=True,
    chat_formatter=ReActChatFormatter(),
    system_prompt="""Tu rol: Responde preguntas sobre el juego 'Viticulture' usando √∫nicamente informaci√≥n proporcionada por las herramientas disponibles.

      ## Herramientas disponibles:
      get_info_graph_db: Informaci√≥n sobre dise√±adores, artistas, ilustrador, publicadores, categor√≠as, nombres alternativos, mec√°nicas, familias.
      get_info_tabular_db: Informaci√≥n sobre rating, a√±o, cantidad de reviews, cantidad de jugadores, tiempo de juego, edad recomendada, complejidad, me gustas, precio.
      get_info_vector_db: Informaci√≥n sobre reglas generales, reglas espec√≠ficas, objetivo del juego, c√≥mo se gana.

      ### Instrucciones para cada consulta:
      1. Analiza la consulta para determinar la herramienta adecuada.
      2. Llama a una o varias herramientas usando exactamente la consulta recibida.
      3. No inventes informaci√≥n. Solo responde con datos obtenidos de las herramientas.
      4. Formato de respuesta:
        - Pensamiento (Thought): Explica qu√© informaci√≥n necesitas y la herramienta a usar.
        - Acci√≥n (Action): Llama a la herramienta adecuada.
        - Entrada de acci√≥n (Action Input): La consulta recibida.
        - Observaci√≥n (Observation): La respuesta de la herramienta.
        - Respuesta final (Final Answer): Respuesta clara y completa basada en la informaci√≥n obtenida.

      ### Ejemplo de interacci√≥n:
      Ejemplo 1:
      Consulta: "¬øCu√°les son las reglas para ganar el juego?"
      - Pensamiento (Thought): Necesito consultar informaci√≥n sobre c√≥mo ganar el juego en las reglas.
      - Acci√≥n (Action): get_info_vector_db
      - Entrada de acci√≥n (Action Input): "¬øCu√°les son las reglas para ganar el juego?"
      - Observaci√≥n (Observation): "El juego termina cuando un jugador alcanza 20 puntos de victoria. El jugador con m√°s puntos al final del a√±o gana."
      - Respuesta final (Final Answer): El juego termina cuando un jugador alcanza 20 puntos de victoria. El jugador con m√°s puntos gana.

      Ejemplo 2:
      - Consulta: "¬øQui√©n dise√±√≥ el juego?"
      - Pensamiento (Thought): Necesito buscar informaci√≥n sobre los dise√±adores del juego.
      - Acci√≥n (Action): get_info_graph_db
      - Entrada de acci√≥n (Action Input): "¬øQui√©n dise√±√≥ el juego?"
      - Observaci√≥n (Observation): "Jamey Stegmaier, Alan Stone."
      - Respuesta final (Final Answer): Los dise√±adores del juego son Jamey Stegmaier y Alan Stone.

      ### Reglas adicionales:
      No uses informaci√≥n previa; cada consulta es independiente.
      Procesa las palabras claves de la consulta y llama solo a las herramientas que correspondan a la consulta.
      Si la informaci√≥n no est√° disponible, responde: "No se encontr√≥ informaci√≥n para tu consulta."
    """,
    react_chat_history=False,
    context="""Eres un asistente experto que responde en espa√±ol consultas sobre el juego de mesa llamado 'Viticulture'."""
)

# Funci√≥n para interactuar con el agente ReAct
def chat_con_agente(query: str):
    try:
        if not query.strip():
            return "La consulta est√° vac√≠a."

        if len(query) > 500:
            return "La consulta es demasiado larga. Intenta resumirla."

        response = agent.chat(query)
        return response
    except Exception as e:
        logger.error(f"Error en el agente: {str(e)}")
        return f"Error al procesar la consulta: {str(e)}"

# Ejemplo de uso para interactuar con el agente
def ejecutar_ejemplo():
    queries = [
        "¬øC√≥mo se llama el juego?",
        "¬øCu√°l es el rango de jugadores recomendado?",
        "¬øDecime una estrategia para principiantes."
    ]

    print("\n=== Ejemplo de interacci√≥n con el agente ReAct ===")
    for i, query in enumerate(queries):
        print(f"\nConsulta {i+1}: {query}")
        print("------------------------------------------------------")
        response = chat_con_agente(query)
        print(f"Respuesta {i+1}:\n{response}")
        print("------------------------------------------------------")

if __name__ == "__main__":
    ejecutar_ejemplo()


ERROR:__main__:Error en el agente: [Errno 99] Cannot assign requested address
ERROR:__main__:Error en el agente: [Errno 99] Cannot assign requested address
ERROR:__main__:Error en el agente: [Errno 99] Cannot assign requested address



=== Ejemplo de interacci√≥n con el agente ReAct ===

Consulta 1: ¬øC√≥mo se llama el juego?
------------------------------------------------------
> Running step 3ca5881e-06ef-407b-a27e-2939da7a694e. Step input: ¬øC√≥mo se llama el juego?
Respuesta 1:
Error al procesar la consulta: [Errno 99] Cannot assign requested address
------------------------------------------------------

Consulta 2: ¬øCu√°l es el rango de jugadores recomendado?
------------------------------------------------------
> Running step 458fe9f1-3933-4d9f-8929-729bd18774c2. Step input: ¬øCu√°l es el rango de jugadores recomendado?
Respuesta 2:
Error al procesar la consulta: [Errno 99] Cannot assign requested address
------------------------------------------------------

Consulta 3: ¬øDecime una estrategia para principiantes.
------------------------------------------------------
> Running step f9b333d3-db57-4939-bf15-af64eb7aa840. Step input: ¬øDecime una estrategia para principiantes.
Respuesta 3:
Error al procesar

# Bibliograf√≠a

```bibtex
@misc{qwen2.5,
    title = {Qwen2.5: A Party of Foundation Models},
    url = {https://qwenlm.github.io/blog/qwen2.5/},
    author = {Qwen Team},
    month = {September},
    year = {2024}
}

@article{qwen2,
    title={Qwen2 Technical Report},
    author={An Yang and Baosong Yang and Binyuan Hui and Bo Zheng and Bowen Yu and Chang Zhou and Chengpeng Li and Chengyuan Li and Dayiheng Liu and Fei Huang and Guanting Dong and Haoran Wei and Huan Lin and Jialong Tang and Jialin Wang and Jian Yang and Jianhong Tu and Jianwei Zhang and Jianxin Ma and Jin Xu and Jingren Zhou and Jinze Bai and Jinzheng He and Junyang Lin and Kai Dang and Keming Lu and Keqin Chen and Kexin Yang and Mei Li and Mingfeng Xue and Na Ni and Pei Zhang and Peng Wang and Ru Peng and Rui Men and Ruize Gao and Runji Lin and Shijie Wang and Shuai Bai and Sinan Tan and Tianhang Zhu and Tianhao Li and Tianyu Liu and Wenbin Ge and Xiaodong Deng and Xiaohuan Zhou and Xingzhang Ren and Xinyu Zhang and Xipin Wei and Xuancheng Ren and Yang Fan and Yang Yao and Yichang Zhang and Yu Wan and Yunfei Chu and Yuqiong Liu and Zeyu Cui and Zhenru Zhang and Zhihao Fan},
    journal={arXiv preprint arXiv:2407.10671},
    year={2024}
}

@misc{intfloat2023e5,
    title = {Multilingual E5: A Text Embedding Model for Retrieval Tasks},
    author = {Intfloat Team},
    year = {2023},
    howpublished = {\url{https://huggingface.co/intfloat/multilingual-e5-small}}
}

@misc{bge2023reranker,
    title = {BAAI General Embedding Reranker v2 (BGE ReRanker)},
    author = {BAAI Team},
    year = {2023},
    howpublished = {\url{https://huggingface.co/BAAI/bge-reranker-v2-m3}}
}

@misc{phi3ollama2024,
    title = {Phi-3: A Series of Lightweight Language Models},
    author = {Ollama Team},
    year = {2024},
    howpublished = {\url{https://ollama.ai/library/phi3}}
}

