# **TRABAJO PRÁCTICO 2 - NLP TUIA 2024**
- Morena Herrera H-1187/8

Proyecto: **Chatbot con conocimiento del eurogame Rajas of the Ganges.**

Este proyecto consiste en el desarrollo de un chatbot y agente ReAct con conocimiento específico sobre el eurogame *Rajas of the Ganges*.
El proceso implementado abarca desde la extracción y limpieza de datos hasta la generación de respuestas basadas en la clasificación de fuentes de información, consultas dinámicas y búsquedas híbridas.

El resultado final es la integración de diversas herramientas y técnicas, como clasificadores de bases de datos, generación de consultas específicas y el uso de modelos de lenguaje ya entrenados (LLMs), entre otras. Estas funcionalidades permiten brindar respuestas precisas y contextualizadas a las consultas de los usuarios sobre el juego.

# Instalaciones e importaciones

In [None]:
%%capture
!pip install selenium
!pip install PyPDF2
!pip install gdown
!pip install pdf2image
!pip install pytesseract
!pip install requests
!pip install webdriver-manager
!pip install python-docx
!pip install --upgrade chromadb
!pip install keybert
!pip install translate
!pip install translatepy
!pip install neo4j
!pip install PyMuPDF
!pip install python-decouple requests jinja2
!pip install pdfplumber
!pip install chromadb
!pip install sentence_transformers
!pip install langchain
!pip install llama-index
!pip install llama-index-llms-ollama
!pip install rank_bm25
!apt-get update
!apt-get install -y tesseract-ocr
!apt-get install -y poppler-utils
!apt-get install -y tesseract-ocr-spa
!apt-get install -y tesseract-ocr-eng
!apt install -y chromium-chromedriver
!curl -fsSL https://ollama.com/install.sh | sh
!rm -f ollama_start.sh
!nohup ./ollama_start.sh &
!nohup litellm --model ollama/llama3.2:latest --port 8000 > litellm.log 2>&1 &
!echo '#!/bin/bash' > ollama_start.sh
!echo 'ollama serve' >> ollama_start.sh
!chmod +x ollama_start.sh
!ollama pull llama3.2 > ollama.log
!ollama list

In [None]:
%%capture
import time
import os
import pytesseract
import unicodedata
import chromadb
import uuid
import pandas as pd
import re
import fitz
import json
import re
import gdown
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pdfplumber
import chromadb
import warnings
import sys
import chromadb
import nltk
import logging
import requests
import datetime
sys.path.insert(0, '/usr/lib/chromium-browser/chromedriver')
warnings.filterwarnings('ignore')
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.data.path.append('/root/nltk_data/tokenizers/punkt')

In [None]:
%%capture
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.service import Service
from sentence_transformers import SentenceTransformer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score, f1_score, confusion_matrix
from sklearn.preprocessing import LabelEncoder
from decouple import config
from jinja2 import Template
from huggingface_hub import InferenceClient
from keybert import KeyBERT
from bs4 import BeautifulSoup
from PyPDF2 import PdfReader
from pdf2image import convert_from_path
from translatepy import Translator
from PIL import Image
from webdriver_manager.chrome import ChromeDriverManager
from docx import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from neo4j import GraphDatabase
from typing import List, Dict, Any
from nltk.tokenize import word_tokenize
from llama_index.core import Settings
from llama_index.llms.ollama import Ollama
from llama_index.core.agent import ReActAgent
from llama_index.core.tools import FunctionTool
from llama_index.core.agent.react.formatter import ReActChatFormatter
from chromadb.config import Settings
from typing import Dict, Any

# Extracción de datos para CSV

In [None]:
# Configurar entorno
sys.path.insert(0, '/usr/lib/chromium-browser/chromedriver')

# Configurar navegador
chrome_options = Options()
chrome_options.add_argument("--headless")
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# Inicializar driver
driver = webdriver.Chrome(options=chrome_options)

# Abrir página
driver.get('https://boardgamegeek.com/boardgame/220877/rajas-of-the-ganges')
wait = WebDriverWait(driver, 20)

In [None]:
# Obtener título
elemento_titulo = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'h1 a span[itemprop="name"]')))
titulo = elemento_titulo.text
print(f"Título del juego: {titulo}")

# Obtener año
elemento_año = wait.until(EC.presence_of_element_located((By.XPATH, "//span[@class='game-year ng-binding ng-scope']")))
año = elemento_año.text.strip().replace("(", "").replace(")", "")
print(f"Año de publicación: {año}")

# Obtener número de jugadores
elemento_jugadores = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'ul.gameplay li[itemscope][itemprop="numberOfPlayers"] p.gameplay-item-primary')))
jugadores = elemento_jugadores.text
jugadores = jugadores.replace('Players', '')
jugadores_min, jugadores_max = jugadores.split('–')
jugadores_min = jugadores_min.strip()
jugadores_max = jugadores_max.strip()
print(f"Minimo de jugadores: {jugadores_min}")
print(f"Maximo de jugadores: {jugadores_max}")

# Obtener edad mínima
elemento_min_edad = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'span[itemprop="suggestedMinAge"]')))
min_edad = elemento_min_edad.text
print(f"Edad mínima recomendada: {min_edad}")

# Obtener duración
elemento_duracion = wait.until(EC.presence_of_element_located((By.XPATH, "//li[h3[contains(text(), 'Play Time')]]")))
duracion_text = elemento_duracion.text.strip()
lista = duracion_text.split('\n')
duracion = lista[1]
duracion = duracion.replace('Min', '')
duration_min, duration_max = duracion.split('–')
duration_min = duration_min.strip()
duration_max = duration_max.strip()
print(f"Duracion minima: {duration_min}")
print(f"Duracion maxima: {duration_max}")

# Obtener ranking general
elemento_ranking = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "ul.ranks li.rank .rank-value.ng-binding.ng-scope")))
ranking = elemento_ranking.text.strip()
print(f"Ranking general: {ranking}")

# Obtener ranking de estrategia
elemento_ranking_estrategia = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "ul.ranks[title='Strategy Game Rank'] a.rank-value")))
ranking_estrategia = elemento_ranking_estrategia.text.strip()
print(f"Ranking de estrategia: {ranking_estrategia}")

# Obtener complejidad promedio
elemento_complejidad = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "span[item-poll-button='boardgameweight'] span.ng-binding")))
weight = elemento_complejidad.text.strip()
print(f"Complejidad promedio: {weight}")

# Obtener rating
elemento_rating = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "a[href*='/ratings'][class='ng-binding']")))
rating = elemento_rating.text.split()[0].strip()
print(f"Rating: {rating}")

Título del juego: Rajas of the Ganges
Año de publicación: 2017
Minimo de jugadores: 2
Maximo de jugadores: 4
Edad mínima recomendada: 12
Duracion minima: 45
Duracion maxima: 75
Ranking general: 155
Ranking de estrategia: 123
Complejidad promedio: 2.89
Rating: 15K


## Contrucción BDD CSV

In [None]:
game_data = {
  "Title": [titulo],
  "Year_of_Publication": [año],
  "Minimum_Players": [jugadores_min],
  "Maximum_Players": [jugadores_max],
  "Minimum_Age": [min_edad],
  "Duration_Min": [duration_min],
  "Duration_Max": [duration_max],
  "General_Ranking": [ranking],
  "Strategy_Ranking": [ranking_estrategia],
  "Weight": [weight],
  "Rating": [rating]
}

df_game_data = pd.DataFrame(game_data)
df_game_data.head()

Unnamed: 0,Title,Year_of_Publication,Minimum_Players,Maximum_Players,Minimum_Age,Duration_Min,Duration_Max,General_Ranking,Strategy_Ranking,Weight,Rating
0,Rajas of the Ganges,2017,2,4,12,45,75,155,123,2.89,15K


In [None]:
df_game_data.to_csv('data_info_general.csv', index=False)

# Extracción de datos para GRAFOS

In [None]:
# Configurar Chrome
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

# Inicializar driver
driver = webdriver.Chrome(options=chrome_options)

# Abrir página
driver.get('https://boardgamegeek.com/boardgame/220877/rajas-of-the-ganges/credits')
wait = WebDriverWait(driver, 10)

# Obtener creditos
wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, 'credits-module > ul > li')))

# HTML actualizado después de la carga dinámica
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

In [None]:
info_relevante = ['Designers', 'Artist', 'Publishers', 'Categories', 'Mechanisms']
info_creditos = {}

# Seleccionar todos los elementos de la lista de créditos
creditos = soup.select('credits-module > ul > li')

# Recorrer cada elemento y extraer la información
for item in creditos:
  titulo_elemento = item.select_one('.outline-item-title')
  contenido_elemento = item.select('.outline-item-description > div > div > a')

  role = titulo_elemento.text.strip()
  if role in info_relevante:
    people = [person.text.strip() for person in contenido_elemento]
    info_creditos[role] = people

print(info_creditos)

{'Designers': ['Inka Brand', 'Markus Brand'], 'Artist': ['Dennis Lohausen'], 'Publishers': ['HUCH!', '999 Games', 'Devir', 'Dice Realm', 'DV Games', 'Egmont Polska', 'Fabrika Igr', 'Game Harbor', 'HOT Games', 'nostalgia (III)', 'R&R Games'], 'Categories': ['Dice', 'Economic', 'Renaissance', 'Territory Building'], 'Mechanisms': ['Connections', 'Dice Rolling', 'Race', 'Tile Placement', 'Track Movement', 'Worker Placement', 'Worker Placement with Dice Workers']}


## Contrucción BDD GRAFOS

In [None]:
with open("info_creditos.json", "w", encoding="utf-8") as file:
  json.dump(info_creditos, file, ensure_ascii=False, indent=4)

In [None]:
%%capture
!gdown '1daRe1UktGKTNPHyYhsZOuW3xzsQjhY17' --output 'info_creditos.json'

Downloading...
From: https://drive.google.com/uc?id=1daRe1UktGKTNPHyYhsZOuW3xzsQjhY17
To: /content/info_creditos.json
  0% 0.00/715 [00:00<?, ?B/s]100% 715/715 [00:00<00:00, 2.50MB/s]


In [None]:
# Configurar Neo4j
NEO4J_URI = "neo4j+s://375ccbf7.databases.neo4j.io"
NEO4J_USERNAME = "neo4j"
NEO4J_PASSWORD = "PpEwt9Hz6KlCeSEggs1BLt0I8pEt6woGZbE5SXWp2XA"

# Conectar con Neo4j
driver = GraphDatabase.driver(NEO4J_URI, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))

In [None]:
# Almacenar datos en Neo4j
def almacenar_diccionario_en_neo4j(info_creditos, driver):
  with driver.session() as session:
    juego = "Rajas of the Ganges"
    session.run(f"""
      MERGE (j:Juego {{nombre: '{juego}'}})
    """)
    # Crear nodos y relaciones para cada titulo y contenido
    for titulo, items in info_creditos.items():
      for item in items:
        session.run(f"""
          MERGE (n:{titulo.replace(" ", "_")} {{nombre: '{item}'}})
          MERGE (j:Juego {{nombre: '{juego}'}})
          MERGE (j)-[:TIENE_{titulo.upper().replace(" ", "_")}]->(n)
        """)

with open("info_creditos.json", "r", encoding="utf-8") as file:
  info_creditos = json.load(file)

almacenar_diccionario_en_neo4j(info_creditos, driver)

# Extracción de datos para VECTORIAL

## TXT reglas y flujo del juego
Rajas_of_the_Ganges_Quick_Rules_Guide.pdf --> reglas_flujo_juego.txt

In [None]:
%%capture
!gdown '1SlwjJgJoA0Uo8hyyDn3WjVJaBDAa_ITV' --output 'Rajas_of_the_Ganges_Quick_Rules_Guide.pdf'

Downloading...
From: https://drive.google.com/uc?id=1SlwjJgJoA0Uo8hyyDn3WjVJaBDAa_ITV
To: /content/Rajas_of_the_Ganges_Quick_Rules_Guide.pdf
  0% 0.00/365k [00:00<?, ?B/s]100% 365k/365k [00:00<00:00, 112MB/s]


In [None]:

def limpiar_texto_reglas(texto):
  texto_limpio = texto.replace('', ' °')
  texto_limpio = texto_limpio.replace('o ', '  --')
  texto_limpio = re.sub(r'(\b\S+)\s*--\s*(\S+\b)', r'\1o \2', texto_limpio)
  texto_limpio = texto_limpio.replace(' ', '   ---')
  texto_limpio = re.sub(r'(°|--|---)\s*\n\s*', r'\1 ', texto_limpio)
  texto_limpio = re.sub(r'(\S)\.(\S)', r'\1.\n\2', texto_limpio)
  texto_limpio = re.sub(r'^o\s+', '  -- ', texto_limpio, flags=re.MULTILINE)
  texto_limpio = re.sub(r'([^\w\s])\s*o', r'\1\n  --', texto_limpio)
  return texto_limpio

In [None]:
with pdfplumber.open('Rajas_of_the_Ganges_Quick_Rules_Guide.pdf') as pdf, open("reglas_flujo_juego.txt", "w", encoding="utf-8") as txt_file:
  for page in pdf.pages:
    text = page.extract_text()
    texto_limpio = limpiar_texto_reglas(text)
    print(f"{texto_limpio}")
    txt_file.write(texto_limpio + "\n")

Rajas of the Ganges
Set-Up:
 ° Place the game board in the middle of the table, according to the player count.
  -- If playing with 3 players, use the 2 “space cover” markers to cover the 1st Quarry space and the 3rd Harbor space.
  -- If playing the “standard game,” put the Yellow, Brown and Red yield tokens, and the 8 river tokens, in the box.
   ---See below for details on the Navaratnas Version and the Ganga Module (2 variants to the game!)
 ° Sort the “Province Tiles” by color, and then by the 3 different animal backs (snake, cow, tiger).
  -- Place the 12 stacks face-down next to the board, then flip the top tile of each stack face-up.
 ° Mix the 8 white “Yield” tokens face-down on the temple space (white building).
 ° Each player takes:
  -- 1 Province board (place the “standard” side up – the side without blank yield spots)
  -- 1 Kali Statue board (with the 2 slots in the middle open for dice – able to hold 10 dice (that’s all it does, fyi))
  -- 6 Workers (lay 1 worker sidewa

## TXT breve resumen del juego
AyudaRajasOfTheGanges.pdf --> resumen.txt

In [None]:
!gdown '1w-enWipdNOj6ruyzDqUSsiAINy_O2ro1' --output 'AyudaRajasOfTheGanges.pdf'

Downloading...
From: https://drive.google.com/uc?id=1w-enWipdNOj6ruyzDqUSsiAINy_O2ro1
To: /content/AyudaRajasOfTheGanges.pdf
  0% 0.00/81.6k [00:00<?, ?B/s]100% 81.6k/81.6k [00:00<00:00, 73.4MB/s]


In [None]:
def limpiar_texto_resumen(texto):
  texto_limpio = re.sub(r'^:\s', '', texto)
  texto_limpio = re.sub(r'^:$', '', texto_limpio, flags=re.MULTILINE)
  texto_limpio = re.sub(r'\n{2,}', '', texto_limpio)
  return texto_limpio

def procesar_titulos_y_contenido(archivo_pdf, titulos_predefinidos):
  pdf = fitz.open(archivo_pdf)

  estructura = []
  titulo_actual = None
  contenido_actual = []

  # Iterar por cada página y procesar el texto
  for numero_pagina, pagina in enumerate(pdf, start=1):
    texto_pagina = pagina.get_text()

    # Separar el texto por líneas
    lineas = texto_pagina.split("\n")

    for linea in lineas:
      linea_limpia = linea.strip()

      if not linea_limpia:
        continue

      # Verificar si la línea contiene palabras clave de un título
      for titulo in titulos_predefinidos:
          if linea_limpia.lower().startswith(titulo.lower()):  # Busca coincidencia al inicio de la línea
            if titulo_actual:
              estructura.append((titulo_actual, "\n".join(contenido_actual)))

            # Dividir el título del contenido
            titulo_actual = limpiar_texto_resumen(titulo)
            resto_linea = linea_limpia[len(titulo):].strip()
            contenido_actual = [limpiar_texto_resumen(resto_linea)] if resto_linea else []
            break
      else:
        # Si no es título, es contenido
        contenido_actual.append(limpiar_texto_resumen(linea_limpia))

    # Agregar el último título y contenido
    if titulo_actual:
      estructura.append((titulo_actual, "\n".join(contenido_actual)))

    with open("AyudaRajasOfTheGanges_limpio.txt", "w", encoding="utf-8") as archivo:
      for titulo, contenido in estructura:
        archivo.write(f"{titulo}\n")
        archivo.write(f"{contenido}\n\n")

# Lista de títulos proporcionada
titulos = [
  "Objetivo",
  "Desarrollo",
  "Acciones",
  "Acciones en el palacio",
  "Río",
  "Karma",
  "Obtener nuevos trabajadores",
  "Premios en los tracks de fama y dinero",
  "Fin de la ronda",
  "Fin del juego"
]

procesar_titulos_y_contenido("AyudaRajasOfTheGanges.pdf", titulos)

In [None]:
with open("AyudaRajasOfTheGanges_limpio.txt", "r", encoding="utf-8") as archivo:
    contenido_resumen = archivo.read()

print(contenido_resumen)

Objetivo
desarrollar tu provincia para obtener una combinación de
riqueza y fama. Los tracks de fama y dinero son paralelos en direcciones
opuestas, quien primero cruce sus marcadores tendrá alta probabilidad
de ganar.

Desarrollo
el juego de divide en rondas, en cada una se irán alternando
turnos en el sentido de las manecillas del reloj. En el turno, se coloca un
trabajador, se paga el costo (dinero: se mueve el marcador del track de
dinero hacia atrás; o dados: se devuelven a la reserva), si es requerido, y
se realiza la acción asociada. Cuando se han colocado todos los
trabajadores termina la ronda, se retiran del tablero y empieza una nueva
ronda. Solo puede haber un trabajador por cada espacio.

Acciones

Construcción: Se coloca una loseta de provincia en el tablero personal, se
gana fama y/o dinero. Cada loseta tiene un costo en dados que debe
cubrirse con uno o más dados propios. Cada loseta que se coloque en la
provincia debe conectarse mediante caminos a la residencia inicial

In [None]:
!gdown '146rZ4b4h7dWwHS1GtWAh-SocCTE17U0H' --output 'AyudaRajasOfTheGanges_limpio.txt'

Downloading...
From: https://drive.google.com/uc?id=146rZ4b4h7dWwHS1GtWAh-SocCTE17U0H
To: /content/AyudaRajasOfTheGanges_limpio.txt
  0% 0.00/4.23k [00:00<?, ?B/s]100% 4.23k/4.23k [00:00<00:00, 20.8MB/s]


In [None]:
from transformers import MarianMTModel, MarianTokenizer
import re

# Define el modelo y el tokenizador
modelo = 'Helsinki-NLP/opus-mt-es-en'
tokenizer = MarianTokenizer.from_pretrained(modelo)
model = MarianMTModel.from_pretrained(modelo)

tokenizer_config.json:   0%|          | 0.00/44.0 [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/826k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.59M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.44k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/312M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

In [None]:
def traducir_texto(texto):
    # Reemplazar los dobles saltos de línea por un marcador especial para mantenerlos
    texto = re.sub(r'\nAcciones\nen el palacio', '\nAcciones en el palacio\n', texto)
    texto = re.sub(r'\n\n', ' DOUBLE_NEWLINE ', texto)

    # Dividir el texto en líneas
    lineas = texto.split('\n')

    # Traducir cada línea
    lineas_traducidas = []
    for linea in lineas:
        # Tokenizar y traducir cada línea
        inputs = tokenizer(linea, return_tensors="pt", padding=True, truncation=True, max_length=512)
        outputs = model.generate(**inputs)
        traduccion = tokenizer.decode(outputs[0], skip_special_tokens=True)

        # Agregar la traducción de la línea
        lineas_traducidas.append(traduccion)

    # Unir las líneas traducidas con saltos de línea
    texto_traducido = '\n'.join(lineas_traducidas)
    texto_traducido = texto_traducido.replace(' DOUBLE_NEWLINE ', '\n\n')
    texto_traducido = texto_traducido.replace('DOUBLE_NEWLINE', '\n\n')
    # Restaurar los dobles saltos de línea
    return texto_traducido

with open('AyudaRajasOfTheGanges_limpio.txt', 'r', encoding='utf-8') as archivo:
    contenido = archivo.read()

texto_traducido = traducir_texto(contenido)
print(texto_traducido)

with open('resumen.txt', 'w', encoding='utf-8') as archivo:
    archivo.write(texto_traducido)

Objective
develop your province to get a combination of
wealth and fame. Tracks of fame and money are parallel in directions
opposites, who first crosses their markers will have high probability
to win.

Development
the game divides into rounds, in each will alternate
turn in the direction of the hands of the clock. In the turn, a
worker, the cost is paid (money: the track marker moves
money back; or dice: are returned to the reserve), if required, and
the associated action is performed. When all the
workers finish the round, retire from the board and start a new
round. There can only be one worker for each space.

Actions

Construction: Place a province slab on the personal board, be
earns fame and/or money. Each slab has a cost in dice that should
cover with one or more dice of its own.
province must connect via roads to the initial residence.
money has market(s), you earn the coins that are indicated in
she, if the tile has a building(s) earn 2/3/4 points of fame,
depending on how m

## TXT reviews

In [None]:
# Configurar navegador
chrome_options = Options()
chrome_options.add_argument("--headless")
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# Inicializar driver
driver = webdriver.Chrome(options=chrome_options)

# Abrir página
driver.get('https://boardgamegeek.com/boardgame/220877/rajas-of-the-ganges')

In [None]:
# Lista para almacenar las reseñas de jugadores
reseñas_jugadores = []

# Configuración de Selenium para Google Colab
options = webdriver.ChromeOptions()
options.add_argument('--headless')  # Ejecutar en modo headless (sin interfaz gráfica)
options.add_argument('--no-sandbox')  # Evitar restricciones del contenedor en Colab
options.add_argument('--disable-dev-shm-usage')  # Evitar problemas con el uso de memoria compartida
driver = webdriver.Chrome(options=options)  # Inicializar el controlador de Chrome con las opciones configuradas

# URL de la página con reseñas
forum_url = 'https://boardgamegeek.com/boardgame/220877/rajas-of-the-ganges/forums/63'
driver.get(forum_url)  # Acceder a la página de foro de la reseña

# Esperar a que los enlaces de las reseñas carguen
wait = WebDriverWait(driver, 10)  # Esperar hasta 10 segundos para cargar los enlaces
review_links = wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, "h3.m-0.fs-md.text-semibold.leading-inherit.text-inline a")))

# Base URL para enlaces relativos (enlaces de reseñas)
base_url = "https://boardgamegeek.com"

# Iterar sobre los primeros 15 enlaces de reseñas (o menos si hay menos enlaces)
for index in range(min(35, len(review_links))):
    try:
        # Volver a capturar el enlace actual por índice para obtener los enlaces actualizados
        review_links = wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, "h3.m-0.fs-md.text-semibold.leading-inherit.text-inline a")))

        # Extraer el título y el enlace de la reseña
        link = review_links[index]
        review_title = link.text.strip()  # Obtener el texto del título de la reseña
        review_url = link.get_attribute("href")  # Obtener la URL de la reseña

        # Acceder a la página de la reseña
        driver.get(review_url)
        try:
            # Esperar a que los elementos del autor y el cuerpo de la reseña estén disponibles
            body_tag = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "div.post-body")))
            body = body_tag.text.strip()  # Obtener el contenido del cuerpo de la reseña

            # Almacenar la reseña como una tupla (título, URL, cuerpo)
            reseña_data = (review_title, body)
            reseñas_jugadores.append(reseña_data)  # Añadir la reseña a la lista

        except Exception as e:
            # Si ocurre un error al extraer la información de la reseña, almacenar el mensaje de error
            reseñas_jugadores.append((f"Error al extraer información de la reseña {index}: {e}", ""))

        # Regresar a la página principal para continuar con el siguiente enlace
        driver.back()
        wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, "h3.m-0.fs-md.text-semibold.leading-inherit.text-inline a")))

    except Exception as e:
        # Si ocurre un error al procesar un enlace, almacenar el mensaje de error
        reseñas_jugadores.append((f"Error en la iteración {index}: {e}", ""))
        continue  # Continuar con el siguiente enlace

# Cerrar el navegador después de completar el proceso
driver.quit()

# Guardar las reseñas recopiladas en un archivo de texto
with open("reseñas.txt", "w", encoding="utf-8") as file:
    for reseña_data in reseñas_jugadores:
        file.write(f"Título: {reseña_data[0]}\n")  # Escribir el título de la reseña
        file.write(f"Contenido:\n{reseña_data[1]}\n")  # Escribir el contenido de la reseña
        file.write("-" * 80 + "\n")  # Separador entre reseñas

In [None]:
with open("reseñas.txt", "r", encoding="utf-8") as file:
    content = file.read()

print(content)

Título: Une tonne de dés, mais un hasard habillement contrôlé !
Contenido:
Description :
Dans Rajas of the Ganges, on se retrouve dans l’Inde à l’époque de l’empire moghol. Cette puissance en plein essor étend son territoire et gagne en prospérité grâce au commerce de la soie, du thé et des épices.

Des monuments imposants tels que le Taj Mahal ou le Fort Rouge sont érigés. De somptueux jardins sont créés, ainsi que de nouveaux édifices et parcs, qui émerveilleront les générations futures au cours des siècles à venir.

Alors que l’empire a pratiquement atteint son étendue maximale et se trouve dans une période de relative stabilité, les joueurs vont incarner des rajas ou des ranis et s’efforcer de se montrer à la hauteur de leur rang de vénérables souverains.

Pour cela, ils devront transformer leurs terres en provinces opulentes et prestigieuses. En prenant garde de veiller à leur karma, les joueurs devront se développer de façon équilibrée, en conciliant au mieux prestige et prospéri

## Contrucción BDD VECTORIAL

In [None]:
%%capture
!gdown '18VIHRDLYIa8PDZuSSharxCoPUyEufLrt' --output 'reglas_flujo_juego.txt'
!gdown '1zFOBy9kkJ59ikIqPw0dqOr_FiFUxHToL' --output 'resumen.txt'
!gdown "16-hPyWaqqcrL6QJn32pZy-nOAm0Q7G-P" --output "reseñas.txt"

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

archivos = ['reglas_flujo_juego.txt', 'resumen.txt']

todos_los_textos = ""
for archivo in archivos:
    with open(archivo, 'r', encoding='utf-8') as file:
        todos_los_textos += file.read() + "\n\n"  # Concatenar contenido de cada archivo

# Dividir el texto en fragmentos con separadores personalizados
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1500,
    chunk_overlap=200,
    separators=[
        "\n\n",
        "\n",
        ".",
    ]
)

chunks = text_splitter.create_documents([todos_los_textos])

In [None]:
# Modelo Embeddings
%%capture
modelo_embedding = SentenceTransformer('all-MiniLM-L6-v2')
embeddings = modelo_embedding.encode([chunk.page_content for chunk in chunks], show_progress_bar=True)

In [None]:
# Crear cliente y colección en ChromaDB
cliente = chromadb.Client()

if "collection4" in cliente.list_collections():
    cliente.delete_collection("collection4")
coleccion = cliente.create_collection("collection4")

# Agregar los fragmentos, sus embeddings y palabras claves
coleccion.add(
    documents=[chunk.page_content for chunk in chunks],
    embeddings=embeddings,
    metadatas=[{
        "id": i,
    } for i, chunk in enumerate(chunks)],
    ids=[f"doc_{i}" for i in range(len(chunks))]
)

In [None]:
# Recuperar información de la colección
info_coleccion = coleccion.get()

# Iterar para imprimir documentos y sus metadatos
for i, (doc, metadata) in enumerate(zip(info_coleccion['documents'], info_coleccion['metadatas'])):
    print(f"Documento {i+1}:")
    print(doc)
    print("Metadatos:", metadata)
    print("=" * 80)

Documento 1:
Rajas of the Ganges
Set-Up:
 ° Place the game board in the middle of the table, according to the player count.
  -- If playing with 3 players, use the 2 “space cover” markers to cover the 1st Quarry space and the 3rd Harbor space.
  -- If playing the “standard game,” put the Yellow, Brown and Red yield tokens, and the 8 river tokens, in the box.
   ---See below for details on the Navaratnas Version and the Ganga Module (2 variants to the game!)
 ° Sort the “Province Tiles” by color, and then by the 3 different animal backs (snake, cow, tiger).
  -- Place the 12 stacks face-down next to the board, then flip the top tile of each stack face-up.
 ° Mix the 8 white “Yield” tokens face-down on the temple space (white building).
 ° Each player takes:
  -- 1 Province board (place the “standard” side up – the side without blank yield spots)
  -- 1 Kali Statue board (with the 2 slots in the middle open for dice – able to hold 10 dice (that’s all it does, fyi))
  -- 6 Workers (lay 1 

# Clasificadores

In [None]:
data_preguntas = [
  # Preguntas para la base de datos CSV
  {"question": "How many players are needed to play?", "label": "CSV"},
  {"question": "What is the average duration of a game?", "label": "CSV"},
  {"question": "What is the minimum age required to play?", "label": "CSV"},
  {"question": "What basic information is available about the game?", "label": "CSV"},
  {"question": "What is the maximum number of players the game supports?", "label": "CSV"},
  {"question": "What is the year of publication of the game?", "label": "CSV"},
  {"question": "What is the general rating of the game?", "label": "CSV"},
  {"question": "What is the complexity rating of this game?", "label": "CSV"},
  {"question": "What is the strategy ranking of the game?", "label": "CSV"},
  {"question": "What are the minimum and maximum players for this game?", "label": "CSV"},
  {"question": "How complex is the game according to ratings?", "label": "CSV"},
  {"question": "What is the expected time to play the game?", "label": "CSV"},
  {"question": "What is the maximum duration of a game?", "label": "CSV"},
  {"question": "How many players are required for the shortest game?", "label": "CSV"},
  {"question": "What is the minimum complexity rating of this game?", "label": "CSV"},
  {"question": "What is the minimum general ranking required for this game?", "label": "CSV"},
  {"question": "How many players can participate simultaneously?", "label": "CSV"},
  {"question": "What is the youngest age for which this game is appropriate?", "label": "CSV"},
  {"question": "What is the average game rating for beginners?", "label": "CSV"},

  # Preguntas para la base de datos Graph
  {"question": "Which designers are associated with this game?", "label": "GRAPH"},
  {"question": "Which publishers released this game?", "label": "GRAPH"},
  {"question": "What mechanisms are related to this game?", "label": "GRAPH"},
  {"question": "Who are the artists who worked on this game?", "label": "GRAPH"},
  {"question": "How is the 'Strategy' category connected to the designers?", "label": "GRAPH"},
  {"question": "What categories are assigned to this game?", "label": "GRAPH"},
  {"question": "Who developed the game?", "label": "GRAPH"},
  {"question": "What graphic designers contributed to this game?", "label": "GRAPH"},
  {"question": "Which artists were involved in designing this game?", "label": "GRAPH"},
  {"question": "What connections exist between designers and mechanisms in this game?", "label": "GRAPH"},
  {"question": "Which publishers are linked to the game's release?", "label": "GRAPH"},
  {"question": "What mechanisms are commonly used in similar games?", "label": "GRAPH"},
  {"question": "Who are the main designers of this game?", "label": "GRAPH"},
  {"question": "Which artists contributed to the game illustrations?", "label": "GRAPH"},
  {"question": "Which categories does this game fall under?", "label": "GRAPH"},
  {"question": "Which publishers specialize in similar games?", "label": "GRAPH"},
  {"question": "What mechanisms distinguish this game from others?", "label": "GRAPH"},
  {"question": "What connections exist between publishers and designers?", "label": "GRAPH"},
  {"question": "Who contributed to the creative design of this game?", "label": "GRAPH"},

  # Preguntas para la base de datos Vectorial
  {"question": "What are the best strategies to win this game?", "label": "VECTORIAL"},
  {"question": "What feedback have players given about the game?", "label": "VECTORIAL"},
  {"question": "Where can I find detailed rules for the game?", "label": "VECTORIAL"},
  {"question": "What strategies do players mention for using the market in the game?", "label": "VECTORIAL"},
  {"question": "What opinions do players have about the game's difficulty?", "label": "VECTORIAL"},
  {"question": "What actions can players take during the game?", "label": "VECTORIAL"},
  {"question": "What are the key concepts to master in this game?", "label": "VECTORIAL"},
  {"question": "How do players use the components of the game effectively?", "label": "VECTORIAL"},
  {"question": "What rules govern player interactions during the game?", "label": "VECTORIAL"},
  {"question": "What strategies do experienced players recommend?", "label": "VECTORIAL"},
  {"question": "How do you win in this game?", "label": "VECTORIAL"},
  {"question": "What key actions should players focus on to succeed?", "label": "VECTORIAL"},
  {"question": "What are advanced strategies for expert players?", "label": "VECTORIAL"},
  {"question": "How can players optimize their use of the market?", "label": "VECTORIAL"},
  {"question": "What are the most common mistakes new players make?", "label": "VECTORIAL"},
  {"question": "How can players maximize their chances of winning?", "label": "VECTORIAL"},
  {"question": "What are the critical rules for resolving disputes?", "label": "VECTORIAL"},
  {"question": "What strategies are effective for team-based gameplay?", "label": "VECTORIAL"},
  {"question": "How do components interact in advanced scenarios?", "label": "VECTORIAL"}
]

## Modelo entrenado (U3)

In [None]:
# Separar en preguntas y etiquetas
questions = [item["question"] for item in data_preguntas]
labels = [item["label"] for item in data_preguntas]

# Generar embeddings de las preguntas usando SentenceTransformer
modelo_embeddings = SentenceTransformer('all-MiniLM-L6-v2')
embeddings = modelo_embeddings.encode(questions)

# Codificar etiquetas con LabelEncoder
label_encoder = LabelEncoder()
encoded_labels = label_encoder.fit_transform(labels)

X_train, X_test, y_train, y_test, all_questions_train, all_questions_test = train_test_split(embeddings, encoded_labels, questions, test_size=0.2, random_state=42)
clasificador_entrenado = LogisticRegression()
clasificador_entrenado.fit(X_train, y_train)

# Predicciones
y_pred = clasificador_entrenado.predict(X_test)
y_pred_labels = label_encoder.inverse_transform(y_pred)
y_test_labels = label_encoder.inverse_transform(y_test)

In [None]:
"""print("\nEvaluación del modelo entrenado:")
for i, pregunta in enumerate(all_questions_test):
  etiqueta_real = y_test_labels[i]
  prediccion = y_pred_labels[i].upper()

  print(f"Pregunta original: {pregunta}")
  print(f"Etiqueta real: {etiqueta_real}")
  print(f"Predicción: {prediccion}")
  print("---")"""

'print("\nEvaluación del modelo entrenado:")\nfor i, pregunta in enumerate(all_questions_test):\n  etiqueta_real = y_test_labels[i]\n  prediccion = y_pred_labels[i].upper()\n\n  print(f"Pregunta original: {pregunta}")\n  print(f"Etiqueta real: {etiqueta_real}")\n  print(f"Predicción: {prediccion}")\n  print("---")'

In [None]:
print("Métricas para el modelo entrenado (Logistic Regression):")
print(classification_report(y_test_labels, y_pred_labels))
print("Accuracy:", accuracy_score(y_test_labels, y_pred_labels))
print("F1-Score:", f1_score(y_test_labels, y_pred_labels, average='weighted'))

Métricas para el modelo entrenado (Logistic Regression):
              precision    recall  f1-score   support

         CSV       1.00      0.60      0.75         5
       GRAPH       0.80      1.00      0.89         4
   VECTORIAL       0.75      1.00      0.86         3

    accuracy                           0.83        12
   macro avg       0.85      0.87      0.83        12
weighted avg       0.87      0.83      0.82        12

Accuracy: 0.8333333333333334
F1-Score: 0.8230820105820106


## LLM (U6)

In [None]:
# Plantilla Jinja para modelo Zephyr
def zephyr_chat_template(messages, add_generation_prompt=True):
    # Plantilla Jinja
    template_str = """
    {% for message in messages %}
        {% if message['role'] == 'user' %}{{ message['content'] }}
        {% elif message['role'] == 'assistant' %}{{ message['content'] }}
        {% elif message['role'] == 'system' %}{{ message['content'] }}
        {% else %}{{ message['content'] }}
        {% endif %}
    {% endfor %}
    {% if add_generation_prompt %}
    <|assistant|>
    {% endif %}
    """
    template = Template(template_str)
    return template.render(messages=messages, add_generation_prompt=add_generation_prompt)
# Preparar cabeceras para la solicitud a la API
def prepare_headers(api_key):
  return {"Authorization": f"Bearer {api_key}"}

# Solicitud POST a la API y retornar respuesta
def generate_response(prompt, api_url, headers):
  data = {
    "inputs": prompt,
    "parameters": {"max_new_tokens": 256, "temperature": 0.1, "top_k": 50, "top_p": 0.95}
  }

  response = requests.post(api_url, headers=headers, json=data)
  return response.json()

# Extraer bdd seleccionada
def extract_database(response):
  respuesta = response[0].get('generated_text', '').strip()
  bdd_seleccionada = respuesta.split("\n")[-1].strip()
  return bdd_seleccionada

# Main
def clasificador(user_question):
  # Configurar API y parámetros
  api_key = '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'
  api_url = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"
  headers = prepare_headers(api_key)

  chat_prompt = [
    {"role": "system", "content": """
      You have access to three types of databases, each containing specific information:

          1. Graph contains information about Designers, Artists, Publishers, Developers, Categories, and Mechanisms.
          Examples:
            - 'Who designed the game?' => 'Graph'
            - 'What categories does the game have?' => 'Graph'

          2. Vectorial contains information about the Overview, how to win, key concepts, actions, components, and Rules.
          Examples:
            - 'What are the rules?' => 'Vectorial'
            - 'How do you play?' => 'Vectorial'

          3. CSV contains information about the minimum and maximum number of players, minimum age, game duration, general and strategy ratings, complexity, and year of publication.
          Examples:
            - 'What is the minimum number of players?' => 'CSV'
            - 'How long does the game last?' => 'CSV'

      Your task is to identify which database contains the necessary information to answer the user's question.

      **Instructions**:
      - Select "VECTORIAL" for questions about game rules, components, actions, and strategies.
      - Select "GRAPH" for questions about people, categories, or mechanisms involved in the creation of the game.
      - Select "CSV" for questions about numerical data such as players, age, or duration.
      Respond **ONLY** with the name of the appropriate database: GRAPH, VECTORIAL or CSV
      Always respond with one of the options.
      Do not include any additional explanations or text, just one of these three words.
      """},
    {"role": "user", "content": user_question}
  ]

  prompt = zephyr_chat_template(chat_prompt)
  respuesta = generate_response(prompt, api_url, headers)
  bdd_seleccionada = extract_database(respuesta)

  return bdd_seleccionada

In [None]:
# Predicciones
y_pred_llm = [clasificador(pregunta) for pregunta in all_questions_test]

# Limpiar predicciones
def limpiar_prediccion(prediccion):
  prediccion_upper = prediccion.upper()
  for label in ["VECTORIAL", "GRAPH", "CSV"]:
    if label in prediccion_upper:
      return label
  return "NOT_FOUND"

y_pred_llm_limpias = [limpiar_prediccion(prediccion) for prediccion in y_pred_llm]

In [None]:
print("\nEvaluación del modelo LLM:")
for i, pregunta in enumerate(all_questions_test):
  etiqueta_real = y_test_labels[i]
  prediccion_llm = y_pred_llm_limpias[i]
  print(f"Pregunta: {pregunta}")
  print(f"Etiqueta real: {etiqueta_real}")
  print(f"Predicción LLM: {prediccion_llm}")
  print("---")


Evaluación del modelo LLM:
Pregunta: How many players are needed to play?
Etiqueta real: CSV
Predicción LLM: CSV
---
Pregunta: What is the year of publication of the game?
Etiqueta real: CSV
Predicción LLM: CSV
---
Pregunta: What mechanisms are commonly used in similar games?
Etiqueta real: GRAPH
Predicción LLM: GRAPH
---
Pregunta: How many players are required for the shortest game?
Etiqueta real: CSV
Predicción LLM: CSV
---
Pregunta: Which publishers specialize in similar games?
Etiqueta real: GRAPH
Predicción LLM: GRAPH
---
Pregunta: What strategies are effective for team-based gameplay?
Etiqueta real: VECTORIAL
Predicción LLM: VECTORIAL
---
Pregunta: Which artists were involved in designing this game?
Etiqueta real: GRAPH
Predicción LLM: GRAPH
---
Pregunta: Who are the main designers of this game?
Etiqueta real: GRAPH
Predicción LLM: GRAPH
---
Pregunta: How do players use the components of the game effectively?
Etiqueta real: VECTORIAL
Predicción LLM: VECTORIAL
---
Pregunta: What 

In [None]:
print("Métricas para el modelo LLM:")
print(classification_report(y_test_labels, y_pred_llm_limpias))
print("Accuracy:", accuracy_score(y_test_labels, y_pred_llm_limpias))
print("F1-Score:", f1_score(y_test_labels, y_pred_llm_limpias, average='weighted'))

Métricas para el modelo LLM:
              precision    recall  f1-score   support

         CSV       1.00      0.80      0.89         5
       GRAPH       1.00      1.00      1.00         4
   NOT_FOUND       0.00      0.00      0.00         0
   VECTORIAL       1.00      1.00      1.00         3

    accuracy                           0.92        12
   macro avg       0.75      0.70      0.72        12
weighted avg       1.00      0.92      0.95        12

Accuracy: 0.9166666666666666
F1-Score: 0.9537037037037037


# Generar consultas
Recuperar información

## Dinámica pandas para CSV

In [None]:
%%capture
!gdown '14WfvrHoET64-xceIEdPk6PNnd7hlC8wc' --output 'data_info_general.csv'

In [None]:
# Generar consulta de pandas
def generar_consulta_pandas(query: str, df: pd.DataFrame):
    columnas = df.columns.tolist()
    columnas_str = "\n".join([f"- {col}" for col in columnas])

    cliente = InferenceClient(api_key='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')

    # Solicitud
    prompt = [
        {
            "role": "system",
            "content": f"""
        Eres un modelo que genera consultas en pandas DataFrame basándote en una frase del usuario.
        El DataFrame tiene las siguientes columnas:
        {columnas_str}

        Escribe directamente una consulta en pandas que seleccione o calcule los datos adecuados según la frase del usuario.
        **La consulta debe devolver un DataFrame o una Serie de pandas, nunca una tupla o un valor escalar.**

        Responde SOLO con la consulta en pandas sin ningún texto adicional.
        """},
        {
            "role": "user",
            "content": query
        }
    ]

    # Consulta y respuesta del modelo
    completion = cliente.chat.completions.create(model="Qwen/Qwen2.5-Coder-32B-Instruct", messages=prompt, max_tokens=500)
    respuesta = completion.choices[0].message.content.strip()

    return respuesta

# Ejecutar consulta en pandas
def ejecutar_consulta_pandas(query_pandas: str, df: pd.DataFrame):
    try:
        # Evaluar la consulta directamente
        resultado = eval(query_pandas)
        return resultado
    except Exception as e:
        print(f"Error ejecutando la consulta: {e}")
        return None

# Main
def main_consulta_pandas(query):
    # Cargar el DataFrame
    df = pd.read_csv('data_info_general.csv')

    # Obtener consulta en pandas desde el modelo
    consulta_pandas = generar_consulta_pandas(query, df)
    #print(f"\nConsulta en pandas generada: {consulta_pandas}")

    # Ejecutar la consulta en el DataFrame
    result = ejecutar_consulta_pandas(consulta_pandas, df)

    # Retornar información
    if result is not None:
        #print("\nInfo para formular la respuesta:")
        if isinstance(result, pd.DataFrame) or isinstance(result, pd.Series):
            result.to_csv('result.csv', index=False)
            return pd.read_csv('result.csv')
        else:
            #print(result)
            return result
    else:
        print("No se pudo ejecutar la consulta correctamente.")
        return None

### Pruebas de recuperación de información

In [None]:
main_consulta_pandas("How many players are needed to play?")

Unnamed: 0,Minimum_Players,Maximum_Players
0,2,4


In [None]:
main_consulta_pandas("What is the minimum age required to play?")

Unnamed: 0,0
0,12


In [None]:
main_consulta_pandas("What basic information is available about the game?")

Unnamed: 0,Title,Year_of_Publication,Minimum_Players,Maximum_Players,Minimum_Age,Duration_Min,Duration_Max,General_Ranking,Strategy_Ranking,Weight,Rating
0,Rajas of the Ganges,2017,2,4,12,45,75,155,123,2.89,15K


In [None]:
main_consulta_pandas("What is the complexity rating of this game?")

Unnamed: 0,Weight
0,2.89


In [None]:
main_consulta_pandas("What is the strategy rating of the game?")

Unnamed: 0,Title,Strategy_Ranking
0,Rajas of the Ganges,123


In [None]:
main_consulta_pandas("What is the strategy rating and general of the game?")

Unnamed: 0,Strategy_Ranking,General_Ranking
0,123,155


In [None]:
main_consulta_pandas("What is the expected time to play the game?")

Unnamed: 0,Expected_Play_Time
0,60.0


In [None]:
main_consulta_pandas("What is the year of publication of the game?")

Unnamed: 0,Year_of_Publication
0,2017


In [None]:
#    {"question": "What is the average duration of a game?", "label": "CSV"},
#    {"question": "How many players are required for the shortest game?", "label": "CSV"},
#    {"question": "What is the average game rating for beginners?", "label": "CSV"},

### OPCION 2

In [None]:
# Generar consulta SQL
def generar_consulta_sql(query: str, df: pd.DataFrame):
  columnas = df.columns.tolist()
  columnas_str = "\n".join([f"Campo: {col}" for col in columnas])

  cliente = InferenceClient(api_key='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')

  # Solicitud
  prompt = [
        {
            "role": "system",
            "content": f"""
        Eres un modelo que realiza consultas SQL sobre el juego de mesa Rajas of the Ganges a raíz de una frase del usuario.
        La base de datos es un CSV con las siguientes columnas:
          - Title: El nombre del juego de mesa.
          - Year_of_Publication: El año en que se publicó por primera vez el juego.
          - Minimum_Players: El número mínimo de jugadores necesarios para jugar el juego.
          - Maximum_Players: El número máximo de jugadores que pueden participar en el juego.
          - Minimum_Age: La edad mínima recomendada para los jugadores del juego.
          - Duration_Min: La duración mínima estimada de una partida, en minutos.
          - Duration_Max: La duración máxima estimada de una partida, en minutos.
          - General_Ranking: El ranking general del juego según las valoraciones de la comunidad (por ejemplo, en plataformas como BoardGameGeek).
          - Strategy_Ranking: El ranking del juego basado en su complejidad estratégica, según las valoraciones de la comunidad.
          - Weight: El peso del juego en términos de complejidad y profundidad (en una escala de 1 a 5, por ejemplo).
          - Rating: La calificación promedio del juego según las valoraciones de los usuarios (generalmente de 1 a 10).
        Debes escribir SOLAMENTE UNA consulta SQL que se adecue a la frase del usuario.
        Es importante que solo respondas con una sola consulta SQL.
        SI VAS A USAR COMILLAS, USA SIMPLES. NO USES EN EL NOMBRE DE LAS COLUMNAS.
        RESPETA TEXTUAL EL NOMBRE DE LAS COLUMNAS.
        La estructura de la consulta SQL debe ser SELECT WHERE utilizando las columnas que te dije. NO USES EL FROM.
        """},
        {
            "role": "user",
            "content": query
        }
    ]

  # Consulta y respuesta del modelo
  completion = cliente.chat.completions.create(model="Qwen/Qwen2.5-Coder-32B-Instruct", messages=prompt, max_tokens=500)
  respuesta = completion.choices[0].message.content

  if 'sql' in respuesta.lower():
    respuesta = respuesta[6:-3].strip()

  return respuesta

# Ejecutar consulta sql sobre el csv
def ejecutar_consulta_sql(query: str, df: pd.DataFrame):
  try:
    query = query.replace('"', '')
    select_match = re.search(r"SELECT (.+?) WHERE", query, re.IGNORECASE)
    where_match = re.search(r"WHERE (.+)", query, re.IGNORECASE)

    # Extraer columnas y condiciones
    if select_match:
      columnas = select_match.group(1).strip()
      columnas = [col.strip() for col in columnas.split(",")]

    # Si no hay cláusula WHERE
    condiciones = where_match.group(1).strip() if where_match else ""

    # SQL a pandas
    if condiciones:
      condiciones = condiciones.replace("=", "==").replace("AND", "&").replace("OR", "|")
      resultado = df.query(condiciones)[columnas]
    else:
      resultado = df[columnas]

    return resultado
  except Exception as e:
    print(f"Error ejecutando la consulta: {e}")
    return None

# Main
def main_consulta_csv(query):
  df = pd.read_csv('data_info_general.csv')

  # Obtener consulta desde el modelo
  consulta_sql = generar_consulta_sql(query, df)
  print(f"\nConsulta sql generada: {consulta_sql}")

  # Ejecutar la consulta sobre el csv
  result = ejecutar_consulta_sql(consulta_sql, df)

  # Retornar información
  if result is not None:
    print("\nInfo para formular la respuesta:")
    result.to_csv('result.csv', index=False)
    return pd.read_csv('result.csv')
  else:
    print("No se pudo ejecutar la consulta correctamente.")
    return None

#### Pruebas de recuperación de información

In [None]:
main_consulta_csv("How many players are needed to play?")


Consulta sql generada: SELECT Minimum_Players MAXimum_Players WHERE Title = 'Rajas of the Ganges'
Error ejecutando la consulta: "None of [Index(['Minimum_Players MAXimum_Players'], dtype='object')] are in the [columns]"
No se pudo ejecutar la consulta correctamente.


In [None]:
main_consulta_csv("What is the minimum age required to play?")


Consulta sql generada: SELECT Minimum_Age WHERE Title = 'Rajas of the Ganges'

Info para formular la respuesta:


Unnamed: 0,Minimum_Age
0,12


In [None]:
main_consulta_csv("What basic information is available about the game?")


Consulta sql generada: SELECT Title ,  Year_of_Publication ,  Minimum_Players ,  Maximum_Players ,  Minimum_Age ,  Duration_Min ,  Duration_Max ,  Rating WHERE Title = 'Rajas of the Ganges'

Info para formular la respuesta:


Unnamed: 0,Title,Year_of_Publication,Minimum_Players,Maximum_Players,Minimum_Age,Duration_Min,Duration_Max,Rating
0,Rajas of the Ganges,2017,2,4,12,45,75,15K


In [None]:
main_consulta_csv("What is the complexity rating of this game?")


Consulta sql generada: SELECT Weight WHERE Title = 'Rajas of the Ganges'

Info para formular la respuesta:


Unnamed: 0,Weight
0,2.89


In [None]:
main_consulta_csv("What is the strategy rating of the game?")


Consulta sql generada: SELECT Strategy_Ranking WHERE Title = 'Rajas of the Ganges'

Info para formular la respuesta:


Unnamed: 0,Strategy_Ranking
0,123


In [None]:
main_consulta_csv("What is the strategy rating and general of the game?")


Consulta sql generada: select Strategy_Ranking general_ranking from tabla where Title = 'Rajas of the Ganges'
Error ejecutando la consulta: "None of [Index(['Strategy_Ranking general_ranking from tabla'], dtype='object')] are in the [columns]"
No se pudo ejecutar la consulta correctamente.


In [None]:
main_consulta_csv("What is the year of publication of the game?")


Consulta sql generada: SELECT Year_of_Publication WHERE Title = 'Rajas of the Ganges'

Info para formular la respuesta:


Unnamed: 0,Year_of_Publication
0,2017


In [None]:
main_consulta_csv("What is the expected time to play the game?")


Consulta sql generada: SELECT Duration_Min, Duration_Max WHERE Title = 'Rajas of the Ganges'

Info para formular la respuesta:


Unnamed: 0,Duration_Min,Duration_Max
0,45,75


In [None]:
main_consulta_csv("What is the year of publication of the game?")


Consulta sql generada: SELECT Year_of_Publication WHERE Title = 'Rajas of the Ganges'

Info para formular la respuesta:


Unnamed: 0,Year_of_Publication
0,2017


In [None]:
#    {"question": "What is the average duration of a game?", "label": "CSV"},
#    {"question": "How many players are required for the shortest game?", "label": "CSV"},
#    {"question": "What is the average game rating for beginners?", "label": "CSV"},

## Dinámica cypher para GRAFOS

In [None]:
# Configurar Neo4j
NEO4J_URI = "neo4j+s://375ccbf7.databases.neo4j.io"
NEO4J_USERNAME = "neo4j"
NEO4J_PASSWORD = "PpEwt9Hz6KlCeSEggs1BLt0I8pEt6woGZbE5SXWp2XA"

# Generar consulta dinámica para el grafo (neo4j)
def generar_consulta_cypher(query: str, esquema: str):
  cliente = InferenceClient(api_key='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')

  # Solicitud
  prompt = [
        {"role": "system", "content": f"""
        Eres un experto en Neo4j y tu tarea es generar solo la consulta Cypher para responder a la siguiente consulta de un usuario, sin explicaciones ni texto adicional.

        El esquema de la base de datos es el siguiente:
        {esquema}

        Asegúrate de realizar las siguientes modificaciones antes de generar la consulta:
        - Elimina cualquier formato de código como ```cypher o ```.
        - Modifica los siguientes RETURN para que incluyan el atributo .nombre:
            - RETURN designers(nombre) → RETURN designers.nombre
            - RETURN artist(nombre) → RETURN artist.nombre
            - RETURN publishers(nombre) → RETURN publishers.nombre
            - RETURN categories(nombre) → RETURN categories.nombre
            - RETURN mechanisms(nombre) → RETURN mechanisms.nombre

        Devuelve SOLO la consulta Cypher modificada, sin formato de código o explicaciones adicionales.
        """},
        {"role": "user", "content": query}
  ]

  # Consulta y respuesta del modelo
  completion = cliente.chat.completions.create(model="Qwen/Qwen2.5-Coder-32B-Instruct", messages=prompt, max_tokens=500)
  respuesta = completion.choices[0].message.content.strip()
  return respuesta

# Ejecutar consulta Cypher sobre el grafo
def ejecutar_consulta_cypher(consulta_cypher: str, driver):
  try:
    with driver.session() as session:
      resultado = session.run(consulta_cypher)
      return [record.data() for record in resultado]
  except Exception as e:
    print(f"Error ejecutando la consulta: {e}")
    return None

# Main
def main_consulta_cypher(query):
  # Conectar con Neo4j
  driver = GraphDatabase.driver(NEO4J_URI, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))

  # Esquema
  esquema = """
  Nodo: Juego {nombre}
  Nodo: Designers {nombre}
  Nodo: Artist {nombre}
  Nodo: Publishers {nombre}
  Nodo: Categories {nombre}
  Nodo: Mechanisms {nombre}
  Relación: (Juego)-[:TIENE_DESIGNERS]->(Designers)
  Relación: (Juego)-[:TIENE_ARTIST]->(Artist)
  Relación: (Juego)-[:TIENE_PUBLISHERS]->(Publishers)
  Relación: (Juego)-[:TIENE_CATEGORIES]->(Categories)
  Relación: (Juego)-[:TIENE_MECHANISMS]->(Mechanisms)
  """

  # Obtener, limpiar y ejecutar consulta
  consulta_cypher = generar_consulta_cypher(query, esquema)
  #print(f"\nConsulta cypher generada:  {consulta_cypher}")

  result = ejecutar_consulta_cypher(consulta_cypher, driver)

  # Almacenar solo los valores de interés
  extracted_values = []
  if result:
    #print("\nInfo para formular la respuesta:")
    for row in result:
      #print(row)
      extracted_values.extend(row.values())

    # Limpieza y extracción de valores únicos
    unique_values = list(set(extracted_values))
    return ", ".join(map(str, unique_values))
  else:
    print("No se obtuvieron resultados o hubo un error.")
    return None

### Pruebas de recuperación de información

In [None]:
main_consulta_cypher("Which designers are associated with Rajas of the Ganges?")

'Inka Brand, Markus Brand'

In [None]:
main_consulta_cypher("Which publishers released this game Rajas of the Ganges??")

'HUCH!, Fabrika Igr, 999 Games, HOT Games, Devir, nostalgia (III), Egmont Polska, Dice Realm, DV Games, R&R Games, Game Harbor'

In [None]:
main_consulta_cypher("What mechanisms are related to this game Rajas of the Ganges??")

'Worker Placement with Dice Workers, Track Movement, Tile Placement, Connections, Worker Placement, Race, Dice Rolling'

In [None]:
main_consulta_cypher("Who are the artists who worked on this game Rajas of the Ganges?")

'Dennis Lohausen'

In [None]:
main_consulta_cypher("What categories are assigned to this game Rajas of the Ganges?")

'Territory Building, Renaissance, Economic, Dice'

In [None]:
main_consulta_cypher("Which artists were involved in designing this game?")

'Dennis Lohausen'

In [None]:
"""
    {"question": "How is the 'Strategy' category connected to the designers?", "label": "GRAPH"},
    {"question": "What mechanisms are commonly used in similar games?", "label": "GRAPH"},
    {"question": "What connections exist between designers and mechanisms in this game?", "label": "GRAPH"},
    {"question": "What connections exist between publishers and designers?", "label": "GRAPH"},
"""

'\n    {"question": "How is the \'Strategy\' category connected to the designers?", "label": "GRAPH"},\n    {"question": "What mechanisms are commonly used in similar games?", "label": "GRAPH"},\n    {"question": "What connections exist between designers and mechanisms in this game?", "label": "GRAPH"},\n    {"question": "What connections exist between publishers and designers?", "label": "GRAPH"},\n'

## Búsqueda híbrida para VECTORIAL

### Búsqueda semántica
Por embeddings

In [None]:
import chromadb
import numpy as np
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity

# Inicializar el modelo de embeddings
modelo_embedding = SentenceTransformer('all-MiniLM-L6-v2')

def obtener_documentos_y_embeddings():
    """Recuperar documentos y sus embeddings de la colección Chroma."""
    cliente = chromadb.Client()
    coleccion = cliente.get_collection("collection4")
    info_coleccion = coleccion.get(include=["documents", "embeddings"])
    return info_coleccion['documents'], info_coleccion['embeddings']

def calcular_similitudes_coseno(query_embedding, embeddings_docs):
    """Calcular las similitudes de coseno entre el embedding de la consulta y los documentos."""
    return cosine_similarity([query_embedding], embeddings_docs)[0]

def obtener_top_k_resultados(similitudes, documentos, top_k=15):
    """Obtener los documentos más similares y sus puntuaciones de similitud."""
    top_k_indices = np.argsort(similitudes)[-top_k:][::-1]  # Obtener los índices de los top_k documentos más similares
    results = [
        {"texto": documentos[idx], "score": similitudes[idx]}
        for idx in top_k_indices
    ]
    return results

def buscar_documentos_similares(query, top_k=15):
    """Función principal para buscar los documentos más similares a la consulta."""
    # Paso 1: Obtener el embedding de la consulta
    query_embedding = modelo_embedding.encode(query)

    # Paso 2: Obtener documentos y embeddings desde Chroma
    documentos, embeddings_docs = obtener_documentos_y_embeddings()

    # Paso 3: Calcular similitudes de coseno
    similitudes = calcular_similitudes_coseno(query_embedding, embeddings_docs)

    # Paso 4: Obtener los resultados más relevantes
    results = obtener_top_k_resultados(similitudes, documentos, top_k)

    return results

In [None]:
"""# Ejemplo de uso
query = "What is the objective of the game?"
resultados_busqueda_semantica = buscar_documentos_similares(query, top_k=15)

# Mostrar los resultados
for result in resultados_busqueda_semantica:
    print(f"Score: {result['score']:.4f}")
    print(f"Texto: {result['texto']}\n")
    print("="*50)"""

'# Ejemplo de uso\nquery = "What is the objective of the game?"\nresultados_busqueda_semantica = buscar_documentos_similares(query, top_k=15)\n\n# Mostrar los resultados\nfor result in resultados_busqueda_semantica:\n    print(f"Score: {result[\'score\']:.4f}")\n    print(f"Texto: {result[\'texto\']}\n")\n    print("="*50)'

### BM25
Por palabras clave

In [None]:
%%capture
!pip install rank_bm25 unidecode nltk

from rank_bm25 import BM25Okapi
from typing import List, Dict, Any
import numpy as np
from dataclasses import dataclass
import re
from nltk.tokenize import word_tokenize
import nltk
from unidecode import unidecode
from llama_index.core import SimpleDirectoryReader
from llama_index.core.schema import Document as LlamaDocument
from llama_index.core.schema import NodeWithScore
import nltk
import numpy as np
from nltk.tokenize import word_tokenize
from typing import List
from rank_bm25 import BM25Okapi
from unidecode import unidecode

In [None]:
# Descargar recursos necesarios de NLTK
try:
    nltk.data.find('tokenizers/punkt')
except LookupError:
    nltk.download('punkt')

# Preprocesar el texto para mejorar la búsqueda
def preprocesar_texto(texto: str) -> str:
    texto = texto.lower()  # Convertir a minúsculas
    texto = unidecode(texto)  # Eliminar acentos
    texto = re.sub(r'[^a-zA-Z0-9\s]', ' ', texto)  # Eliminar caracteres especiales pero mantener espacios
    texto = re.sub(r'\s+', ' ', texto).strip()  # Eliminar espacios múltiples
    return texto

# Tokenizar el texto usando NLTK
def tokenizar(texto: str, language: str = 'english') -> List[str]:
    return word_tokenize(texto, language=language)

# Crear el modelo BM25
def crear_bm25_modelo(documentos: List[str], language: str = 'english') -> BM25Okapi:
    """Crear el modelo BM25 a partir de una lista de documentos."""
    # Preprocesar y tokenizar documentos
    corpus = [preprocesar_texto(doc) for doc in documentos]
    corpus_tokenizado = [tokenizar(texto, language) for texto in corpus]

    # Inicializar BM25
    return BM25Okapi(corpus_tokenizado)

# Calcular los documentos más relevantes para una consulta
def recuperar_documentos(query: str, bm25: BM25Okapi, documentos: List[str], top_k: int = 15) -> List[dict]:
    """Recuperar los documentos más relevantes para una consulta usando BM25."""
    # Preprocesar y tokenizar la consulta
    consulta_preprocesada = preprocesar_texto(query)
    consulta_tokenizada = tokenizar(consulta_preprocesada)

    # Obtener los scores BM25
    scores = bm25.get_scores(consulta_tokenizada)

    # Obtener los índices de los top_k documentos
    top_indices = np.argsort(scores)[-top_k:][::-1]

    # Crear lista de resultados
    resultados = []
    for idx in top_indices:
        if scores[idx] > 0:  # Solo incluir documentos con score positivo
            resultados.append({
                'score': float(scores[idx]),
                'texto': documentos[idx][:1800]  # Limitar el texto mostrado a los primeros 1800 caracteres
            })

    return resultados

# Función principal para cargar los documentos y realizar la búsqueda
def buscar_documentos(query: str, archivos: List[str], top_k: int = 15) -> List[dict]:
    """Buscar los documentos más similares a la consulta en un conjunto de archivos."""
    # Cargar documentos
    todos_los_textos = ""
    for archivo in archivos:
        with open(archivo, 'r', encoding='utf-8') as file:
            todos_los_textos += file.read() + "\n\n"  # Concatenar contenido de cada archivo

    # Dividir el texto concatenado en documentos
    documentos = todos_los_textos.split('\n\n')

    # Crear el modelo BM25
    bm25 = crear_bm25_modelo(documentos)

    # Recuperar resultados
    resultados = recuperar_documentos(query, bm25, documentos, top_k)

    return resultados

# Clase para simular la interfaz de "retriever"
class BM25Retriever:
    def __init__(self, archivos: List[str], top_k: int = 15):
        """Inicializa el objeto BM25Retriever cargando los documentos y creando el modelo BM25."""
        self.archivos = archivos
        self.top_k = top_k
        # Cargar los documentos
        self.documentos = ""
        for archivo in archivos:
            with open(archivo, 'r', encoding='utf-8') as file:
                self.documentos += file.read() + "\n\n"  # Concatenar contenido de cada archivo
        # Dividir los textos en documentos
        self.documentos = self.documentos.split('\n\n')

        # Crear el modelo BM25
        self.bm25 = crear_bm25_modelo(self.documentos)

    def as_retriever(self, similarity_top_k: int = 15) -> 'BM25Retriever':
        """Configura el retriever para devolver los top_k resultados más similares."""
        self.top_k = similarity_top_k
        return self  # Retorna el propio objeto como "retriever"

    def retrieve(self, query: str) -> List[dict]:
        """Recuperar documentos relevantes utilizando el modelo BM25 y la consulta dada."""
        return recuperar_documentos(query, self.bm25, self.documentos, top_k=self.top_k)

# Ejemplo de uso para retornar resultados
def obtener_resultados(query: str, archivos: List[str], top_k: int = 15):
    bm25_retriever = BM25Retriever(archivos)
    retriever = bm25_retriever.as_retriever(similarity_top_k=top_k)

    # Realizar la búsqueda usando el retriever
    resultados_bm25 = retriever.retrieve(query)

    return resultados_bm25

In [None]:
"""# Ejemplo de uso
archivos = ['reglas_flujo_juego.txt', 'resumen.txt']
query = "What is the objective of the game?"
resultados_busqueda_bm25 = obtener_resultados(query, archivos)

# Mostrar resultados (opcional)
for result in resultados_busqueda_bm25:
    print(f"Score: {result['score']:.4f}")
    print(f"Texto: {result['texto']}\n")
    print("="*50)"""

'# Ejemplo de uso\narchivos = [\'reglas_flujo_juego.txt\', \'resumen.txt\']\nquery = "What is the objective of the game?"\nresultados_busqueda_bm25 = obtener_resultados(query, archivos)\n\n# Mostrar resultados (opcional)\nfor result in resultados_busqueda_bm25:\n    print(f"Score: {result[\'score\']:.4f}")\n    print(f"Texto: {result[\'texto\']}\n")\n    print("="*50)'

### ReRank

In [None]:
"""print(f"Tipo de resultados_busqueda_semantica: {type(resultados_busqueda_semantica)}")
print(f"Tipo de resultados_bm25: {type(resultados_busqueda_bm25)}")"""

'print(f"Tipo de resultados_busqueda_semantica: {type(resultados_busqueda_semantica)}")\nprint(f"Tipo de resultados_bm25: {type(resultados_busqueda_bm25)}")'

In [None]:
"""resultados_combinados = resultados_busqueda_semantica + resultados_busqueda_bm25
resultados_combinados"""

'resultados_combinados = resultados_busqueda_semantica + resultados_busqueda_bm25\nresultados_combinados'

In [None]:
from sentence_transformers import CrossEncoder

class Reranker:
    def __init__(self, model_name: str = 'cross-encoder/ms-marco-MiniLM-L-6-v2'):
        """
        Inicializa el reranker con un modelo cross-encoder.
        """
        self.model = CrossEncoder(model_name)

    def rerank(self, query: str, nodes, top_k: int = None) -> list:
        """
        Reordena los nodos recuperados usando el cross-encoder.
        """
        if not nodes:
            return nodes

        pairs = [(query, node.text) for node in nodes]
        scores = self.model.predict(pairs)
        scored_nodes = list(zip(scores, nodes))
        scored_nodes.sort(key=lambda x: x[0], reverse=True)

        # Limitar a los top_k mejores resultados
        if top_k:
            scored_nodes = scored_nodes[:top_k]

        return [node for _, node in scored_nodes]

# Inicializar reranker
reranker = Reranker()

class Node:
    def __init__(self, texto):
        self.text = texto

config.json:   0%|          | 0.00/794 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/316 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

In [None]:
def obtener_resultados_formateados(query, resultados_busqueda_semantica, resultados_busqueda_bm25):
    """
    Función que toma una lista de resultados reordenados y devuelve un string
    con los textos de los resultados formateados.

    Args:
    - reordered_results (list): Lista de objetos Node reordenados.

    Returns:
    - str: Cadena con los textos de los resultados formateados.
    """
    resultados_combinados = resultados_busqueda_semantica + resultados_busqueda_bm25
    # Crear nodos a partir de los resultados combinados
    resultados_combinados_nodos = [Node(item['texto']) for item in resultados_combinados]

    # Llamar al reranker y obtener los 4 mejores resultados
    reordered_results = reranker.rerank(query, resultados_combinados_nodos, top_k=4)

    resultados_str = ""
    for result in reordered_results:
        resultados_str += f"Texto: {result.text}\n"
        resultados_str += "-" * 50 + "\n"

    return resultados_str, reordered_results

In [None]:
"""query = 'game end'
# Obtener los resultados formateados
resultados_str, reordered_results = obtener_resultados_formateados(query, resultados_busqueda_semantica, resultados_busqueda_bm25)"""

"query = 'game end'\n# Obtener los resultados formateados\nresultados_str, reordered_results = obtener_resultados_formateados(query, resultados_busqueda_semantica, resultados_busqueda_bm25)"

In [None]:
"""# Mostrar los 4 resultados con sus puntuaciones
for result in reordered_results:
    print(f"Texto: {result.text}")
    print(f"Puntuación: {reranker.model.predict([(query, result.text)])[0]}")
    print("=" * 50)"""

'# Mostrar los 4 resultados con sus puntuaciones\nfor result in reordered_results:\n    print(f"Texto: {result.text}")\n    print(f"Puntuación: {reranker.model.predict([(query, result.text)])[0]}")\n    print("=" * 50)'

# CHATBOT FINAL

In [None]:
# Plantilla Jinja para el modelo Zephyr.
def plantilla_conversacion(messages, agregar_prompt_asistente=True):
  template_str = """
  {% for message in messages %}
  {% if message['role'] == 'user' %}<|user|>{{ message['content'] }}</s>
  {% elif message['role'] == 'assistant' %}<|assistant|>{{ message['content'] }}</s>
  {% elif message['role'] == 'system' %}<|system|>{{ message['content'] }}</s>
  {% else %}<|unknown|>{{ message['content'] }}</s>
  {% endif %}
  {% endfor %}
  {% if agregar_prompt_asistente %}<|assistant|>
  {% endif %}
  """
  template = Template(template_str)
  return template.render(messages=messages, add_generation_prompt=agregar_prompt_asistente)

# Cabeceras para solicitud API
def preparar_cabeceras(clave_api):
  return {"Authorization": f"Bearer {clave_api}"}

# Devuelve la respuesta
def generar_respuesta(prompt, url_api, cabeceras):
  datos = {"inputs": prompt, "parameters": {"max_new_tokens": 256, "temperature": 0.001, "top_k": 50, "top_p": 0.95}}
  respuesta = requests.post(url_api, headers=cabeceras, json=datos)
  return respuesta.json()

# Devuelve la bdd elegida
def elegir_bdd(query):
  selected_db = clasificador(query)
  bdd_seleccionada = limpiar_prediccion(selected_db)
  #print(f"\nBase de datos seleccionada: {bdd_seleccionada}")
  return bdd_seleccionada

# Llama a la consulta correspondiente
def traer_consulta(bdd_seleccionada, query):
  if "GRAPH" in bdd_seleccionada:
    #print("\nResultados para formular la respuesta:")
    informacion_recuperada = main_consulta_cypher(query)
    #print(informacion_recuperada)
    print("\n")
    return informacion_recuperada

  elif "VECTORIAL" in bdd_seleccionada:
    resultados_busqueda_semantica = buscar_documentos_similares(query, top_k=15)
    archivos = ['reglas_flujo_juego.txt', 'resumen.txt']
    resultados_busqueda_bm25 = obtener_resultados(query, archivos)
    #print("\nResultados para formular la respuesta:")
    informacion_recuperada, reordered_results = obtener_resultados_formateados(query, resultados_busqueda_semantica, resultados_busqueda_bm25)
    #print(informacion_recuperada)
    print("\n")
    return informacion_recuperada

  elif "CSV" in bdd_seleccionada:
    #print("\nResultados para formular la respuesta:")
    informacion_recuperada = main_consulta_pandas(query)
    #print(informacion_recuperada)
    print("\n")
    return informacion_recuperada

  else:
    print("Base de datos no encontrada.")

# Main
def principal(informacion_recuperada):
  clave_api = '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'
  url_api = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"
  cabeceras = preparar_cabeceras(clave_api)

  conversacion = []
  while True:
    conversacion.clear()
    entrada_usuario = input("<|user|> ")
    if entrada_usuario.lower() in ["salir", "exit"]:
      print("<|assistant|> Bye. Have a great day!")
      break

    bdd_seleccionada = elegir_bdd(entrada_usuario)
    informacion_recuperada = traer_consulta(bdd_seleccionada, entrada_usuario)

    conversacion.append({"role": "user", "content": entrada_usuario})
    contexto_prompt = f"""
    La información de contexto es la siguiente:
    ---------------------
    {informacion_recuperada}
    ---------------------
    You are an expert in the game Rajas of the Ganges. Your task is to formulate answers to the user's question based on the provided information.
    Answers must be short.
    Do not make assumptions or add extra text.
    Respond in a single sentence.
    Do not mention the context or that you don't have further information.
    """
    conversacion.insert(0, {"role": "system", "content": contexto_prompt})

    prompt = plantilla_conversacion(conversacion)
    respuesta = generar_respuesta(prompt, url_api, cabeceras)
    respuesta_asistente = respuesta[0].get('generated_text', '').split('</s>')[-1].strip()

    # Mostrar la respuesta y agregarla a la conversación
    print(f"{respuesta_asistente}")
    conversacion.append({"role": "assistant", "content": respuesta_asistente})

    # Limpiar el contexto inicial para las siguientes iteraciones
    conversacion.pop(0)

In [None]:
# Llamar a la función principal
print("Hello! This is a chatbot that answers your questions about the eurogame Rajas of the Ganges. What’s your query?")
principal(None)

Hello! This is a chatbot that answers your questions about the eurogame Rajas of the Ganges. What’s your query?
<|user|> Which designers are associated with Rajas of the Ganges?


<|assistant|> "Inka and Markus Brand are the designers of Rajas of the Ganges."
<|user|> What is the expected time to play the game?


<|assistant|>
The expected play time for the game Rajas of the Ganges is 60 minutes.
<|user|> what is the objective of the game?
Base de datos no encontrada.
<|assistant|>
The objective of the game Rajas of the Ganges is to become the most powerful Rajput clan in medieval India by expanding your territory, managing resources, and defeating rival clans in battle.
<|user|> exit
<|assistant|> Bye. Have a great day!


In [None]:
'What is the objective of the game?'
'What is the strategy ranking and general of the game?'
'What categories are assigned to this game Rajas of the Ganges?'

'What categories are assigned to this game Rajas of the Ganges?'

# AGENTE

In [None]:
%%capture
!curl -fsSL https://ollama.com/install.sh | sh
!rm -f ollama_start.sh
!echo '#!/bin/bash' > ollama_start.sh
!echo 'ollama serve' >> ollama_start.sh
!chmod +x ollama_start.sh
!nohup ./ollama_start.sh &
!ollama pull llama3.2 > ollama.log
!ollama list
!pip install llama-index
!pip install llama-index-llms-ollama
!nohup litellm --model ollama/llama3.2:latest --port 8000 > litellm.log 2>&1 &
!pip install rank_bm25

In [None]:
%%capture
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')
from nltk.tokenize import word_tokenize
nltk.data.path.append('/root/nltk_data/tokenizers/punkt')
from typing import List, Dict, Any
import numpy as np
from llama_index.core import Settings
from llama_index.llms.ollama import Ollama
from llama_index.core.agent import ReActAgent
from llama_index.core.tools import FunctionTool
from llama_index.core.agent.react.formatter import ReActChatFormatter
import chromadb
from chromadb.config import Settings

In [None]:
%%capture
import logging
from typing import Dict, Any
import requests
from bs4 import BeautifulSoup
import datetime

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

In [None]:
def graph_search(query):
  resultado_grafo = main_consulta_cypher(query)
  return resultado_grafo

def table_search(query):
  resultado_csv = main_consulta_pandas(query)
  return resultado_csv

def doc_search(query):
  resultados_busqueda_semantica = buscar_documentos_similares(query, top_k=15)
  archivos = ['reglas_flujo_juego.txt', 'resumen.txt']
  resultados_busqueda_bm25 = obtener_resultados(query, archivos)
  resultado_vectorial, reordered_results = obtener_resultados_formateados(query, resultados_busqueda_semantica, resultados_busqueda_bm25)
  return resultado_vectorial

In [None]:
# Herramientas
tools_list = [
  # Herramienta que busca información en la bdd de grafos
  FunctionTool.from_defaults(fn=graph_search, description="Search for information in the graph database. Use: query text"),

  # Herramienta que busca información en la bdd tabular
  FunctionTool.from_defaults(fn=table_search, description="Search for information in the tabular database. Use: query text"),

  # Herramienta que busca información en la bdd vectorial
  FunctionTool.from_defaults(fn=doc_search, description="Search for information in the vector database. Use: query text")
]

In [None]:
# LLM de Ollama
llm = Ollama(model="llama3.2:latest", request_timeout=15.0, temperature=0.1, context_window=4096)
Settings.llm = llm

In [None]:
# Agente ReAct
agent = ReActAgent.from_tools(
    tools_list,
    llm=llm,
    verbose=False,  # Habilitar modo detallado para obtener más información durante la ejecución
    chat_formatter=ReActChatFormatter.from_defaults(),
    system_prompt = """
    Your role: Answer questions about the game 'Rajas of the Ganges' using only information provided by the available tools.

    ## Available Tools:
    - graph_search: Information about Designers, Artists, Publishers, Developers, Categories, and Mechanisms.
    - table_search: Information about contains information about the minimum and maximum number of players, minimum age, game duration, general and strategy ratings, complexity, and year of publication.
    - doc_search: Information about how to win, actions, components, and Rules.

    ### Instructions for Each Query:
    1. **Analyze the query** to determine the appropriate tool to use based on the provided instructions:
      - Select **VECTORIAL** for questions about game rules, components, actions, strategies, or how to win.
      - Select **GRAPH** for questions about people, categories, or mechanisms involved in the creation of the game.
      - Select **CSV** for questions about numerical data, such as the number of players, age, duration, or ratings.
    2. **Call** the selected tool(s) using exactly the received query.
    3. **Do not invent information**. Only respond with data obtained from the tools. If the necessary information is not present, respond: "No information was found for your query."
    4. **Response Format**:
      - **Thought**: Explain what information is needed and which tool to use.
      - **Action**: Call the appropriate tool.
      - **Action Input**: The received query.
      - **Observation**: The response from the tool.
      - **Final Answer**: A clear and complete response based strictly on the obtained information.

    ### Additional Rules:
    - **Do not add extra information**. Responses should be concise and based on the context and tools provided.
    - **Do not make assumptions** or provide explanations beyond the tool data.
    - **Do not mention the context** or that you don’t have further information. Only answer based on the available data.

    context: You are an expert assistant who answers queries about the board game 'Rajas of the Ganges'.
    """
      ,
            react_chat_history=False,
          context="""You are an expert assistant who answers queries about the board game called 'Rajas of the Ganges'.
          """)

# Interactuar con el agente ReAct
def chat_con_agente(query: str):
    """
    Función para interactuar con el agente ReAct.
    """
    try:
        if not query.strip():  # Verifica si la consulta está vacía
            return "La consulta está vacía"

        response = agent.chat(query)  # Realiza la consulta con el agente
        return response  # Retorna la respuesta del agente
    except Exception as e:  # En caso de error, retorna un mensaje de error
        return f"Error al procesar la consulta: {str(e)}"



In [None]:
# Ejemplo de uso
def ejecutar_ejemplo():
  #queries = ['What is the objective of the game?',
            #'What is the strategy rating and general of the game?',
            #'What categories are assigned to this game Rajas of the Ganges?']

  queries = ['end game']

  for i, query in enumerate(queries):
    print(f"\nConsulta {i+1}: {query}")
    response = chat_con_agente(query)
    print(f"Respuesta {i+1}: {response}")
    print("------------------------------------------------------")

# Configurar el entorno de ejecución
import logging
logging.basicConfig(level=logging.INFO)

# Ejecutar el ejemplo de interacción
ejecutar_ejemplo()


Consulta 1: end game
Respuesta 1: The designers of Rajas of the Ganges are Inka Brand and Markus Brand.
------------------------------------------------------
