# **TRABAJO PRÁCTICO 2 - NLP TUIA 2024**
- Morena Herrera H-1187/8

Proyecto: **Chatbot con conocimiento del eurogame Rajas of the Ganges.**

Este proyecto consiste en el desarrollo de un chatbot y agente ReAct con conocimiento específico sobre el eurogame *Rajas of the Ganges*.
El proceso implementado abarca desde la extracción y limpieza de datos hasta la generación de respuestas basadas en la clasificación de fuentes de información, consultas dinámicas y búsquedas híbridas.

El resultado final es la integración de diversas herramientas y técnicas, como clasificadores de bases de datos, generación de consultas específicas y el uso de modelos de lenguaje ya entrenados (LLMs), entre otras. Estas funcionalidades permiten brindar respuestas precisas y contextualizadas a las consultas de los usuarios sobre el juego.

# Instalaciones e importaciones

In [1]:
%%capture
!pip install selenium
!pip install PyPDF2
!pip install gdown
!pip install pdf2image
!pip install pytesseract
!pip install requests
!pip install webdriver-manager
!pip install python-docx
!pip install --upgrade chromadb
!pip install keybert
!pip install translate
!pip install translatepy
!pip install neo4j
!pip install PyMuPDF
!pip install python-decouple requests jinja2
!pip install pdfplumber
!pip install chromadb
!pip install sentence_transformers
!pip install langchain
!pip install llama-index
!pip install llama-index-llms-ollama
!pip install rank_bm25
!apt-get update
!apt-get install -y tesseract-ocr
!apt-get install -y poppler-utils
!apt-get install -y tesseract-ocr-spa
!apt-get install -y tesseract-ocr-eng
!apt install -y chromium-chromedriver
!curl -fsSL https://ollama.com/install.sh | sh
!rm -f ollama_start.sh
!nohup ./ollama_start.sh &
!nohup litellm --model ollama/llama3.2:latest --port 8000 > litellm.log 2>&1 &
!echo '#!/bin/bash' > ollama_start.sh
!echo 'ollama serve' >> ollama_start.sh
!chmod +x ollama_start.sh
!ollama pull llama3.2 > ollama.log
!ollama list

In [2]:
%%capture
import time
import os
import pytesseract
import re
import unicodedata
import chromadb
import uuid
import fitz
import json
import requests
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pdfplumber
import chromadb
import warnings
import sys
import chromadb
import nltk
import logging
import requests
import datetime
sys.path.insert(0, '/usr/lib/chromium-browser/chromedriver')
warnings.filterwarnings('ignore')
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.data.path.append('/root/nltk_data/tokenizers/punkt')

In [3]:
%%capture
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.service import Service
from sentence_transformers import SentenceTransformer
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
from decouple import config
from jinja2 import Template
from huggingface_hub import InferenceClient
from keybert import KeyBERT
from bs4 import BeautifulSoup
from PyPDF2 import PdfReader
from pdf2image import convert_from_path
from PIL import Image
from webdriver_manager.chrome import ChromeDriverManager
from docx import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from neo4j import GraphDatabase
from typing import List, Dict, Any
from nltk.tokenize import word_tokenize
from llama_index.core import Settings
from llama_index.llms.ollama import Ollama
from llama_index.core.agent import ReActAgent
from llama_index.core.tools import FunctionTool
from llama_index.core.agent.react.formatter import ReActChatFormatter
from chromadb.config import Settings
from typing import Dict, Any

# Extracción de datos para CSV

In [141]:
# Configurar entorno
sys.path.insert(0, '/usr/lib/chromium-browser/chromedriver')

# Configurar navegador
chrome_options = Options()
chrome_options.add_argument("--headless")
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# Inicializar driver
driver = webdriver.Chrome(options=chrome_options)

# Abrir página
driver.get('https://boardgamegeek.com/boardgame/220877/rajas-of-the-ganges')

In [142]:
wait = WebDriverWait(driver, 20)

# Obtener el título del juego
elemento_titulo = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'h1 a span[itemprop="name"]')))
titulo = elemento_titulo.text
print(f"Título del juego: {titulo}")

# Obtener el número de jugadores
elemento_jugadores = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'ul.gameplay li[itemscope][itemprop="numberOfPlayers"] p.gameplay-item-primary')))
jugadores = elemento_jugadores.text
print(f"Número de jugadores: {jugadores}")

# Obtener la edad mínima recomendada
elemento_min_edad = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'span[itemprop="suggestedMinAge"]')))
min_edad = elemento_min_edad.text
print(f"Edad mínima recomendada: {min_edad}")

# Obtener la duración del juego
elemento_duracion = wait.until(EC.presence_of_element_located((By.XPATH, "//li[h3[contains(text(), 'Play Time')]]")))
duracion_text = elemento_duracion.text.strip()
lista = duracion_text.split('\n')
duracion = lista[1]
print(f"Duración del juego: {duracion}")

Título del juego: Rajas of the Ganges
Número de jugadores: 2–4 Players
Edad mínima recomendada: 12
Duración del juego: 45–75 Min


## Contrucción BDD CSV

In [143]:
game_data = {
  "Title": [titulo],
  "Players": [jugadores],
  "Minimum Age": [min_edad],
  "Duration": [duracion],
}

df_game_data = pd.DataFrame(game_data)
df_game_data.head()

Unnamed: 0,Title,Players,Minimum Age,Duration
0,Rajas of the Ganges,2–4 Players,12,45–75 Min


In [144]:
# Guardar bdd tabular como archivo CSV
df_game_data.to_csv('data_info_general.csv', index=False)

# Extracción de datos para GRAFOS

In [None]:
# Configurar Chrome para usarlo en modo headless
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

# Inicializar driver
driver = webdriver.Chrome(options=chrome_options)

# Abrir página
driver.get('https://boardgamegeek.com/boardgame/220877/rajas-of-the-ganges/credits')
wait = WebDriverWait(driver, 10)

# Obtener creditos
wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, 'credits-module > ul > li')))

# HTML actualizado después de la carga dinámica
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

In [None]:
info_relevante = ['Designers', 'Artist', 'Publishers', 'Categories', 'Mechanisms']
info_creditos = {}

# Seleccionar todos los elementos de la lista de créditos
creditos = soup.select('credits-module > ul > li')

# Recorrer cada elemento y extraer la información
for item in creditos:
    titulo_elemento = item.select_one('.outline-item-title')
    contenido_elemento = item.select('.outline-item-description > div > div > a')

    role = titulo_elemento.text.strip()
    if role in info_relevante:
      people = [person.text.strip() for person in contenido_elemento]
      info_creditos[role] = people

print(info_creditos)

{'Designers': ['Inka Brand', 'Markus Brand'], 'Artist': ['Dennis Lohausen'], 'Publishers': ['HUCH!', '999 Games', 'Devir', 'Dice Realm', 'DV Games', 'Egmont Polska', 'Fabrika Igr', 'Game Harbor', 'HOT Games', 'nostalgia (III)', 'R&R Games'], 'Categories': ['Dice', 'Economic', 'Renaissance', 'Territory Building'], 'Mechanisms': ['Connections', 'Dice Rolling', 'Race', 'Tile Placement', 'Track Movement', 'Worker Placement', 'Worker Placement with Dice Workers']}


## Contrucción BDD GRAFOS

In [None]:
# Guardar bdd grafos como archivo JSON
with open("info_creditos.json", "w", encoding="utf-8") as file:
    json.dump(info_creditos, file, ensure_ascii=False, indent=4)

## Visualizar BDD GRAFOS

In [None]:
!gdown '1reYwDV3S5KbYjqdLg8_ycI1xjYKxlYb-' --output 'info_creditos.json'

Downloading...
From: https://drive.google.com/uc?id=1reYwDV3S5KbYjqdLg8_ycI1xjYKxlYb-
To: /content/info_creditos.json
  0% 0.00/715 [00:00<?, ?B/s]100% 715/715 [00:00<00:00, 3.43MB/s]


In [None]:
# Configurar Neo4j
NEO4J_URI = "neo4j+s://375ccbf7.databases.neo4j.io"
NEO4J_USERNAME = "neo4j"
NEO4J_PASSWORD = "PpEwt9Hz6KlCeSEggs1BLt0I8pEt6woGZbE5SXWp2XA"

# Conectar con Neo4j
driver = GraphDatabase.driver(NEO4J_URI, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))

In [None]:
# Almacenar datos en Neo4j
def almacenar_diccionario_en_neo4j(info_creditos, driver):
  with driver.session() as session:
    juego = "Rajas of the Ganges" # Nodo para el juego principal
    session.run(f"""MERGE (j:Juego {{nombre: '{juego}'}})""")

    # Crear nodos y relaciones para cada titulo y contenido
    for titulo, items in info_creditos.items():
      for item in items:
          # Crear nodos para los elementos asociados al rol
          session.run(f"""
            MERGE (n:{titulo.replace(" ", "_")} {{nombre: '{item}'}})
            MERGE (j:Juego {{nombre: '{juego}'}})
            MERGE (j)-[:TIENE_{titulo.upper().replace(" ", "_")}]->(n)
          """)

with open("info_creditos.json", "r", encoding="utf-8") as file:
  info_creditos = json.load(file)

almacenar_diccionario_en_neo4j(info_creditos, driver)

# Extracción de datos para VECTORIAL

## TXT GUIA
Rajas_of_the_Ganges_Quick_Rules_Guide.pdf

In [87]:
def limpiar_texto_archivo1(texto):
    texto_limpio = texto.replace('', ' °')
    texto_limpio = texto_limpio.replace('o ', '  --')
    texto_limpio = re.sub(r'(\b\S+)\s*--\s*(\S+\b)', r'\1o \2', texto_limpio)
    texto_limpio = texto_limpio.replace(' ', '   ---')
    texto_limpio = re.sub(r'(°|--|---)\s*\n\s*', r'\1 ', texto_limpio)
    texto_limpio = re.sub(r'(\S)\.(\S)', r'\1.\n\2', texto_limpio)
    texto_limpio = re.sub(r'^o\s+', '  -- ', texto_limpio, flags=re.MULTILINE)
    texto_limpio = re.sub(r'([^\w\s])\s*o', r'\1\n  --', texto_limpio)
    return texto_limpio

In [88]:
# Ruta del archivo PDF
!gdown '1SlwjJgJoA0Uo8hyyDn3WjVJaBDAa_ITV' --output 'Rajas_of_the_Ganges_Quick_Rules_Guide.pdf'

# Abrir el PDF y guardar el texto en un archivo TXT
with pdfplumber.open('Rajas_of_the_Ganges_Quick_Rules_Guide.pdf') as pdf, open("guia.txt", "w", encoding="utf-8") as txt_file:
    for page in pdf.pages:
        text = page.extract_text()  # Extraer texto
        texto_limpio = limpiar_texto_archivo1(text)
        print(f"{texto_limpio}")
        txt_file.write(texto_limpio + "\n")  # Guardar texto en el archivo

print("El texto del PDF se ha guardado en 'guia.txt'.")

Downloading...
From: https://drive.google.com/uc?id=1SlwjJgJoA0Uo8hyyDn3WjVJaBDAa_ITV
To: /content/Rajas_of_the_Ganges_Quick_Rules_Guide.pdf
  0% 0.00/365k [00:00<?, ?B/s]100% 365k/365k [00:00<00:00, 90.8MB/s]
Rajas of the Ganges
Set-Up:
 ° Place the game board in the middle of the table, according to the player count.
  -- If playing with 3 players, use the 2 “space cover” markers to cover the 1st Quarry space and the 3rd Harbor space.
  -- If playing the “standard game,” put the Yellow, Brown and Red yield tokens, and the 8 river tokens, in the box.
   ---See below for details on the Navaratnas Version and the Ganga Module (2 variants to the game!)
 ° Sort the “Province Tiles” by color, and then by the 3 different animal backs (snake, cow, tiger).
  -- Place the 12 stacks face-down next to the board, then flip the top tile of each stack face-up.
 ° Mix the 8 white “Yield” tokens face-down on the temple space (white building).
 ° Each player takes:
  -- 1 Province board (place the “

## TXT RESUMEN
AyudaRajasOfTheGanges.pdf

In [None]:
!gdown '1w-enWipdNOj6ruyzDqUSsiAINy_O2ro1' --output 'AyudaRajasOfTheGanges.pdf'

In [92]:
def limpiar_texto(texto):
    texto_limpio = re.sub(r'^:\s', '', texto)
    texto_limpio = re.sub(r'^:$', '', texto_limpio, flags=re.MULTILINE)
    texto_limpio = re.sub(r'\n{2,}', '', texto_limpio)
    texto_limpio = re.sub(r'\nAcciones\nen el palacio', 'Acciones en el palacio\n', texto_limpio)
    return texto_limpio

# Limpieza de pdf
def procesar_pdf_titulos_y_contenido_mejorado(archivo_pdf, titulos_predefinidos):
    pdf = fitz.open(archivo_pdf)

    estructura = []
    titulo_actual = None
    contenido_actual = []

    # Iterar por cada página y procesar el texto
    for numero_pagina, pagina in enumerate(pdf, start=1):
        texto_pagina = pagina.get_text()

        # Separar el texto por líneas
        lineas = texto_pagina.split("\n")

        for linea in lineas:
            linea_limpia = linea.strip()

            if not linea_limpia:
                continue

            # Verificar si la línea contiene palabras clave de un título
            for titulo in titulos_predefinidos:
                if linea_limpia.lower().startswith(titulo.lower()):  # Busca coincidencia al inicio de la línea
                    if titulo_actual:
                        estructura.append((titulo_actual, "\n".join(contenido_actual)))

                    # Dividir el título del resto del contenido en la misma línea
                    titulo_actual = limpiar_texto(titulo)  # Aplica limpieza al título
                    resto_linea = linea_limpia[len(titulo):].strip()  # El resto de la línea como contenido
                    contenido_actual = [limpiar_texto(resto_linea)] if resto_linea else []
                    break
            else:
                # Si no es título, es contenido
                contenido_actual.append(limpiar_texto(linea_limpia))

    # Agregar el último título y contenido
    if titulo_actual:
        estructura.append((titulo_actual, "\n".join(contenido_actual)))

    with open("resumen.txt", "w", encoding="utf-8") as archivo:
        for titulo, contenido in estructura:
            archivo.write(f"{titulo}\n")  # Escribe el título
            archivo.write(f"{contenido}\n\n")  # Escribe el contenido con una separación

# Lista de títulos proporcionada
titulos = [
    "Objetivo",
    "Desarrollo",
    "Acciones",
    "Acciones en el palacio",
    "Río",
    "Karma",
    "Obtener nuevos trabajadores",
    "Premios en los tracks de fama y dinero",
    "Fin de la ronda",
    "Fin del juego"
]

procesar_pdf_titulos_y_contenido_mejorado("AyudaRajasOfTheGanges.pdf", titulos)

In [93]:
!gdown '146rZ4b4h7dWwHS1GtWAh-SocCTE17U0H' --output 'resumen.txt'
archivo2_mejorado = 'resumen.txt'

# Leer el contenido del archivo
with open(archivo2_mejorado, 'r', encoding='utf-8') as archivo:
    contenido = archivo.read()

# Limpia patrones específicos relacionados con los saltos de línea y títulos
def limpiar_texto(texto):
    texto_limpio = re.sub(r'\nAcciones\nen el palacio', '\nAcciones en el palacio\n', texto)
    return texto_limpio

# Limpiar el texto descargado
texto_limpio = limpiar_texto(contenido)
print(texto_limpio)

with open('resumen_limpio.txt', 'w', encoding='utf-8') as archivo:
    archivo.write(texto_limpio)

print("El texto limpio ha sido guardado en 'resumen_limpio.txt'")

Downloading...
From: https://drive.google.com/uc?id=146rZ4b4h7dWwHS1GtWAh-SocCTE17U0H
To: /content/resumen.txt
  0% 0.00/4.23k [00:00<?, ?B/s]100% 4.23k/4.23k [00:00<00:00, 11.2MB/s]
Objetivo
desarrollar tu provincia para obtener una combinación de
riqueza y fama. Los tracks de fama y dinero son paralelos en direcciones
opuestas, quien primero cruce sus marcadores tendrá alta probabilidad
de ganar.

Desarrollo
el juego de divide en rondas, en cada una se irán alternando
turnos en el sentido de las manecillas del reloj. En el turno, se coloca un
trabajador, se paga el costo (dinero: se mueve el marcador del track de
dinero hacia atrás; o dados: se devuelven a la reserva), si es requerido, y
se realiza la acción asociada. Cuando se han colocado todos los
trabajadores termina la ronda, se retiran del tablero y empieza una nueva
ronda. Solo puede haber un trabajador por cada espacio.

Acciones

Construcción: Se coloca una loseta de provincia en el tablero personal, se
gana fama y/o diner

In [94]:
import re
import gdown  # Herramienta para descargar archivos de Google Drive
from translatepy import Translator  # Alternativa para traducción

# Descargar el archivo
!gdown '146rZ4b4h7dWwHS1GtWAh-SocCTE17U0H' --output 'resumen.txt'

# Ruta del archivo de texto descargado
archivo2_mejorado = 'resumen.txt'

# Leer el contenido del archivo
with open(archivo2_mejorado, 'r', encoding='utf-8') as archivo:
  contenido = archivo.read()

# Función para limpiar el texto
def limpiar_texto(texto):
  # Limpia patrones específicos relacionados con los saltos de línea y títulos
  texto_limpio = re.sub(r'\nAcciones\nen el palacio', '\nAcciones en el palacio\n', texto)
  return texto_limpio

# Traductor
translator = Translator()  # Crear instancia de Translator

# Traducir todo el texto
def traducir_texto(texto):
  try:
    resultado = translator.translate(texto, "English")
    return resultado.result
  except Exception as e:
    print(f"Error al traducir el texto. Error: {e}")
    return texto

# Limpiar el texto descargado
texto_limpio = limpiar_texto(contenido)

# Traducir todo el texto limpio
texto_traducido = traducir_texto(texto_limpio)

# Mostrar el texto traducido en consola
print(texto_traducido)

# Guardar el texto traducido en un nuevo archivo
with open('resumen_limpio_traducido.txt', 'w', encoding='utf-8') as archivo:
  archivo.write(texto_traducido)

print("El texto limpio y traducido ha sido guardado en 'resumen_limpio_traducido.txt'")

Downloading...
From: https://drive.google.com/uc?id=146rZ4b4h7dWwHS1GtWAh-SocCTE17U0H
To: /content/resumen.txt
  0% 0.00/4.23k [00:00<?, ?B/s]100% 4.23k/4.23k [00:00<00:00, 12.4MB/s]
Aim
Develop your province to obtain a combination of
wealth and fame.Fame and money tracks are parallel in addresses
opposite, who first crosses its markers will have high probability
to win.

Development
The divide game in rounds, in each one they will alternate
shifts in the direction of the clock hands.In the turn, a
worker, the cost is paid (money: the track marker moves
back back;or dice: they are returned to the reservation), if required, and
The associated action is performed.When all the
workers end the round, retire from the board and start a new
round.There can only be one worker for each space.

Actions

Construction: a province tile is placed on the personal board,
Win fame and/or money.Each tile has a dice cost that must
cover with one or more its own.Every tile that is placed in the
Provinc

## TXT COMENTARIOS

In [95]:
# Configurar navegador
chrome_options = Options()
chrome_options.add_argument("--headless")
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# Inicializar driver
driver = webdriver.Chrome(options=chrome_options)

# Abrir página
driver.get('https://boardgamegeek.com/boardgame/220877/rajas-of-the-ganges')

In [96]:
# Para scrapear los comentarios individuales
def get_thread_details(thread_url):
  driver.get(thread_url)
  time.sleep(3)
  html = driver.page_source
  soup = BeautifulSoup(html, 'html.parser')

  # Buscar los comentarios
  comentarios = soup.find_all('gg-markup-safe-html')
  contenido = ""

  for comentario in comentarios:
    contenido += comentario.get_text(separator="\n", strip=True) + "\n\n"

  return contenido

with open('foro.txt', 'w', encoding='utf-8') as file:
  for id in [1, 2]:
    url = f'https://boardgamegeek.com/boardgame/220877/rajas-of-the-ganges/forums/0?pageid={id}'
    driver.get(url)
    time.sleep(3)

    # Obtener HTML completo de la página
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')

    li_items = soup.find_all('li', class_='summary-item ng-scope')
    for li in li_items:
      # Extraer el título
      titulo = li.find('h3', class_='m-0 fs-sm text-inherit leading-inherit text-inline')
      if titulo:
        titulo_text = titulo.get_text(strip=True)
        doc.add_paragraph(f"Título: {titulo_text}")

      # Extraer el enlace del comentario
      link = li.find('a', {'ng-href': True})
      if link:
        thread_url = "https://boardgamegeek.com" + link['ng-href']

        # Obtener comentarios
        thread_details = get_thread_details(thread_url)
        file.write(thread_details)
        file.write('\n' + '-' * 80 + '\n\n')

print("Documento guardado como 'foro.txt'")

Documento guardado como 'foro.txt'


## Contrucción BDD VECTORIAL

In [97]:
!gdown '12aBF-BAnKebvcOhpYssmxSNHCpc2JM8F' --output 'guia.txt'
!gdown '1NKwrA2jaW70LLbjtWiEl5XXidRJkfsUn' --output 'resumen_limpio_traducido.txt'
!gdown "1oAI72ffUrPWSaN-wRv37P4P1teVDfJ_u" --output "foro.txt"

Downloading...
From: https://drive.google.com/uc?id=12aBF-BAnKebvcOhpYssmxSNHCpc2JM8F
To: /content/guia.txt
100% 14.6k/14.6k [00:00<00:00, 27.5MB/s]
Downloading...
From: https://drive.google.com/uc?id=1NKwrA2jaW70LLbjtWiEl5XXidRJkfsUn
To: /content/resumen_limpio_traducido.txt
100% 3.78k/3.78k [00:00<00:00, 15.2MB/s]
Downloading...
From: https://drive.google.com/uc?id=1oAI72ffUrPWSaN-wRv37P4P1teVDfJ_u
To: /content/foro.txt
100% 277k/277k [00:00<00:00, 110MB/s]


In [98]:
archivos = ['guia.txt', 'resumen_limpio_traducido.txt', 'foro.txt']

todos_los_textos = ""
for archivo in archivos:
    with open(archivo, 'r', encoding='utf-8') as file:
        todos_los_textos += file.read() + "\n\n"  # Concatenar contenido de cada archivo

# Dividir el texto en fragmentos
splitter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=400)
chunks = splitter.create_documents([todos_los_textos])

In [99]:
# Modelo Embeddings
modelo_embedding = SentenceTransformer('all-MiniLM-L6-v2')
embeddings = modelo_embedding.encode([chunk.page_content for chunk in chunks], show_progress_bar=True)

Batches:   0%|          | 0/7 [00:00<?, ?it/s]

In [100]:
# Modelo para palabras claves
modelo_kw = KeyBERT('all-MiniLM-L6-v2')
def extract_keywords(text, modelo_kw, top_n=15):
  keywords_dynamic = [kw[0] for kw in modelo_kw.extract_keywords(text, top_n=top_n)]
  return keywords_dynamic

In [101]:
settings = Settings(
    chroma_db_impl="duckdb+parquet",
    persist_directory="/content/chroma_db"
)

In [103]:
# Crear cliente y colección en ChromaDB
cliente = chromadb.Client()
coleccion = cliente.create_collection("collection1")

# Agregar los fragmentos, sus embeddings y palabras claves
coleccion.add(
    documents=[chunk.page_content for chunk in chunks],
    embeddings=embeddings,
    metadatas=[{
        "id": i,
        "keywords": ", ".join(extract_keywords(chunk.page_content, modelo_kw))
    } for i, chunk in enumerate(chunks)],
    ids=[f"doc_{i}" for i in range(len(chunks))]
)

In [104]:
# Recuperar información de la colección
info_coleccion = coleccion.get()

# Iterar para imprimir documentos y sus metadatos
for i, (doc, metadata) in enumerate(zip(info_coleccion['documents'], info_coleccion['metadatas'])):
    print(f"Documento {i+1}:")
    print(doc[:200])
    #print("Metadatos:", metadata)
    print("=" * 80)

Documento 1:
Rajas of the Ganges
Set-Up:
 ° Place the game board in the middle of the table, according to the player count.
  -- If playing with 3 players, use the 2 “space cover” markers to cover the 1st Quarry s
Documento 2:
° The player with the lowest total on their 4 dice will be Start Player. They take the Elephant marker (start player marker.
)
  -- The 1st player’s money marker goes on space 3. 2nd/3rd/4th player pu
Documento 3:
° Anytime in the game you earn Fame or money, you move your marker immediately (earning any bonuses on the track as
you go,) and when you earn dice (if any remain of that color,) roll the dice immedia
Documento 4:
The spaces that will have bonuses are 12, 33, 44, and 55. Take a look! After the bonus at 55, remove the token.
Quarry Action (Place Province Tiles on your Player Board)
 ° In the middle of the board 
Documento 5:
this Yield reward back to your Estate, you immediately get the bonus! If a Yield reward is blocked off, you can’t earn it.
 ° When 

# Clasificadores

## Modelo entrenado (embeddings)

In [196]:
# Modelo de embeddings
modelo_embeddings = SentenceTransformer('all-MiniLM-L6-v2')

# Ejemplos etiquetados para entrenamiento
train_data = [
    {"question": "How many players are needed to play?", "label": "csv"},
    {"question": "What is the average duration of a game?", "label": "csv"},
    {"question": "What is the minimum age required to play?", "label": "csv"},
    {"question": "What basic information is available about the game?", "label": "csv"},
    {"question": "What is the maximum number of players the game supports?", "label": "csv"},

    {"question": "Which designers are associated with this game?", "label": "graph"},
    {"question": "Which publishers released this game?", "label": "graph"},
    {"question": "What mechanisms are related to this game?", "label": "graph"},
    {"question": "Who are the artists who worked on this game?", "label": "graph"},
    {"question": "How is the 'Strategy' category connected to the designers?", "label": "graph"},

    {"question": "What are the best strategies to win this game?", "label": "vectorial"},
    {"question": "What feedback have players given about the game?", "label": "vectorial"},
    {"question": "Where can I find detailed rules for the game?", "label": "vectorial"},
    {"question": "What strategies do players mention for using the market in the game?", "label": "vectorial"},
    {"question": "What opinions do players have about the game's difficulty?", "label": "vectorial"}
]

# Generar embeddings y etiquetas
questions = [item["question"] for item in train_data]
labels = [item["label"] for item in train_data]
embeddings = modelo_embeddings.encode(questions)

# Codificar etiquetas
label_encoder = LabelEncoder()
encoded_labels = label_encoder.fit_transform(labels)

# Entrenar clasificador
clasificador_entrenado = LogisticRegression()
clasificador_entrenado.fit(embeddings, encoded_labels)

# predecir bbd para nuevas preguntas
def classify_question(query):
    # Generar embedding para la pregunta
    query_embedding = modelo_embeddings.encode([query])

    # Predecir la etiqueta
    predicted_label = clasificador_entrenado.predict(query_embedding)[0]
    predicted_db = label_encoder.inverse_transform([predicted_label])[0]

    return predicted_db

In [197]:
# Ejemplo de uso 1
pregunta = "What is the significance of the game's river mechanic?"
bdd_seleccionada = classify_question(pregunta)
print(f"La base de datos recomendada es: {bdd_seleccionada}")

La base de datos recomendada es: graph


In [198]:
# Ejemplo de uso 2
pregunta2 = "What is the setup time required before starting the game?"
bdd_seleccionada2 = classify_question(pregunta2)
print(f"La base de datos recomendada es: {bdd_seleccionada2}")

La base de datos recomendada es: csv


In [199]:
# Ejemplo de uso 3
pregunta3 = "What tips do experienced players suggest for managing resources effectively?"
bdd_seleccionada3 = classify_question(pregunta3)
print(f"La base de datos recomendada es: {bdd_seleccionada3}")

La base de datos recomendada es: vectorial


## LLM

In [15]:
# Plantilla Jinja para modelo Zephyr
def zephyr_chat_template(messages, add_generation_prompt=True):
  template_str  = """
  {% for message in messages %}
  {% if message['role'] == 'user' %}<|user|>{{ message['content'] }}</s>
  {% elif message['role'] == 'assistant' %}<|assistant|>{{ message['content'] }}</s>
  {% elif message['role'] == 'system' %}<|system|>{{ message['content'] }}</s>
  {% else %}<|unknown|>{{ message['content'] }}</s>
  {% endif %}
  {% endfor %}
  {% if add_generation_prompt %}<|assistant|>
  {% endif %}
  """
  template = Template(template_str)
  return template.render(messages=messages, add_generation_prompt=add_generation_prompt)

# Preparar cabeceras para la solicitud a la API
def prepare_headers(api_key):
  return {"Authorization": f"Bearer {api_key}"}

# Solicitud POST a la API y retornar respuesta
def generate_response(prompt, api_url, headers):
  # Datos de la solicitud
  data = {
    "inputs": prompt,
    "parameters": {"max_new_tokens": 256, "temperature": 0.1, "top_k": 50, "top_p": 0.95}
  }

  response = requests.post(api_url, headers=headers, json=data)
  return response.json()

# Extraer bdd seleccionada
def extract_database(response):
  respuesta = response[0].get('generated_text', '').strip()
  bdd_seleccionada = respuesta.split("\n")[-1].strip()

  # Eliminar ultimo caracter de selected_db
  #bdd_seleccionada = bdd_seleccionada[:-1]
  return bdd_seleccionada

# Main
def clasificador(user_question):
  # Configurar API y parámetros
  api_key = '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'
  api_url = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"
  headers = prepare_headers(api_key)

  # Crear el chat prompt
  chat_prompt = [
  {"role": "system", "content": """
    you have access to three types of databases, each containing specific information:

        1. graph contains information about Designers, Artists, Publishers, Developers, Graphic Designer, Categories and Mechanisms.
        2. vectorial contains information about the Overview, how to win, key concepts, actions, components and Easy-To-Forget Rules.
        3. csv contains information about the minimum and maximum number of players, minimum age, and game duration.

    your task is to identify which database contains the necessary information to answer the user's question.

    **Instructions**:
    - Select "VECTORIAL" for questions about game rules, components, actions, and strategies.
    - Select "GRAPH" for questions about people, categories, or mechanisms involved in the game's creation.
    - Select "CSV" for questions about numerical data like players, age, or duration.
    - If the question does not match any database, respond with "NOT_FOUND".
    respond **only** with the name of the appropriate database: GRAPH, VECTORIAL, CSV or NOT_FOUND.
    do not include any additional explanations or text, just one of these three words.
    """},
  {"role": "user", "content": user_question}
  ]

  prompt = zephyr_chat_template(chat_prompt)
  respuesta = generate_response(prompt, api_url, headers)
  bdd_seleccionada = extract_database(respuesta)

  return bdd_seleccionada

In [16]:
user_question = 'How many players are needed to play?'
aver = clasificador(user_question)
print(aver)

CSV


In [17]:
user_question = 'Who are the designers of Rajas of the Ganges?'
aver = clasificador(user_question)
print(aver)

respond: GRAPH


In [18]:
user_question = 'What are the best strategies to win this game?'
aver = clasificador(user_question)
print(aver)

**Answer**: VECTORIAL


# Generar consultas

## Dinamica sql para CSV

In [75]:
!gdown '1MYQrIJwkkseyDUCG38yRuwEZWfPCMU6-' --output 'data_info_general.csv'

Downloading...
From: https://drive.google.com/uc?id=1MYQrIJwkkseyDUCG38yRuwEZWfPCMU6-
To: /content/data_info_general.csv
  0% 0.00/84.0 [00:00<?, ?B/s]100% 84.0/84.0 [00:00<00:00, 329kB/s]


In [85]:
# Generar consulta dinamica para un csv
def get_csv_query(query: str, df: pd.DataFrame):
  # Columnas disponibles en el CSV
  columnas = df.columns.tolist()
  columnas_str = "\n".join([f"Campo: {col}" for col in columnas])

  # Definir cliente de Hugging Face
  cliente = InferenceClient(api_key='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')

  # Mensajes para la solicitud
  messages = [
        {
            "role": "system",
            "content": f"""
        Eres un modelo que realiza consultas SQL sobre el juego de mesa Rajas of the Ganges a raíz de una frase del usuario.
        La base tiene la siguiente estructura: las columnas son {columnas_str}, donde los valores son:
        {df.to_dict(orient='records')}.
        Debes escribir SOLAMENTE UNA consulta SQL que se adecue a la frase del usuario.
        Es importante que solo respondas con una sola consulta.
        """},
        {
            "role": "user",
            "content": query
        }
  ]

  # Consulta al modelo
  completion = cliente.chat.completions.create(model="Qwen/Qwen2.5-Coder-32B-Instruct", messages=messages, max_tokens=500)

  # Respuesta del modelo
  respuesta = completion.choices[0].message.content

  if 'sql' in respuesta.lower():
    respuesta = respuesta[6:-3].strip()

  return respuesta

# Ejecutar consulta sql dinamica sobre el csv
def execute_query_on_csv(query: str, df: pd.DataFrame):
  try:
    query = query.replace('"', '')
    # Extraer partes importantes de la consulta SQL
    select_match = re.search(r"SELECT (.+?) FROM", query, re.IGNORECASE)
    where_match = re.search(r"WHERE (.+)", query, re.IGNORECASE)

    # Extraer columnas y condiciones
    columnas = select_match.group(1).strip()  # Ejemplo: 'Jugadores'
    condiciones = where_match.group(1).strip()  # Ejemplo: "Título = 'Rajas of the Ganges'"

    # SQL a pandas
    condiciones = condiciones.replace("=", "==").replace("AND", "&").replace("OR", "|")

    # Filtrar y seleccionar las columnas
    resultado = df.query(condiciones)[columnas]

    return resultado
  except Exception as e:
    print(f"Error ejecutando la consulta: {e}")
    return None

# Main
def main_function_csv(query):
    # Cargar archivo csv
    df = pd.read_csv('data_info_general.csv')

    # Obtener consulta desde el modelo
    consulta_sql = get_csv_query(query, df)
    print(f"\nConsulta sql generada: {consulta_sql}")

    # Ejecutar la consulta sobre el csv
    result = execute_query_on_csv(consulta_sql, df)

    # Si la consulta es exitosa, guardarla en un CSV temporal
    if result is not None:
      print("\nInfo para formular la respuesta:")
      result.to_csv('result.csv', index=False)
      return pd.read_csv('result.csv')
    else:
      print("No se pudo ejecutar la consulta correctamente.")
      return None

## Dinamica cypher para GRAFOS

In [None]:
# Configurar Neo4j
NEO4J_URI = "neo4j+s://375ccbf7.databases.neo4j.io"
NEO4J_USERNAME = "neo4j"
NEO4J_PASSWORD = "PpEwt9Hz6KlCeSEggs1BLt0I8pEt6woGZbE5SXWp2XA"

# Generar consulta dinámica para el grafo (neo4j)
def get_graph_query(query: str, esquema: str):
    # Definir cliente
    cliente = InferenceClient(api_key='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')

    # Mensajes para la solicitud
    messages = [
        {"role": "system",
         "content": f"Eres un generador de consultas Cypher para Neo4j. La información del esquema es la siguiente:\n{esquema}\nDEVUELVE SOLO LA CONSULTA CYPHER Y NADA MÁS"
        },
        {"role": "user", "content": query}
    ]

    # Consulta al modelo
    completion = cliente.chat.completions.create(model="Qwen/Qwen2.5-Coder-32B-Instruct", messages=messages, max_tokens=500)

    # Respuesta del modelo
    respuesta = completion.choices[0].message.content.strip()

    return respuesta

# Ejecutar consulta Cypher sobre el grafo
def execute_query_on_graph(consulta_cypher: str, driver):
    try:
        with driver.session() as session:
            resultado = session.run(consulta_cypher)
            return [record.data() for record in resultado]  # Convertir resultados a lista de diccionarios
    except Exception as e:
        print(f"Error ejecutando la consulta: {e}")
        return None

# Main
def main_function(query):
    # Conectar con Neo4j
    driver = GraphDatabase.driver(NEO4J_URI, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))

    # Esquema
    esquema = """
    Nodo: Juego {nombre}
    Nodo: Designers {nombre}
    Nodo: Artist {nombre}
    Nodo: Publishers {nombre}
    Nodo: Categories {nombre}
    Nodo: Mechanisms {nombre}
    Relación: (Juego)-[:TIENE_DESIGNERS]->(Designers)
    Relación: (Juego)-[:TIENE_ARTIST]->(Artist)
    Relación: (Juego)-[:TIENE_PUBLISHERS]->(Publishers)
    Relación: (Juego)-[:TIENE_CATEGORIES]->(Categories)
    Relación: (Juego)-[:TIENE_MECHANISMS]->(Mechanisms)
    """

    # Obtener consulta
    consulta_cypher = get_graph_query(query, esquema)
    print(f"\nConsulta cypher generada:  {consulta_cypher}")

    # Limpiar consulta si es necesario
    consulta_cypher = consulta_cypher.replace("RETURN designers(nombre)", "RETURN designers.nombre")
    consulta_cypher = consulta_cypher.replace("RETURN artist(nombre)", "RETURN artist.nombre")

    # Ejecutar consulta en Neo4j
    result = execute_query_on_graph(consulta_cypher, driver)

    # Procesar y almacenar solo los valores de interés
    extracted_values = []
    if result:
        print("\nInfo para formular la respuesta:")
        for row in result:
            print(row)
            extracted_values.extend(row.values())  # Extrae todos los valores de la fila

        # Limpieza y extracción de valores únicos
        unique_values = list(set(extracted_values))
        return ", ".join(map(str, unique_values))
    else:
        print("No se obtuvieron resultados o hubo un error.")
        return ""

## Busqueda hibrida para VECTORIAL

In [111]:
# Busqueda con embeddings y palabras clave.
def realizar_consulta(collection, query, embedding_model, kw_model, n_results=5):
    # Generar embedding para la consulta
    query_embedding = generar_embedding(query, embedding_model)

    # Buscar resultados relevantes
    results_embeddings = buscar_por_embeddings(collection, query_embedding, n_results=n_results)
    results_keywords = buscar_por_palabras_clave(results_embeddings, query, kw_model)

    # Mostrar resultados preliminares
    mostrar_resultados(results_keywords, results_embeddings)

    # Retornar resultados para un posible rerank
    return results_keywords, results_embeddings

# Generar embedding de la consulta
def generar_embedding(query, embedding_model):
    return embedding_model.encode([query])

# Buscar por embeddings
def buscar_por_embeddings(collection, query_embedding, n_results):
    return collection.query(query_embeddings=query_embedding, n_results=n_results)

# Buscar por palabras clave
def buscar_por_palabras_clave(results_embeddings, query, kw_model):
    query_keywords = [kw.lower().strip() for kw in extract_keywords(query, kw_model)]
    results_keywords = []

    for result, metadata in zip(results_embeddings['documents'], results_embeddings['metadatas']):
        # Normalizar y extraer palabras clave
        if isinstance(metadata, dict):
            keywords = [kw.lower().strip() for kw in metadata.get("keywords", "").split(", ")]
        else:
            keywords = []

        # Contar las coincidencias de palabras clave
        coincidencias = len(set(query_keywords) & set(keywords))
        results_keywords.append({
            "fragmento": result,
            "coincidencias": coincidencias,
            "keywords": keywords,
            "id": metadata.get("id", None) if isinstance(metadata, dict) else None
        })

    # Ordenar por número de coincidencias
    results_keywords.sort(key=lambda x: x["coincidencias"], reverse=True)
    return results_keywords

# Mostrar los resultados
def mostrar_resultados(results_keywords, results_embeddings):
    # Mostrar los resultados más relevantes por palabras clave
    print("\n=== Resultados por Palabras Clave ===")
    if results_keywords:
        for i, result in enumerate(results_keywords[:3]):  # Mostrar los 3 mejores resultados
            print(f"\nResultado {i + 1}:")
            print(f"Fragmento: {result['fragmento'][:200]}...")
            print(f"Palabras clave: {result['keywords']}")
            print(f"Coincidencias: {result['coincidencias']}")
    else:
        print("No se encontraron resultados relevantes según palabras clave.")

    # Mostrar los resultados más relevantes por embeddings
    print("\n=== Resultados por Embeddings ===")
    if results_embeddings['documents']:
        for i, (doc, doc_id) in enumerate(zip(results_embeddings['documents'][:1], results_embeddings['ids'][:1])):
            print(f"\nResultado {i + 1}:")
            print(f"Fragmento: {doc[:200]}...")
            print(f"ID: {doc_id}")
    else:
        print("No se encontraron resultados relevantes según embeddings.")

### RE RANK

In [112]:
# Combina los resultados de embeddings y palabras clave usando una métrica ponderada
def realizar_rerank(results_keywords, results_embeddings, query_embedding, weight_embeddings=0.7, weight_keywords=0.3):
    combined_results = []
    keyword_dict = {result['id']: result for result in results_keywords if result['id'] is not None}

    # Calcular similitudes entre la consulta y los documentos de embeddings
    embeddings_docs = results_embeddings['documents']
    embedding_ids = results_embeddings['ids']
    embedding_matrix = np.array([embedding for embedding in results_embeddings['embeddings']])

    # Calcular similitud coseno entre el query_embedding y los embeddings de los documentos
    similarity_scores = cosine_similarity(query_embedding, embedding_matrix)

    # Combinar los resultados
    for doc, doc_id, similarity in zip(embeddings_docs, embedding_ids, similarity_scores[0]):
        # Extraer información del resultado actual de palabras clave
        keyword_data = keyword_dict.get(doc_id, {"coincidencias": 0, "keywords": []})
        coincidencias = keyword_data['coincidencias']

        # Calcular el score final ponderado por similitud de embeddings y coincidencias de palabras clave
        score = weight_embeddings * similarity + weight_keywords * coincidencias

        # Agregar al resultado combinado
        combined_results.append({
            "id": doc_id,
            "fragmento": doc,
            "score": score,
            "coincidencias_palabras_clave": coincidencias,
            "palabras_clave": keyword_data.get("keywords", [])
        })

    # Ordenar los resultados combinados por el score
    combined_results.sort(key=lambda x: x["score"], reverse=True)
    return combined_results

# Probar flujo completo
def prueba_busqueda_y_rerank(collection, query, embedding_model, kw_model):
    # Consulta inicial
    results_keywords, results_embeddings = realizar_consulta(collection, query, embedding_model, kw_model, n_results=5)

    # ReRank
    resultados_finales = realizar_rerank(results_keywords, results_embeddings, generar_embedding(query, embedding_model))

    # Mostrar resultados finales después del rerank
    print("\n=== Resultados Finales Después del Rerank ===")
    for i, result in enumerate(resultados_finales[:1]):  # Mostrar los 3 mejores
        print(f"\nResultado {i + 1}:")
        print(f"ID: {result['id']}")
        print(f"Fragmento: {result['fragmento'][:200]}...")
        print(f"Score: {result['score']:.2f}")
        print(f"Coincidencias de Palabras Clave: {result['coincidencias_palabras_clave']}")
        print(f"Palabras Clave: {result['palabras_clave']}")

# CHATBOT FINAL

In [146]:
# Plantilla Jinja para el modelo Zephyr.
def plantilla_conversacion(messages, agregar_prompt_asistente=True):
  template_str = """
  {% for message in messages %}
  {% if message['role'] == 'user' %}<|user|>{{ message['content'] }}</s>
  {% elif message['role'] == 'assistant' %}<|assistant|>{{ message['content'] }}</s>
  {% elif message['role'] == 'system' %}<|system|>{{ message['content'] }}</s>
  {% else %}<|unknown|>{{ message['content'] }}</s>
  {% endif %}
  {% endfor %}
  {% if agregar_prompt_asistente %}<|assistant|>
  {% endif %}
  """
  template = Template(template_str)
  return template.render(messages=messages, add_generation_prompt=agregar_prompt_asistente)

# Cabeceras para solicitud API
def preparar_cabeceras(clave_api):
  return {"Authorization": f"Bearer {clave_api}"}

# Devuelve la respuesta
def generar_respuesta(prompt, url_api, cabeceras):
  datos = {"inputs": prompt, "parameters": {"max_new_tokens": 256, "temperature": 0.1, "top_k": 50, "top_p": 0.95}}
  respuesta = requests.post(url_api, headers=cabeceras, json=datos)
  return respuesta.json()

# Devuelve la bdd elegida
def elegir_bdd(query):
  selected_db = clasificador(query)
  print(f"\nBase de datos seleccionada: {selected_db}")
  return selected_db

# Llama a la consulta correspondiente
def traer_consulta(bdd_seleccionada, query):
  if "GRAPH" in bdd_seleccionada:
    print("Llamando a la función para buscar en la base de grafos...")
    print("\nResultados para formular la respuesta:")
    informacion_recuperada = main_function(query)
    print(informacion_recuperada)
    print("\n")
    return informacion_recuperada

  elif "VECTORIAL" in bdd_seleccionada:
    print("Llamando a la función para buscar en la base vectorial...")
    print("\nResultados para formular la respuesta:")
    try:
        informacion_recuperada = prueba_busqueda_y_rerank(coleccion, query, modelo_embedding, modelo_kw)
        for i, resultado in enumerate(informacion_recuperada[:3]):
            print(f"Resultado {i + 1}:")
            print(f"ID: {resultado['id']}")
            print(f"Fragmento: {resultado['fragmento'][:200]}...")
            print(f"Score: {resultado['score']:.2f}")
            print(f"Coincidencias de Palabras Clave: {resultado['coincidencias_palabras_clave']}")
            print(f"Palabras Clave: {resultado['palabras_clave']}\n")
            print("\n")
            return informacion_recuperada
    except Exception as e:
        print(f"Ocurrió un error durante la búsqueda en la base vectorial: {e}")

  elif "CSV" in bdd_seleccionada:
    print("Llamando a la función para buscar en la base tabular...")
    print("\nResultados para formular la respuesta:")
    informacion_recuperada = main_function_csv(query)
    print(informacion_recuperada)
    print("\n")
    return informacion_recuperada

  else:
    print("Base de datos no encontrada.")

# Main
def principal(informacion_recuperada):
  clave_api = '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'
  url_api = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"
  cabeceras = preparar_cabeceras(clave_api)

  conversacion = []
  while True:
    conversacion.clear()
    entrada_usuario = input("<|user|> ")
    if entrada_usuario.lower() in ["salir", "exit"]:
      print("<|assistant|> Bye. Have a great day!")
      break

    bdd_seleccionada = elegir_bdd(entrada_usuario)
    informacion_recuperada = traer_consulta(bdd_seleccionada, entrada_usuario)

    conversacion.append({"role": "user", "content": entrada_usuario})
    contexto_prompt = f"""
    La información de contexto es la siguiente:
    ---------------------
    {informacion_recuperada}
    ---------------------
    Responde de manera concisa y clara en base a la información proporcionada y la consulta del usuario. Si no tenes información, decis que no sabes. No inventes.
    """
    conversacion.insert(0, {"role": "system", "content": contexto_prompt})

    prompt = plantilla_conversacion(conversacion)
    respuesta = generar_respuesta(prompt, url_api, cabeceras)
    respuesta_asistente = respuesta[0].get('generated_text', '').split('</s>')[-1].strip()

    # Mostrar la respuesta y agregarla a la conversación
    print(f"{respuesta_asistente}")
    conversacion.append({"role": "assistant", "content": respuesta_asistente})

    # Limpiar el contexto inicial para las siguientes iteraciones
    conversacion.pop(0)

In [147]:
# Llamar a la función principal
print("Hello! This is a chatbot that answers your questions about the eurogame Rajas of the Ganges. What’s your query?")
principal(None)

Hello! This is a chatbot that answers your questions about the eurogame Rajas of the Ganges. What’s your query?
<|user|> Who are the designers of Rajas of the Ganges?

Base de datos seleccionada: respond: GRAPH
Llamando a la función para buscar en la base de grafos...

Resultados para formular la respuesta:

Consulta cypher generada:  MATCH (juego:Juego {nombre: 'Rajas of the Ganges'})-[:TIENE_DESIGNERS]->(designers:Designers)
RETURN designers.nombre

Info para formular la respuesta:
{'designers.nombre': 'Inka Brand'}
{'designers.nombre': 'Markus Brand'}
Markus Brand, Inka Brand


<|assistant|>
The designers of Rajas of the Ganges are both named Markus Brand and Inka Brand. This information is provided in the context given, as indicated by the formatting of their names with a space between them.
<|user|> exit
<|assistant|> Bye. Have a great day!


# AGENTE

In [177]:
%%capture
!curl -fsSL https://ollama.com/install.sh | sh
!rm -f ollama_start.sh
!echo '#!/bin/bash' > ollama_start.sh
!echo 'ollama serve' >> ollama_start.sh
!chmod +x ollama_start.sh
!nohup ./ollama_start.sh &
!ollama pull llama3.2 > ollama.log
!ollama list
!pip install llama-index
!pip install llama-index-llms-ollama

!nohup litellm --model ollama/llama3.2:latest --port 8000 > litellm.log 2>&1 &
!pip install rank_bm25

In [178]:
%%capture
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')
from nltk.tokenize import word_tokenize
nltk.data.path.append('/root/nltk_data/tokenizers/punkt')
from typing import List, Dict, Any
import numpy as np
from llama_index.core import Settings
from llama_index.llms.ollama import Ollama
from llama_index.core.agent import ReActAgent
from llama_index.core.tools import FunctionTool
from llama_index.core.agent.react.formatter import ReActChatFormatter
import chromadb
from chromadb.config import Settings

In [179]:
%%capture
import logging
from typing import Dict, Any
import requests
from bs4 import BeautifulSoup
import datetime

logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    datefmt='%Y-%m-%d %H:%M:%S'
)
logger = logging.getLogger(__name__)

In [180]:
def graph_search(query):
  resultado_grafo = main_function(query)
  return resultado_grafo

def table_search(query):
  resultado_csv = main_function_csv(query)
  return resultado_csv

def doc_search(query):
  info = prueba_busqueda_y_rerank(coleccion, query, modelo_embeddings, modelo_kw)
  return info

In [181]:
# Herramientas
tools_list = [
    # Herramienta que busca información en la bdd de grafos
    FunctionTool.from_defaults(fn=graph_search, description="Busca información en la base de datos de grafos. Usar: texto de consulta"),

    # Herramienta que busca información en la bdd tabular
    FunctionTool.from_defaults(fn=table_search, description="Busca información en la base de datos tabular. Usar: texto de consulta"),

    # Herramienta que busca información en la bdd vectorial
    FunctionTool.from_defaults(fn=doc_search, description="Busca información en la base de datos vectorial. Usar: texto de consulta")
]

In [182]:
# LLM de Ollama
llm = Ollama(model="llama3.2:latest", request_timeout=15.0, temperature=0.1, context_window=4096)
Settings.llm = llm
llm = Ollama(
    model="llama3.2:latest",
    request_timeout=15.0,
    temperature=0.1,
    context_window=4096
)
Settings.llm = llm

In [189]:
# Agente ReAct
agent = ReActAgent.from_tools(
    tools_list,
    max_iterations = 30,
    llm=llm,
    verbose=False,  # Habilitar modo detallado para obtener más información durante la ejecución
    chat_formatter=ReActChatFormatter.from_defaults(),
    system_prompt="""Your role: Answer questions about the game 'Rajas of the Ganges' using only information provided by the available tools.

      ## Available Tools:
      graph_search: Information about Designers, Artists, Publishers, Developers, Graphic Designers, Categories, and Mechanisms.
      table_search: Information about the number of players, playtime, and recommended age.
      vectorial_search: Information about the Overview, how to win, key concepts, actions, components, Easy-To-Forget Rules, game rules, and strategies.

      ### Instructions for Each Query:
      1. Analyze the query to determine the appropriate tool.
      2. Call one or multiple tools using exactly the received query.
      3. Do not invent information. Only respond with data obtained from the tools.
      4. Response Format:
        - Thought: Explain what information is needed and which tool to use.
        - Action: Call the appropriate tool.
        - Action Input: The received query.
        - Observation: The response from the tool.
        - Final Answer: A clear and complete response based on the obtained information.

      ### Additional Rules:
      Do not use prior information; each query is independent.
      Process the keywords in the query and call only the tools relevant to the query.
      If the information is not available, respond: "No information was found for your query."

      """
      ,
            react_chat_history=False,
          context="""You are an expert assistant who answers queries about the board game called 'Rajas of the Ganges'.
          """)

# Interactuar con el agente ReAct
def chat_con_agente(query: str):
    if not query.strip():
        return "La consulta está vacía"
    try:
        response = agent.chat(query)
        print("RESP", response)  # Para ver qué está devolviendo el agente
        return response
    except Exception as e:
        print("Error detallado:", e)  # Esto mostrará el error completo
        return f"Error al procesar la consulta: {str(e)}"



In [None]:
# Ejemplo de uso para interactuar con el agente
def ejecutar_ejemplo():
  queries = ['How many players are needed to play?']

  for i, query in enumerate(queries):
    print(f"\nConsulta {i+1}: {query}")
    response = chat_con_agente(query)
    print(f"Respuesta {i+1}: {response}")
    print("------------------------------------------------------")

# Configurar el entorno de ejecución
import logging
logging.basicConfig(level=logging.INFO)

# Ejecutar el ejemplo de interacción
ejecutar_ejemplo()