# NLP - TP Nº 2 - Chatbot - RAG

## Introducción

**TUIA - Procesamiento del Lenguaje Natural** - 2023

---

Trabajo Práctico Nº 2 - "Chatbots y sistemas de diálogo. Agentes Autónomos"


**Alumno:**

* Miguel Mussi

## Pautas Generales

* El trabajo deberá ser realizado individualmente.
* Deberá informar cuál es la url del repositorio con el que van a trabajar y las definiciones de en qué problematicas quisieran solucionar con un sistema multiagente en el siguiente formulario:  https://docs.google.com/forms/d/e/1FAIpQLSdOZNGOzQ1gbf43caA4ygAbLx5tm5bU-s8RdfdftOzd_aXzhA/viewform?usp=pp_url
* Se debe entregar un informe en el cual se incluya las justificaciones y un vínculo a los archivos que permitan reproducir el proyecto. No se acepta solamente código.
* Temas deseables a cubrir en el tp:


> * Recuperación de datos de bases de datos de grafos
> * Extracción de conocimiento de texto y posterior inserción en una base de datos de grafos
> * Agentes (estará cubierto en el Ejercicio 2)

## Ejercicio 1 - RAG

Crear un chatbot experto en un tema a elección, usando la técnica RAG (Retrieval Augmented Generation). Como fuentes de conocimiento se utilizarán al menos las siguientes fuentes:
* Documentos de texto
* Datos numéricos en formato tabular (por ej., Dataframes, CSV, sqlite, etc.)
* Base de datos de grafos (Online o local)

El sistema debe poder llevar a cabo una conversación en lenguaje español. El usuario podrá hacer preguntas, que el chatbot intentará responder a partir de datos de algunas de sus fuentes. El asistente debe poder clasificar las preguntas, para saber qué fuentes de datos utilizar como contexto para generar una respuesta.

**Requerimientos generales**

* Realizar todo el proyecto en un entorno Google Colab
* El conjunto de datos debe tener al menos 100 páginas de texto y un mínimo de 3 documentos.
* Realizar split de textos usando Langchain (RecursiveTextSearch, u otros métodos disponibles). Limpiar el texto según sea conveniente.
* Realizar los embeddings que permitan vectorizar el texto y almacenarlo en una base de datos ChromaDB
* Los modelos de embeddings y LLM para generación de texto son a elección
* Para el desarrollo del “Clasificador” es posible utilizar diversas técnicas aprendidas en la materia, por ejemplo en Unidad 3 y Unidad 6







## Ejercicio 2 - Agentes

Realice una investigación respecto al estado del arte de las aplicaciones actuales de **agentes inteligentes** usando modelos LLM libres.

Plantee una problemática a solucionar con un sistema multiagente. Defina cada uno de los agentes involucrados en la tarea. Es importante destacar con ejemplos de conversación, la interacción entre los agentes.

Realice un informe con los resultados de la investigación y con el esquema del sistema multiagente, no olvide incluir fuentes de información.

**Opcional**: Resolución con código de dicho escenario.

# Ejercicio 1

## Elección del Tema y Recopilación de datos

El chatbot será especialista en temas relacionados al marco legal de la Educación Argentina, en particular en la provincia de Buenos Aires.

Será denominado "EduArDo" como una forma de darle un nombre propio que relacione las ideas de "Educación", "Argentina" y "Hacer" (*'do'* en inglés).

Para su contexto, se lo proveerá con los siguientes archivos pdf:

* Marco Legal de la Educación en la Argentina (21 páginas)
* Reglamento General de Escuelas Públicas de la Provincia de Buenos Aires (88 páginas)
* Ley de Educación Nacional Nº 26206 (30 páginas)
* Estatuto Docente de la Provincia de Buenos Aires (271 páginas)

Además, se cargará un dataframe con el Padrón Oficial de Establecimientos Educativos (datos.gob.ar) para consultas sobre datos específicos sobre las instituciones.

## 0 - Instalación de Librerías

In [1]:
!pip install chromadb

Collecting chromadb
  Downloading chromadb-0.4.23-py3-none-any.whl (521 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m521.7/521.7 kB[0m [31m6.1 MB/s[0m eta [36m0:00:00[0m
Collecting chroma-hnswlib==0.7.3 (from chromadb)
  Downloading chroma_hnswlib-0.7.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.4/2.4 MB[0m [31m12.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting fastapi>=0.95.2 (from chromadb)
  Downloading fastapi-0.110.0-py3-none-any.whl (92 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.1/92.1 kB[0m [31m8.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting uvicorn[standard]>=0.18.3 (from chromadb)
  Downloading uvicorn-0.27.1-py3-none-any.whl (60 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.8/60.8 kB[0m [31m5.2 MB/s[0m eta [36m0:00:00[0m
Collecting posthog>=2.4.0 (from chromadb)
  Downloading posthog-3.4.2-py2.

In [2]:
!pip install kaleido

Collecting kaleido
  Downloading kaleido-0.2.1-py2.py3-none-manylinux1_x86_64.whl (79.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.9/79.9 MB[0m [31m6.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: kaleido
Successfully installed kaleido-0.2.1


In [3]:
!pip install python-multipart

Collecting python-multipart
  Downloading python_multipart-0.0.9-py3-none-any.whl (22 kB)
Installing collected packages: python-multipart
Successfully installed python-multipart-0.0.9


In [4]:
!pip install pdfplumber

Collecting pdfplumber
  Downloading pdfplumber-0.10.4-py3-none-any.whl (54 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m54.7/54.7 kB[0m [31m1.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pdfminer.six==20221105 (from pdfplumber)
  Downloading pdfminer.six-20221105-py3-none-any.whl (5.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.6/5.6 MB[0m [31m36.4 MB/s[0m eta [36m0:00:00[0m
Collecting pypdfium2>=4.18.0 (from pdfplumber)
  Downloading pypdfium2-4.27.0-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.8/2.8 MB[0m [31m54.5 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pypdfium2, pdfminer.six, pdfplumber
Successfully installed pdfminer.six-20221105 pdfplumber-0.10.4 pypdfium2-4.27.0


In [5]:
!pip install langchain

Collecting langchain
  Downloading langchain-0.1.9-py3-none-any.whl (816 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m817.0/817.0 kB[0m [31m8.9 MB/s[0m eta [36m0:00:00[0m
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain)
  Downloading dataclasses_json-0.6.4-py3-none-any.whl (28 kB)
Collecting jsonpatch<2.0,>=1.33 (from langchain)
  Downloading jsonpatch-1.33-py2.py3-none-any.whl (12 kB)
Collecting langchain-community<0.1,>=0.0.21 (from langchain)
  Downloading langchain_community-0.0.24-py3-none-any.whl (1.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m53.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting langchain-core<0.2,>=0.1.26 (from langchain)
  Downloading langchain_core-0.1.26-py3-none-any.whl (246 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m246.4/246.4 kB[0m [31m17.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting langsmith<0.2.0,>=0.1.0 (from langchain)
  Downloading langsmith

In [6]:
!pip install sentence_transformers

Collecting sentence_transformers
  Downloading sentence_transformers-2.4.0-py3-none-any.whl (149 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m149.5/149.5 kB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: sentence_transformers
Successfully installed sentence_transformers-2.4.0


In [7]:
!pip install transformers



In [8]:
!pip install python-decouple

Collecting python-decouple
  Downloading python_decouple-3.8-py3-none-any.whl (9.9 kB)
Installing collected packages: python-decouple
Successfully installed python-decouple-3.8


In [9]:
!pip install pandas



In [10]:
!pip install tensorflow_text

Collecting tensorflow_text
  Downloading tensorflow_text-2.15.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.2/5.2 MB[0m [31m35.4 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: tensorflow_text
Successfully installed tensorflow_text-2.15.0


In [11]:
import warnings
warnings.filterwarnings("ignore")

In [12]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## 1 - Base de datos vectorial

### Fuentes de datos

In [13]:
# # Importa los archivos de una carpeta específica de drive
data_path = "/content/drive/MyDrive/UNR/4 - Proc Lenguaje Natural (IA42)/TP2/EduArDo/Data"

In [None]:
# Importa los archivos de una carpeta específica en el directorio local
data_path = "/content/Data"

In [14]:
import re
import os
import pdfplumber as pp

# Nombre de los textos cargados en Data
archivos = ['Marco_Legal_Educacion_Argentina',
            'Ley_Educacion_Nacional_26206',
            'Reglamento_Gral_Escuelas_BsAs',
            'Estatuto_Docente_BsAs']

# Aca se almacenaran los textos de los pdf
textos = {}

# Extracción de los pdf:
for archivo in archivos:
    pdf_path = os.path.join(data_path, f'{archivo}.pdf')

    # Verificamos si el archivo existe antes de intentar abrirlo
    if os.path.exists(pdf_path):
        # Abrimos el pdf
        with pp.open(pdf_path) as pdf:
            texto = ""
            # Por cada página
            for pagina in pdf.pages:
                # Extraemos el texto
                texto_pagina = pagina.extract_text()

                # Eliminamos números de página y pie de página usando expresiones regulares
                texto_pagina = re.sub(r'\b\d+\b', '', texto_pagina)  # Eliminar números
                texto_pagina = re.sub(r'Pie de Página.*', '', texto_pagina, flags=re.IGNORECASE)  # Eliminar pie de página

                texto += texto_pagina + "\n"

            # Una vez que extraemos cada pagina y limpiamos el contenido
            # guardamos el texto entero con la clave del nombre correspondiente al archivo
            textos[archivo] = texto
    else:
        print(f"El archivo {archivo}.pdf no se encuentra en la ruta especificada: {pdf_path}")

In [None]:
# textos['Marco_Legal_Educacion_Argentina']

### Split de los textos

In [15]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Creamos el text splitter
text_splitter = RecursiveCharacterTextSplitter(
    # Tamaño del chunk
    chunk_size=1000,
    # Solapamiento entre chunks
    chunk_overlap=250
    )

In [16]:
# Diccionario para los splits
textos_cortados = {}

# Cortamos uno a uno los textos
for nombre, archivo in textos.items():
  textos_cortados[nombre] = text_splitter.split_text(archivo)

In [None]:
# textos_cortados['Marco_Legal_Educacion_Argentina']

In [None]:
# # ---------------------------- CONTROL DE CHUNKS ----------------------------------------------
# for i, txt in enumerate(textos_cortados['Marco_Legal_Educacion_Argentina']):
#   # Imprimimos la longitud de la cadena, y luego el trozo de texto (chunk)
#   print(f'Split: {i}/{len(textos_cortados["Marco_Legal_Educacion_Argentina"])}')
#   print(f'Len: {len(txt)}\nTexto:\n{txt}')
#   print('')
#   # --------------------------------------------------------------------------------------------

### Embedding del texto y almacenamiento en ChromaDB:

In [18]:
import chromadb

# Creamos el objeto de la base de datos
bd_chroma = chromadb.Client()

In [None]:
# --------------------------- ELIMINAR COLECCIONES --------------------------------------
# Eliminar una coleccion
# bd_chroma.delete_collection(name=f"Estatuto_Docente_BsAs")

# Eliminar todas las colecciones
# for nombre in textos_cortados.keys():
#   coleccion = bd_chroma.delete_collection(name=f"{nombre}")
# ---------------------------------------------------------------------------------------

In [19]:
import tensorflow_hub as hub
import numpy as np
import tensorflow_text
from chromadb import Documents, EmbeddingFunction, Embeddings

# Se utiliza universal sentence encoder multilenguaje como embedding
# es necesario modificar la función de embedding de ChromaDB (utilizada mas adelante a la hora de hacer get_collection)
class MyEmbeddingFunction(EmbeddingFunction):

    def __init__(self):
        # Variable de instancia
        self.embed = hub.load("https://www.kaggle.com/models/google/universal-sentence-encoder/frameworks/TensorFlow2/variations/multilingual/versions/2")

    def __call__(self, input: Documents) -> Embeddings:
        embeddings = self.embed(input).numpy().tolist()
        return embeddings

funcion_embedding = MyEmbeddingFunction()

In [20]:
# Diccionario para los embeddings que generemos
embeddings_textos_cortados = {}

# Por cada archivo con split ya hecho
for nombre, archivo in textos_cortados.items():
    # Creamos los embeddings del documento
    embeddings_textos_cortados[nombre] = funcion_embedding(textos_cortados[nombre])
    # Creamos una coleccion perteneciente a ese archivo
    coleccion = bd_chroma.create_collection(name=f"{nombre}", metadata={"hnsw:space": "cosine"})
    # Agregamos:
    coleccion.add(
        embeddings=embeddings_textos_cortados[nombre],
        # Los splits
        documents=archivo,
        # Como metadata a que archivo pertenece dicho split
        metadatas = [ {'Archivo': nombre} for _ in range(len(archivo)) ],
        # Como id que número de chunk es dicho split
        ids=[f'Número de chunk {str(x)}' for x in range(len(archivo))]
    )

In [None]:
# embeddings_textos_cortados['Estatuto_Docente_BsAs']

### Búsqueda Semántica

In [21]:
# Función para realizar la busqueda semántica, recibe el string correspondiente al nombre de la colección (nombre del archivo) y la query
def busqueda_semantica(archivo, query):
    """
    Realiza una búsqueda semántica en la colección correspondiente al archivo utilizando una query.

    Parámetros:
    - archivo (str): Nombre del archivo (nombre de la colección) en la que se realizará la búsqueda.
    - query (str): Query semántica a utilizar en la búsqueda.

    Retorno:
    - str: Resultado formateado en un string que incluye información sobre la similitud coseno, el documento más cercano y su id.
    """

    # Cantidad de resultados que traera
    cantidad_resultados=3
    # A partir del nombre del archivo se obtiene la colección correspondiente
    coleccion = bd_chroma.get_collection(name=archivo, embedding_function=funcion_embedding)
    # Búsqueda
    resultado_query = coleccion.query(
        query_texts=query,
        n_results=cantidad_resultados,
        # Devuelve distancia (coseno seteada arriba), metadata (nombre del archivo) y los documentos mas cercanos (chunks correspondientes)
        include=['distances', 'metadatas', 'documents']
    )
    # Formateo de los resultados para luego pasar al contexto del LLM.
    resultado_limpio=f'Archivo: {archivo}\n\n'
    for i in range(cantidad_resultados):
      resultado_limpio += f'{resultado_query["ids"][0][i]}:\n'
      resultado_limpio += f'Similitud coseno: {resultado_query["distances"][0][i]}\n'
      resultado_limpio += f'{resultado_query["documents"][0][i]}:\n\n'

    # Devuelve el resultado formateado en un string
    return resultado_limpio

In [None]:
# # ---------------------------------- CONTROL DE CONSULTA VECTORIAL ------------------------------------------------------
# print('Control de Consulta Vectorial:')
# print('')
# pregunta = '¿Cúantos días le corresponde a una docente de licencia por matrimonio?'
# print(f'Pregunta: {pregunta}')
# print('')
# print(busqueda_semantica('Estatuto_Docente_BsAs', pregunta))
# # -------------------------------- FIN CONTROL DE CONSULTA VECTORIAL -----------------------------------------------------

## 2 - Base de datos tabular

### Lectura del xls

In [25]:
# Importa los archivos de una carpeta específica en drive
data_path = "/content/drive/MyDrive/UNR/4 - Proc Lenguaje Natural (IA42)/TP2/EduArDo/Data"

In [None]:
# Importa los archivos de una carpeta específica en el directorio local
data_path = "/content/Data"

In [26]:
xls_file = "Padron_Oficial_Establecimientos_Educativos.xls"

In [27]:
import pandas as pd

# Ruta completa del archivo xls
xls_path = f"{data_path}/{xls_file}"

# Lee el archivo xls a partir de la fila 12 como cabecera
padron_completo = pd.read_excel(xls_path, header=11)

In [28]:
padron_completo

Unnamed: 0,Jurisdicción,CUE Anexo,Nombre,Sector,Ámbito,Domicilio,CP,Código de área,Teléfono,Código localidad,...,Primaria.2,EGB3,Secundaria.3,Alfabetización,Formación Profesional,Formación Profesional (INET),Inicial.2,Primaria.3,Secundaria.4,Servicios complementarios
0,Buenos Aires,60000100,JARDÍN DE INFANTES Nº915 JAVIER VILLAFAÑE,Estatal,Urbano,TIRO FEDERAL 712,7300,02281,426487,6049005,...,,,,,,,,,,
1,Buenos Aires,60000200,ESCUELA DE EDUCACIÓN PRIMARIA Nº2 DOMINGO FAUS...,Estatal,Urbano,COLON Y MITRE 498 epnrozazul@yahoo.com.ar,7300,02281,42-3361,6049005,...,,,,,,,,,,
2,Buenos Aires,60000300,INSTITUTO PEDRO B. PALACIOS,Privado,Urbano,VICTOR MARTINEZ Y OSVALDO SOSA 1946,1757,011,4457-0054,6427006,...,,,,,,,,,,
3,Buenos Aires,60000400,INSTITUTO JUANA DE IBARBOUROU,Privado,Urbano,AV. ROJO 4415,1757,011,4626-1051,6427006,...,,,,,,,,,,
4,Buenos Aires,60000600,ESCUELA DE TEATRO DE MORON,Estatal,Urbano,SAN MARTIN 620,1708,011,4629-3097,6568004,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
63241,Tucumán,909000500,ESCUELA DE AGRICULTURA Y SACAROTECNIA,Estatal,Rural,HORCO MOLLE,T4107,,4253467(INT238),90119004,...,,,,,,,,,,
63242,Tucumán,909000600,ESC. DE BELLAS ARTES Y ARTES DECOR. E INDUS. A...,Estatal,Urbano,LAPRIDA 246 NORTE,T4000,0381,4302967-4526018,90084004,...,,,,,,,,,,
63243,Tucumán,909000700,INST. SUPERIOR DE MUSICA,Estatal,Urbano,CHACABUCO 242,T4000,,4220767,90084004,...,,,,,,,,,,
63244,Tucumán,909000800,INSTITUTO TECNICO DE AGUILARES,Estatal,Urbano,General Savio Italia,T4152,0381,483797/482728,90077001,...,,,,,,,,,,


In [29]:
padron_completo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 63246 entries, 0 to 63245
Data columns (total 45 columns):
 #   Column                            Non-Null Count  Dtype 
---  ------                            --------------  ----- 
 0   Jurisdicción                      63246 non-null  object
 1   CUE Anexo                         63246 non-null  int64 
 2   Nombre                            63246 non-null  object
 3   Sector                            63246 non-null  object
 4   Ámbito                            63243 non-null  object
 5   Domicilio                         63246 non-null  object
 6   CP                                59277 non-null  object
 7   Código de área                    53145 non-null  object
 8   Teléfono                          55341 non-null  object
 9   Código localidad                  63246 non-null  int64 
 10  Localidad                         63246 non-null  object
 11  Departamento                      63246 non-null  object
 12  Mail              

In [30]:
filas_duplicadas = padron_completo.duplicated()
print("Hay filas duplicadas.") if filas_duplicadas.any() else print("No hay filas duplicadas.")

No hay filas duplicadas.


### Padrón filtrado

In [31]:
# Copia del padrón completo con los registros correspondientes distritos en particular
distritos_a_conservar = ['Buenos Aires']
padron = padron_completo[padron_completo['Jurisdicción'].isin(distritos_a_conservar)].copy()

In [None]:
# Padrón Completo sin filtrar
# padron = padron_completo.copy()

In [32]:
padron.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19544 entries, 0 to 19543
Data columns (total 45 columns):
 #   Column                            Non-Null Count  Dtype 
---  ------                            --------------  ----- 
 0   Jurisdicción                      19544 non-null  object
 1   CUE Anexo                         19544 non-null  int64 
 2   Nombre                            19544 non-null  object
 3   Sector                            19544 non-null  object
 4   Ámbito                            19541 non-null  object
 5   Domicilio                         19544 non-null  object
 6   CP                                17926 non-null  object
 7   Código de área                    18551 non-null  object
 8   Teléfono                          18655 non-null  object
 9   Código localidad                  19544 non-null  int64 
 10  Localidad                         19544 non-null  object
 11  Departamento                      19544 non-null  object
 12  Mail              

### Función de consulta tabular:

In [33]:
def busqueda_tabular(nombre_escuela):
    """
    Busca una escuela por su nombre en el DataFrame "padron" y devuelve los datos correspondientes,
    omitiendo las columnas con valores NaN.

    Parámetros:
    - nombre_escuela (str): Nombre de la escuela a buscar.

    Retorno:
    - dict: Diccionario que contiene las columnas y valores de la escuela encontrada (sin NaN).
      Retorna None si la escuela no se encuentra.
    """
    # Buscar la escuela por nombre
    resultado_busqueda = padron[padron['Nombre'] == nombre_escuela]

    # Verificar si se encontraron resultados
    if not resultado_busqueda.empty:
        # Obtener la primera fila encontrada (suponiendo que los nombres son únicos)
        escuela_encontrada = resultado_busqueda.iloc[0]

        # Filtrar las columnas con valores no NaN
        escuela_valida = {indice: valor for indice, valor in escuela_encontrada.items() if pd.notna(valor)}
        # escuela_valida = [f"{indice}: {valor}" for indice, valor in escuela_encontrada.items() if pd.notna(valor)]

        return escuela_valida
    else:
        print(f"No se encontró ninguna escuela con el nombre '{nombre_escuela}'.")
        return None


In [34]:
# ---------------------------------- CONTROL DE CONSULTA TABULAR ------------------------------------------------------
print('Control de Consulta Tabular:')
print('')
escuela_buscar = 'INSTITUTO COMERCIAL RANCAGUA'
resultado = busqueda_tabular(escuela_buscar)
resultado
# ----------------------------- FIN DE CONTROL DE CONSULTA VECTORIAL --------------------------------------------------

Control de Consulta Tabular:



{'Jurisdicción': 'Buenos Aires',
 'CUE Anexo': 61182300,
 'Nombre': 'INSTITUTO COMERCIAL RANCAGUA',
 'Sector': 'Privado',
 'Ámbito': 'Rural',
 'Domicilio': 'SANTA ANA 380  ',
 'CP': '2701',
 'Código de área': '02477',
 'Teléfono': '49-3017',
 'Código localidad': 6623033,
 'Localidad': 'RANCAGUA',
 'Departamento': 'PERGAMINO',
 'Mail': 'icr@cooprancagua.com.ar',
 'Ed. Común': 'X',
 'Secundaria': 'X'}

## 3 - Base de datos de grafos:

### Creacion de las querys

In [35]:
# ------------------------------------------------------------------------------------
# INICIO SARMIENTO
# ------------------------------------------------------------------------------------
query_sarmiento = '''

SELECT

  ?nombreCompleto ?nacionalidad ?genero ?lealtad ?fechaNacimiento ?lugarNacimiento ?fechaFallecimiento
  ?lugarFallecimiento ?circunstanciasMuerte ?causaMuerte ?lugarSepultura ?madre
  (GROUP_CONCAT(DISTINCT ?_hermanos; SEPARATOR=", ") AS ?hermanos)
  ?conyuge ?hija
  (GROUP_CONCAT(DISTINCT ?_ocupaciones; SEPARATOR=", ") AS ?ocupaciones)
  (GROUP_CONCAT(DISTINCT ?_cargosOcupados; SEPARATOR=", ") AS ?cargosOcupados)
  ?inicioPeriodoActividad ?partidoPolitico ?candidatoEleccionAño ?rangoMilitarAlcanzado
  ?ramaMilitar
  (GROUP_CONCAT(DISTINCT ?_obrasDestacadas; SEPARATOR=", ") AS ?obrasDestacadas)

WHERE

{

  wd:Q254041 wdt:P1559 ?nombreCompleto;
             wdt:P27 [rdfs:label ?nacionalidad];
             wdt:P21 [rdfs:label ?genero];
             wdt:P945 [rdfs:label ?lealtad];
             wdt:P569 ?fechaNacimiento;
             wdt:P19 [rdfs:label ?lugarNacimiento];
             wdt:P570 ?fechaFallecimiento;
             wdt:P20 [rdfs:label ?lugarFallecimiento];
             wdt:P1196 [rdfs:label ?circunstanciasMuerte];
             wdt:P509 [rdfs:label ?causaMuerte];
             wdt:P119 [rdfs:label ?lugarSepultura];
             wdt:P25 [rdfs:label ?madre];
             wdt:P3373 ?hermanos;
             wdt:P26 [rdfs:label ?conyuge];
             wdt:P40 [rdfs:label ?hija];
             wdt:P106 ?ocupaciones;
             wdt:P39 ?cargosOcupados;
             wdt:P2031 ?inicioPeriodoActividad;
             wdt:P102 [rdfs:label ?partidoPolitico];
             wdt:P3602 [rdfs:label ?candidatoEleccionAño];
             wdt:P410 [rdfs:label ?rangoMilitarAlcanzado];
             wdt:P241 [rdfs:label ?ramaMilitar];
             wdt:P800 ?obrasDestacadas;

  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],es".
                          ?hermanos rdfs:label ?_hermanos.
                          ?ocupaciones rdfs:label ?_ocupaciones.
                          ?cargosOcupados rdfs:label ?_cargosOcupados.
                          ?obrasDestacadas rdfs:label ?_obrasDestacadas.
                         }

  FILTER(LANG(?nacionalidad) = "es").
  FILTER(LANG(?genero) = "es").
  FILTER(LANG(?lealtad) = "es").
  FILTER(LANG(?lugarNacimiento) = "es").
  FILTER(LANG(?lugarFallecimiento) = "es").
  FILTER(LANG(?circunstanciasMuerte) = "es").
  FILTER(LANG(?causaMuerte) = "es").
  FILTER(LANG(?lugarSepultura) = "es").
  FILTER(LANG(?madre) = "es").
  FILTER(LANG(?conyuge) = "es").
  FILTER(LANG(?hija) = "es").
  FILTER(LANG(?partidoPolitico) = "es").
  FILTER(LANG(?candidatoEleccionAño) = "es").
  FILTER(LANG(?rangoMilitarAlcanzado) = "es").
  FILTER(LANG(?ramaMilitar) = "es").

}

GROUP BY ?nombreCompleto ?nacionalidad ?genero ?lealtad ?fechaNacimiento ?lugarNacimiento ?fechaFallecimiento
         ?lugarFallecimiento ?circunstanciasMuerte ?causaMuerte ?lugarSepultura ?madre ?conyuge ?hija ?inicioPeriodoActividad
         ?partidoPolitico ?candidatoEleccionAño ?rangoMilitarAlcanzado ?ramaMilitar
'''

# ------------------------------------------------------------------------------------
# FIN SARMIENTO
# ------------------------------------------------------------------------------------

# ------------------------------------------------------------------------------------
# INICIO PELLEGRINI
# ------------------------------------------------------------------------------------

query_pellegrini = '''

SELECT

   ?nombreCompleto ?genero
  (GROUP_CONCAT(DISTINCT ?_nacionalidades; SEPARATOR=", ") AS ?nacionalidades)
  ?fechaNacimiento ?lugarNacimiento ?fechaFallecimiento ?lugarFallecimiento
  ?lugarSepultura
  (GROUP_CONCAT(DISTINCT ?_ocupaciones; SEPARATOR=", ") AS ?ocupaciones)
  (GROUP_CONCAT(DISTINCT ?_cargosOcupados; SEPARATOR=", ") AS ?cargosOcupados)
  (GROUP_CONCAT(DISTINCT ?_educadoEn; SEPARATOR=", ") AS ?educadoEn)
  ?lugarTrabajo ?partidoPolitico ?ramaMilitar

WHERE

{
  wd:Q270446 wdt:P21 [rdfs:label ?genero];
             wdt:P27 ?nacionalidades;
             wdt:P1559 ?nombreCompleto;
             wdt:P569 ?fechaNacimiento;
             wdt:P19 [rdfs:label ?lugarNacimiento];
             wdt:P570 ?fechaFallecimiento;
             wdt:P20 [rdfs:label ?lugarFallecimiento];
             wdt:P119 [rdfs:label ?lugarSepultura];
             wdt:P106 ?ocupaciones;
             wdt:P39 ?cargosOcupados;
             wdt:P69 ?educadoEn;
             wdt:P937 [rdfs:label ?lugarTrabajo];
             wdt:P102 [rdfs:label ?partidoPolitico];
             wdt:P241 [rdfs:label ?ramaMilitar];


  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],es".
                          ?nacionalidades rdfs:label ?_nacionalidades.
                          ?ocupaciones rdfs:label ?_ocupaciones.
                          ?cargosOcupados rdfs:label ?_cargosOcupados.
                          ?educadoEn rdfs:label ?_educadoEn.
                         }

  FILTER(LANG(?genero) = "es").
  FILTER(LANG(?lugarNacimiento) = "es").
  FILTER(LANG(?lugarFallecimiento) = "es").
  FILTER(LANG(?lugarSepultura) = "es").
  FILTER(LANG(?lugarTrabajo) = "es").
  FILTER(LANG(?partidoPolitico) = "es").
  FILTER(LANG(?ramaMilitar) = "es").


}

GROUP BY ?nombreCompleto ?genero ?fechaNacimiento ?lugarNacimiento ?fechaFallecimiento ?lugarFallecimiento ?lugarSepultura
         ?lugarTrabajo ?partidoPolitico ?ramaMilitar

'''

# ------------------------------------------------------------------------------------
# FIN PELLEGRINI
# ------------------------------------------------------------------------------------

# ------------------------------------------------------------------------------------
# INICIO ROCA
# ------------------------------------------------------------------------------------

query_roca = '''

SELECT

   ?nombreCompleto ?genero ?nacionalidad ?lealtad ?fechaNacimiento ?lugarNacimiento ?fechaFallecimiento ?lugarFallecimiento
   ?lugarSepultura ?padre ?madre ?hermana ?conyuge ?hijo
  (GROUP_CONCAT(DISTINCT ?_ocupaciones; SEPARATOR=", ") AS ?ocupaciones)
  (GROUP_CONCAT(DISTINCT ?_cargos; SEPARATOR=", ") AS ?cargos)
   ?educadoEn ?partidoPolitico
  (GROUP_CONCAT(DISTINCT ?_candidatoEnElecciones; SEPARATOR=", ") AS ?candidatoEnElecciones)
   ?religion ?rangoMilitarAlcanzado ?ramaMilitar

WHERE

{

  wd:Q356659 wdt:P1559 ?nombreCompleto;
             wdt:P21 [rdfs:label ?genero];
             wdt:P27 [rdfs:label ?nacionalidad];
             wdt:P945 [rdfs:label ?lealtad];
             wdt:P569 ?fechaNacimiento;
             wdt:P19 [rdfs:label ?lugarNacimiento];
             wdt:P570 ?fechaFallecimiento;
             wdt:P20 [rdfs:label ?lugarFallecimiento];
             wdt:P119 [rdfs:label ?lugarSepultura];
             wdt:P22 [rdfs:label ?padre];
             wdt:P25 [rdfs:label ?madre];
             wdt:P3373 [rdfs:label ?hermana];
             wdt:P26 [rdfs:label ?conyuge];
             wdt:P40 [rdfs:label ?hijo];
             wdt:P106 ?ocupaciones;
             wdt:P39 ?cargos;
             wdt:P69 [rdfs:label ?educadoEn];
             wdt:P102 [rdfs:label ?partidoPolitico];
             wdt:P3602 ?candidatoEnElecciones;
             wdt:P140 [rdfs:label ?religion];
             wdt:P410 [rdfs:label ?rangoMilitarAlcanzado];
             wdt:P241 [rdfs:label ?ramaMilitar];



  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],es".
                          ?ocupaciones rdfs:label ?_ocupaciones.
                          ?cargos rdfs:label ?_cargos.
                          ?candidatoEnElecciones rdfs:label ?_candidatoEnElecciones.

                         }

  FILTER(LANG(?genero) = "es").
  FILTER(LANG(?nacionalidad) = "es").
  FILTER(LANG(?lealtad) = "es").
  FILTER(LANG(?lugarNacimiento) = "es").
  FILTER(LANG(?lugarFallecimiento) = "es").
  FILTER(LANG(?lugarSepultura) = "es").
  FILTER(LANG(?padre) = "es").
  FILTER(LANG(?madre) = "es").
  FILTER(LANG(?hermana) = "es").
  FILTER(LANG(?conyuge) = "es").
  FILTER(LANG(?hijo) = "es").
  FILTER(LANG(?educadoEn) = "es").
  FILTER(LANG(?partidoPolitico) = "es").
  FILTER(LANG(?religion) = "es").
  FILTER(LANG(?rangoMilitarAlcanzado) = "es").
  FILTER(LANG(?ramaMilitar) = "es").

}

GROUP BY ?nombreCompleto ?genero ?nacionalidad ?lealtad ?fechaNacimiento ?lugarNacimiento ?fechaFallecimiento ?lugarFallecimiento
         ?lugarSepultura ?padre ?madre ?hermana ?conyuge ?hijo ?educadoEn ?partidoPolitico ?religion ?rangoMilitarAlcanzado
         ?ramaMilitar

'''
# ------------------------------------------------------------------------------------
# FIN ROCA
# ------------------------------------------------------------------------------------

# ------------------------------------------------------------------------------------
# INICIO JAURETCHE
# ------------------------------------------------------------------------------------

query_jauretche = '''

SELECT

   ?nombreCompleto ?genero ?fechaNacimiento ?lugarNacimiento ?fechaFallecimiento ?lugarFallecimiento ?causaMuerte
  (GROUP_CONCAT(DISTINCT ?_ocupaciones; SEPARATOR=", ") AS ?ocupaciones)
   ?campoTrabajo ?educadoEn

WHERE

{

   wd:Q715315 rdfs:label ?nombreCompleto;
              wdt:P21 [rdfs:label ?genero];
              wdt:P27 [rdfs:label ?nacionalidad];
              wdt:P569 ?fechaNacimiento;
              wdt:P19 [rdfs:label ?lugarNacimiento];
              wdt:P570 ?fechaFallecimiento;
              wdt:P20 [rdfs:label ?lugarFallecimiento];
              wdt:P509 [rdfs:label ?causaMuerte];
              wdt:P106 ?ocupaciones;
              wdt:P101 [rdfs:label ?campoTrabajo];
              wdt:P69 [rdfs:label ?educadoEn];

  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],es".
                          ?ocupaciones rdfs:label ?_ocupaciones.

                         }

  FILTER(LANG(?nombreCompleto) = "es").
  FILTER(LANG(?genero) = "es").
  FILTER(LANG(?nacionalidad) = "es").
  FILTER(LANG(?lugarNacimiento) = "es").
  FILTER(LANG(?lugarFallecimiento) = "es").
  FILTER(LANG(?causaMuerte) = "es").
  FILTER(LANG(?campoTrabajo) = "es").
  FILTER(LANG(?educadoEn) = "es").

}

 GROUP BY ?nombreCompleto ?genero ?fechaNacimiento ?lugarNacimiento ?fechaFallecimiento ?lugarFallecimiento ?causaMuerte ?campoTrabajo
          ?educadoEn

'''
# ------------------------------------------------------------------------------------
# FIN JAURETCHE
# ------------------------------------------------------------------------------------

### Función para hacer la consulta:

In [36]:
import requests

def consulta_sparql(query):
    """
    Realiza una consulta SPARQL a Wikidata y devuelve los resultados formateados en un string.

    Parámetros:
    - query (str): Consulta SPARQL a ejecutar en Wikidata.

    Retorno:
    - str: String que contiene los resultados formateados de la consulta SPARQL.
      Retorna None si hay un error durante la consulta.
    """

    # URL donde se enviara la consulta
    url = "https://query.wikidata.org/sparql"

    # Configuración de la consulta SPARQL
    headers = {
        # Valor generalmente asociado a navegador web Chrome. Indica al servidor que la solicitud proviene de un navegador (aunque sea un script)
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
        # Queremos recibir un json
        'Accept': 'application/json'
    }

    params = {
        # Consulta SPARQL a consultar
        'query': query,
        # Recibimos un json.
        'format': 'json'
    }

    # Realización de la solicitud GET.
    response = requests.get(url, headers=headers, params=params)

    # Si la respuesta fue exitosa
    if response.status_code == 200:

        # Verificamos el json
        if response.json():

            # Creamos el string para el contexto con los resultados
            resultado = response.json()['results']['bindings'][0]
            respuesta_wikidata = ''
            for key in resultado.keys():
                respuesta_wikidata += f'{key}: {resultado[key]["value"]}\n'

        return respuesta_wikidata

    # Sino
    else:
        print("Error al realizar la consulta. Código de estado:", response.status_code)
        # Devolvemos nulo
        return None

In [None]:
# # ---------------------------------- CONTROL DE CONSULTA DE GRAFOS ------------------------------------------------------
# print('Control de Consulta de Grafos:')
# print('')
# print(consulta_sparql(query_sarmiento))
# # ------------------------------- FIN DE CONTROL DE CONSULTA DE GRAFOS --------------------------------------------------

## 4 - Funcionamiento del Chabot:

In [37]:
from jinja2 import Template
from decouple import config
from ast import Str
from transformers import pipeline

### Clasificador

In [38]:
# Clasificador zero-shot de HugginFace
# Utilizado como segunda etapa del Clasificador de categorias y clasificador de archivos
clasificador_zero_shot = pipeline("zero-shot-classification", model="MoritzLaurer/mDeBERTa-v3-base-mnli-xnli")

# Se utilizan dos listas de etiquetas distintas porque en un caso el clasificador busca textos,
# y en el otro caso lo que busca es información de personalidades.

# Dos grupos de etiquetas para el clasificador
etiquetas_textos = ['Marco Legal',
            'Ley Educación Nacional 26206',
            'Reglamento General',
            'Estatuto Docente']

etiquetas_personas = ['Domingo Faustino Sarmiento',
                    'Carlos Pellegrini', 'Julio Argentino Roca',
                    'Arturo Jauretche']

# Etiquetas para la segunda etapa del clasificador de categorias
etiquetas_base_datos = ['1', '2', '3', '4']

config.json:   0%|          | 0.00/1.07k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/558M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.26k [00:00<?, ?B/s]

spm.model:   0%|          | 0.00/4.31M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/16.3M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/23.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/286 [00:00<?, ?B/s]

### Plantilla Jinja

In [39]:
# Función que define la plantilla jinja
def plantilla_instruccion_zephyr(messages, add_generation_prompt=True):
  template_str = "{% for message in messages %}"
  template_str += "{% if message['role'] == 'user' %}"
  template_str += "<|user|>{{ message['content'] }}</s>\n"
  template_str += "{% elif message['role'] == 'assistant' %}"
  template_str += "<|assistant|>{{ message['content'] }}</s>\n"
  template_str += "{% elif message['role'] == 'system' %}"
  template_str += "<|system|>{{ message['content'] }}</s>\n"
  template_str += "{% else %}"
  template_str += "<|unknown|>{{ message['content'] }}</s>\n"
  template_str += "{% endif %}"
  template_str += "{% endfor %}"
  template_str += "{% if add_generation_prompt %}"
  template_str += "<|assistant|>\n"
  template_str += "{% endif %}"
  # Crear un objeto de plantilla con la cadena de plantilla
  template = Template(template_str)
  # Renderizar la plantilla con los mensajes proporcionados
  return template.render(messages=messages, add_generation_prompt=add_generation_prompt)


### Modelo LLM

In [40]:
# Llamada al modelo
def conexion_llm(prompt: str, max_new_tokens: int = 768) -> None:
  try:
    # Tu clave API de Hugging Face
    api_key = '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'

    # URL de la API de Hugging Face para la generación de texto
    api_url = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"

    # Cabeceras para la solicitud
    headers = {"Authorization": f"Bearer {api_key}"}

    # Datos para enviar en la solicitud POST
    # Sobre los parámetros: https://huggingface.co/docs/transformers/main_classes/text_generation
    data = {
      "inputs": prompt,
      "parameters": {
        "max_new_tokens": max_new_tokens,
        "temperature": 0.01,
      }
    }

    # Realizamos la solicitud POST
    response = requests.post(api_url, headers=headers, json=data)

    # Extraer respuesta
    respuesta = response.json()[0]["generated_text"][len(prompt):]

    return respuesta

  except Exception as e:
    print(f"Error durante la conexion con el LLM: Error {e}")

### Prompt engineering

In [41]:
#@title Clasificador de Bases de Datos

# Primera etapa del clasificador de categorias:
def clasificador_base_datos(prompt_inicial: str):

  PLANTILLA_CLASIFICACION_BASE_DATOS = (
    "Clasifica el texto recibido en, estrictamente, una de las categorías mencionadas a continuación.\n"
    "Categorias:\n"
     "1\n"
     "2\n"
     "3\n"
     "4\n"
     '''La categoria 1 corresponde al marco legal de la educación argentina y en particular de la provincia de Buenos Aires.
     Corresponde a leyes, normas y regulaciones que afecten a las instituciones educativas o a cualquiera de los agentes
     y personas que participan en ellas.
     Por ejemplo: artículos de la Ley de Educación Nacional, del Reglamento General de Escuelas de Buenos Aires, del Estatuto Docente, etc.\n'''
     '''La categoria 2 corresponde a datos generales sobre los personajes más influyentes en la historia educativa argentina.
     Por ejemplo: datos sobre Domingo Faustino Sarmiento, Carlos Pellegrini, Julio Argentino Roca y Arturo Jauretche.\n'''
     '''La categoria 3 corresponde a datos específicos de todas las instituciones educativas del país.
     Por ejemplo: nombre, CUE, jurisdicción, sector público o privado, domicilio, localidad, teléfono, mail, etc.\n'''
     '''La categoria 4 corresponde a consultas que no estén relacionadas con ninguna de las anteriores.\n"'''
     "Pregunta: {prompt_inicial}\n"
     "Respuesta: "
  )

  mensaje = [
    {
      "role": "system",
      "content": '''Eres un experto clasificador de textos en categorias.''',
    },
    {"role": "user", "content": PLANTILLA_CLASIFICACION_BASE_DATOS.format(prompt_inicial=prompt_inicial)},
  ]

  prompt_plantilla = plantilla_instruccion_zephyr(mensaje)

  clasificacion_base_datos = conexion_llm(prompt_plantilla)

  return clasificacion_base_datos


In [42]:
#@title Limpiar Prompt de Textos

# Función que utiliza el LLM para limpiar el prompt de consulta a la base de datos semántica:
def limpiar_prompt_texto(prompt_inicial: str):

  PLANTILLA_LIMPIAR_PROMPT_TEXTO = (
     "Cadena de texto: {prompt_inicial}.\n"
  )

  mensaje = [
    {
      "role": "system",
      "content": '''Eres un asistente especialista en sintaxis que recibe una cadena de texto ingresada por el usuario.
      El prompt ingresado tratará acerca de algún documento sobre la normativa y el marco legal de la Educación Argentina
      Tu tarea es devolver la misma cadena pero quitándole el nombre del documento en cuestión.\n
      Los documentos a los que se puede hacer referencia son "Marco Legal de la Educación Argentina",
      "Ley de Educación Nacional 26206", "Reglamento General de Escuelas de Buenos Aires" y
      "Estatuto Docente de Buenos Aires".\n'''
      "------------------------------------------------------------------------\n"
      '''Ejemplo 1:\n
      Cadena de texto: ¿Cuánto tiempo es la licencia por matrimonio según el Estatuto Docente?\n
      Cadena de texto sin el nombre del documento: ¿Cuánto tiempo es la licencia por matrimonio?\n'''
      '''Ejemplo 2:\n
      Cadena de texto: ¿Según la Ley de Educación Nacional, un docente tiene derecho a capacitación?\n
      Cadena de texto sin el nombre del documento: ¿Un docente tiene derecho a capacitación?\n'''
      '''Ejemplo 3:\n
      Cadena de texto: ¿Según el Reglamento General de Escuelas, quién debe reemplazar al director en caso de ausencia?\n
      Cadena de texto sin el nombre del documento: ¿quién debe reemplazar al director en caso de ausencia?\n'''
      "------------------------------------------------------------------------\n"
      '''Tu salida debe ser únicamente el texto formateado.\n''',
    },
    {"role": "user", "content": PLANTILLA_LIMPIAR_PROMPT_TEXTO.format(prompt_inicial=prompt_inicial)},
  ]

  prompt_plantilla = plantilla_instruccion_zephyr(mensaje)

  prompt_limpio_llm = conexion_llm(prompt_plantilla)

  # Últimos retoques que dejan el prompt limpio
  prompt_limpio = prompt_limpio_llm.split('Cadena de texto sin el nombre del documento: ')[1].split('\n')[0]

  return prompt_limpio

In [43]:
#@title Limpiar Prompt a MAYUS

# Función que utiliza el LLM para limpiar el prompt de consulta a la base de datos tabular:
def limpiar_prompt_mayus(prompt_inicial: str):

  PLANTILLA_LIMPIAR_PROMPT_MAYUS = (
     "Cadena de texto: {prompt_inicial}.\n"
  )

  mensaje = [
    {
      "role": "system",
      "content": '''Eres un asistente especialista en gramática que recibe una cadena de texto ingresada por el usuario.
      El prompt ingresado tratará acerca de alguna institución educativa de Argentina.
      Tu tarea es filtrar el prompt y devolver únicamente el nombre de la institución mencionado en el mismo, todo en mayúsculas, quitándole el resto del texto.
      No deberás modificar el nombre de la institución ni agregar texto.\n'''
      "------------------------------------------------------------------------\n"
      "Ejemplo 1:\n"
      "Cadena de texto: ¿Puedes darme los datos de contacto del 'Instituto Comercial Rancagua'?\n"
      "Cadena de texto de salida en mayúsculas: INSTITUTO COMERCIAL RANCAGUA\n"
      "Ejemplo 2:\n"
      "Cadena de texto: Necesito información sobre el 'Instituto Politecnico N° 6 General San Martin'\n"
      "Cadena de texto de salida en mayúsculas: INSTITUTO POLITECNICO N° 6 GENERAL SAN MARTIN\n"
      "Ejemplo 3:\n"
      "Cadena de texto: ¿Tienes datos de contacto del 'Colegio Nuestra Señora del Huerto'?\n"
      "Cadena de texto de salida en mayúsculas: COLEGIO NUESTRA SEÑORA DEL HUERTO\n"
      "------------------------------------------------------------------------\n"
      '''Tu salida debe ser únicamente el texto formateado.\n''',
    },
    {"role": "user", "content": PLANTILLA_LIMPIAR_PROMPT_MAYUS.format(prompt_inicial=prompt_inicial)},
  ]

  prompt_plantilla = plantilla_instruccion_zephyr(mensaje)

  prompt_mayus_llm = conexion_llm(prompt_plantilla)

  # Últimos retoques que dejan el prompt limpio
  prompt_mayus = prompt_mayus_llm.split('Cadena de texto de salida en mayúsculas: ')[1].split('\n')[0]

  return prompt_mayus

In [44]:
#@title Respuesta Final

# Función para generar la respuesta final (compartida para todas las categorías)
def generar_respuesta_final(query_str: str, contexto: str):

  TEXT_QA_PROMPT_TMPL = (
    "\n\n------------------------------------------------------------------------\n"
    "Informacion de contexto:\n"
    "{context_str}\n"
    "------------------------------------------------------------------------\n"
    "Pregunta: {query_str}\n"
    "Respuesta: \n\n"
  )


  messages = [
    {

    "role": "system",
    "content": '''Responde en ESPAÑOL.\n
Eres un asistente especializado en educación argentina que responde amablemente preguntas
guiándose únicamente por la informacion de contexto que se te provee.
Pero respondes sin hacer referencia o menciones a ese contexto,
sólo respondes como si fueras tu quien lo sabía de antemano.\n
'''
    "Responde lo más corto posible.\n"
    "Responde sin utilizar conocimiento previo.\n"
    '''Si la respuesta no esta en la informacion de contexto escribe la siguiente respuesta: 'Disculpa no puedo
responder a la pregunta en este momento'.\n'''

    },

    {"role": "user",
     "content": TEXT_QA_PROMPT_TMPL.format(context_str=contexto, query_str=query_str)},
  ]

  prompt_final = plantilla_instruccion_zephyr(messages)

  # # --------------------------------------- CONTROL DE PROMPT QUE RECIBE EL LLM  -----------------------------------------------------------
  # print('----------------------------------------------------------------------------------------')
  # print('')
  # print('Control Prompt que recibe el LLM:')
  # print('')
  # print(prompt_final)
  # print('----------------------------------------------------------------------------------------')
  # print('')
  # # ------------------------------------- FIN CONTROL DE PROMPT QUE RECIBE EL LLM  ---------------------------------------------------------

  respuesta_final = conexion_llm(prompt_final)

  return respuesta_final

In [45]:
#@title Respuesta ChatBot

# Función que deriva la consulta a la base de datos correspondiente para buscar el contexto y luego genera la respuesta
def respuesta_chatbot(nombre, pregunta: str, categoria: str):

  if categoria == '1': resultado_bdd = busqueda_semantica(nombre, pregunta)
  elif categoria == '2': resultado_bdd = consulta_sparql(nombre)
  elif categoria == '3': resultado_bdd = busqueda_tabular(nombre)

  respuesta = generar_respuesta_final(pregunta, resultado_bdd)

  return respuesta


### Chatbot

In [50]:
def chatbot():

  while True:

    print('---------------------------------------------- Nuevo mensaje ----------------------------------------------')
    print('')

    print('''Asistente: Hola, soy "EduArDo", un chatbot especializado en temas relacionados
    al marco legal de la Educación Argentina. Si bien poseo información general de todo el país,
    me especializo en particular en la provincia de Buenos Aires.
    Puedo ayudarte con aspectos técnicos y normativos de leyes, reglamentos y estatutos.
    También puedo brindar información detallada de los personajes más influyentes
    en la historia educativa argentina (Sarmiento, Pellegrini, Roca, Jauretche),
    así como también buscarte información de contacto de una institución educativa en particular.
    En que puedo ayudarte? [Escribe "salir" para finalizar sesión]''')
    print('')

    pregunta = input('Usuario: ')
    print('')

    if (pregunta == 'salir'):
      print('Asistente: Espero haber sido de utilidad. Hasta pronto! ')
      break

    # Clasificador creado con el mismo LLM para saber a que base de datos ir,
    # elige un número dependiendo la base de datos que se necesite.
    clasificacion_bdd_llm = clasificador_base_datos(pregunta)

    # Como no se logró que el clasificador anterior devuelva solo un número para las categorias
    # Se pasa el resultado anterior a otro clasificador (zero-shot sacado de HugginFace) para obtener la categoria.
    clasificacion_bdd_zero = clasificador_zero_shot(clasificacion_bdd_llm, etiquetas_base_datos, multi_label=False)

    # # ------------------------------------- CONTROL DE CLASIFICADOR DE CATEGORIAS  ---------------------------------------------------------
    # # Descomentar para controlar como se eligieron las bases de datos
    # print('--------------------------------------------------------------------------')
    # print('')
    # print('Control Clasificador de categorias de 2 etapas:')
    # print('')
    # print('Etapa 1: Clasificacion de LLM')
    # print(clasificacion_bdd_llm)
    # print('')
    # print('Etapa 2: Clasificacion Zero-Shot')
    # print(f'Etiquetas: {clasificacion_bdd_zero["labels"]}')
    # print(f'Puntajes: {clasificacion_bdd_zero["scores"]}')
    # print('')
    # categorias = { '1': 'Marco legal', '2': 'Informacion de personalidades', '3': 'Datos de instituciones', '4': 'No corresponde a una categoria'}
    # print(f'Categoria: {categorias[clasificacion_bdd_zero["labels"][0]]}')
    # print('')
    # print('--------------------------------------------------------------------------')
    # print('')
    # # ---------------------------------- FIN DE CONTROL CLASIFICADOR DE CATEGORIAS --------------------------------------------------------

    # Ahora si ya tenemos las categorias con probabilidades, si la mayor probabilidad es menor a determinado umbral
    if (clasificacion_bdd_zero['scores'][0] < 0.65) or (clasificacion_bdd_zero['labels'][0] == '4'):

      # No estamos seguros que se esté pidiendo un ainformación que el asistente conozca
      print('''Asistente: Disculpa pero no estoy seguro de comprender qué tipo de información necesitas.
      Recuerda que sólo puedo ayudarte con el marco legal de la educación argentina, personalidades destacadas y datos institucionales.
      ¿Puedes reformular la pregunta?\n''')

    # Si las probabilidades superan umbral
    else:

      # CATEGORÍA = 1
      # --> preguntas del marco legal / búsqueda semántica / base de datos vectorial:
      if clasificacion_bdd_zero['labels'][0] == '1':

        # Usamos nuevamente el clasificador zero-shot de HF para saber de que texto se trata la solicitud del usuario
        clasificacion_zero_textos = clasificador_zero_shot(pregunta, etiquetas_textos, multi_label=False)

        # # ------------------------------------- CONTROL DE CLASIFICADOR DE TEXTOS -------------------------------------------------------------
        # # Descomentar para controlar como se eligio el texto que menciona el prompt
        # print('--------------------------------------------------------------------------')
        # print('')
        # print('Control de Clasificador de Textos (Para BD vectorial):')
        # print('')
        # print(f'Etiquetas: {clasificacion_zero_textos["labels"]}')
        # print(f'Puntajes: {clasificacion_zero_textos["scores"]}')
        # print('')
        # print(f'Texto: {clasificacion_zero_textos["labels"][0]}')
        # print('')
        # print('--------------------------------------------------------------------------')
        # print('')
        # # --------------------------------- FIN DE CONTROL DE CLASIFICADOR DE TEXTOS -----------------------------------------------------------

        # Si la etiqueta más probable es menor a umbral mínimo
        if clasificacion_zero_textos['scores'][0] < 0.50:

          # No entedemos bien a que texto se refiere
          print('''Asistente: Disculpa pero no entiendo a qué tipo de documentación hace referencia tu consulta.
          Recuerda que por el momento sólo poseo conocimientos en "Marco Legal de la Educación Argentina", "Ley de Educación Nacional 26206",
          "Reglamento General de Escuelas de Buenos Aires" y "Estatuto Docente de Buenos Aires".
          ¿Podrías reformular tu pregunta?\n''')

        # Si la etiqueta más probable supera ese umbral
        else:

          prompt_limpio = limpiar_prompt_texto(pregunta)

          # # -------------------------------------- CONTROL DE LIMPIEZA DE PROMPT ----------------------------------------------------------
          # print('--------------------------------------------------------------------------')
          # print('Control de Limpieza de Prompt')
          # print('')
          # print('')
          # print(f'Pregunta original: {pregunta}')
          # print('')
          # print(f'Pregunta limpia: {prompt_limpio}')
          # print('')
          # print('--------------------------------------------------------------------------')
          # print('')
          # # ------------------------------------ FIN CONTROL DE LIMPIEZA DE PROMPT --------------------------------------------------------

          # Dependiendo el texto que nombre la etiqueta, buscamos en la base de datos vectorial y generamos la respuesta
          if clasificacion_zero_textos['labels'][0] == 'Marco Legal': print(f'Asistente: {respuesta_chatbot("Marco_Legal_Educacion_Argentina", prompt_limpio,"1")}')
          elif clasificacion_zero_textos['labels'][0] == 'Ley Educación Nacional 26206': print(f'Asistente: {respuesta_chatbot("Ley_Educacion_Nacional_26206", prompt_limpio,"1")}')
          elif clasificacion_zero_textos['labels'][0] == 'Reglamento General': print(f'Asistente: {respuesta_chatbot("Reglamento_Gral_Escuelas_BsAs", prompt_limpio,"1")}')
          elif clasificacion_zero_textos['labels'][0] == 'Estatuto Docente': print(f'Asistente: {respuesta_chatbot("Estatuto_Docente_BsAs", prompt_limpio,"1")}')



      # CATEGORÍA = 2
      # --> preguntas de información de personalidades / búsqueda sparql / base de datos grafos:
      elif clasificacion_bdd_zero['labels'][0] == '2':

        # Usamos nuevamente el clasificador zero-shot de HF para saber a qué personalidad refiere la pregunta
        clasificacion_zero_pers = clasificador_zero_shot(pregunta, etiquetas_personas, multi_label=False)

        # # ------------------------------------- Control de Clasificador de Personas -------------------------------------------------------------
        # # Descomentar para controlar como se eligió la persona que menciona el prompt
        # print('--------------------------------------------------------------------------')
        # print('')
        # print('Control Clasificador de Personalidades (Para BD de grafos)')
        # print('')
        # print(f'Etiquetas: {clasificacion_zero_pers["labels"]}')
        # print(f'Puntajes: {clasificacion_zero_pers["scores"]}')
        # print('')
        # print(f'Personalidad: {clasificacion_zero_pers["labels"][0]}')
        # print('')
        # print('--------------------------------------------------------------------------')
        # print('')
        # # ---------------------------------- Fin control de Clasificador de Personas ------------------------------------------------------------

        # Si la etiqueta más probable es menor a umbral mínimo
        if clasificacion_zero_pers['scores'][0] < 0.50:

          # No entedemos bien a que persona se refiere
          print('''Asistente: Disculpa pero no entiendo a quién hace referencia tu consulta.
          Recuerda que por el momento sólo poseo conocimientos sobre "Domingo Faustino Sarmiento", "Carlos Pellegrini",
          "Julio Argentino Roca" y "Arturo Jauretche".
          ¿Podrías reformular tu pregunta?.''')

        # Si la etiqueta más probable supera ese umbral
        else:

          # Dependiendo el apellido que nombre la etiqueta, buscamos en la base de datos de grafos
          # con la query correspondiente generada arriba y generamos la respuesta
          if clasificacion_zero_pers['labels'][0] == 'Domingo Faustino Sarmiento': print(f'Asistente: {respuesta_chatbot(query_sarmiento, pregunta, "2")}')
          elif clasificacion_zero_pers['labels'][0] == 'Carlos Pellegrini': print(f'Asistente: {respuesta_chatbot(query_pellegrini, pregunta, "2")}')
          elif clasificacion_zero_pers['labels'][0] == 'Julio Argentino Roca': print(f'Asistente: {respuesta_chatbot(query_roca, pregunta, "2")}')
          elif clasificacion_zero_pers['labels'][0] == 'Arturo Jauretche': print(f'Asistente: {respuesta_chatbot(query_jauretche, pregunta, "2")}')



      # CATEGORÍA = 3
      # --> preguntas de información de instituciones / búsqueda tabular / base de datos tabular:
      elif clasificacion_bdd_zero['labels'][0] == '3':

        prompt_mayus = limpiar_prompt_mayus(pregunta)

        # # ------------------------------------- Control de Filtro de Institución -------------------------------------------------------------
        # # Descomentar para controlar como se formateó el prompt
        # print('--------------------------------------------------------------------------')
        # print('')
        # print('Control de Filtro de Institución (Para BD Tabular)')
        # print('')
        # print(f'Prompt original: {pregunta}')
        # print('')
        # print(f'Prompt convertido a mayúsculas: {prompt_mayus}')
        # print('')
        # print('--------------------------------------------------------------------------')
        # print('')
        # # ---------------------------------- Fin control de Filtro de Institución  ------------------------------------------------------------

        print(f'Asistente: {respuesta_chatbot(prompt_mayus, pregunta, "3")}')


## 5 - Ejecución del Chatbot:

Para invocar al chatbot, ejecutar el código siguiente ("salir" para finalizar).

In [51]:
chatbot()

---------------------------------------------- Nuevo mensaje ----------------------------------------------

Asistente: Hola, soy "EduArDo", un chatbot especializado en temas relacionados
    al marco legal de la Educación Argentina. Si bien poseo información general de todo el país,
    me especializo en particular en la provincia de Buenos Aires.
    Puedo ayudarte con aspectos técnicos y normativos de leyes, reglamentos y estatutos.
    También puedo brindar información detallada de los personajes más influyentes
    en la historia educativa argentina (Sarmiento, Pellegrini, Roca, Jauretche),
    así como también buscarte información de contacto de una institución educativa en particular.
    En que puedo ayudarte? [Escribe "salir" para finalizar sesión]

Usuario: Puedes darma información de contacto del 'Instituto Comercial Rancagua'?

Asistente: Sí, el teléfono del Instituto Comercial Rancagua es 49-3017 y su correo electrónico es icr@cooprancagua.com.ar. La dirección física del i