####**Instalación e importación de librerías**

In [75]:
!pip install gdown
!pip install python-decouple
!pip install PyPDF2
!pip install langchain
!pip install sentence_transformers
!pip install chromadb
!pip install SPARQLWrapper
!pip install transformers
!pip install jinja2




In [76]:
import gdown
import os
import shutil
from PyPDF2 import PdfReader
import re
import pandas as pd
from langchain.text_splitter import RecursiveCharacterTextSplitter
from sentence_transformers import SentenceTransformer
import chromadb
from SPARQLWrapper import SPARQLWrapper, JSON

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
import nltk
from transformers import BertTokenizer, BertModel
import torch
import numpy as np
from decouple import config
from jinja2 import Template
from typing import Any, Dict, List
import requests

### **Fuentes de datos**

Elegí libros sobre Historia Argentina, haciendo hincapié en los presidentes. Se descargarán de una carpeta de google drive con el formato PDF y un archivo de formato CSV.

In [77]:
url = 'https://drive.google.com/drive/u/0/folders/1z0k8unnxWuq75_ooa_kP2QFkkXb42xPE'


gdown.download_folder(url, quiet=True, output='NLP')

carpeta_destino = 'datos'
if not os.path.exists(carpeta_destino):
    os.makedirs(carpeta_destino)


carpeta_origen = 'NLP'
for filename in os.listdir(carpeta_origen):
    ruta_origen = os.path.join(carpeta_origen, filename)
    ruta_destino = os.path.join(carpeta_destino, filename)
    shutil.move(ruta_origen, ruta_destino)

shutil.rmtree(carpeta_origen)

print("Archivos movidos con éxito.")

Archivos movidos con éxito.


#####**Texto**

- Extracción y limpieza de texto de los pdfs

Se filtra para procesar solo los archivos PDF, luego itera por cada página de los pdfs extrayendo el texto, se limpia eliminando saltos de línea simples que estén seguidos por una palabra (teniendo en cuenta que el split de textos de Langchain utiliza los saltos de línea como guía para dividir el texto), se convierte todo el texto a minuscula, y también eliminamos tabulaciones, puntuación y números, y otros caracteres no deseados; manteniendo los símbolos especiales como acentos.

In [78]:
def extraccion_y_limpieza_texto_pdf(carp_pdf):
    pdf_texts = []

    for arch_pdf in os.listdir(carp_pdf):
        if arch_pdf.endswith('.pdf'):
            ruta_pdf = os.path.join(carp_pdf, arch_pdf)
            with open(ruta_pdf, 'rb') as file:
                pdf_reader = PdfReader(file)
                text = ""
                for page_num in range(len(pdf_reader.pages)):
                    page_text = pdf_reader.pages[page_num].extract_text()
                    # Convertir todo a minúsculas
                    page_text = page_text.lower()
                    # Limpiar el texto de cada página
                    cleaned_text = re.sub(r'\n(?=\w)', ' ', page_text)  # Eliminar \n seguido de palabra
                    cleaned_text = re.sub(r'\t', ' ', cleaned_text)  # Eliminar tabulaciones
                    # Eliminar puntuación y números
                    cleaned_text = re.sub(r'[^\w\sáéíóúñü]', '', cleaned_text)
                    cleaned_text = re.sub(r'\d+', '', cleaned_text)  # Eliminar números
                    text += cleaned_text
            pdf_texts.append(text.strip())

    return pdf_texts


ruta_pdfs = '/content/datos'
pdf_texts = extraccion_y_limpieza_texto_pdf(ruta_pdfs)

In [79]:
print("Texto limpio:")
for idx, texto in enumerate(pdf_texts):
    print(f"Texto del PDF {idx+1}:\n{texto[:500]}...\n")

Texto limpio:
Texto del PDF 1:
historia política  el largo camino de la democraciacoordinador generalfacundo sassone autores y autoras de contenido editores y correctores de contenidodaniela drucaroff joseﬁna rousseauxtomás litta diseño diagramación ilustración lía ursinieditorialautoridades javier azzali daniela dambra mara espasande iván jameson sebastián sanjurjo javier scheines y ramón scheinestitular del incaphernán brienzaministro del interiorwado de pedropresidente de la naciónalberto fernández vicepresidenta de la nac...

Texto del PDF 2:
historia argentinahistoria  argen tina coordinadora p edagógica de la dirección nacional de fortalecimiento y ampliación de derechos educativos paula grad dirección nacional de gestión educativa directora delia méndez coordinadora de áreas curriculares cecilia cresta autoría equipo pedagógico de la dirección nacional de fortalecimiento y ampliación de derechos educativossupervisión de contenidos lectura crítica guía de lectura y actividades ma

**Split de textos**

In [80]:
# tamaño y solapamiento de los fragmentos
chunk_size = 1000
chunk_overlap = 200

# objeto text_splitter
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    length_function=len,
    is_separator_regex=False
)


split_texts = text_splitter.create_documents(pdf_texts)


In [81]:
#Ejemplo de los fragmentos divididos
for i in range(min(3, len(split_texts))):
    print(f"Fragmento {i + 1}:\n{split_texts[i].page_content}\n")

Fragmento 1:
historia política  el largo camino de la democraciacoordinador generalfacundo sassone autores y autoras de contenido editores y correctores de contenidodaniela drucaroff joseﬁna rousseauxtomás litta diseño diagramación ilustración lía ursinieditorialautoridades javier azzali daniela dambra mara espasande iván jameson sebastián sanjurjo javier scheines y ramón scheinestitular del incaphernán brienzaministro del interiorwado de pedropresidente de la naciónalberto fernández vicepresidenta de la nacióncristina fernández de kirchner coord inadora académic amaría andrea cuéllar camarena coord inadora de ediciónmaría agustina díazedición   argentinaprólogo institucional  ________________________________________________________________________  página  el derecho a conocer la historia la historia oﬁcialla crisis de la historia oﬁcial capítulo  la lucha por la emancipación _________________________________________________   página   nuestro ser latinoamericano el escenario europeo 

**Embeddings**

In [82]:
model_name = 'sentence-transformers/paraphrase-multilingual-mpnet-base-v2'
embed_model = SentenceTransformer(model_name)

In [83]:
embedding_vectors = [embed_model.encode(doc.page_content) for doc in split_texts]
print("Embedding del primer documento:")
print(embedding_vectors[0])

Embedding del primer documento:
[-3.20064165e-02  1.85743019e-01 -1.10679809e-02  4.81125293e-03
  1.59517713e-02  3.60813588e-02  6.33417740e-02 -6.08945861e-02
  7.33087063e-02  4.75471877e-02  1.52325690e-01  4.31585908e-02
 -2.72641703e-02 -1.44712284e-01 -4.35452089e-02 -3.09358209e-01
 -4.01920676e-02  7.58051649e-02  1.69091567e-03  4.20219712e-02
 -2.73960158e-02 -7.85357729e-02  5.81944808e-02  7.49305859e-02
 -4.49652448e-02  5.99552542e-02 -1.55566454e-01 -2.41563749e-02
  8.13081935e-02  1.05622672e-02  2.44876798e-02  4.61914726e-02
  1.50551386e-02  4.26052958e-02  1.63755119e-02 -3.59223522e-02
 -4.73150127e-02  8.42032507e-02  2.39486415e-02 -9.76975858e-02
  2.80997694e-01  5.70041277e-02 -4.39714976e-02 -4.96034846e-02
 -2.10766539e-01  1.48439571e-01 -9.18503255e-02 -4.76828255e-02
  4.52542864e-02 -4.10510935e-02  7.10593238e-02  7.65532628e-02
 -5.36488742e-02 -3.20324898e-02 -1.04157794e-02 -5.28443791e-02
 -2.66629867e-02 -1.10640049e-01  3.01912371e-02  3.346656

**Base de datos vectorial**

Almaceno los embeddings de los fragmentos de texto en una base de datos vectorial ChromaDB

In [85]:
chroma_client = chromadb.Client()

#collection = chroma_client.create_collection(name="embeddings_libros")
collection = chroma_client.get_collection(name="embeddings_libros")

Ponemos los contenidos de los documentos en formato str extraidos de los splits de texto, creo un id único para cada documento

In [86]:
documents_str = [langchain_doc_obj.page_content for langchain_doc_obj in split_texts]

ids = [f'id{i+1}' for i in range(len(documents_str))]

embedding_list = [[float(value) for value in embedding] for embedding in embedding_vectors]

for embeddings,documents,ids_1 in zip(embedding_list,documents_str,ids):
  collection.add(
      embeddings = [embeddings],
      documents = documents,
      ids = ids_1
  )



#####**Datos numéricos**

Para los datos numéricos en formato tabular usamos un dataset de creación propia en formato CSV que tiene datos sobre todas las presidencias de Argentina, informando sobre el presidente, su período como tal y el motivo de asunción.

In [87]:
df = pd.read_csv('/content/datos/Presidentes Argentinos - Hoja 1.csv')
df

Unnamed: 0,Presidente,período,motivo de asunción
0,Bartolomé Mitre,1862-1868,
1,Domingo F. Sarmiento,1868-1874,
2,Nicolás Avellaneda,1874-1880,
3,Julio Argentino Roca,1880-1886,
4,Miguel Juárez Celman,1886-1890,
5,Carlos Pellegrini,1890-1892,vicepresidente que asumió la presidencia
6,Luis Sáenz Peña,1892-1895,
7,José Evaristo Uriburu,1895-1898,vicepresidente que asumió la presidencia
8,Julio Argentino Roca,1898-1904,
9,Manuel Quintana,1904-1906,


Transformamos los datos a texto

In [22]:
'''def dataframe_to_string(df):
    result = ""
    for index, row in df.iterrows():
        result += f"Presidente: {row['Presidente']}\n"
        result += f"Periodo: {row['período']}\n"
        result += f"Motivo de Asunción: {row['motivo de asunción']}\n"
        result += "\n"

    return result

df_string = dataframe_to_string(df)

print(df_string)'''

'def dataframe_to_string(df):\n    result = ""\n    for index, row in df.iterrows():\n        result += f"Presidente: {row[\'Presidente\']}\n"\n        result += f"Periodo: {row[\'período\']}\n"\n        result += f"Motivo de Asunción: {row[\'motivo de asunción\']}\n"\n        result += "\n"\n\n    return result\n\ndf_string = dataframe_to_string(df)\n\nprint(df_string)'

#####**Base de datos de Grafos**

Usaremos Wikidata para hacer consultas online, con el objetivo que se use si se hacen preguntas sobre la bibliografía de los presidentes. Al buscar por nombre de presidente, obtendremos información relevante.

In [88]:
def obtener_valores_por_presidente(label_presidente):
    # Configurar el endpoint de Wikidata y la consulta SPARQL
    sparql = SPARQLWrapper("https://query.wikidata.org/sparql")
    sparql.setQuery(f"""
        SELECT ?presidente ?presidenteLabel ?description ?genderLabel ?birthDate ?deathDate ?spouseLabel ?childrenLabel ?politicalPartyLabel
        WHERE {{
            ?presidente rdfs:label "{label_presidente}"@es.
            SERVICE wikibase:label {{ bd:serviceParam wikibase:language "[AUTO_LANGUAGE],es". }}
            OPTIONAL {{ ?presidente schema:description ?description. FILTER(LANG(?description) = "es") }}
            OPTIONAL {{ ?presidente wdt:P21 ?gender. }}
            OPTIONAL {{ ?presidente wdt:P569 ?birthDate. }}
            OPTIONAL {{ ?presidente wdt:P570 ?deathDate. }}
            OPTIONAL {{ ?presidente wdt:P26 ?spouse. }}
            OPTIONAL {{ ?presidente wdt:P40 ?children. }}
            OPTIONAL {{ ?presidente wdt:P102 ?politicalParty. }}
        }}
    """)
    sparql.setReturnFormat(JSON)

    try:
        # Ejecutar la consulta SPARQL
        results = sparql.query().convert()

        # Verificar si hay resultados
        if "results" in results and "bindings" in results["results"] and results["results"]["bindings"]:
            binding = results["results"]["bindings"][0]

            # Descripción en español
            description = binding.get("description", {}).get("value", "Sin descripción disponible")

            # Género del presidente si está disponible
            gender = binding.get("genderLabel", {}).get("value", "Desconocido")

            # Año de nacimiento
            birth_date = binding.get("birthDate", {}).get("value", "Desconocida")[:4]  # Solo el año

            # Año de fallecimiento
            death_date = binding.get("deathDate", {}).get("value", "Desconocida")[:4]  # Solo el año

            # Cónyuge (esposa/esposo)
            spouse = binding.get("spouseLabel", {}).get("value", "Desconocido")

            # Hijos
            children = binding.get("childrenLabel", {}).get("value", "Desconocido")

            # Vínculos importantes en la política
            political_party = binding.get("politicalPartyLabel", {}).get("value", "Desconocido")

            return (f'{label_presidente} :\n'
                    f'Descripción: {description}\n'
                    f'Género: {gender}\n'
                    f'Fecha de nacimiento: {birth_date}\n'
                    f'Fecha de fallecimiento: {death_date}\n'
                    f'Cónyuge: {spouse}\n'
                    f'Hijos: {children}\n'
                    f'Vínculos importantes en la política: {political_party}')
        else:
            return f'No se encontró información para {label_presidente} en Wikidata.'

    except Exception as e:
        return f'Error: {e}'

In [42]:
#Ejemplo
label_presidente = "Juan Domingo Perón"
print(obtener_valores_por_presidente(label_presidente))

Juan Domingo Perón :
Descripción: presidente de Argentina
Género: masculino
Fecha de nacimiento: 1895
Fecha de fallecimiento: 1974
Cónyuge: Eva Perón
Hijos: Desconocido
Vínculos importantes en la política: Partido Justicialista


##RAG

**Clasificador basado en un modelo entrenado con ejemplos y embeddings**

Usamos un modelo de vectorización semántico. dónde utiliza modelos de embeddings para convertir nuestro texto en vectores.

In [89]:
# Cargamos el modelo desde HuggingFace https://huggingface.co/sentence-transformers/all-mpnet-base-v2
model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')

labels = [(0, "Historia Argentina"), (1, "Presidencias"), (2, "Bibliografía presidentes")]

dataset = []
# textos de "Historia Argentina"
dataset.append((0, "¿Qué fue la LEY 23.040?"))
dataset.append((0, "¿Qué pasó en 1993?"))
dataset.append((0, "¿Qué dice la LEY 25.779?"))
dataset.append((0, "Discurso de asunción de Eduardo Duhalde."))
dataset.append((0, "¿Qué dice el DECRETO 83?"))
dataset.append((0, "¿Qué ocurrió en 2020?"))
dataset.append((0, "Descripción sobre el caso del Peronismo (1943-1955)."))
dataset.append((0, "¿Qué paso en el golpe de Estado de 1976?"))
dataset.append((0, "Descripción sobre la guerra de Malvinas."))
dataset.append((0, "¿Qué es Cambiemos?"))
dataset.append((0, "¿Qué es el Estado?"))
dataset.append((0, "Descripción sobre el primer golpe de Estado de la Argentina, la Dictadura de Uriburu."))

# textos de "Presidencias"
dataset.append((1, "¿Quién asumió en 2003?"))
dataset.append((1, "¿Cuándo asumió Raúl Alfonsín?"))
dataset.append((1, "¿Quién asumió en 1974?"))
dataset.append((1, "¿Cómo asumió Juan Carlos Onganía?"))
dataset.append((1, "¿Cómo asumió Jorge R. Videla?"))
dataset.append((1, "¿Quién asumió en 2023?"))
dataset.append((1, "¿Cuándo asumió Hipólito Yrigoyen?"))
dataset.append((1, "¿Cómo asumió Arturo Umberto Illia?"))
dataset.append((1, "¿Quién asumió en 2007?"))
dataset.append((1, "¿Cómo asumió Ramón S. Castillo?"))
dataset.append((1, "¿Cuándo asumió Eduardo Duhalde?"))

# textos de "Bibliografía presidentes"
dataset.append((2, "¿Cuándo nació Eduardo Duhalde?"))
dataset.append((2, "¿Quién es la mujer de Néstor Kirchner?"))
dataset.append((2, "¿Qué vínculos importantes en la política tuvo Raúl Alfonsín?"))
dataset.append((2, "¿Cuándo falleció Hipólito Yrigoyen?"))
dataset.append((2, "¿Cuándo nació Arturo Umberto Illia?"))
dataset.append((2, "¿Quiénes son los hijos de Cristina Fernández de Kirchner?"))
dataset.append((2, "Descripción sobre Fernando De la Rúa."))
dataset.append((2, "¿Qué vínculos importantes en la política tuvo Juan Domingo Perón?"))
dataset.append((2, "¿Cuándo nació Mauricio Macri?"))
dataset.append((2, "Descripción sobre Carlos Saúl Menem."))
dataset.append((2, "¿Qué vínculos importantes en la política tuvo Marcelo T. de Alvear?"))
dataset.append((2, "¿Cuándo falleció Julio Argentino Roca?"))
dataset.append((2, "Descripción sobre Carlos Pellegrini."))


# Preparar X e y
X = [text.lower() for label, text in dataset]
y = [label for label, text in dataset]

# División del dataset
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Obtenemos los embeddings de BERT para los conjuntos de entrenamiento y prueba
X_train_vectorized = model.encode(X_train)
X_test_vectorized = model.encode(X_test)

# Creación y entrenamiento del modelo de Regresión Logística Multinomial
modelo_LR = LogisticRegression(max_iter=1000, multi_class='multinomial', solver='lbfgs')
modelo_LR.fit(X_train_vectorized, y_train)

# Evaluación del modelo de Regresión Logística
y_pred_LR = modelo_LR.predict(X_test_vectorized)
acc_LR = accuracy_score(y_test, y_pred_LR)
report_LR = classification_report(y_test, y_pred_LR, zero_division=1)

print("Precisión Regresión Logística:", acc_LR)
print("Reporte de clasificación Regresión Logística:\n", report_LR)

# Nuevas frases para clasificar
new_phrases = [
    "¿Qué ocurrió en 2022?",
    "¿Cuándo asumió Raúl Alfonsín?",
    "Descripción sobre Adolfo Rodríguez Saá",
]

# Preprocesamiento y vectorización de las nuevas frases
new_phrases_lower = [text.lower() for text in new_phrases]
new_phrases_vectorized = model.encode(new_phrases_lower)

# Haciendo predicciones con el modelo entrenado
new_predictions = modelo_LR.predict(new_phrases_vectorized)

# Mostrando las predicciones junto con las frases
for text, label in zip(new_phrases, new_predictions):
    print(f"Texto: '{text}'")
    print(f"Clasificación predicha: {labels[label][1]}\n")

Precisión Regresión Logística: 0.5
Reporte de clasificación Regresión Logística:
               precision    recall  f1-score   support

           0       0.00      1.00      0.00         0
           1       1.00      0.50      0.67         4
           2       0.50      0.50      0.50         4

    accuracy                           0.50         8
   macro avg       0.50      0.67      0.39         8
weighted avg       0.75      0.50      0.58         8

Texto: '¿Qué ocurrió en 2022?'
Clasificación predicha: Historia Argentina

Texto: '¿Cuándo asumió Raúl Alfonsín?'
Clasificación predicha: Bibliografía presidentes

Texto: 'Descripción sobre Adolfo Rodríguez Saá'
Clasificación predicha: Bibliografía presidentes



In [72]:
def clasificar_u3(pregunta: str) -> str:
    pregunta_vectorizada = model.encode([pregunta.lower()])
    prediccion = modelo_LR.predict(pregunta_vectorizada)
    return labels[prediccion[0]]

**Clasificación basado en LLM**


In [90]:
HUGGINGFACE_TOKEN="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"

Le damos un formato de conversación a partir de una lista de mensajes utilizando una plantilla

In [91]:
def zephyr_chat_template(messages, add_generation_prompt=True):
    # Definir la plantilla Jinja
    template_str  = "{% for message in messages %}"
    template_str += "{% if message['role'] == 'user' %}"
    template_str += "<|user|>{{ message['content'] }}\n"
    template_str += "{% elif message['role'] == 'assistant' %}"
    template_str += "<|assistant|>{{ message['content'] }}\n"
    template_str += "{% elif message['role'] == 'system' %}"
    template_str += "<|system|>{{ message['content'] }}\n"
    template_str += "{% else %}"
    template_str += "<|unknown|>{{ message['content'] }}\n"
    template_str += "{% endif %}"
    template_str += "{% endfor %}"
    template_str += "{% if add_generation_prompt %}"
    template_str += "<|assistant|>\n"
    template_str += "{% endif %}"

    # Crear un objeto de plantilla con la cadena de plantilla
    template = Template(template_str)

    # Renderizar la plantilla con los mensajes proporcionados
    return template.render(messages=messages, add_generation_prompt=add_generation_prompt)

Busco clasificar las preguntas en categorías específicas usando el modelo de Hugging Face.

In [92]:
def clasificar(prompt: str, HUGGINGFACE_TOKEN, max_new_tokens: int = 768) -> str:
    messages: List[Dict[str, str]] = [
                                  {
                                      "role": "system",
                                      "content": "Eres un asistente útil de Historia Argentina que siempre responde con respuestas veraces, útiles y basadas en hechos.\nSi no conoces sobre otro tema solicitado, no dar respuesta."
                                  },
                                  {
                                      "role": "user",
                                      "content": "¿Qué pasó en 1993?"
                                  },
                                  {
                                      "role": "assistant",
                                      "content": "Historia Argentina"
                                  },
                                  {
                                      "role": "user",
                                      "content": "Descripción sobre la guerra de Malvinas."
                                  },
                                  {
                                      "role": "assistant",
                                      "content": "Historia Argentina"
                                  },
                                  {
                                      "role": "user",
                                      "content": "¿Cuándo falleció Hipólito Yrigoyen?"
                                  },
                                  {
                                      "role": "assistant",
                                      "content": "Bibliografía presidentes:[Hipólito Yrigoyen]"
                                  },
                                  {
                                      "role": "user",
                                      "content": "¿Cuándo asumió Raúl Alfonsín?"
                                  },
                                  {
                                      "role": "assistant",
                                      "content": "Presidencias:[Raúl Alfonsín]"
                                  },
                                  {
                                      "role": "user",
                                      "content": "¿Cómo asumió Arturo Umberto Illia?"
                                  },
                                  {
                                      "role": "assistant",
                                      "content": "Presidencias:[Arturo Umberto Illia]"
                                  },
                                  {
                                      "role": "user",
                                      "content": "Descripción sobre Carlos Saúl Menem."
                                  },
                                  {
                                      "role": "assistant",
                                      "content": "Bibliografía presidentes:[Carlos Saúl Menem]"
                                  },
                                  {
                                      "role": "user",
                                      "content": "¿Qué pasó en el golpe de Estado de 1976?"
                                  },
                                  {
                                      "role": "assistant",
                                      "content": "Historia Argentina"
                                  },
                                   {
                                      "role": "user",
                                      "content": "¿Quién fue el cónyuge Domingo Faustino Sarmiento?"
                                  },
                                  {
                                      "role": "assistant",
                                      "content": "Bibliografía presidentes:[Domingo Faustino Sarmiento]"
                                  },
                                  {
                                      "role": "user",
                                      "content": f'Responde basado en los siguientes conocimientos. No utilices conocimiento previo. No agregues información:\n\
                          "Historia Argentina" si es una pregunta sobre un acontecimiento histórico o definiciones.\n\
                          "Presidencias" si es una pregunta sobre el período del presidente o motivo de asunción.\n\
                          "Bibliografía presidentes" si es una pregunta sobre el año de fallecimiento, nacimiento, cónyuge, descripción o vinculación política de los presidentes de Argentina.\n\
                          La pregunta es la siguiente: \n\
                          {prompt}'
                                  }
                              ]

    try:
        prompt_formatted: str = zephyr_chat_template(messages, add_generation_prompt=True)

        api_url = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"
        headers = {"Authorization": f"Bearer {HUGGINGFACE_TOKEN}"}

        data = {
            "inputs": prompt_formatted,
            "parameters": {
                "max_new_tokens": max_new_tokens,
                "temperature": 0.7,
                "top_k": 50,
                "top_p": 0.95
            }
        }

        response = requests.post(api_url, headers=headers, json=data)
        response.raise_for_status()
        respuesta = response.json()[0]["generated_text"][len(prompt_formatted):].strip()
        return respuesta

    except Exception as e:
        print(f"An error occurred: {e}")
        return ""

In [93]:
# Ejemplos para ver si clasifica bien las preguntas
preguntas = [
    "¿Qué ocurrió durante el conflicto del Beagle?",
    "¿Quién fue el cónyuge de Eva Perón?",
    "¿Cuándo murió Juan Domingo Perón?",
    "¿Cuándo nació Eduardo Duhalde?",
    "¿Qué importancia tuvo la presidencia de Marcelo T. de Alvear?",
    "¿Qué causas llevaron al golpe de Estado de 1943?",
]

for pregunta in preguntas:
    clasificacion = clasificar(pregunta, HUGGINGFACE_TOKEN)
    print(f"Pregunta: {pregunta}\nClasificación: {clasificacion}\n")

Pregunta: ¿Qué ocurrió durante el conflicto del Beagle?
Clasificación: Historia Argentina

El conflicto del Beagle se refiere a la disputa territorial entre Chile y Argentina sobre la soberanía de las islas del archipiélago del Beagle, situado en el estrecho homónimo que separa la costa sur de Chile de la de la Patagonia argentina. El conflicto se intensificó en los años 1970 y 1980, con incidentes fronterizos y reclamaciones de soberanía por parte de ambos países. Finalmente, se llegó a un acuerdo de pacificación en 1984, mediante el Tratado de Paz y Amistad, que fijó la frontera en el canal principal del estrecho del Beagle y resolvió definitivamente el conflicto.

Pregunta: ¿Quién fue el cónyuge de Eva Perón?
Clasificación: Bibliografía presidentes: [Juan Domingo Perón]

Pregunta: ¿Cuándo murió Juan Domingo Perón?
Clasificación: Bibliografía presidentes: [Juan Domingo Perón]

Pregunta: ¿Cuándo nació Eduardo Duhalde?
Clasificación: Bibliografía presidentes: [Eduardo Duhalde]

Pregunt

Busco solamente información sobre un presidente en específico para después devolverlo como contexto.

In [94]:
def contexto_presidencias(nombre_presidente, df):
    result = ""
    presidente_encontrado = False

    for index, row in df.iterrows():
        if row['Presidente'].lower() == nombre_presidente.lower():
            presidente_encontrado = True
            result += f"Nombre: {row['Presidente']}\n"
            result += f"Período: {row['período']}\n"
            result += f"Motivo de asunción: {row['motivo de asunción']}\n"
            break  # Terminar el bucle al encontrar el presidente

    if not presidente_encontrado:
        result = f"No se encontró información para el presidente: {nombre_presidente}"

    return result

Buscamos el contexto apropiado basado en una respuesta y un prompt (pregunta), dependiendo de la categoría ya identificada.

In [95]:
def devolver_contexto(respuesta, prompt):
    # Si no se halló nada, no devolver contexto
    if not respuesta or respuesta in ([None, None], ["", None], ["Error", None]):
        return ("", 'Error al identificar la fuente')

    # Si la pregunta o tarea es referida a una presidencia
    elif respuesta[0] == "Presidencias":
        nombre_presidente = respuesta[1].strip('[]')
        contexto_presidencia = contexto_presidencias(nombre_presidente, df)
        return (contexto_presidencia, 'DataFrame de presidencias')

    # Si la pregunta o tarea es referida a la bibliografía de un presidente
    elif respuesta[0] == "Bibliografía presidentes":
        nombre_presidente = respuesta[1].strip('[]')
        caracteristicas_presidente = obtener_valores_por_presidente(nombre_presidente)
        return (caracteristicas_presidente, 'Base de datos de Wikidata')

    # Si la pregunta o tarea es referida a la historia argentina
    elif respuesta[0] == "Historia Argentina":
        contexto = ''
        chroma_client = chromadb.Client()
        collection = chroma_client.get_collection(name="embeddings_libros")
        query_embedding = embed_model.encode(prompt).tolist() # vectorizo pregunta del usuario
        results = collection.query(query_embeddings= [query_embedding], n_results=5) # obtengo primeros 5 chunks
        for result in results['documents'][0]:
          contexto += result

        return (contexto, "Base de datos vectorial")

    return ("", "Categoría no reconocida")

In [96]:
# Ejemplos
respuesta = ["Presidencias", "[Raúl Alfonsín]"]
prompt = "¿Cuándo asumió Raúl Alfonsín?"
contexto, fuente = devolver_contexto(respuesta, prompt)
print(f"Contexto:\n{contexto}\nFuente: {fuente}")

respuesta = ["Bibliografía presidentes", "[Hipólito Yrigoyen]"]
prompt = "¿Cuándo falleció Hipólito Yrigoyen?"
contexto, fuente = devolver_contexto(respuesta, prompt)
print(f"Contexto:\n{contexto}\nFuente: {fuente}")

respuesta = ["Historia Argentina", ""]
prompt = "¿Qué pasó en 1976 en Argentina?"
contexto, fuente = devolver_contexto(respuesta, prompt)
print(f"Contexto:\n{contexto}\nFuente: {fuente}")

Contexto:
Nombre: Raúl Alfonsín
Período: 1983-1989
Motivo de asunción: elecciones

Fuente: DataFrame de presidencias
Contexto:
Hipólito Yrigoyen :
Descripción: ciudad de la provincia de Salta, Argentina
Género: Desconocido
Fecha de nacimiento: Desc
Fecha de fallecimiento: Desc
Cónyuge: Desconocido
Hijos: Desconocido
Vínculos importantes en la política: Desconocido
Fuente: Base de datos de Wikidata
Contexto:
historia argentinala argentina y el r esto del  mundo  en los inicios del  sigl o xx i en distintos países latinoamericanos el nivel de pobreza la destrucción  de los aparatos productivos más las secuelas producidas por la represión de las  dictaduras condujo hacia fines del siglo xx a una situación de crisis social económica y política generalizada fue el caso de la argentina donde los gobiernos democráticos que sucedieron a la dictadura de  no pudieron resolver la pesadísima herencia económicosocial recibida ni hacer justicia con los genocidas responsables del plan sistemático de 

Vamos a generar una respuesta a una pregunta(prompt) dada un contexto específico utilizando el modelo de Hugging Face.

In [97]:
def generate_answer(prompt: str, context: str, HUGGINGFACE_TOKEN, max_new_tokens: int = 768) -> None:
    messages: List[Dict[str, str]] = [
                                    {
                                        "role": "system",
                                        "content": "Eres un asistente útil que siempre responde con respuestas veraces, útiles y basadas en hechos."
                                    },
                                    {
                                        "role": "user",
                                        "content": f"La información de contexto es la siguiente:\n\
                                        ---------------------\n\
                                        {context}\n\
                                        ---------------------\n\
                                        Dada la información de contexto anterior, y sin utilizar conocimiento previo, responde la siguiente pregunta.\n\
                                        Pregunta: {prompt}\n\
                                        Respuesta: "
                                    }
                                ]

    try:
        prompt_formatted: str = zephyr_chat_template(messages, add_generation_prompt=True)

        # URL de la API de Hugging Face para la generación de texto
        api_url = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"

        # Cabeceras para la solicitud
        headers = {"Authorization": f"Bearer {HUGGINGFACE_TOKEN}"}

        # Datos para enviar en la solicitud POST
				# Sobre los parámetros: https://huggingface.co/docs/transformers/main_classes/text_generation
        data = {
            "inputs": prompt_formatted,
            "parameters": {
                "max_new_tokens": max_new_tokens,
                "temperature": 0.7,
                "top_k": 50,
                "top_p": 0.95
            }
        }

        # Realizo la solicitud POST
        response = requests.post(api_url, headers=headers, json=data)

        # Extraigo respuesta
        respuesta = response.json()[0]["generated_text"][len(prompt_formatted):]
        return respuesta

    except Exception as e:
        print(f"An error occurred: {e}")

Implementamos el RAG

In [98]:
def RAG():
    while True:
        print("Hola, soy un chatbot especializado en Historia Argentina. \n")
        pregunta_usuario = input("Ingresa tu pregunta o escribe 'exit' para salir: ")

        if pregunta_usuario.lower() == 'exit':
            print("¡Hasta luego!")
            break

        # Clasifico la pregunta
        respuesta = clasificar(pregunta_usuario, HUGGINGFACE_TOKEN)  # Aquí pasamos la pregunta del usuario y el token

        # Obtengo contexto según el tipo de pregunta
        contexto_usuario, fuente_usuario = devolver_contexto(respuesta, pregunta_usuario)

        # Llamo a la función para generar la respuesta con la pregunta y el contexto proporcionados
        respuesta_chatbot = generate_answer(pregunta_usuario, contexto_usuario, HUGGINGFACE_TOKEN)

        print(f'\nPregunta: {pregunta_usuario}\n')
        print(f'Respuesta:\n{respuesta_chatbot}\n')


In [99]:
RAG()

Hola, soy un chatbot especializado en Historia Argentina. 

Ingresa tu pregunta o escribe 'exit' para salir: ¿Cuándo falleció Julio Argentino Roca?

Pregunta: ¿Cuándo falleció Julio Argentino Roca?

Respuesta:
Julio Argentino Roca, quien figura en la información de contexto anterior debido a la presencia de su apellido, falleció el 19 de mayo de 1947. Sin embargo, en la información de contexto proporcionada no se menciona la fecha de su fallecimiento, por lo que se necesitaría conocimiento previo o fuentes externas para proporcionar una respuesta correcta. En ausencia de esas condiciones, la pregunta no se puede responder con certeza.

Hola, soy un chatbot especializado en Historia Argentina. 

Ingresa tu pregunta o escribe 'exit' para salir: ¿Qué es Cambiemos?

Pregunta: ¿Qué es Cambiemos?

Respuesta:
Cambiemos es un partido político argentino de centro-derecha, fundado en 2015 por el expresidente Carlos Menem y el empresario y político Mario Rodríguez Cotarso. En las elecciones presi

In [73]:
def RAG2():
    while True:
        # Solicito al usuario que ingrese una pregunta
        print("Hola, soy un chatbot especializado en Historia Argentina. \n")
        pregunta_usuario = input("Ingresa tu pregunta o escribe 'exit' para salir: ")

        # Verifico si el usuario desea salir
        if pregunta_usuario.lower() == 'exit':
            print("¡Hasta luego!")
            break

        # Clasifico la pregunta
        clasificacion = clasificar_u3(pregunta_usuario)

        # Obtengo contexto según el tipo de pregunta
        contexto_usuario, fuente_usuario = devolver_contexto(respuesta, prompt)

        # Llamo a la función chatbot con la pregunta y el contexto proporcionados
        respuesta_RAG = generate_answer(pregunta_usuario, contexto_usuario, HUGGINGFACE_TOKEN)

        # Muestro la pregunta y la respuesta generada por el chatbot
        print(f'\nPregunta: {pregunta_usuario}\n')
        print(f'Respuesta:\n {respuesta_RAG}\n')


In [74]:
RAG2()

Hola, soy un chatbot especializado en Historia Argentina. 

Ingresa tu pregunta o escribe 'exit' para salir: ¿Qué es Cambiemos?

Pregunta: ¿Qué es Cambiemos?

Respuesta:
 La información de contexto no proporciona detalles sobre el grupo político Cambiemos. Sin embargo, se puede hacer la siguiente hipótesis:

Cambiemos es un partido político argentino mencionado en la información de contexto. Sin embargo, no se proporciona información suficiente para describir su naturaleza o plataforma política. La respuesta se basa en la presunción de que Cambiemos es un tema relevante en el contexto discutido y que la información de contexto sugiere que se requiere una explicación de lo que es Cambiemos para entender mejor el tema en cuestión. Sin embargo, se recomienda consultar fuentes externas para obtener más información sobre Cambiemos.

Hola, soy un chatbot especializado en Historia Argentina. 

Ingresa tu pregunta o escribe 'exit' para salir: ¿Cuándo falleció Julio Argentino Roca?

Pregunta: ¿

KeyboardInterrupt: Interrupted by user