In [1]:
# notebooks/05_RoBERTa.ipynb
import os
import logging
import sys

# Configuración del entorno del notebook
notebook_dir = os.path.dirname(os.path.abspath("__file__"))
project_root = os.path.dirname(notebook_dir)
if project_root not in sys.path:
    sys.path.insert(0, project_root)

from utils.file_utils import read_excel_file, save_data_to_excel
from utils.advanced_ner_utils import perform_ner_with_roberta

from config import XLSX_DIRECTORY
from utils.ner_utils import cluster_entities, process_sentences_and_extract_entities
from transformers import AutoTokenizer, AutoModelForTokenClassification


# Carga de modelos y tokenizers
roberta_model_name = "PlanTL-GOB-ES/roberta-large-bne-capitel-ner"
roberta_tokenizer = AutoTokenizer.from_pretrained(roberta_model_name)
roberta_model = AutoModelForTokenClassification.from_pretrained(roberta_model_name)


def main():
    # Cargar los datos de las oraciones desde el archivo Excel
    logging.info("Cargando datos de oraciones desde Excel...")
    sentence_data = read_excel_file(os.path.join(XLSX_DIRECTORY, "sentence.xlsx"))

    # Realizar NER con RoBERTa
    logging.info("Realizando NER con RoBERTa...")
    roberta_entities_df = process_sentences_and_extract_entities(
        sentence_data,
        roberta_tokenizer,
        roberta_model,
        perform_ner_with_roberta,
        "roberta",
    )

    # Convertir DataFrame de entidades a lista de diccionarios para el clustering
    roberta_entities_df = roberta_entities_df.to_dict("records")

    # Opcional: Agrupar entidades similares con K-means
    logging.info("Agrupando entidades similares...")
    roberta_entities_df = cluster_entities(roberta_entities_df, num_clusters=10)

    # Guardar los datos de entidades RoBERTa en un nuevo archivo Excel
    logging.info("Guardando datos de entidades RoBERTa en Excel...")
    save_data_to_excel(roberta_entities_df, XLSX_DIRECTORY, "roberta_entity.xlsx")


if __name__ == "__main__":
    main()

Procesando: 0/8773 oraciones (0.00%)
Procesando: 877/8773 oraciones (10.00%)
Procesando: 1754/8773 oraciones (19.99%)
Procesando: 2631/8773 oraciones (29.99%)

omitiendo Entidad 'D.S.00' no encontrada en el texto.
Contexto: además, sujetos de créditos [ENTIDAD] dejar de referirme al importante
Oración: No puedo dejar de referirme al importante D.S. 009 y al D.S. 011, que consolidan los mercados de tierras y permiten a los hombres del campo organizarse como mejor convenga a sus intereses; ser, además, sujetos de créditos.

omitiendo Entidad 'D.S.0' no encontrada en el texto.
Contexto: además, sujetos de créditos [ENTIDAD] dejar de referirme al importante
Oración: No puedo dejar de referirme al importante D.S. 009 y al D.S. 011, que consolidan los mercados de tierras y permiten a los hombres del campo organizarse como mejor convenga a sus intereses; ser, además, sujetos de créditos.

omitiendo Entidad 'Sr.Ministro de Energía y Minas' no encontrada en el texto.
Contexto: , 500 kilómetros 

  super()._check_params_vs_input(X, default_n_init=10)
