In [1]:
# notebooks/05_RoBERTa.ipynb
# Importar las bibliotecas necesarias
import os
import logging
import sys
import pandas as pd

# Configuración del entorno del notebook
notebook_dir = os.path.dirname(os.path.abspath("__file__"))
project_root = os.path.dirname(notebook_dir)
if project_root not in sys.path:
    sys.path.insert(0, project_root)

from utils.file_utils import read_excel_file, save_data_to_excel
from utils.advanced_ner_utils import perform_ner_with_roberta, process_sentences_and_extract_entities
from config import XLSX_DIRECTORY
from utils.ner_utils import cluster_entities
from transformers import AutoTokenizer, AutoModelForTokenClassification


# Carga de modelos y tokenizers
roberta_model_name = "PlanTL-GOB-ES/roberta-large-bne-capitel-ner"
roberta_tokenizer = AutoTokenizer.from_pretrained(roberta_model_name)
roberta_model = AutoModelForTokenClassification.from_pretrained(roberta_model_name)


def main():
    # Cargar los datos de las oraciones desde el archivo Excel
    logging.info("Cargando datos de oraciones desde Excel...")
    sentence_data = read_excel_file(os.path.join(XLSX_DIRECTORY, "sentence.xlsx"))
    #sentence_data = read_excel_file(os.path.join(XLSX_DIRECTORY, "sentence_2.xlsx"))

    # Realizar NER con RoBERTa
    logging.info("Realizando NER con RoBERTa...")
    roberta_entities_df = process_sentences_and_extract_entities(
        sentence_data, 
        roberta_tokenizer, 
        roberta_model, 
        perform_ner_with_roberta,
        "roberta"
    )

    # Convertir DataFrame de entidades a lista de diccionarios para el clustering
    roberta_entities_df = roberta_entities_df.to_dict("records")

    # Opcional: Agrupar entidades similares con K-means
    logging.info("Agrupando entidades similares...")
    roberta_entities_df = cluster_entities(roberta_entities_df, num_clusters=10)

    # Guardar los datos de entidades RoBERTa en un nuevo archivo Excel
    logging.info("Guardando datos de entidades RoBERTa en Excel...")
    save_data_to_excel(roberta_entities_df, XLSX_DIRECTORY, "roberta_entity.xlsx")


if __name__ == "__main__":
    main()

2024-01-02 16:58:15,747 - INFO - loading weights file pytorch_model.bin from cache at C:\Users\User\.cache\huggingface\hub\models--PlanTL-GOB-ES--roberta-large-bne-capitel-ner\snapshots\87b8cbf77bf17db1e79441f5cb0c1a1ab4bf40bf\pytorch_model.bin
2024-01-02 16:58:19,983 - INFO - All model checkpoint weights were used when initializing RobertaForTokenClassification.

2024-01-02 16:58:20,050 - INFO - All the weights of RobertaForTokenClassification were initialized from the model checkpoint at PlanTL-GOB-ES/roberta-large-bne-capitel-ner.
If your task is similar to the task the model of the checkpoint was trained on, you can already use RobertaForTokenClassification for predictions without further training.
2024-01-02 16:58:20,159 - INFO - Cargando datos de oraciones desde Excel...
2024-01-02 16:58:22,202 - INFO - Realizando NER con RoBERTa...


Procesando: 0/2802 oraciones (0.00%)
Entidad 'El del' no encontrada en el texto.
Procesando: 280/2802 oraciones (9.99%)
Entidad 'Tumbes Piura Chiclayo Trujillo Ica Arequipaac' no encontrada en el texto.
Entidad 'Dirección de Seguridad Ciudadana Lucha contra el Tráfico de Terrenos Crimen Protección de Obras Civiles eas' no encontrada en el texto.
Entidad 'Comunidadestivas' no encontrada en el texto.
Entidad 'Pampat' no encontrada en el texto.
Entidad 'Ley deervación de' no encontrada en el texto.
Entidad 'Juegosamericanos' no encontrada en el texto.
Entidad 'Jesús Raúlch' no encontrada en el texto.
Entidad 'Rio Seco Elorcado División' no encontrada en el texto.
Procesando: 560/2802 oraciones (19.99%)
Entidad 'Techopio' no encontrada en el texto.
Entidad 'Arequipa Moqueguaac' no encontrada en el texto.
Entidad 'Abancaylas Huamanga Huantaancaica Jaujaancayouscocauno Quillabamba' no encontrada en el texto.
Entidad 'Fondo de Inclusión Socialético' no encontrada en el texto.
Entidad 'Sistema

2024-01-02 17:13:16,494 - INFO - Agrupando entidades similares...


Procesamiento completado.


  super()._check_params_vs_input(X, default_n_init=10)
2024-01-02 17:13:17,079 - INFO - Guardando datos de entidades RoBERTa en Excel...
2024-01-02 17:13:18,171 - INFO - DataFrame guardado en d:\TFM_Project\PLN_Project\data\xlsx\roberta_entity.xlsx
