In [1]:
# notebooks/04_BERT_Analysis.ipynb
# Importar las bibliotecas necesarias
import os
import logging
import sys
import pandas as pd

# Configuración del entorno del notebook
notebook_dir = os.path.dirname(os.path.abspath("__file__"))
project_root = os.path.dirname(notebook_dir)
if project_root not in sys.path:
    sys.path.insert(0, project_root)

from utils.file_utils import read_excel_file, save_data_to_excel
from utils.advanced_ner_utils import (
    perform_ner_with_bert,
    process_sentences_and_extract_entities,
)

from config import XLSX_DIRECTORY
from utils.ner_utils import cluster_entities
from transformers import BertTokenizer, BertForTokenClassification

# Carga de modelos y tokenizers
bert_model_name = "mrm8488/bert-spanish-cased-finetuned-ner"
bert_tokenizer = BertTokenizer.from_pretrained(bert_model_name)
bert_model = BertForTokenClassification.from_pretrained(bert_model_name)


def main():
    # Cargar los datos de las oraciones desde el archivo Excel
    logging.info("Cargando datos de oraciones desde Excel...")
    sentence_data = read_excel_file(os.path.join(XLSX_DIRECTORY, "sentence.xlsx"))
    #sentence_data = read_excel_file(os.path.join(XLSX_DIRECTORY, "sentence_2.xlsx"))

    # Realizar NER con BERT
    logging.info("Realizando NER con BERT...")
    bert_entities_df = process_sentences_and_extract_entities(
        sentence_data, bert_tokenizer, bert_model, perform_ner_with_bert, "bert"
    )

    # Convertir DataFrame de entidades a lista de diccionarios para el clustering
    bert_entities_df = bert_entities_df.to_dict("records")

    # Opcional: Agrupar entidades similares con K-means
    logging.info("Agrupando entidades similares...")
    bert_entities_df = cluster_entities(bert_entities_df, num_clusters=10)

    # Guardar los datos de entidades BERT en un nuevo archivo Excel
    logging.info("Guardando datos de entidades BERT en Excel...")
    save_data_to_excel(bert_entities_df, XLSX_DIRECTORY, "bert_entity.xlsx")


if __name__ == "__main__":
    main()

2024-01-02 16:53:31,858 - INFO - loading weights file pytorch_model.bin from cache at C:\Users\User\.cache\huggingface\hub\models--mrm8488--bert-spanish-cased-finetuned-ner\snapshots\b11721d41d9e948da32fcdabeeef4fb0f3ebcdf7\pytorch_model.bin
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
2024-01-02 16:53:32,380 - INFO - All the weights of BertForTokenClassification were initialized from the model checkpoint at mrm8488/bert-spanish-cased-finetuned-ner.
If your task is similar to the task the model of the checkpoint was trained on, you can already use Bert

Procesando: 0/2802 oraciones (0.00%)
Procesando: 280/2802 oraciones (9.99%)
Entidad 'Instituto Nacional de Donación y Trasplante de  Tejidos' no encontrada en el texto.
Entidad 's Solidarias del Ministerio de Educación  de Educación Inicial' no encontrada en el texto.
Entidad 'San  de Miraflores' no encontrada en el texto.
Entidad 'San  de Miraflores' no encontrada en el texto.
Procesando: 560/2802 oraciones (19.99%)
Entidad 'aciones Público - Privadas' no encontrada en el texto.
Procesando: 840/2802 oraciones (29.98%)
Entidad 'Pro - Empleo' no encontrada en el texto.
Procesando: 1120/2802 oraciones (39.97%)
Procesando: 1400/2802 oraciones (49.96%)
Procesando: 1680/2802 oraciones (59.96%)
Entidad 'Acuerdo Binacional Perú  Bolivia' no encontrada en el texto.
Entidad 'Sistema Integrado de Transporte de Gas  Sur del Perú' no encontrada en el texto.
Procesando: 1960/2802 oraciones (69.95%)
Entidad 'Aeropuerto Internacional  Chávez' no encontrada en el texto.
Procesando: 2240/2802 oraciones

2024-01-02 16:57:13,046 - INFO - Agrupando entidades similares...
  super()._check_params_vs_input(X, default_n_init=10)
2024-01-02 16:57:13,484 - INFO - Guardando datos de entidades BERT en Excel...
2024-01-02 16:57:13,950 - INFO - DataFrame guardado en d:\TFM_Project\PLN_Project\data\xlsx\bert_entity.xlsx


In [3]:
# pip install transformers
# pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu111