In [1]:
# notebooks-04_NER_Basic
import os
import sys
import logging
import spacy

# Configuración del entorno del notebook
notebook_dir = os.path.dirname(os.path.abspath("__file__"))
project_root = os.path.dirname(notebook_dir)
if project_root not in sys.path:
    sys.path.insert(0, project_root)

from initialize import check_and_download_spacy_model
from config import XLSX_DIRECTORY
from utils.file_utils import read_excel_file, save_data_to_excel
from utils.ner_utils import cluster_entities
from utils.advanced_ner_utils import perform_ner_basic


# Cargar el modelo de spaCy
check_and_download_spacy_model("es_core_news_lg")
model = spacy.load("es_core_news_lg")


def main():
    # Cargar los datos de las oraciones desde el archivo Excel
    logging.info("Cargando datos de oraciones desde Excel...")
    sentence_data = read_excel_file(os.path.join(XLSX_DIRECTORY, "sentence.xlsx"))

    # Realizar NER y obtener entidades
    logging.info("Realizando NER en las oraciones...")
    entity_data = perform_ner_basic(sentence_data, model)

    # Agrupar entidades similares con K-means
    logging.info("Agrupando entidades similares...")
    entity_data = cluster_entities(entity_data)

    # Guardar los datos de entidades en un nuevo archivo Excel
    logging.info("Guardando datos de entidades en Excel...")
    save_data_to_excel(entity_data, XLSX_DIRECTORY, "ner_entity.xlsx")


# Ejecutar el proceso principal
if __name__ == "__main__":
    main()

2024-01-30 10:51:39,802 - INFO - Modelo spaCy 'es_core_news_lg' ya está instalado.
2024-01-30 10:51:41,045 - INFO - Cargando datos de oraciones desde Excel...
2024-01-30 10:51:42,178 - INFO - Realizando NER en las oraciones...
2024-01-30 10:52:49,350 - INFO - Agrupando entidades similares...
  super()._check_params_vs_input(X, default_n_init=10)
2024-01-30 10:52:49,944 - INFO - Guardando datos de entidades en Excel...
2024-01-30 10:52:51,709 - INFO - DataFrame guardado en d:\TFM_Project\PLN_Project\data-NER\xlsx\ner_entity.xlsx


In [None]:
# pip install --upgrade notebook ipywidgets
# jupyter nbextension enable --py widgetsnbextension