# Reconocimiento de Entidades Nombradas (NER)


### Autores: Lucas Tarazona y Samuel Arteaga

### 1. Importación de librerías

In [None]:
import spacy
from transformers import pipeline
from sklearn.metrics import classification_report
from seqeval.metrics import classification_report as seqeval_report

### 2. Textos a analizar

In [None]:
textos = list(set([
    "El contrato entre Empresa XYZ y el proveedor ABC establece que la entrega de los bienes deberá realizarse en un plazo no mayor a 30 días desde la firma del acuerdo.",
    "Según la Ley 25/2018 de Protección de Datos, todas las empresas deben garantizar la privacidad de la información de sus clientes y empleados.",
    "El mercado bursátil experimentó una fuerte caída hoy debido a la incertidumbre económica global. Los analistas prevén una recuperación en los próximos meses, pero los inversionistas están preocupados.",
    "La selección nacional de fútbol ganó el campeonato con una actuación espectacular. Los aficionados celebraron en las calles hasta altas horas de la madrugada.",
    "Un nuevo estudio revela que el cambio climático está afectando la biodiversidad de los océanos, con consecuencias impredecibles para el ecosistema marino.",
    "Compré este teléfono hace un mes y ha sido una gran decepción. La batería dura muy poco y la cámara tiene una calidad pésima. No lo recomendaría.",
    "Este libro es increíble. La historia es atrapante y los personajes están muy bien desarrollados. ¡Uno de los mejores que he leído este año!",
    "El restaurante tenía un ambiente agradable, pero el servicio fue muy lento. La comida estaba bien, aunque esperaba algo mejor por el precio.",
    "Hola, quisiera saber el estado de mi pedido número 12345.",
    "Déjame verificar... Tu pedido ha sido enviado y llegará en 3 días.",
    "Necesito cancelar mi suscripción al servicio.",
    "Para proceder con la cancelación, dime tu número de cuenta o correo electrónico asociado."
]))

### 3. Carga de modelos

In [None]:
nlp = spacy.load("es_core_news_sm")  # Modelo de Spacy
ner_pipeline = pipeline("ner", model="PlanTL-GOB-ES/roberta-base-bne", aggregation_strategy="simple")


Texto: El contrato entre Empresa XYZ y el proveedor ABC establece que la entrega de los bienes deberá realizarse en un plazo no mayor a 30 días desde la firma del acuerdo.
Entidades reconocidas:
 - Empresa (LOC)
 - ABC (ORG)

Texto: Según la Ley 25/2018 de Protección de Datos, todas las empresas deben garantizar la privacidad de la información de sus clientes y empleados.
Entidades reconocidas:
 - Según la Ley (PER)
 - Protección de Datos (LOC)

Texto: El mercado bursátil experimentó una fuerte caída hoy debido a la incertidumbre económica global. Los analistas prevén una recuperación en los próximos meses, pero los inversionistas están preocupados.
Entidades reconocidas:
 - Los analistas (MISC)

Texto: La selección nacional de fútbol ganó el campeonato con una actuación espectacular. Los aficionados celebraron en las calles hasta altas horas de la madrugada.
Entidades reconocidas:

Texto: Un nuevo estudio revela que el cambio climático está afectando la biodiversidad de los océanos, 

### 4. Evaluación de NER con spaCy

In [None]:
print("\n===== Análisis con spaCy =====")
for texto in textos:
    doc = nlp(texto)
    print("\nTexto:", texto)
    if doc.ents:
        print("Entidades reconocidas:")
        for ent in doc.ents:
            print(f" - {ent.text} ({ent.label_})")
    else:
        print(" - No se encontraron entidades.")

Some weights of RobertaForTokenClassification were not initialized from the model checkpoint at PlanTL-GOB-ES/roberta-base-bne and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Device set to use cpu



Texto: El contrato entre Empresa XYZ y el proveedor ABC establece que la entrega de los bienes deberá realizarse en un plazo no mayor a 30 días desde la firma del acuerdo.
 - El (LABEL_0)
 -  contrato entre Empresa XYZ y (LABEL_1)
 -  el (LABEL_0)
 -  proveedor ABC (LABEL_1)
 -  establece (LABEL_0)
 -  que la entrega de (LABEL_1)
 -  los (LABEL_0)
 -  bienes (LABEL_1)
 -  deberá (LABEL_0)
 -  realizarse en un (LABEL_1)
 -  plazo (LABEL_0)
 -  no mayor a 30 días desde la firma (LABEL_1)
 -  del (LABEL_0)
 -  acuerdo. (LABEL_1)

Texto: Según la Ley 25/2018 de Protección de Datos, todas las empresas deben garantizar la privacidad de la información de sus clientes y empleados.
 - Según (LABEL_1)
 -  la (LABEL_0)
 -  Ley (LABEL_1)
 -  25/2018 de Protección de Datos (LABEL_0)
 - , todas las empresas deben garantizar la privacidad de la información de sus clientes y empleados. (LABEL_1)

Texto: El mercado bursátil experimentó una fuerte caída hoy debido a la incertidumbre económica global. L

### 5. Evaluación de NER con Hugging Face Transformers

In [None]:
print("\n===== Análisis con Transformers =====")
for texto in textos:
    entidades = ner_pipeline(texto)
    print("\nTexto:", texto)
    if entidades:
        for ent in entidades:
            print(f" - {ent['word']} ({ent['entity_group']})")
    else:
        print(" - No se encontraron entidades.")

              precision    recall  f1-score   support

         LAW       1.00      1.00      1.00         1
         ORG       1.00      1.00      1.00         1

    accuracy                           1.00         2
   macro avg       1.00      1.00      1.00         2
weighted avg       1.00      1.00      1.00         2



### 6. Evaluación del rendimiento del modelo

In [None]:
# 
print("\n===== Evaluación del modelo =====")

# Datos reales y predicciones simuladas (esto debe ser reemplazado con datos reales)
y_true = [["ORG", "LAW"], ["ORG"], ["MISC"], ["PER"], ["MISC"], ["MISC"], ["MISC"], ["MISC"], ["MISC"], ["MISC"]]
y_pred = [["ORG", "LAW"], ["ORG"], ["MISC"], ["PER"], ["MISC"], ["MISC"], ["MISC"], ["MISC"], ["MISC"], ["MISC"]]

# Evaluación con seqeval (para NER)
print(seqeval_report(y_true, y_pred))

### 7. Evaluación con Scikit-learn

In [None]:
y_true_flat = [label for sublist in y_true for label in sublist]
y_pred_flat = [label for sublist in y_pred for label in sublist]
print(classification_report(y_true_flat, y_pred_flat))