# Práctica de Laboratorio en NLP - Extracción de Entidades con spaCy
Tema: Extracción de entidades


Introducción:

En esta práctica, trabajaremos en un proyecto de análisis de noticias para una empresa de medios de comunicación. La empresa desea automatizar la extracción de entidades clave, como nombres de personas, organizaciones y lugares, de las noticias para facilitar la categorización y el resumen de los contenidos. Los datos están en `data/noticias.csv`.


In [1]:
# Importamos las librerías que corresponda
# Hay que añadir los modelos que se utilicen. Previamente cargados con python -m spacy download es_core_news_md

import spacy
import pandas as pd

nlp_es = spacy.load('es_core_news_lg')

In [2]:
df = pd.read_csv("noticias.csv")
df

Unnamed: 0,noticias
0,El presidente John Smith visitó la sede de la ...
1,"El famoso científico Albert Einstein, conocido..."
2,La compañía tecnológica Apple Inc. presentó su...
3,El explorador Marco Polo viajó por Asia durant...
4,La cantante Beyoncé actuó en el legendario est...
5,"El equipo de fútbol FC Barcelona, liderado por..."
6,"El renombrado escritor Gabriel García Márquez,..."
7,La organización benéfica Médicos Sin Fronteras...
8,El volcán Popocatépetl en México entró en erup...
9,El astronauta Neil Armstrong hizo historia al ...


## Ejercicio 1

Utiliza spaCy para identificar y visualizar las entidades mencionadas en una noticia del csv.

In [4]:
# Iterar sobre todas las noticias en el DataFrame
for index, row in df.iterrows():
    texto_noticia = row['noticias']
    doc = nlp_es(texto_noticia)
    
    # Imprimir las entidades encontradas en cada noticia
    print(f"Entidades en la noticia {index}:\n")
    for ent in doc.ents:
        print(f"{ent.text} - {ent.label_}")
    print("\n" + "="*30 + "\n")


Entidades en la noticia 0:

John Smith - PER
Organización de las Naciones Unidas - ORG
ONU - ORG
Nueva York - LOC
ONU - ORG
Unión Europea - ORG
El evento - MISC
ONU - ORG


Entidades en la noticia 1:

Albert Einstein - PER
Premio Nobel de Física - MISC
La ceremonia - MISC
Estocolmo - LOC
Suecia - LOC
Instituto Nobel - ORG
Einstein - PER


Entidades en la noticia 2:

Apple Inc - ORG
iPhone 13 - MISC
Steve Jobs - PER
Cupertino - LOC
California - LOC
El CEO de - MISC
Apple - ORG
Tim Cook - PER
El nuevo dispositivo - MISC


Entidades en la noticia 3:

Marco Polo - PER
Asia - LOC
China - LOC
Kublai Khan - PER
Marco Polo - PER
Marco Polo - PER


Entidades en la noticia 4:

Beyoncé - PER
estadio Wembley - LOC
Londres - LOC
Beyoncé World Tour - MISC
Miles de fanáticos apasionados - MISC
Beyoncé - PER


Entidades en la noticia 5:

FC Barcelona - ORG
Lionel Messi - PER
Liga de Campeones de la UEFA - MISC
Parc des Princes - LOC
París - LOC
Francia - LOC
Messi - PER
Los aficionados del Barcelona -

## Ejercicio 2

Utiliza la biblioteca displacy de spaCy para visualizar las entidades en la noticia elegida de forma gráfica.

In [5]:

from spacy import displacy

# Iterar sobre todas las noticias en el DataFrame
for index, row in df.iterrows():
    texto_noticia = row['noticias']
    doc = nlp_es(texto_noticia)
    
    # Visualizar las entidades con displacy (puedes guardar las visualizaciones si lo prefieres)
    displacy.render(doc, style="ent", jupyter=True)

## Ejercicio 3

Calcula y muestra estadísticas básicas sobre las entidades identificadas en todas las noticias, como la cantidad de personas, organizaciones y lugares mencionados.

In [8]:


# Inicializar contadores
personas_count = 0
organizaciones_count = 0
lugares_count = 0

# Iterar sobre todas las noticias en el DataFrame
for index, row in df.iterrows():
    texto_noticia = row['noticias']
    doc = nlp_es(texto_noticia)
    
    # Contar las entidades en cada noticia
    for ent in doc.ents:
        if ent.label_ == "PER":  # Persona
            personas_count += 1
        elif ent.label_ == "ORG":  # Organización
            organizaciones_count += 1
        elif ent.label_ == "LOC":  # Lugar
            lugares_count += 1

# Mostrar estadísticas
print(f"Cantidad total de personas mencionadas: {personas_count}")
print(f"Cantidad total de organizaciones mencionadas: {organizaciones_count}")
print(f"Cantidad total de lugares mencionados: {lugares_count}")


Cantidad total de personas mencionadas: 18
Cantidad total de organizaciones mencionadas: 10
Cantidad total de lugares mencionados: 16
