# 4- Reconocimiento de entidades con Stanza y Spacy

Stanza y spaCy son APIs que proporcionan sevicios de PLN organizados en tuberías o Pipelines. Ya las hemos visto en la práctica anterior

Lo primero que haremos será instalar Stanza y spaCy y descargar el modelo en español e inglés. Tened en cuenta que se pueden descargar modelos en distintos idiomas

In [12]:
!pip install stanza
import stanza

!pip install spacy
!python3 -m spacy download es_core_news_sm
!python3 -m spacy download en_core_web_sm

stanza.download('es')
stanza.download('en')

Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m59.8 MB/s[0m eta [36m0:00:00[0m00:01[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
Collecting en-core-web-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.8.0/en_core_web_sm-3.8.0-py3-none-any.whl (12.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.8/12.8 MB[0m [31m58.6 MB/s[0m eta [36m0:00:00[0m00:01[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json: 424kB [00:00, 159MB/s]                     
2025-03-06 11:04:09 INFO: Downloaded file to /home/codespace/stanza_resources/resources.json
2025-03-06 11:04:09 INFO: Downloading default packages for language: es (Spanish) ...
2025-03-06 11:04:10 INFO: File exists: /home/codespace/stanza_resources/es/default.zip
2025-03-06 11:04:17 INFO: Finished downloading models and saved to /home/codespace/stanza_resources
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json: 424kB [00:00, 134MB/s]                     
2025-03-06 11:04:17 INFO: Downloaded file to /home/codespace/stanza_resources/resources.json
2025-03-06 11:04:17 INFO: Downloading default packages for language: en (English) ...
2025-03-06 11:04:23 INFO: File exists: /home/codespace/stanza_resources/en/default.zip
2025-03-06 11:04:29 INFO: Finished downloading models and saved to /home/c

## 4.1 Reconocimiento de entidades en español con Stanza

La librería Stanza proporciona un modelo de reconocimiento de entidades (**Named entity reconginition - NER**) cuando definimos un pipeline. Para ello hay que poner como proceso *ner*. Para mostrar únicamente las entidades de cada frase que se encuentran en la colección *ents* de *sentence*

In [13]:
text = """Hugo Pérez come manzanas en la cocina de Telefónica a las 3:00 de la tarde.

Ayer Sofía jugó al fútbol con Emma y Cristina con una pelota roja en Central Park.

El padre de Marina tiene 56 años.

La Tierra gira alrededor del Sol.

El planeta Júpiter es el planeta más grande del Sistema Solar.

El 1 de septiembre George ganó 1 dólar mientras veía Juego de Tronos."""

pipelineStanza = stanza.Pipeline(lang='es', processors= 'tokenize, mwt, ner')
stanzaDoc = pipelineStanza(text)

for sentence in stanzaDoc.sentences:
  print("Frase")
  print("====="*50)
  print(sentence.text)
  entidades = ""
  for ent in sentence.entities:
    entidades = entidades + ent.text +"_" +ent.type+" "
  print(entidades+"\n")


2025-03-06 11:04:29 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json: 424kB [00:00, 138MB/s]                     
2025-03-06 11:04:29 INFO: Downloaded file to /home/codespace/stanza_resources/resources.json
2025-03-06 11:04:34 INFO: Loading these models for language: es (Spanish):
| Processor | Package  |
------------------------
| tokenize  | combined |
| mwt       | combined |
| ner       | conll02  |

2025-03-06 11:04:34 INFO: Using device: cpu
2025-03-06 11:04:34 INFO: Loading: tokenize
2025-03-06 11:04:34 INFO: Loading: mwt
2025-03-06 11:04:34 INFO: Loading: ner
2025-03-06 11:04:35 INFO: Done loading processors!


Frase
Hugo Pérez come manzanas en la cocina de Telefónica a las 3:00 de la tarde.
Hugo Pérez_PER Telefónica_ORG 

Frase
Ayer Sofía jugó al fútbol con Emma y Cristina con una pelota roja en Central Park.
Sofía_PER Emma_PER Cristina_PER Central Park_LOC 

Frase
El padre de Marina tiene 56 años.
Marina_PER 

Frase
La Tierra gira alrededor del Sol.
Tierra_MISC Sol_MISC 

Frase
El planeta Júpiter es el planeta más grande del Sistema Solar.
Júpiter_MISC Sistema Solar_MISC 

Frase
El 1 de septiembre George ganó 1 dólar mientras veía Juego de Tronos.
George_PER Juego de Tronos_MISC 



## 4.2 Reconocimiento de entidades en inglés con Stanza

En inglés existen muchos más tipos de entidades que en español como por ejemplo TIME o DATE.

Los modelos de NER por idiomas están descritos en esta página.
https://stanfordnlp.github.io/stanza/ner_models.html

In [14]:
text_en = """Hugo Pérez eats apples in the Telefónica kitchen at 3:00 pm.

Yesterday Sofía played football with Emma and Cristina with a red ball in Central Park.

Marina's father is 56 years old.

The Earth revolves around the Sun.

The planet Jupiter is the largest planet in the Solar System.

On September 1st George won 1 dollar while watching Game of Thrones."""

pipelineStanza = stanza.Pipeline(lang='en', processors= 'tokenize, mwt, ner')
stanzaDoc = pipelineStanza(text_en)

for sentence in stanzaDoc.sentences:
  print("Frase")
  print("====="*50)
  print(sentence.text)
  entidades = ""
  for ent in sentence.entities:
    entidades = entidades + ent.text +"_" +ent.type+" "
  print(entidades+"\n")

2025-03-06 11:04:36 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json: 424kB [00:00, 136MB/s]                     
2025-03-06 11:04:36 INFO: Downloaded file to /home/codespace/stanza_resources/resources.json
2025-03-06 11:04:36 INFO: Loading these models for language: en (English):
| Processor | Package                   |
-----------------------------------------
| tokenize  | combined                  |
| mwt       | combined                  |
| ner       | ontonotes-ww-multi_charlm |

2025-03-06 11:04:36 INFO: Using device: cpu
2025-03-06 11:04:36 INFO: Loading: tokenize
2025-03-06 11:04:36 INFO: Loading: mwt
2025-03-06 11:04:36 INFO: Loading: ner
2025-03-06 11:04:40 INFO: Done loading processors!


Frase
Hugo Pérez eats apples in the Telefónica kitchen at 3:00 pm.
Hugo Pérez_PERSON Telefónica_ORG 3:00 pm_TIME 

Frase
Yesterday Sofía played football with Emma and Cristina with a red ball in Central Park.
Yesterday_DATE Sofía_PERSON Emma_PERSON Cristina_PERSON Central Park_LOC 

Frase
Marina's father is 56 years old.
Marina's_PERSON 56 years old_DATE 

Frase
The Earth revolves around the Sun.
Earth_LOC Sun_LOC 

Frase
The planet Jupiter is the largest planet in the Solar System.
Jupiter_LOC the Solar System_LOC 

Frase
On September 1st George won 1 dollar while watching Game of Thrones.
September 1st_DATE George_PERSON 1 dollar_MONEY Game of Thrones_WORK_OF_ART 



## 4.3 Reconocimiento de entidades en español con spaCy



In [15]:
import spacy

# Cargamos el modelo de lenguaje en español
nlp_es = spacy.load("es_core_news_sm")

# Procesar el texto con spaCy
spaCyDoc = nlp_es(text)

for sentence in spaCyDoc.sents:
  print("Frase")
  print("====="*50)
  print(sentence.text.strip())
  entidades = ""
  for ent in sentence.ents:
    entidades = entidades + ent.text +"_" +ent.label_+" "
  print(entidades+"\n")




Frase
Hugo Pérez come manzanas en la cocina de Telefónica a las 3:00 de la tarde.
Hugo Pérez_PER Telefónica_LOC 

Frase
Ayer Sofía jugó al fútbol con Emma y Cristina con una pelota roja en Central Park.
Ayer Sofía_PER Emma_PER Cristina_PER Central Park_LOC 

Frase
El padre de Marina tiene 56 años.
El padre de Marina_MISC 

Frase
La Tierra gira alrededor del Sol.
La Tierra_LOC Sol_MISC 

Frase
El planeta Júpiter es el planeta más grande del Sistema Solar.
El planeta Júpiter_MISC Sistema Solar_LOC 

Frase
El 1 de septiembre George ganó 1 dólar mientras veía Juego de Tronos.
George_PER Juego de Tronos_MISC 



## 4.4 Reconocimiento de entidades en inglés con spaCy

In [16]:
import spacy

# Cargamos el modelo de lenguaje en español
nlp_en = spacy.load("en_core_web_sm")

# Procesar el texto con spaCy
spaCyDoc_en = nlp_en(text_en)

for sentence in spaCyDoc_en.sents:
  print("Frase")
  print("====="*50)
  print(sentence.text.strip())
  entidades = ""
  for ent in sentence.ents:
    entidades = entidades + ent.text +"_" +ent.label_+" "
  print(entidades+"\n")

Frase
Hugo Pérez eats apples in the Telefónica kitchen at 3:00 pm.
Hugo Pérez_PERSON Telefónica_PRODUCT 3:00 pm_TIME 

Frase
Yesterday Sofía played football with Emma and Cristina with a red ball in Central Park.
Yesterday_DATE Sofía_ORG Emma_PERSON Cristina_GPE Central Park_LOC 

Frase
Marina's father is 56 years old.
Marina_LOC 56 years old_DATE 

Frase
The Earth revolves around the Sun.
Earth_LOC Sun_LOC 

Frase
The planet Jupiter is the largest planet in the Solar System.
Jupiter_LOC the Solar System_ORG 

Frase
On September 1st
September 1st_DATE 

Frase
George won 1 dollar while watching Game of Thrones.
1 dollar_MONEY Thrones_ORG 



## 4.5 Ejercicio a resolver

Cargar el archivo P3_frases.csv y extraer todas las entidades del mismo usando Stanza y spaCy. Las frases del fichero están en español.

Guardar todos los resultados en dos columnas. La primera columna serían todas las entidades detectadas con Stanza indicando el tipo de entidad y la segunda columna debe contener todas las entidades detectadas con spaCy indicando también su tipo de entidad.

In [None]:
import pandas as pd
import stanza
import spacy
import os

data_dir_path = os.path.join(os.getcwd(), "Datos/")

try:
    df = pd.read_csv(data_dir_path + 'P3_frases.csv')
except FileNotFoundError:
    print("Error: El archivo 'P3_frases.csv' no se encontró.")
    exit()

# Inicializamos Stanza y spaCy
stanza.download('es')
nlp_stanza = stanza.Pipeline('es', processors='tokenize,ner')
nlp_spacy = spacy.load('es_core_news_sm')

# Función para extraer entidades con Stanza
def extract_entities_stanza(text):
    doc = nlp_stanza(text)
    entities = [(ent.text, ent.type) for ent in doc.entities]
    return entities

# Función para extraer entidades con spaCy
def extract_entities_spacy(text):
    doc = nlp_spacy(text)
    entities = [(ent.text, ent.label_) for ent in doc.ents]
    return entities

# Creamos nuevas columnas en el DataFrame para las entidades
df['Entidades Stanza'] = df['Frase'].apply(lambda x: extract_entities_stanza(x))
df['Entidades spaCy'] = df['Frase'].apply(lambda x: extract_entities_spacy(x))

# Mostramos el DataFrame con las nuevas columnas
df.head()

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json: 424kB [00:00, 153MB/s]                     
2025-03-06 11:24:00 INFO: Downloaded file to /home/codespace/stanza_resources/resources.json
2025-03-06 11:24:00 INFO: Downloading default packages for language: es (Spanish) ...


2025-03-06 11:24:02 INFO: File exists: /home/codespace/stanza_resources/es/default.zip
2025-03-06 11:24:13 INFO: Finished downloading models and saved to /home/codespace/stanza_resources
2025-03-06 11:24:13 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json: 424kB [00:00, 137MB/s]                     
2025-03-06 11:24:13 INFO: Downloaded file to /home/codespace/stanza_resources/resources.json
2025-03-06 11:24:14 INFO: Loading these models for language: es (Spanish):
| Processor | Package  |
------------------------
| tokenize  | combined |
| mwt       | combined |
| ner       | conll02  |

2025-03-06 11:24:14 INFO: Using device: cpu
2025-03-06 11:24:14 INFO: Loading: tokenize
2025-03-06 11:24:14 INFO: Loading: mwt
2025-03-06 11:24:14 INFO: Loadi

Unnamed: 0,Frase,Entidades Stanza,Entidades spaCy
0,La prima de María duerme en el sofá de su casa.,"[(María, PER)]","[(María, PER), (sofá, LOC)]"
1,La pequeña panadería de la esquina vende pan r...,[],[]
2,El hermano mayor de Juan compra una bicicleta ...,"[(Juan, PER)]","[(Juan, PER)]"
3,Los dos perros de mi vecino corren por el jard...,[],[]
4,El amable profesor de ciencias explica los con...,[],[]
