# 4- Reconocimiento de entidades con Stanza y Spacy

Stanza y spaCy son APIs que proporcionan sevicios de PLN organizados en tuberías o Pipelines. Ya las hemos visto en la práctica anterior

Lo primero que haremos será instalar Stanza y spaCy y descargar el modelo en español e inglés. Tened en cuenta que se pueden descargar modelos en distintos idiomas

In [4]:
!pip install stanza
import stanza

!pip install spacy
!python3 -m spacy download es_core_news_sm
!python3 -m spacy download en_core_web_sm

stanza.download('es')
stanza.download('en')

Defaulting to user installation because normal site-packages is not writeable
Defaulting to user installation because normal site-packages is not writeable
Collecting spacy
  Downloading spacy-3.8.3.tar.gz (1.3 MB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1.3/1.3 MB 1.3 MB/s eta 0:00:00
  Preparing metadata (pyproject.toml): started
  Preparing metadata (pyproject.toml): finished with status 'error'


  error: subprocess-exited-with-error
  
  × Preparing metadata (pyproject.toml) did not run successfully.
  │ exit code: 1
  ╰─> [349 lines of output]
      Copied /private/var/mobile/Containers/Data/Application/57358D79-36BC-482C-998D-15CAC97E81E9/tmp/pip-install-vkqsh40s/spacy_8441c715324e4737aaf2f098d7f3e14f/setup.cfg -> /private/var/mobile/Containers/Data/Application/57358D79-36BC-482C-998D-15CAC97E81E9/tmp/pip-install-vkqsh40s/spacy_8441c715324e4737aaf2f098d7f3e14f/spacy/tests/package
      Copied /private/var/mobile/Containers/Data/Application/57358D79-36BC-482C-998D-15CAC97E81E9/tmp/pip-install-vkqsh40s/spacy_8441c715324e4737aaf2f098d7f3e14f/pyproject.toml -> /private/var/mobile/Containers/Data/Application/57358D79-36BC-482C-998D-15CAC97E81E9/tmp/pip-install-vkqsh40s/spacy_8441c715324e4737aaf2f098d7f3e14f/spacy/tests/package
      Cythonizing sources
      Compiling spacy/matcher/levenshtein.pyx because it changed.
      Compiling spacy/training/alignment_array.pyx because it c

AttributeError: module 'stanza' has no attribute 'download'

## 4.1 Reconocimiento de entidades en español con Stanza

La librería Stanza proporciona un modelo de reconocimiento de entidades (**Named entity reconginition - NER**) cuando definimos un pipeline. Para ello hay que poner como proceso *ner*. Para mostrar únicamente las entidades de cada frase que se encuentran en la colección *ents* de *sentence*

In [None]:
text = """Hugo Pérez come manzanas en la cocina de Telefónica a las 3:00 de la tarde.

Ayer Sofía jugó al fútbol con Emma y Cristina con una pelota roja en Central Park.

El padre de Marina tiene 56 años.

La Tierra gira alrededor del Sol.

El planeta Júpiter es el planeta más grande del Sistema Solar.

El 1 de septiembre George ganó 1 dólar mientras veía Juego de Tronos."""

pipelineStanza = stanza.Pipeline(lang='es', processors= 'tokenize, mwt, ner')
stanzaDoc = pipelineStanza(text)

for sentence in stanzaDoc.sentences:
  print("Frase")
  print("====="*50)
  print(sentence.text)
  entidades = ""
  for ent in sentence.entities:
    entidades = entidades + ent.text +"_" +ent.type+" "
  print(entidades+"\n")


## 4.2 Reconocimiento de entidades en inglés con Stanza

En inglés existen muchos más tipos de entidades que en español como por ejemplo TIME o DATE.

Los modelos de NER por idiomas están descritos en esta página.
https://stanfordnlp.github.io/stanza/ner_models.html

In [None]:
text_en = """Hugo Pérez eats apples in the Telefónica kitchen at 3:00 pm.

Yesterday Sofía played football with Emma and Cristina with a red ball in Central Park.

Marina's father is 56 years old.

The Earth revolves around the Sun.

The planet Jupiter is the largest planet in the Solar System.

On September 1st George won 1 dollar while watching Game of Thrones."""

pipelineStanza = stanza.Pipeline(lang='en', processors= 'tokenize, mwt, ner')
stanzaDoc = pipelineStanza(text_en)

for sentence in stanzaDoc.sentences:
  print("Frase")
  print("====="*50)
  print(sentence.text)
  entidades = ""
  for ent in sentence.entities:
    entidades = entidades + ent.text +"_" +ent.type+" "
  print(entidades+"\n")

##4.3 Reconocimiento de entidades en español con spaCy



In [None]:
import spacy

# Cargamos el modelo de lenguaje en español
nlp_es = spacy.load("es_core_news_sm")

# Procesar el texto con spaCy
spaCyDoc = nlp_es(text)

for sentence in spaCyDoc.sents:
  print("Frase")
  print("====="*50)
  print(sentence.text.strip())
  entidades = ""
  for ent in sentence.ents:
    entidades = entidades + ent.text +"_" +ent.label_+" "
  print(entidades+"\n")




##4.4 Reconocimiento de entidades en inglés con spaCy

In [None]:
import spacy

# Cargamos el modelo de lenguaje en español
nlp_en = spacy.load("en_core_web_sm")

# Procesar el texto con spaCy
spaCyDoc_en = nlp_en(text_en)

for sentence in spaCyDoc_en.sents:
  print("Frase")
  print("====="*50)
  print(sentence.text.strip())
  entidades = ""
  for ent in sentence.ents:
    entidades = entidades + ent.text +"_" +ent.label_+" "
  print(entidades+"\n")

##4.5 Ejercicio a resolver

Cargar el archivo P4_frases.csv y extraer todas las entidades del mismo usando Stanza y spaCy. Las frases del fichero están en español.

Guardar todos los resultados en dos columnas. La primera columna serían todas las entidades detectadas con Stanza indicando el tipo de entidad y la segunda columna debe contener todas las entidades detectadas con spaCy indicando también su tipo de entidad.

In [None]:
import pandas as pd
import stanza
import spacy

try:
    df = pd.read_csv(data_dir_path + 't3_frases_ner.csv', sep = '\t', on_bad_lines='skip')
except FileNotFoundError:
    print("Error: El archivo 't3_frases_ner.csv' no se encontró.")
    exit()

