# Sesión 1 - Parte 2. Stanza

Stanza es una API que proporciona sevicios de PLN organizados en tuberías o Pipelines.

El objetivo de la práctica es crear un pipeline de Stanza en español e ir procesando un texto de ejemplo.

Lo primero que haremos será instalar Stanza y descargar el modelo en español. Tened en cuenta que se pueden descargar modelos en distintos idiomas

In [1]:
!pip3 install stanza
import stanza
stanza.download('es')

Collecting stanza
  Downloading stanza-1.6.0-py3-none-any.whl (880 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m880.1/880.1 kB[0m [31m8.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting emoji (from stanza)
  Downloading emoji-2.8.0-py2.py3-none-any.whl (358 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m358.9/358.9 kB[0m [31m26.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: emoji, stanza
Successfully installed emoji-2.8.0 stanza-1.6.0


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json:   0%|   …

INFO:stanza:Downloading default packages for language: es (Spanish) ...


Downloading https://huggingface.co/stanfordnlp/stanza-es/resolve/v1.6.0/models/default.zip:   0%|          | 0…

INFO:stanza:Finished downloading models and saved to /root/stanza_resources.


## Apartado 1.1 - Resuelto

Definimos un texto en español de varias líneas y probamos el Tokenizer en español.

Para ello se definirá un Pipeline de Stanza únicamente con la fase 'tokenize'.

In [2]:
#Probamos el tokenizer en español
text = """Hugo come manzanas en la cocina de Telefónica.

Sofía juega al fútbol con Emma y Cristina con una pelota roja en Central Park.

El padre de Marina tiene 56 años.

La Tierra gira alrededor del Sol.

Júpiter es el planeta más grande del Sistema Solar"""

pipelineStanza = stanza.Pipeline(lang='es', processors='tokenize')
stanzaDoc = pipelineStanza(text)

print("Número de frases:" + str(len(stanzaDoc.sentences)))
for sentence in stanzaDoc.sentences:
  print(sentence)


INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json:   0%|   …

INFO:stanza:Loading these models for language: es (Spanish):
| Processor | Package |
-----------------------
| tokenize  | ancora  |
| mwt       | ancora  |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: mwt
INFO:stanza:Done loading processors!


Número de frases:5
[
  {
    "id": 1,
    "text": "Hugo",
    "start_char": 0,
    "end_char": 4
  },
  {
    "id": 2,
    "text": "come",
    "start_char": 5,
    "end_char": 9
  },
  {
    "id": 3,
    "text": "manzanas",
    "start_char": 10,
    "end_char": 18
  },
  {
    "id": 4,
    "text": "en",
    "start_char": 19,
    "end_char": 21
  },
  {
    "id": 5,
    "text": "la",
    "start_char": 22,
    "end_char": 24
  },
  {
    "id": 6,
    "text": "cocina",
    "start_char": 25,
    "end_char": 31
  },
  {
    "id": 7,
    "text": "de",
    "start_char": 32,
    "end_char": 34
  },
  {
    "id": 8,
    "text": "Telefónica",
    "start_char": 35,
    "end_char": 45
  },
  {
    "id": 9,
    "text": ".",
    "start_char": 45,
    "end_char": 46
  }
]
[
  {
    "id": 1,
    "text": "Sofía",
    "start_char": 48,
    "end_char": 53
  },
  {
    "id": 2,
    "text": "juega",
    "start_char": 54,
    "end_char": 59
  },
  {
    "id": [
      3,
      4
    ],
    "text": "al",
    

In [3]:
#Obtenemos una matriz con todos los tokens por frase
for sentence in stanzaDoc.sentences:
  for token in sentence.tokens:
    print(token.text)


Hugo
come
manzanas
en
la
cocina
de
Telefónica
.
Sofía
juega
al
fútbol
con
Emma
y
Cristina
con
una
pelota
roja
en
Central
Park
.
El
padre
de
Marina
tiene
56
años
.
La
Tierra
gira
alrededor
del
Sol
.
Júpiter
es
el
planeta
más
grande
del
Sistema
Solar


## Apartado 1.2

Ahora vamos a probar el pipeline metiendo un analizador morfológico esto es 'tokenize, mwt, pos'

Mostramos entonces cada palabra (*word*) de cada frase (*sentence*) junto con su categoría gramatical (*upos*).

In [8]:
pipelineStanza = stanza.Pipeline(lang='es', processors='tokenize,mwt,pos')
stanzaDoc = pipelineStanza(text)

print("Número de frases:" + str(len(stanzaDoc.sentences)))
for sentence in stanzaDoc.sentences:
  print("Frase:"+sentence.text)
  frase = ""
  for word in sentence.words:
    frase = frase + word.text + "_"+word.upos+" "
  print(frase)

INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json:   0%|   …

INFO:stanza:Loading these models for language: es (Spanish):
| Processor | Package       |
-----------------------------
| tokenize  | ancora        |
| mwt       | ancora        |
| pos       | ancora_charlm |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: mwt
INFO:stanza:Loading: pos
INFO:stanza:Done loading processors!


Número de frases:5
Frase:Hugo come manzanas en la cocina de Telefónica.
Hugo_PROPN come_VERB manzanas_NOUN en_ADP la_DET cocina_NOUN de_ADP Telefónica_PROPN ._PUNCT 
Frase:Sofía juega al fútbol con Emma y Cristina con una pelota roja en Central Park.
Sofía_PROPN juega_VERB a_ADP el_DET fútbol_NOUN con_ADP Emma_PROPN y_CCONJ Cristina_PROPN con_ADP una_DET pelota_NOUN roja_ADJ en_ADP Central_PROPN Park_PROPN ._PUNCT 
Frase:El padre de Marina tiene 56 años.
El_DET padre_NOUN de_ADP Marina_PROPN tiene_VERB 56_NUM años_NOUN ._PUNCT 
Frase:La Tierra gira alrededor del Sol.
La_DET Tierra_PROPN gira_VERB alrededor_ADV de_ADP el_DET Sol_PROPN ._PUNCT 
Frase:Júpiter es el planeta más grande del Sistema Solar
Júpiter_PROPN es_AUX el_DET planeta_NOUN más_ADV grande_ADJ de_ADP el_DET Sistema_PROPN Solar_PROPN 


## Apartado 1.3

A continuación incluimos en el Pipeline la lemmatización (*lemma*) y la imprimimos al lado de la palabra entre paréntesis

In [9]:
pipelineStanza = stanza.Pipeline(lang='es', processors='tokenize,mwt,pos,lemma')
stanzaDoc = pipelineStanza(text)

print("Número de frases:" + str(len(stanzaDoc.sentences)))
for sentence in stanzaDoc.sentences:
  print("Frase:"+sentence.text)
  frase = ""
  for word in sentence.words:
    frase = frase + word.text +"("+ word.lemma +")"+"_"+word.upos+" "
  print(frase)

INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json:   0%|   …

INFO:stanza:Loading these models for language: es (Spanish):
| Processor | Package         |
-------------------------------
| tokenize  | ancora          |
| mwt       | ancora          |
| pos       | ancora_charlm   |
| lemma     | ancora_nocharlm |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: mwt
INFO:stanza:Loading: pos
INFO:stanza:Loading: lemma
INFO:stanza:Done loading processors!


Número de frases:5
Frase:Hugo come manzanas en la cocina de Telefónica.
Hugo(Hugo)_PROPN come(come)_VERB manzanas(manzana)_NOUN en(en)_ADP la(el)_DET cocina(cocina)_NOUN de(de)_ADP Telefónica(Telefónica)_PROPN .(.)_PUNCT 
Frase:Sofía juega al fútbol con Emma y Cristina con una pelota roja en Central Park.
Sofía(Sofía)_PROPN juega(jugar)_VERB a(a)_ADP el(el)_DET fútbol(fútbol)_NOUN con(con)_ADP Emma(Emma)_PROPN y(y)_CCONJ Cristina(Cristina)_PROPN con(con)_ADP una(uno)_DET pelota(pelota)_NOUN roja(rojo)_ADJ en(en)_ADP Central(Central)_PROPN Park(Park)_PROPN .(.)_PUNCT 
Frase:El padre de Marina tiene 56 años.
El(el)_DET padre(padre)_NOUN de(de)_ADP Marina(Marina)_PROPN tiene(tener)_VERB 56(56)_NUM años(año)_NOUN .(.)_PUNCT 
Frase:La Tierra gira alrededor del Sol.
La(el)_DET Tierra(Tierra)_PROPN gira(gira)_VERB alrededor(alrededor)_ADV de(de)_ADP el(el)_DET Sol(Sol)_PROPN .(.)_PUNCT 
Frase:Júpiter es el planeta más grande del Sistema Solar
Júpiter(Júpiter)_PROPN es(ser)_AUX el(el)_DET plan

## Apartado 1.4
Ahora incluimos en el Pipeline que se haga un análisis de dependencias (*depparse*)

Obtenemos entonces por cada frase la raiz principial (*root*) y su sujeto (*nsubj*).

(Opcional) Mostrar también sus complementos.

In [13]:
pipelineStanza = stanza.Pipeline(lang='es', processors='tokenize,mwt,pos,lemma,depparse')
stanzaDoc = pipelineStanza(text)

print("Número de frases:" + str(len(stanzaDoc.sentences)))
for sentence in stanzaDoc.sentences:
  print("Frase:"+sentence.text)
  frase = ""
  raiz = ""
  sujeto = ""
  objeto = ""
  for word in sentence.words:
    frase = frase + word.text +"("+ word.lemma +")"+"_"+word.upos+" #"+word.deprel+"#"
    if word.deprel == "root":
      raiz = word.text
    elif word.deprel == "nsubj":
      sujeto = word.text
    elif word.deprel == "obj":
      objeto = word.text
  print(frase)
  print("")
  print("Sujeto: "+sujeto+ ", Raiz: "+raiz+", Complemento Directo:"+objeto)

INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json:   0%|   …

INFO:stanza:Loading these models for language: es (Spanish):
| Processor | Package         |
-------------------------------
| tokenize  | ancora          |
| mwt       | ancora          |
| pos       | ancora_charlm   |
| lemma     | ancora_nocharlm |
| depparse  | ancora_charlm   |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: mwt
INFO:stanza:Loading: pos
INFO:stanza:Loading: lemma
INFO:stanza:Loading: depparse
INFO:stanza:Done loading processors!


Número de frases:5
Frase:Hugo come manzanas en la cocina de Telefónica.
Hugo(Hugo)_PROPN #nsubj#come(come)_VERB #root#manzanas(manzana)_NOUN #obj#en(en)_ADP #case#la(el)_DET #det#cocina(cocina)_NOUN #obl#de(de)_ADP #case#Telefónica(Telefónica)_PROPN #nmod#.(.)_PUNCT #punct#

Sujeto: Hugo, Raiz: come, Complemento Directo:manzanas
Frase:Sofía juega al fútbol con Emma y Cristina con una pelota roja en Central Park.
Sofía(Sofía)_PROPN #nsubj#juega(jugar)_VERB #root#a(a)_ADP #case#el(el)_DET #det#fútbol(fútbol)_NOUN #obj#con(con)_ADP #case#Emma(Emma)_PROPN #obl#y(y)_CCONJ #cc#Cristina(Cristina)_PROPN #conj#con(con)_ADP #case#una(uno)_DET #det#pelota(pelota)_NOUN #obl#roja(rojo)_ADJ #amod#en(en)_ADP #case#Central(Central)_PROPN #nmod#Park(Park)_PROPN #flat#.(.)_PUNCT #punct#

Sujeto: Sofía, Raiz: juega, Complemento Directo:fútbol
Frase:El padre de Marina tiene 56 años.
El(el)_DET #det#padre(padre)_NOUN #nsubj#de(de)_ADP #case#Marina(Marina)_PROPN #nmod#tiene(tener)_VERB #root#56(56)_NUM #num

## Apartado 1.5

Por último, incluimos una detección de entidades (*ner*) en el Pipeline y mostramos únicamente las entidades de cada frase que se encuentran en la colección *ents* de *sentence*

In [17]:
pipelineStanza = stanza.Pipeline(lang='es', processors='tokenize,mwt,pos,lemma,depparse,ner')
stanzaDoc = pipelineStanza(text)

print("Número de frases:" + str(len(stanzaDoc.sentences)))
for sentence in stanzaDoc.sentences:
  print("Frase:"+sentence.text)
  entidades = ""
  for ents in sentence.ents:
    entidades = entidades + ents.text + "_" + ents.type+ " "
  print(entidades)

INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json:   0%|   …

INFO:stanza:Loading these models for language: es (Spanish):
| Processor | Package         |
-------------------------------
| tokenize  | ancora          |
| mwt       | ancora          |
| pos       | ancora_charlm   |
| lemma     | ancora_nocharlm |
| depparse  | ancora_charlm   |
| ner       | conll02         |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: mwt
INFO:stanza:Loading: pos
INFO:stanza:Loading: lemma
INFO:stanza:Loading: depparse
INFO:stanza:Loading: ner
INFO:stanza:Done loading processors!


Número de frases:5
Frase:Hugo come manzanas en la cocina de Telefónica.
Hugo_PER Telefónica_ORG 
Frase:Sofía juega al fútbol con Emma y Cristina con una pelota roja en Central Park.
Sofía_PER Emma_PER Cristina_PER Central Park_LOC 
Frase:El padre de Marina tiene 56 años.
Marina_PER 
Frase:La Tierra gira alrededor del Sol.
Tierra_MISC Sol_MISC 
Frase:Júpiter es el planeta más grande del Sistema Solar
Sistema Solar_MISC 
