# Sesión 1 - Parte 2. Stanza

Stanza es una API que proporciona sevicios de PLN organizados en tuberías o Pipelines.

El objetivo de la práctica es crear un pipeline de Stanza en español e ir procesando un texto de ejemplo.

Lo primero que haremos será instalar Stanza y descargar el modelo en español. Tened en cuenta que se pueden descargar modelos en distintos idiomas

In [None]:
!pip3 install stanza
import stanza
stanza.download('es')

Collecting stanza
  Downloading stanza-1.9.2-py3-none-any.whl.metadata (13 kB)
Collecting emoji (from stanza)
  Downloading emoji-2.14.0-py3-none-any.whl.metadata (5.7 kB)
Downloading stanza-1.9.2-py3-none-any.whl (1.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m19.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading emoji-2.14.0-py3-none-any.whl (586 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m586.9/586.9 kB[0m [31m20.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: emoji, stanza
Successfully installed emoji-2.14.0 stanza-1.9.2


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.9.0.json:   0%|   …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Downloading default packages for language: es (Spanish) ...


Downloading https://huggingface.co/stanfordnlp/stanza-es/resolve/v1.9.0/models/default.zip:   0%|          | 0…

INFO:stanza:Downloaded file to /root/stanza_resources/es/default.zip
INFO:stanza:Finished downloading models and saved to /root/stanza_resources


## Apartado 1.1 - Resuelto

Definimos un texto en español de varias líneas y probamos el Tokenizer en español.

Para ello se definirá un Pipeline de Stanza únicamente con la fase 'tokenize'.

In [None]:
#Probamos el tokenizer en español
text = """Hugo come manzanas en la cocina de Telefónica.

Sofía juega al fútbol con Emma y Cristina con una pelota roja en Central Park.

El padre de Marina tiene 56 años.

La Tierra gira alrededor del Sol.

Júpiter es el planeta más grande del Sistema Solar"""

pipelineStanza = stanza.Pipeline(lang='es', processors='tokenize')
stanzaDoc = pipelineStanza(text)

print("Número de frases:" + str(len(stanzaDoc.sentences)))
for sentence in stanzaDoc.sentences:
  print(sentence)


INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.9.0.json:   0%|   …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Loading these models for language: es (Spanish):
| Processor | Package  |
------------------------
| tokenize  | combined |
| mwt       | combined |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
  checkpoint = torch.load(filename, lambda storage, loc: storage)
INFO:stanza:Loading: mwt
  checkpoint = torch.load(filename, lambda storage, loc: storage)
INFO:stanza:Done loading processors!


Número de frases:5
[
  {
    "id": 1,
    "text": "Hugo",
    "start_char": 0,
    "end_char": 4
  },
  {
    "id": 2,
    "text": "come",
    "start_char": 5,
    "end_char": 9
  },
  {
    "id": 3,
    "text": "manzanas",
    "start_char": 10,
    "end_char": 18
  },
  {
    "id": 4,
    "text": "en",
    "start_char": 19,
    "end_char": 21
  },
  {
    "id": 5,
    "text": "la",
    "start_char": 22,
    "end_char": 24
  },
  {
    "id": 6,
    "text": "cocina",
    "start_char": 25,
    "end_char": 31
  },
  {
    "id": 7,
    "text": "de",
    "start_char": 32,
    "end_char": 34
  },
  {
    "id": 8,
    "text": "Telefónica",
    "start_char": 35,
    "end_char": 45,
    "misc": "SpaceAfter=No"
  },
  {
    "id": 9,
    "text": ".",
    "start_char": 45,
    "end_char": 46,
    "misc": "SpacesAfter=\\n\\n"
  }
]
[
  {
    "id": 1,
    "text": "Sofía",
    "start_char": 48,
    "end_char": 53
  },
  {
    "id": 2,
    "text": "juega",
    "start_char": 54,
    "end_char": 59
  },

In [None]:
#Obtenemos todos los tokens por frase

for sentence in stanzaDoc.sentences:
    frase = ""
    for token in sentence.tokens:
        frase += token.text + " "
    print(frase)

Hugo come manzanas en la cocina de Telefónica . 
Sofía juega al fútbol con Emma y Cristina con una pelota roja en Central Park . 
El padre de Marina tiene 56 años . 
La Tierra gira alrededor del Sol . 
Júpiter es el planeta más grande del Sistema Solar 


## Apartado 1.2

Ahora vamos a probar el pipeline metiendo un analizador morfológico esto es 'tokenize, mwt, pos'

Mostramos entonces cada palabra (*word*) de cada frase (*sentence*) junto con su categoría gramatical (*upos*).

In [None]:
pipelineStanza = stanza.Pipeline(lang='es', processors='tokenize, mwt, pos')
stanzaDoc = pipelineStanza(text)

for sentence in stanzaDoc.sentences:
    frase = ""
    for word in sentence.words:
        frase += word.text + "_" + word.upos + " "
    print(frase)

INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.9.0.json:   0%|   …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Loading these models for language: es (Spanish):
| Processor | Package         |
-------------------------------
| tokenize  | combined        |
| mwt       | combined        |
| pos       | combined_charlm |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
  checkpoint = torch.load(filename, lambda storage, loc: storage)
INFO:stanza:Loading: mwt
  checkpoint = torch.load(filename, lambda storage, loc: storage)
INFO:stanza:Loading: pos
  checkpoint = torch.load(filename, lambda storage, loc: storage)
  data = torch.load(self.filename, lambda storage, loc: storage)
  state = torch.load(filename, lambda storage, loc: storage)
INFO:stanza:Done loading processors!


Hugo_PROPN come_VERB manzanas_NOUN en_ADP la_DET cocina_NOUN de_ADP Telefónica_PROPN ._PUNCT 
Sofía_PROPN juega_VERB a_ADP el_DET fútbol_NOUN con_ADP Emma_PROPN y_CCONJ Cristina_PROPN con_ADP una_DET pelota_NOUN roja_ADJ en_ADP Central_PROPN Park_PROPN ._PUNCT 
El_DET padre_NOUN de_ADP Marina_PROPN tiene_VERB 56_NUM años_NOUN ._PUNCT 
La_DET Tierra_PROPN gira_VERB alrededor_ADV de_ADP el_DET Sol_PROPN ._PUNCT 
Júpiter_PROPN es_AUX el_DET planeta_NOUN más_ADV grande_ADJ de_ADP el_DET Sistema_PROPN Solar_PROPN 


## Apartado 1.3

A continuación incluimos en el Pipeline la lemmatización (*lemma*) y la imprimimos al lado de la palabra entre paréntesis

In [None]:
pipelineStanza = stanza.Pipeline(lang='es', processors='tokenize, mwt, pos, lemma')
stanzaDoc = pipelineStanza(text)

for sentence in stanzaDoc.sentences:
    frase = ""
    for word in sentence.words:
        frase += word.text + "(" + word.lemma + ")" + "_" + word.upos + " "
    print(frase)

INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.9.0.json:   0%|   …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Loading these models for language: es (Spanish):
| Processor | Package           |
---------------------------------
| tokenize  | combined          |
| mwt       | combined          |
| pos       | combined_charlm   |
| lemma     | combined_nocharlm |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
  checkpoint = torch.load(filename, lambda storage, loc: storage)
INFO:stanza:Loading: mwt
  checkpoint = torch.load(filename, lambda storage, loc: storage)
INFO:stanza:Loading: pos
  checkpoint = torch.load(filename, lambda storage, loc: storage)
  data = torch.load(self.filename, lambda storage, loc: storage)
  state = torch.load(filename, lambda storage, loc: storage)
INFO:stanza:Loading: lemma
  checkpoint = torch.load(filename, lambda storage, loc: storage)
INFO:stanza:Done loading processors!


Hugo(Hugo)_PROPN come(comir)_VERB manzanas(manzana)_NOUN en(en)_ADP la(el)_DET cocina(cocina)_NOUN de(de)_ADP Telefónica(Telefónica)_PROPN .(.)_PUNCT 
Sofía(Sofía)_PROPN juega(jugar)_VERB a(a)_ADP el(el)_DET fútbol(fútbol)_NOUN con(con)_ADP Emma(emma)_PROPN y(y)_CCONJ Cristina(cristina)_PROPN con(con)_ADP una(uno)_DET pelota(pelota)_NOUN roja(rojo)_ADJ en(en)_ADP Central(central)_PROPN Park(Park)_PROPN .(.)_PUNCT 
El(el)_DET padre(padre)_NOUN de(de)_ADP Marina(marina)_PROPN tiene(tener)_VERB 56(56)_NUM años(año)_NOUN .(.)_PUNCT 
La(el)_DET Tierra(tierra)_PROPN gira(gira)_VERB alrededor(alrededor)_ADV de(de)_ADP el(el)_DET Sol(sol)_PROPN .(.)_PUNCT 
Júpiter(Júpiter)_PROPN es(ser)_AUX el(el)_DET planeta(planeta)_NOUN más(más)_ADV grande(grande)_ADJ de(de)_ADP el(el)_DET Sistema(Sistema)_PROPN Solar(solar)_PROPN 


## Apartado 1.4
Ahora incluimos en el Pipeline que se haga un análisis de dependencias (*depparse*)

Obtenemos entonces por cada frase la raiz principial (*root*) y su sujeto (*nsubj*).

(Opcional) Mostrar también sus complementos.

In [None]:
pipelineStanza = stanza.Pipeline(lang='es', processors='tokenize, mwt, pos, lemma, depparse')
stanzaDoc = pipelineStanza(text)

for sentence in stanzaDoc.sentences:
    frase = ""
    sujeto = ""
    raiz = ""
    obj = ""
    cc = ""
    for word in sentence.words:
        frase += word.text + "(" + word.lemma + ")" + "_" + word.upos + " "
        if word.deprel == "nsubj":
            sujeto = word.text
        if word.deprel == "obj":
            obj = word.text
        if word.deprel == "root":
            raiz = word.text
        if word.deprel == "obl":
            cc = word.text
    print(frase)
    print("Sujeto:", sujeto, " Objeto:", obj, " Raíz:", raiz, " Complemento:", cc)

INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.9.0.json:   0%|   …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Loading these models for language: es (Spanish):
| Processor | Package           |
---------------------------------
| tokenize  | combined          |
| mwt       | combined          |
| pos       | combined_charlm   |
| lemma     | combined_nocharlm |
| depparse  | combined_charlm   |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: mwt
INFO:stanza:Loading: pos
INFO:stanza:Loading: lemma
INFO:stanza:Loading: depparse
INFO:stanza:Done loading processors!


Hugo(Hugo)_PROPN come(comir)_VERB manzanas(manzana)_NOUN en(en)_ADP la(el)_DET cocina(cocina)_NOUN de(de)_ADP Telefónica(Telefónica)_PROPN .(.)_PUNCT 
Sujeto: Hugo  Objeto: manzanas  Raíz: come  Complemento: cocina
Sofía(Sofía)_PROPN juega(jugar)_VERB a(a)_ADP el(el)_DET fútbol(fútbol)_NOUN con(con)_ADP Emma(emma)_PROPN y(y)_CCONJ Cristina(cristina)_PROPN con(con)_ADP una(uno)_DET pelota(pelota)_NOUN roja(rojo)_ADJ en(en)_ADP Central(central)_PROPN Park(Park)_PROPN .(.)_PUNCT 
Sujeto: Sofía  Objeto:   Raíz: juega  Complemento: pelota
El(el)_DET padre(padre)_NOUN de(de)_ADP Marina(marina)_PROPN tiene(tener)_VERB 56(56)_NUM años(año)_NOUN .(.)_PUNCT 
Sujeto: padre  Objeto: años  Raíz: tiene  Complemento: 
La(el)_DET Tierra(tierra)_PROPN gira(gira)_VERB alrededor(alrededor)_ADV de(de)_ADP el(el)_DET Sol(sol)_PROPN .(.)_PUNCT 
Sujeto: Tierra  Objeto:   Raíz: gira  Complemento: Sol
Júpiter(Júpiter)_PROPN es(ser)_AUX el(el)_DET planeta(planeta)_NOUN más(más)_ADV grande(grande)_ADJ de(de)_ADP

## Apartado 1.5

Por último, incluimos una detección de entidades (*ner*) en el Pipeline y mostramos únicamente las entidades de cada frase que se encuentran en la colección *ents* de *sentence*

In [None]:
pipelineStanza = stanza.Pipeline(lang='es', processors='tokenize, mwt, pos, lemma, depparse, ner')
stanzaDoc = pipelineStanza(text)

for sentence in stanzaDoc.sentences:
    print("Frase:", sentence.text)
    for ent in sentence.ents:
        print("Entidad:", ent.text, "_", ent.type)


INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.9.0.json:   0%|   …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Loading these models for language: es (Spanish):
| Processor | Package           |
---------------------------------
| tokenize  | combined          |
| mwt       | combined          |
| pos       | combined_charlm   |
| lemma     | combined_nocharlm |
| depparse  | combined_charlm   |
| ner       | conll02           |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
  checkpoint = torch.load(filename, lambda storage, loc: storage)
INFO:stanza:Loading: mwt
  checkpoint = torch.load(filename, lambda storage, loc: storage)
INFO:stanza:Loading: pos
  checkpoint = torch.load(filename, lambda storage, loc: storage)
  data = torch.load(self.filename, lambda storage, loc: storage)
  state = torch.load(filename, lambda storage, loc: storage)
INFO:stanza:Loading: lemma
  checkpoint = torch.load(filename, lambda storage, loc: storage)
INFO:stanza:Loading: depparse
  checkpoint = torch.load(filename, lamb

Frase: Hugo come manzanas en la cocina de Telefónica.
Entidad: Hugo _ PER
Entidad: Telefónica _ ORG
Frase: Sofía juega al fútbol con Emma y Cristina con una pelota roja en Central Park.
Entidad: Sofía _ PER
Entidad: Emma _ PER
Entidad: Cristina _ PER
Entidad: Central Park _ LOC
Frase: El padre de Marina tiene 56 años.
Entidad: Marina _ PER
Frase: La Tierra gira alrededor del Sol.
Entidad: Tierra _ MISC
Entidad: Sol _ MISC
Frase: Júpiter es el planeta más grande del Sistema Solar
Entidad: Sistema Solar _ MISC
