# <span style="color:green"><center>Diplomado en Inteligencia Artificial y Aprendizaje Profundo</center></span>

# <span style="color:red"><center> Introducción a Stanza para NLP</center></span>

##   <span style="color:blue">Profesores</span>

1. Alvaro Mauricio Montenegro Díaz, ammontenegrod@unal.edu.co
2. Daniel Mauricio Montenegro Reyes, dextronomo@gmail.com 
3. Campo Elías Pardo Turriago, cepardot@unal.edu.co 

##   <span style="color:blue">Asesora Medios y Marketing digital</span>
 

4. Maria del Pilar Montenegro, pmontenegro88@gmail.com 

## <span style="color:blue">Asistentes</span>

5. Oleg Jarma, ojarmam@unal.edu.co 
6. Laura Lizarazo, ljlizarazore@unal.edu.co 

## <span style="color:blue">Referencias</span> 

1. Repo oficial de [stanza](https://github.com/stanfordnlp/stanza)
2. [Stanza](https://stanfordnlp.github.io/stanza/index.html) in Stanford 
3. [Speech and Language Processing (3rd ed. draft)](https://web.stanford.edu/~jurafsky/slp3/)

## <span style="color:blue">Fuente</span> 

Este cuaderno es una adaptación y traducción libre de los cuadernos disponibles en el repo oficial de [stanza](https://github.com/stanfordnlp/stanza)

## <span style="color:blue">Contenido</span>  

* [Introducción](#Introducción)
* [Instalación de Stanza](#Instalación-de-Stanza)
* [Descarga de modelos](#Descarga-de-modelos)
* [Descarga de modelos](#Descarga-de-modelos)
* [Procesamiento de texto](#Procesamiento-de-texto)
* [Acceso a las anotaciones](#Acceso-a-las-anotaciones)
* [Recursos](#Recursos)


## <span style="color:blue">Introducción</span>

Stanza es una colección de herramientas precisas y eficientes para el análisis lingüístico de muchos idiomas humanos. Desde el texto en bruto hasta el análisis sintáctico y el reconocimiento de entidades, Stanza ofrece modelos de procesamiento del lenguaje natural de vanguardia para los idiomas que elijas.

Stanza es un paquete de análisis de lenguaje natural en Python. Contiene herramientas que se pueden utilizar en una secuencia de procesamiento para convertir una cadena de texto en lenguaje humano en listas de oraciones y palabras, generar las formas base de esas palabras, sus partes del discurso y características morfológicas, proporcionar un análisis de dependencia estructural sintáctica y reconocer entidades nombradas. Esta herramienta está diseñada para ser utilizada en paralelo en más de 70 idiomas, utilizando el formalismo de Universal Dependencies.

Stanza se construye con componentes de redes neuronales altamente precisos que también permiten un entrenamiento y evaluación eficientes con tus propios datos anotados. Los módulos se basan en la biblioteca **PyTorch**. Obtendrás un rendimiento mucho más rápido si ejecutas el software en una máquina con capacidad para GPU.

Además, Stanza incluye una interfaz de Python para el paquete Java CoreNLP y hereda funcionalidades adicionales de allí, como el análisis de constituyentes, la resolución de correferencias y la coincidencia de patrones lingüísticos.

En resumen, las características de Stanza son:

* Implementación nativa en Python que requiere un esfuerzo mínimo para configurar.
* Canalización completa de redes neuronales para análisis de texto robusto, que incluye tokenización, expansión de tokens de varias palabras (MWT), lematización, etiquetado de partes del discurso (POS) y características morfológicas, análisis de dependencia y reconocimiento de entidades nombradas.
* Modelos neuronales preentrenados que admiten 70 idiomas humanos.
* Una interfaz de Python estable y oficialmente mantenida para CoreNLP.

A continuación, se muestra un resumen de la canalización de procesamiento de lenguaje natural basada en redes neuronales de Stanza.

<figure>
<center>
<img src="https://stanfordnlp.github.io/stanza/assets/images/pipeline.png" width="70%" align="center"/>
</center>
</figure>

En este tutorial, demostraremos cómo configurar Stanza y anotar texto con sus modelos nativos de PNL de red neuronal. Para el uso de la interfaz Python CoreNLP, consulte otros tutoriales.

## <span style="color:blue">Instalación de Stanza</span>

Ten en cuenta que Stanza solo es compatible con Python 3.6 y versiones superiores. La instalación e importación de Stanza son tan sencillas como ejecutar los siguientes comandos:

In [1]:
# Install; note that the prefix "!" is not needed if you are running in a terminal
#!pip install --quiet stanza

In [2]:
# Importamos el paquete
import stanza

Si tiene problemas consulte esta 
 [página de ayuda](https://stanfordnlp.github.io/stanfordnlp/installation_usage.html#troubleshooting).

## <span style="color:blue">Descarga de modelos</span>

Puedes descargar modelos con el comando `stanza.download`. El idioma se puede especificar con un nombre de idioma completo (por ejemplo, "english") o un código corto (por ejemplo, "en"). Aqui instalaremos español "spanish": "es".

Por defecto, los modelos se guardarán en su directorio `~/stanza_resources`. Si desea especificar su propia ruta para guardar los archivos del modelo, puede pasar un argumento `dir=your_path`.

In [3]:
# Descarga un modelo en español en el directorio predeterminado.
print("Descargando modelo Español...")
stanza.download('es')

# Download an English model into the default directory
#print("Downloading English model...")
#stanza.download('en')

# Similarly, download a (simplified) Chinese model
# Note that you can use verbose=False to turn off all printed messages
#print("Downloading Chinese model...")
#stanza.download('zh', verbose=False)

Descargando modelo Español...


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.5.0.json:   0%|   …

2023-06-09 17:27:15 INFO: Downloading default packages for language: es (Spanish) ...
2023-06-09 17:27:16 INFO: File exists: /home/cjtorresj/stanza_resources/es/default.zip
2023-06-09 17:27:22 INFO: Finished downloading models and saved to /home/cjtorresj/stanza_resources.


### Más información

Se proporcionan modelos previamente entrenados para más de 60 idiomas diferentes. Para todos los idiomas, modelos disponibles y los códigos breves de idioma correspondientes, consulte la [página de modelos](https://stanfordnlp.github.io/stanza/models.html).

## <span style="color:blue">Procesamiento de texto</span>


### Construcción de canalizaciones (tuberías)


Para procesar un fragmento de texto, primero deberá construir una tubería  o canalización `Pipeline` con diferentes unidades de procesamiento `Processor`. La canalización es específica del idioma, por lo que nuevamente deberá especificar el idioma (ver ejemplos).

- De forma predeterminada, la canalización incluirá todos los procesadores, incluida la tokenización, la expansión de token de varias palabras, el etiquetado de parte de la voz, la lematización, el análisis de dependencias y el reconocimiento de entidades con nombre (para idiomas admitidos). Sin embargo, siempre puede especificar qué procesadores desea incluir con el argumento `processors`.

- La canalización de Stanza es compatible con CUDA, lo que significa que se usará un dispositivo CUDA siempre que esté disponible; de lo contrario, se usarán CPU cuando no se encuentre una GPU. Puede obligar a la canalización a utilizar la CPU independientemente de si establece `use_gpu = False`.

- Puede suprimir todos los mensajes impresos configurando `verbose=False`.


In [4]:
# Cree una canalización en Español, con todos los procesadores de forma predeterminada
print("Construyendo una canalización de Español...")
es_nlp = stanza.Pipeline('es')

# Build an English pipeline, with all processors by default
#print("Building an English pipeline...")
#en_nlp = stanza.Pipeline('en')

# Build a Chinese pipeline, with customized processor list and no logging, and force it to use CPU
#print("Building a Chinese pipeline...")
#zh_nlp = stanza.Pipeline('zh', processors='tokenize,lemma,pos,depparse', verbose=False, use_gpu=False)

2023-06-09 17:27:22 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Construyendo una canalización de Español...


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.5.0.json:   0%|   …

2023-06-09 17:27:23 INFO: Loading these models for language: es (Spanish):
| Processor    | Package  |
---------------------------
| tokenize     | ancora   |
| mwt          | ancora   |
| pos          | ancora   |
| lemma        | ancora   |
| constituency | combined |
| depparse     | ancora   |
| sentiment    | tass2020 |
| ner          | conll02  |

2023-06-09 17:27:23 INFO: Using device: cuda
2023-06-09 17:27:23 INFO: Loading: tokenize
2023-06-09 17:27:25 INFO: Loading: mwt
2023-06-09 17:27:25 INFO: Loading: pos
2023-06-09 17:27:25 INFO: Loading: lemma
2023-06-09 17:27:25 INFO: Loading: constituency
2023-06-09 17:27:26 INFO: Loading: depparse
2023-06-09 17:27:26 INFO: Loading: sentiment
2023-06-09 17:27:26 INFO: Loading: ner
2023-06-09 17:27:27 INFO: Done loading processors!


### Marcación o Anotación  de texto (Annotating text)

Una vez que se ha construido correctamente una canalización, puede obtener anotaciones de un fragmento de texto simplemente pasando la cadena al objeto de canalización. La canalización devolverá un objeto `Document`, que se puede utilizar para acceder a anotaciones detalladas. Por ejemplo:

In [5]:
# Processing texto en Español
es_doc = es_nlp("Alvaro Montenegro nació en Bogotá. Su carrera profesoral en la Universidad Nacional de Colombia inicio en 1990.")
print(type(es_doc))

# Processing English text
#en_doc = en_nlp("Barack Obama was born in Hawaii. He was elected president in 2008.")
#print(type(en_doc))

# Processing Chinese text
#zh_doc = zh_nlp("达沃斯世界经济论坛是每年全球政商界领袖聚在一起的年度盛事。")
#print(type(zh_doc))

<class 'stanza.models.common.doc.Document'>


### Más información

Para obtener más información sobre cómo construir una canalización e información sobre diferentes procesos, visite [pipeline page](https://stanfordnlp.github.io/stanfordnlp/pipeline.html).

## <span style="color:blue">Acceso a las anotaciones</span>

Se puede acceder a las anotaciones desde el objeto Documento devuelto.

Un `Document` contiene una lista de `Sentence`s y una oración contiene una lista de tokens (`Token`s) y palabras (`Word`s). En su mayor parte, los tokens y las palabras se superponen, pero algunos tokens se pueden dividir en varias palabras, por ejemplo, el token francés `aux` se divide en las palabras `à` y `les`, mientras que en inglés una palabra y un token son equivalentes. Tenga en cuenta que los análisis de dependencia se derivan de `Word`s.

Además, un objeto `Span` se usa para representar anotaciones que son parte de un documento, como menciones de entidades nombradas.

El siguiente ejemplo itera sobre todas las oraciones y palabras en español e imprime la información de la palabra una por una: 

In [6]:
for i, sent in enumerate(es_doc.sentences):
    print("[Oración {}]".format(i+1))
    for word in sent.words:
        print("{:12s}\t{:12s}\t{:6s}\t{:d}\t{:12s}".format(\
              word.text, word.lemma, word.pos, word.head, word.deprel))
    print("")

[Oración 1]
Alvaro      	Alvaro      	PROPN 	3	nsubj       
Montenegro  	Montenegro  	PROPN 	1	flat        
nació       	nacer       	VERB  	0	root        
en          	en          	ADP   	5	case        
Bogotá      	Bogotá      	PROPN 	3	obl         
.           	.           	PUNCT 	3	punct       

[Oración 2]
Su          	su          	DET   	2	det         
carrera     	carrera     	NOUN  	0	root        
profesoral  	profesoral  	ADJ   	2	amod        
en          	en          	ADP   	6	case        
la          	el          	DET   	6	det         
Universidad 	Universidad 	PROPN 	2	nmod        
Nacional    	Nacional    	PROPN 	6	flat        
de          	de          	ADP   	9	case        
Colombia    	Colombia    	PROPN 	6	flat        
inicio      	inicio      	ADJ   	2	amod        
en          	en          	ADP   	12	case        
1990        	1990        	NOUN  	10	nmod        
.           	.           	PUNCT 	2	punct       



Alternativamente, puede imprimir directamente un objeto `Word` para ver todas sus anotaciones como un diccionario de Python:

In [8]:
word = es_doc.sentences[0].words[0]
print(word)

{
  "id": 1,
  "text": "Alvaro",
  "lemma": "Alvaro",
  "upos": "PROPN",
  "xpos": "np00000",
  "head": 3,
  "deprel": "nsubj",
  "start_char": 0,
  "end_char": 6
}


El siguiente ejemplo itera sobre todas las menciones de entidades nombradas extraídas e imprime sus intervalos y tipos de caracteres.

In [16]:
print("{:35s}\t{:5s}\t{:5s}\t{:3s}".format("Mention text", "Type", "Start", "End"))
for ent in es_doc.ents:
    print("{:35s}\t{:5s}\t{:5d}\t{:3d}".format(ent.text, ent.type, ent.start_char, ent.end_char))

Mention text                       	Type 	Start	End
Alvaro Montenegro                  	PER  	    0	 17
Bogotá                             	LOC  	   27	 33
Universidad Nacional de Colombia   	ORG  	   63	 95


### Más información

Para toda la información acerca de los diferentes objetos de datos, visite [data objects page](https://stanfordnlp.github.io/stanza/data_objects.html).

## <span style="color:blue">Recursos</span>

Para más tutoriales, visite [Tutorials page](https://stanfordnlp.github.io/stanza/tutorials.html).

Otros recursos que pueden resultar útiles incluyen:

- [Stanza Homepage](https://stanfordnlp.github.io/stanza/index.html)
- [FAQs](https://stanfordnlp.github.io/stanza/faq.html)
- [GitHub Repo](https://github.com/stanfordnlp/stanza)
- [Reporting Issues](https://github.com/stanfordnlp/stanza/issues)
- [Stanza System Description Paper](http://arxiv.org/abs/2003.07082)