# Etiquetado en NLTK

## Pipeline básico para Ingles

## @title Dependencias previas

**nltk.download('punkt')** es un `tokenizer`

This tokenizer divides a text into a list of sentences by using an unsupervised algorithm to build a model for abbreviation words, collocations, and words that start sentences.  It must be trained on a large collection of plaintext in the target language before it can be used. [Punkt](https://www.nltk.org/_modules/nltk/tokenize/punkt.html)

**nltk.download('averaged_perceptron_tagger')** es un `tagger`

The perceptron part-of-speech tagger implements part-of-speech tagging using the averaged, structured perceptron algorithm. Some information about the implementation is available in this presentation. The implementation is based on the references in the final slide. [Averaged Perceptron Tagger](https://www.nltk.org/_modules/nltk/tag/perceptron.html)

Este algoritmo del perceptrón demostro que tiene una eficiencia superior a los etiquetadores por `modelos de máxima entropía` utilizados previamente, que estaban definidos por regresiones logísticas.

## Esalera de modelos

* **Módelos markovianos latentes (HMM):** Son cadenas de Marcov, que es un conjunto finito de estados, donde se peuden definir estados discretos. Las cadenas de Marcov definen todas las posibles transiciones a traves de probabilidades de transición entre los posibles estados que un sistema puede tener, de lo cual se puede sacar una matriz de transición, tambien hay un vector de estados iniciales, el cual se multiplica con la matriz de transición y el resultado es el siguiente vector de estados iniciales.

* **Módelos marcovianos de máxima entropía**
* **Deep Learning**

In [None]:
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
from nltk import word_tokenize

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


## @title Etiquetado en una línea ...

Sobre los tokens extraidos con `word_tokenize` aplico el etiquetado con `nltk.pos_tag(text)`

In [None]:
text = word_tokenize("And now here I am enjoying today")
nltk.pos_tag(text)

[('And', 'CC'),
 ('now', 'RB'),
 ('here', 'RB'),
 ('I', 'PRP'),
 ('am', 'VBP'),
 ('enjoying', 'VBG'),
 ('today', 'NN')]

## @title Categoria gramatical de cada etiqueta

Descargamos los conjuntos de etiquetas con `nltk.download('tagsets')` que nos dan la metadata de lo que significan las etiquetas e imprimimos la metadata

In [None]:
nltk.download('tagsets')
for tag in ['CC', 'RB', 'PRP', 'VBP', 'VBG', 'NN']:
  print(nltk.help.upenn_tagset(tag))

[nltk_data] Downloading package tagsets to /root/nltk_data...
[nltk_data]   Unzipping help/tagsets.zip.
CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet
None
RB: adverb
    occasionally unabatingly maddeningly adventurously professedly
    stirringly prominently technologically magisterially predominately
    swiftly fiscally pitilessly ...
None
PRP: pronoun, personal
    hers herself him himself hisself it itself me myself one oneself ours
    ourselves ownself self she thee theirs them themselves they thou thy us
None
VBP: verb, present tense, not 3rd person singular
    predominate wrap resort sue twist spill cure lengthen brush terminate
    appear tend stray glisten obtain comprise detest tease attract
    emphasize mold postpone sever return wag ...
None
VBG: verb, present participle or gerund
    telegraphing stirring focusing angering judging stalling lactating
    hankerin' allegin

## @title Palabras homónimas

Determinamos la etiqueta respectiva a ambigüedades gramaticales en el idioma ingles como el siguiente ejemplo con la palabra `permit`. Al realizar el **pos taging** se asignan sus categoráas gramaticales correctas segñun su uso.

In [None]:
text = word_tokenize("They do not permit other people to get residence permit")
nltk.pos_tag(text)

[('They', 'PRP'),
 ('do', 'VBP'),
 ('not', 'RB'),
 ('permit', 'VB'),
 ('other', 'JJ'),
 ('people', 'NNS'),
 ('to', 'TO'),
 ('get', 'VB'),
 ('residence', 'NN'),
 ('permit', 'NN')]

## Etiquetado en Español 

Para el ingles, NLTK tiene tokenizador y etiquetador pre-entrenados por defecto. En cambio, para otros idiomas es preciso entrenarlo previamente. 

* usamos el corpus `cess_esp` https://mailman.uib.no/public/corpora/2007-October/005448.html

* el cual usa una convención de etiquetas gramaticales dada por el grupo EAGLES https://www.cs.upc.edu/~nlp/tools/parole-sp.html

En el idioma `ingles` los algoritmos ya esta preentrenados, por el contraio para el idioma `español`, no hay algoritmos preentrenados, motivo por el cual debemos entrenar los algoritmos antes de hacer el **pos taging**.

Pra trabajar con el español importamos el corpus `cess_esp` e importamos funcionalidades de `NLTK`

[UnigramTagger](https://www.kite.com/python/docs/nltk.UnigramTagger)

[BigramTagger](https://www.kite.com/python/docs/nltk.BigramTagger)

In [None]:
nltk.download('cess_esp')
from nltk.corpus import cess_esp as cess
from nltk import UnigramTagger as ut
from nltk import BigramTagger as bt

[nltk_data] Downloading package cess_esp to /root/nltk_data...
[nltk_data]   Unzipping corpora/cess_esp.zip.


## @title Entrenamiendo del tagger por unigramas

In [None]:
#Separamos las frases del corpus
cess_sents = cess.tagged_sents() 
# Obtenemos un fracción del Dataset
fraction = int(len(cess_sents)*90/100)

In [None]:
# Definimos una instancia del etiquetador por unigramas
# Le pasamos una francción del Dataset para realizar el entrenamiento
# Lo entrenamos con el 90% del conjunto de datos
uni_tagger = ut(cess_sents[:fraction]) 
# Despues de entrenar hacemos la evaluación con el resto del Dataset
uni_tagger.evaluate(cess_sents[fraction+1:])

# Al final se obtiene la métrica de la asignación de etiquetas

0.8069484240687679

Aplicamos el algoritmo previamente entrenado y evaluado

In [None]:
uni_tagger.tag("Yo soy una persona muy amable".split(" "))

[('Yo', 'pp1csn00'),
 ('soy', 'vsip1s0'),
 ('una', 'di0fs0'),
 ('persona', 'ncfs000'),
 ('muy', 'rg'),
 ('amable', None)]

## @title Entrenamiento del tagger por bigramas

In [None]:
# Obtenemos un fracción del Dataset
fraction = int(len(cess_sents)*90/100)
# Definimos una instancia del etiquetador por bigramas
# Le pasamos una francción del Dataset para realizar el entrenamiento
# Lo entrenamos con el 90% del conjunto de datos
bi_tagger = bt(cess_sents[:fraction])
# Despues de entrenar hacemos la evaluación con el resto del Dataset
bi_tagger.evaluate(cess_sents[fraction+1:])

# Al final se obtiene la métrica de la asignación de etiquetas

0.1095272206303725

In [None]:
bi_tagger.tag("Yo soy una persona muy amable".split(" "))

[('Yo', 'pp1csn00'),
 ('soy', 'vsip1s0'),
 ('una', None),
 ('persona', None),
 ('muy', None),
 ('amable', None)]

<font color="green"> Al analizar las pruebas previamente descritas podemos decir que el etiquetador por `unigramas` es mejor que el etiquedador por `bigramas` y no se recomienda usar el segundo </font>

# Etiquetado mejorado con Stanza (StanfordNLP)

**¿Que es Stanza?**

* El grupo de investigacion en NLP de Stanford tenía una suite de librerias que ejecutaban varias tareas de NLP, esta suite se unifico en un solo servicio que llamaron **CoreNLP** con base en codigo java: https://stanfordnlp.github.io/CoreNLP/index.html

* Para python existe **StanfordNLP**: https://stanfordnlp.github.io/stanfordnlp/index.html

* Sin embargo, **StanfordNLP** ha sido deprecado y las nuevas versiones de la suite de NLP reciben mantenimiento bajo el nombre de **Stanza**: https://stanfordnlp.github.io/stanza/

In [None]:
!pip install stanza

Collecting stanza
[?25l  Downloading https://files.pythonhosted.org/packages/e7/8b/3a9e7a8d8cb14ad6afffc3983b7a7322a3a24d94ebc978a70746fcffc085/stanza-1.1.1-py3-none-any.whl (227kB)
[K     |█▍                              | 10kB 17.1MB/s eta 0:00:01[K     |██▉                             | 20kB 22.2MB/s eta 0:00:01[K     |████▎                           | 30kB 10.9MB/s eta 0:00:01[K     |█████▊                          | 40kB 8.9MB/s eta 0:00:01[K     |███████▏                        | 51kB 4.3MB/s eta 0:00:01[K     |████████▋                       | 61kB 4.8MB/s eta 0:00:01[K     |██████████                      | 71kB 5.0MB/s eta 0:00:01[K     |███████████▌                    | 81kB 5.5MB/s eta 0:00:01[K     |█████████████                   | 92kB 5.5MB/s eta 0:00:01[K     |██████████████▍                 | 102kB 4.2MB/s eta 0:00:01[K     |███████████████▉                | 112kB 4.2MB/s eta 0:00:01[K     |█████████████████▎              | 122kB 4.2MB/s eta 0:

## Esta parte puede demorar un poco ....

In [None]:
import stanza
stanza.download('es')

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/master/resources_1.1.0.json: 122kB [00:00, 22.2MB/s]                    
2020-12-28 00:28:33 INFO: Downloading default packages for language: es (Spanish)...
Downloading http://nlp.stanford.edu/software/stanza/1.1.0/es/default.zip: 100%|██████████| 583M/583M [03:56<00:00, 2.47MB/s]
2020-12-28 00:32:39 INFO: Finished downloading models and saved to /root/stanza_resources.


Stanza funciona con `piplines`, lo que significa pegar distintas tareas del lenguaje natural, una tras otra. Dentro del pipline definirmos las estapas, para este caso son dos etapas `tokenize,pos`,las cuales estan entrenadas con el paquete `ancora`

In [None]:
nlp = stanza.Pipeline('es', processors='tokenize,pos')
doc = nlp('yo soy una persona muy amable')

2020-12-28 00:36:53 INFO: Loading these models for language: es (Spanish):
| Processor | Package |
-----------------------
| tokenize  | ancora  |
| pos       | ancora  |

2020-12-28 00:36:53 INFO: Use device: cpu
2020-12-28 00:36:53 INFO: Loading: tokenize
2020-12-28 00:36:53 INFO: Loading: pos
2020-12-28 00:36:54 INFO: Done loading processors!


Recorremos las sentencias dentro de la variable `doc`, las cuales a su vez tiene varias palabras. Las recorremos con base a esta definición y las mostramos. **Stanza** utiliza una convesión de etiquetado familiar para comunidad de etiquetado del lenguaje natural moderno.

In [None]:
for sentence in doc.sentences:
  for word in sentence.words:
    print(word.text, word.pos)

yo PRON
soy AUX
una DET
persona NOUN
muy ADV
amable ADJ


# Referencias adicionales:

* Etiquetado POS con Stanza https://stanfordnlp.github.io/stanza/pos.html#accessing-pos-and-morphological-feature-for-word

* Stanza | Github: https://github.com/stanfordnlp/stanza

* Articulo en ArXiv: https://arxiv.org/pdf/2003.07082.pdf