## Clasificación de Texto.

**Problemas a vencer**: La ambiguedad del lenguaje, es importante analizar el proceso de como desambiguar un texto, para evitar que varias formas de escribir o usar palabras cambia el contexto o significado.

**El primer paso es identificar las categorias gramaticales**: Una categoria gramatical encierra a las palabras según su significado, existen sustantivos, adjetivos, adverbios, verbos, preposiciones, conjunciones y articulos.

**Sustantivo o Nombre:** Es aquel tipo de palabra cuyo significado determina la realidad, esto es, los sustantivos nombran todas las cosas, personas objetos sensaciones, sentimientos ideas, etc. 

**Pronombre:** Es una palabra que sustituye a otros terminos que designan personas u objetos en momento determinado, como la, yo, tu, el, ellos, te, nos, mi, ti, este, ese, aquel, mio, tuyo... etc

**Adjetivo:** Es una palabra que acompaña al nombre para determinarlo o calificarlo. Los adjetivos posesivos son los que acompañan al sustantivo y lo determinan de la siguiente forma: Mi casa, nuestro auto...

## Ambiguedades del Lenguage:
#### Tipos:
- **Por agrupamiento** Cómo se separan las oraciones con los signos de puntuación, un signo de puntuación en una oración cambia el significado de la oración.
- **Funcional** Son dificiles de detectar y necesita bastante contexto, debido a que una sola oración puede significar dos cosas totalmente diferentes, según su espacio, tiempo y objetivo.
- **Lexico**: Dependen de la categoría gramaticales, es decir una palabra puede ser interpretada como un sustantivo o un adjetivo y eso cambia el significado de la oración.

**Punto Clave** ¿Cómo etiquetar adecuadamente una palabra? una respuesta corta, Dependiendo del contexto clasificar su categoria gramatical.

### Etiquetado en NLTK

In [1]:
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
from nltk import word_tokenize

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\GAMER\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\GAMER\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


### Etiquetado Ingles
La libreria NLTK permite etiquetar de manera sencilla con algoritmos pre-entrenados, para el español es diferente

In [2]:
# Variable Texto resultado de una tokenización
text = word_tokenize('And now here I am enjoying today')
# Aplicar etiquetas gramaticales
nltk.pos_tag(text)

[('And', 'CC'),
 ('now', 'RB'),
 ('here', 'RB'),
 ('I', 'PRP'),
 ('am', 'VBP'),
 ('enjoying', 'VBG'),
 ('today', 'NN')]

In [4]:
# Revisar tipo de categorias gramaticales
nltk.download('tagsets')
for tag in ['CC','RB','PRP']:
    print(nltk.help.upenn_tagset(tag))

CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet
None
RB: adverb
    occasionally unabatingly maddeningly adventurously professedly
    stirringly prominently technologically magisterially predominately
    swiftly fiscally pitilessly ...
None
PRP: pronoun, personal
    hers herself him himself hisself it itself me myself one oneself ours
    ourselves ownself self she thee theirs them themselves they thou thy us
None


[nltk_data] Downloading package tagsets to
[nltk_data]     C:\Users\GAMER\AppData\Roaming\nltk_data...
[nltk_data]   Package tagsets is already up-to-date!


In [6]:
# Ambiguedades: Palabras Homónimas
text = word_tokenize('They do not permit other people to get residence permit')
nltk.pos_tag(text)

[('They', 'PRP'),
 ('do', 'VBP'),
 ('not', 'RB'),
 ('permit', 'VB'),
 ('other', 'JJ'),
 ('people', 'NNS'),
 ('to', 'TO'),
 ('get', 'VB'),
 ('residence', 'NN'),
 ('permit', 'NN')]

In [None]:
for tag in ['CC','RB','PRP']:
    print(nltk.help.upenn_tagset(tag))

### Etiquetado Gramaticas Español

In [5]:
from nltk.corpus import cess_esp as cess
# Etiquetador basado en unigramas
from nltk import UnigramTagger as ut
# Etiquetador basado en bigramas
from nltk import BigramTagger as bt
from IPython.display import Image

In [8]:
# Entrenamiento del tagger por unigramas
cess_sents = cess.tagged_sents()
fraction = int(len(cess_sents)*90/100)

# Entrena el modelo con el 90% para etiquetar los tokens gramaticalmente
uni_tagger = ut(cess_sents[:fraction])

# Permite evaluar el modelo con el 10% de los datos
uni_tagger.evaluate(cess_sents[fraction:])

0.8068832283915284

In [11]:
# Revisar su categoria gramatical
uni_tagger.tag("Yo soy una persona muy amable".split(" "))

[('Yo', 'pp1csn00'),
 ('soy', 'vsip1s0'),
 ('una', 'di0fs0'),
 ('persona', 'ncfs000'),
 ('muy', 'rg'),
 ('amable', None)]

In [12]:
bi_tagger = bt(cess_sents[:fraction])
bi_tagger.evaluate(cess_sents[fraction:])

0.10983113909559244

### Conclusiones
- Etiquetar por bigramas no es tan efectivo como etiquetar por unigramas, esto se debe a que no se identifica correctamente la categoría gramatical de cada token o palabra si se analiza en conjunto de dos palabras.
- Cada modelo se debe entrenar y definir su precisión

## Stanza (StanfordNLP)

In [13]:
!pip install stanza

Collecting stanza
  Downloading stanza-1.2.1-py3-none-any.whl (334 kB)
Collecting torch>=1.3.0
  Downloading torch-1.9.0-cp38-cp38-win_amd64.whl (222.0 MB)
Installing collected packages: torch, stanza
Successfully installed stanza-1.2.1 torch-1.9.0


In [4]:
import stanza

In [15]:
stanza.download('es')

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.2.1.json:   0%|   …

2021-06-30 19:31:30 INFO: Downloading default packages for language: es (Spanish)...


Downloading http://nlp.stanford.edu/software/stanza/1.2.1/es/default.zip:   0%|          | 0.00/566M [00:00<?,…

2021-06-30 19:42:33 INFO: Finished downloading models and saved to C:\Users\GAMER\stanza_resources.


**Stanza** trabaja con flujos de procesos para el lenguaje natural, a continuación se define un Pipeline el cual tokeniza un texto y asigna etiquetas gramaticales que es lo mismo que etiquetar las partes del discurso.


In [16]:
nlp = stanza.Pipeline('es',precessors= 'tokenize,pos')
doc = nlp('Yo soy una persona muy amable')


2021-07-01 22:11:10 INFO: Loading these models for language: es (Spanish):
| Processor | Package |
-----------------------
| tokenize  | ancora  |
| mwt       | ancora  |
| pos       | ancora  |
| lemma     | ancora  |
| depparse  | ancora  |
| ner       | conll02 |

2021-07-01 22:11:10 INFO: Use device: cpu
2021-07-01 22:11:10 INFO: Loading: tokenize
2021-07-01 22:11:10 INFO: Loading: mwt
2021-07-01 22:11:10 INFO: Loading: pos
2021-07-01 22:11:11 INFO: Loading: lemma
2021-07-01 22:11:11 INFO: Loading: depparse
2021-07-01 22:11:11 INFO: Loading: ner
2021-07-01 22:11:13 INFO: Done loading processors!


In [18]:
for sentence in doc.sentences:
    for word in sentence.words:
        print(word.text, word.pos)

Yo PRON
soy AUX
una DET
persona NOUN
muy ADV
amable ADJ


Los dos paquetes 'punkt': Es un tokenizador y el averaged_perceptron es el etiquetador por defecto que usa por defecto nltk cuando estamos en el idioma ingles.

El etiquetador del perceptron promediado, esta relacionado con el funcionamiento de una red neuronal, antes de este modelo, solamente existian modelos de maxima entropia y estan muy relacionados con las regresiones logisticas.

Con la salida de este modelo se evidenció una mejora considerable en el rendimiento así el APT se convirtio en estandar. aunque existen muchos etiquetadores de clasificación, sin embargo esta no deja de ser la base de todo el universo de etiquetadores.

![title](./modelos.PNG)

# Modelo Markoviano Latente
Esta basado en las cadenas de markov, y son la base que nos van a ayudar a entender los modelos markovianos de maxima entropia

Primero es importante entender que es una cadena de markov, una cadena de marcov esta basada en un conjunto finito de estados, es decir, podemos pensar en una situación a la cual se le puede asignar una serie de diferentes categorias, por ejemplo, el estado de un día, porque en la secuencia dia a dia se le puede asignar estados como frio, caluro, lluvioso. etc. 

Ahora, para definir el sistema es necesario identificar de ese día cuantos posibles estados puede tener (frio, caliente...) y luego se define una secuencia, es decir, día uno, día dos... y de ello se puede definir una secuencia que son los estados de esa secuencia. 

Ahora, el sistema de las cadenas de markov miden la probabilidad entre las secuencias, de que un estado en una parte de esa secuencia se de despues de otro estado en otra parte de esa secuencia. 

es decir, la probabilidad de que un día frio este seguido de un día caliente, la probabilidad de que un dia caliente este dado despues de un dia frio, cada uno de ellos se define como una transición, es decir la transición es el paso entre eventos y todas esas flechas que conectan entre ellos son calculos de la probabilidad.

![](.\cadena.PNG)

Por ejemplo, en el evento donde se ve una secuencia de dias: Soleado, frio, frio, Soleado y frio, solo hay dos situacioes en las que un día soleado esta seguido de un día frio, ahora se calculan las probabilidades de todas estas transiciones y las dividimos entre todos los eventos posibles de transición. 

Una cadena de Markov define probabilidades de transición entre los posibles estados que puede tener una transición, a esto se le define como matriz de transición.
![](.\matriz.PNG)

**Componente escencial en la cadena de markov** Distribución inicial de estados, es el vector que se nombra como la letra PI II(0) el cual tiene 3 componentes en este ejemplo, definen la probabilidad inicial de que un día sea frio o caliente o tibio, y lo que se realiza es una multiplicacion entre la matriz de transición por el vector inicial de estados y el resultado es el vector inicial de estados PI II(1)

![](.\vector.PNG)

**¿Cómo se calcula la probabilidad en un transición?** El calculo podría considerarse como frecuentista, se verifican por ejemplo, en el caso de calcular la probabilidad de que se de un día soleado seguido de un día frio, es calcular cuantas veces se presenta en el espacio muestral y dividirlo entre la totalidad de elementos dentro del espacio muestral

A la final, un modelo markoviano latente es un sistema de probabilidades que evoluciona a medida que va avanzando en sus secuencias o estados.

## Modelo Markoviano Latente
A = Matriz de transición de estados - Es decir una matriz que confronta todos los estados para identificar la probabilidad de transición entre cada uno de ellos

Pi = Vector de la distribución de estados - Si hoy la probabilidad de que llueva es de % y así... por cada uno de los estados, al multiplicarse con la matriz nos retorna la probabilidad de los estados pero para la siguiente secuencia o transición.

$$
\Pi^{(0)}A = \Pi^{(1)}
$$

*Es importante definir el concepto de probabilidad condicional* 

$$
P(j|i) = \frac{P(i,j)}{p(i)}
$$

**Ejemplo**: *Probabilidad de Transición estando en el estado 3 al día siguiente sea estado 2*

$$
P(2|3) = \frac{P(3,2)}{P(3)}
$$

La probabilidad de que un día este en estado 3 y al día siguiente sea estado 2 se calcula verificando la frecuencia en la que se presenta esta evento dentro del espacio muestral

La probabilidad de dias iniciales son todos los días que anteceden un estado

$$
P(3,2) = \frac{1}{5}
$$
$$
P(3) = \frac{1}{5}
$$
$$
P(2|3) = 1
$$

Este resultado es el que se asigna a la matriz de probabilidades de transición.

**LOS ESTADOS DE MARKOV SE DEFINEN POR EL ESTADO INMEDIATAMENTE ANTERIOR** Por tanto la matriz de estas se debe multiplicar por el vector de estado inicial para encontral el vector de probabilidades de estados de la siguiente transición

![](.\operacion.PNG)

## Extrapolar en NLP los modelos markovianos latentes

**Pensemos en secuencias de palabras** de la siguiente forma, una secuencia de palabras es igual a una secuencia de etiquetas gramaticales

A la secuencia gramaticas se le llama secuencia latente u oculta por que al principio no la conocemos.

![](.\palabras.PNG)

## Entrenar un Modelo Markoviano Latente

Descubrir esa secuencia de etiquetas, que le corresponde a la secuencia de palabras, los estados serían las categorias gramaticales.

Las probabilidades se calculan con un corpus de palabras, es decir la probabilidad de dada una categoria gramatical, cual es la probabilidad de que le corresponda una cierta palabra. y se llaman:

Probabilidades de emición: se puede calcular una por cada node de la cadena markoviana.

![](.\markov.PNG)

A: Matriz de transición
Pi: Distribución de estados
B: Probabilidades de emisión corresponden a *dadas las categorias cuales son las probabilidades de que les correspondan o sean asignadas a ciertas palabras*

$$
    arg max_{(t^n)}P(t^n|w^n)
$$

![](.\argumentos.PNG)


En resumen el modelo de markov se encarga de encontrar, dada una secuencia de palabras, una secuencia de etiquetas que le corresponde con mayor probabilidad.

Es importante tener en cuenta la regla de bayes:
$$
P(t|w) = \frac{P(w|t)P(t)}{p(w)}
$$

De esta manera el modelo tendrá que calcular la probabilidad de una secuencia de palabras dada una secuencia de etiquetas^bajo el teorema de bayes: 

$$
P(t^n|w^n) = \frac{P(w^n|t^n)P(t^n)}{P(w^n)}
$$

Entendiendo el concepto de sin perdida de generalidad se puede despreciar el denominador, debido a que la comparación de resultados se mantendrá en un mismo orden y no se alterará el resultado final.

$$
\bar{t^n} = argmax_{t^n}P(t^n|w^n) = argmax_{t^n}P(w^n|t^n)P(t^n)
$$



### Hipotesis
- Hip. de independiencia: Las probabilidades condicionales de que dadas unas etiquetas les correspondan unas palabras, se representan como el producto de cada probabilidad condicional de cada etiqueta correspondiente a una palabra. o de cada palabra con su etiqueta correspondiente. Las probabilidades de palabras a etiquetas solamente dependen de la misma posición


$$
P(w^n|t^n) = \prod_{i=1}^nP(w_i|t_i)
$$


- Hip. Markoviana: Permite identificar cual es el contexto que rodea a la secuencia de palabras, ya que identifica el momento en el que se asigna cada etiqueta a cada palabra, esto se resume en la probabilidad de secuencia de etiquetas que es lo mismo que un producto de probabilidades de que dada una etiqueta anterior le corresponda le corresponda una etiqueta en la posición actual, un producto entre todas las probabilidades según la cantidad de secuencias. Un estado depende de un estado inmediatamente anterior.

$$
P(t^n) = \prod_{i=1}^nP(t_i|t_{i-1})
$$

En resumen las probabilidades que calcula un modelo markoviano se originan gracias a la combinación de estas dos hipotesis:

$$
\bar{t^n} = argmax_{t^n}\prod_{i=1}^nP(w_i|t_i)P(t_i,t_{i-1})
$$


## Corpus de español: 

* AnCora | Github: https://github.com/UniversalDependencies/UD_Spanish-AnCora

* usamos el conllu parser para leer el corpus: https://pypi.org/project/conllu/

* Etiquetas Universal POS (Documentación): https://universaldependencies.org/u/pos/

In [1]:
!git clone https://github.com/UniversalDependencies/UD_Spanish-AnCora.git

Cloning into 'UD_Spanish-AnCora'...


**parse_incr** Genera una lista de listas de tokens
**.setialize** una tributo del formato conllu

In [6]:
from conllu import parse_incr

wordList = []
data_file = open("UD_Spanish-AnCora/es_ancora-ud-dev.conllu", "r", encoding="utf-8")

# for tokenlist in parse_incr(data_file):
#     print(tokenlist.serialize())

## Entrenamiento del modelo - Calculo de conteos:

* tags (tags) `tagCountDict`: $C(tag)$
* emisiones (word|tag) `emissionProbDict`: $C(word|tag)$
* transiciones (tag|prevtag) `transitionDict`: $C(tag|prevtag)$

In [7]:
tagCountDict = {}
emissionDict = {}
transitionDict = {}

tagtype = 'upos'
data_file = open("UD_Spanish-AnCora/es_ancora-ud-dev.conllu", "r", encoding="utf-8")

for tokenlist in parse_incr(data_file):
    prevtag = None
    for token in tokenlist:   
        
        # C(tag): Cuantas veces aparece una etiqueta en el corpus
        tag = token[tagtype]
        
        if tag in tagCountDict.keys():
            tagCountDict[tag] += 1
        else:
            tagCountDict[tag] = 1
        
        # C(word|tag) Calculo para las probabilidades de emisión. Contar cuantas veces aparece una etiqueta dado una palabra
        # En el corpus
        wordtag = token['form'].lower()+'|'+token[tagtype]
        if wordtag in emissionDict.keys():
            emissionDict[wordtag] += 1
        else:
            emissionDict[wordtag] = 1
            
        # C(tag|tag_previo) Conteo para Probabilidades de transición
        if prevtag is None:
            prevtag = tag
            continue
        transitiontags = tag+'|'+prevtag
        if transitiontags in transitionDict.keys():
            transitionDict[transitiontags] = transitionDict[transitiontags] + 1
        else:
            transitionDict[transitiontags] = 1
        prevtag = tag
        


None
DET
NOUN
PUNCT
ADP
ADJ
NOUN
ADP
SCONJ
VERB
VERB
NUM
NOUN
_
ADP
DET
NOUN
ADP
VERB
_
ADP
DET
NOUN
DET
NOUN
CCONJ
ADJ
ADP
DET
NOUN
ADP
NOUN
ADJ
PUNCT
VERB
ADP
DET
NOUN
ADP
DET
PRON
DET
PROPN
PROPN
ADP
PROPN
PUNCT
PROPN
PUNCT
VERB
VERB
ADV
DET
NOUN
ADJ
ADP
DET
NOUN
PUNCT
ADJ
PUNCT
ADP
_
VERB
PRON
DET
NUM
ADP
NOUN
None
PROPN
PRON
VERB
_
ADP
DET
ADJ
NOUN
DET
NOUN
NOUN
ADP
DET
ADV
ADJ
NOUN
ADP
NOUN
PUNCT
ADJ
ADP
PUNCT
ADJ
PUNCT
ADP
DET
NOUN
PUNCT
ADP
DET
PRON
VERB
DET
NOUN
ADP
DET
NOUN
CCONJ
VERB
DET
PUNCT
ADJ
PUNCT
NOUN
ADP
DET
NOUN
ADP
DET
NOUN
ADJ
None
ADP
ADV
VERB
ADP
NOUN
ADJ
None
PRON
VERB
PRON
AUX
DET
ADJ
NOUN
PRON
VERB
ADP
DET
NOUN
PUNCT
CCONJ
SCONJ
PRON
VERB
ADJ
CCONJ
ADJ
PUNCT
CCONJ
PRON
AUX
ADP
VERB
DET
NOUN
None
ADP
DET
NOUN
VERB
VERB
ADP
NOUN
ADP
ADV
ADV
DET
NOUN
ADP
PROPN
PROPN
PUNCT
PROPN
PROPN
PROPN
PUNCT
ADJ
PUNCT
NOUN
PUNCT
_
ADP
DET
PROPN
PUNCT
SCONJ
DET
NOUN
ADP
DET
PROPN
PROPN
PROPN
PUNCT
PROPN
PUNCT
PUNCT
CCONJ
PROPN
PUNCT
PROPN
PROPN
PUNCT
PRON
AUX
PRON
ADV
VERB
DE

PRON
PRON
VERB
ADJ
PUNCT
PRON
PRON
VERB
CCONJ
DET
PRON
VERB
ADP
PRON
CCONJ
ADP
DET
NOUN
None
ADP
DET
NOUN
VERB
ADP
VERB
DET
NOUN
ADP
DET
NOUN
CCONJ
DET
NOUN
ADP
_
VERB
PRON
None
SCONJ
PRON
PRON
VERB
PRON
VERB
ADJ
None
NOUN
NOUN
PUNCT
NOUN
PUNCT
NOUN
_
ADP
DET
NOUN
None
CCONJ
PRON
ADP
DET
NOUN
CCONJ
DET
NOUN
PUNCT
PRON
VERB
_
VERB
PRON
None
PROPN
PUNCT
PROPN
PUNCT
PROPN
PUNCT
PROPN
PUNCT
PROPN
PUNCT
PROPN
PROPN
None
PRON
AUX
DET
PRON
ADP
PRON
None
VERB
ADP
PROPN
PUNCT
VERB
ADP
PROPN
PUNCT
VERB
ADP
ADV
CCONJ
ADP
DET
DET
NOUN
PRON
VERB
DET
NOUN
None
AUX
ADV
ADP
DET
NOUN
ADJ
CCONJ
ADP
NOUN
ADP
VERB
None
ADV
VERB
PUNCT
CCONJ
PRON
VERB
ADV
None
ADV
VERB
ADP
DET
PROPN
PUNCT
VERB
DET
NOUN
ADP
NOUN
CCONJ
VERB
ADP
PRON
ADV
ADJ
_
ADP
DET
NOUN
None
AUX
ADV
DET
NOUN
ADJ
PUNCT
DET
NOUN
ADJ
None
ADP
VERB
PUNCT
DET
PROPN
VERB
PUNCT
ADP
NOUN
PUNCT
CCONJ
ADP
NOUN
None
DET
PROPN
PUNCT
ADP
NOUN
PUNCT
ADP
NUM
NOUN
ADJ
ADP
NOUN
PUNCT
ADJ
ADP
DET
ADJ
PROPN
None
DET
NUM
NOUN
VERB
DET
NOUN
ADJ
ADP
PRON
CCONJ
D

None
PRON
PRON
ADV
AUX
ADJ
AUX
DET
NOUN
ADP
DET
NOUN
CCONJ
DET
NOUN
_
ADP
DET
NOUN
PUNCT
PUNCT
VERB
None
ADV
PUNCT
PROPN
PUNCT
DET
NOUN
ADP
NUM
NOUN
ADP
NOUN
ADJ
CCONJ
ADJ
PUNCT
VERB
ADP
DET
NOUN
None
PUNCT
PRON
ADV
AUX
DET
NOUN
ADJ
ADP
DET
PRON
None
ADP
SCONJ
ADV
PRON
VERB
ADV
PRON
VERB
PRON
AUX
VERB
None
AUX
ADJ
CCONJ
ADV
VERB
NOUN
None
DET
NOUN
AUX
SCONJ
SCONJ
ADV
PRON
VERB
ADV
PRON
VERB
PRON
None
PUNCT
PUNCT
PRON
AUX
VERB
None
NOUN
PUNCT
DET
NOUN
NOUN
_
ADP
DET
PROPN
ADP
PROPN
ADP
NUM
NOUN
PRON
AUX
ADP
VERB
ADP
NOUN
PUNCT
NOUN
PUNCT
DET
NOUN
ADP
VERB
DET
NOUN
ADJ
PRON
PRON
VERB
ADP
DET
NOUN
CCONJ
DET
NOUN
PRON
ADV
AUX
VERB
ADP
DET
NOUN
None
DET
NOUN
_
ADP
DET
NOUN
_
ADP
DET
NOUN
NOUN
VERB
SCONJ
ADP
DET
NOUN
ADP
DET
NOUN
AUX
VERB
DET
DET
NOUN
ADP
DET
NOUN
PRON
AUX
VERB
DET
NOUN
ADJ
PUNCT
SCONJ
PRON
VERB
SCONJ
PUNCT
DET
NOUN
ADP
DET
NOUN
PRON
VERB
ADV
PUNCT
None
PROPN
PROPN
PUNCT
NOUN
NOUN
ADJ
ADP
PROPN
PUNCT
VERB
ADP
PROPN
VERB
DET
NOUN
CCONJ
AUX
DET
NOUN
ADP
DET
NOUN
ADP
NOUN
PRON


NUM
NOUN
ADP
NOUN
AUX
ADJ
ADV
NOUN
ADP
DET
NOUN
ADJ
ADP
DET
NOUN
PUNCT
ADP
DET
PRON
VERB
NUM
NOUN
ADJ
PUNCT
DET
ADJ
NOUN
ADJ
ADJ
CCONJ
NUM
ADJ
NOUN
ADJ
None
ADP
DET
NUM
NOUN
ADJ
ADP
NOUN
ADP
NUM
NOUN
ADP
VERB
_
ADP
DET
NOUN
NOUN
NUM
ADP
DET
NOUN
ADJ
PUNCT
DET
PRON
VERB
ADJ
NOUN
ADJ
AUX
PROPN
PROPN
None
ADP
NUM
NOUN
CCONJ
ADJ
ADV
ADV
ADP
DET
NOUN
PUNCT
DET
NOUN
_
ADP
DET
PROPN
PROPN
PROPN
PROPN
PUNCT
PROPN
PUNCT
CCONJ
NUM
NOUN
NOUN
ADP
DET
PROPN
AUX
AUX
VERB
ADV
ADP
DET
NOUN
ADP
AUX
VERB
DET
NOUN
ADP
NOUN
ADJ
None
PROPN
PRON
VERB
ADP
PROPN
PROPN
PUNCT
ADP
NUM
NOUN
PUNCT
_
ADP
DET
ADJ
PROPN
ADP
DET
PROPN
PROPN
PUNCT
PROPN
PUNCT
PUNCT
CCONJ
ADP
PROPN
PROPN
PUNCT
_
ADP
DET
ADJ
PROPN
PROPN
PROPN
PUNCT
PROPN
PUNCT
ADJ
PUNCT
PUNCT
PRON
ADV
PRON
VERB
ADP
DET
NOUN
ADP
VERB
PUNCT
ADV
ADP
DET
NOUN
ADP
DET
NOUN
PUNCT
_
ADP
DET
NOUN
ADJ
PUNCT
SCONJ
DET
NUM
NOUN
PRON
VERB
DET
NOUN
ADP
NOUN
ADP
DET
ADJ
ADJ
NOUN
None
DET
NUM
NOUN
ADP
NOUN
ADJ
AUX
ADJ
ADP
NOUN
ADJ
ADP
NOUN
ADP
DET
NUM
NOUN
ADJ
PUNCT
CC

None
PUNCT
SCONJ
PRON
VERB
ADP
PUNCT
NOUN
PUNCT
ADV
VERB
PRON
PUNCT
SCONJ
ADP
DET
NOUN
PRON
ADP
PRON
AUX
ADJ
NOUN
CCONJ
AUX
SCONJ
VERB
ADP
ADP
PRON
PUNCT
PUNCT
VERB
None
PROPN
PUNCT
ADP
DET
NOUN
PUNCT
ADV
VERB
SCONJ
SCONJ
DET
NOUN
VERB
AUX
NOUN
PUNCT
AUX
VERB
ADP
PRON
PUNCT
PUNCT
ADP
PRON
PRON
ADV
VERB
NOUN
ADP
PRON
None
PUNCT
ADV
ADV
VERB
NUM
CCONJ
DET
VERB
PRON
VERB
ADV
ADV
ADJ
PUNCT
ADV
SCONJ
VERB
ADV
DET
PRON
VERB
PUNCT
PUNCT
VERB
None
DET
ADJ
NOUN
ADJ
PUNCT
DET
ADJ
PROPN
PROPN
PUNCT
VERB
VERB
DET
NOUN
ADJ
CCONJ
DET
NOUN
_
ADP
DET
NOUN
ADJ
ADP
NOUN
VERB
DET
NOUN
ADP
DET
NOUN
ADJ
ADP
NOUN
ADJ
CCONJ
NOUN
ADP
NOUN
None
ADP
NOUN
ADP
DET
NOUN
_
ADP
DET
NOUN
ADJ
PUNCT
PROPN
PRON
VERB
ADV
ADP
DET
ADJ
NOUN
ADP
DET
NOUN
PRON
VERB
DET
NOUN
_
ADP
DET
NOUN
ADJ
ADP
DET
NOUN
ADP
NOUN
ADJ
ADJ
DET
NOUN
ADP
NOUN
ADP
NUM
NOUN
ADP
NOUN
None
ADP
VERB
DET
ADJ
NOUN
PUNCT
DET
NOUN
ADP
PROPN
PUNCT
PROPN
PROPN
PUNCT
PRON
VERB
ADV
ADP
VERB
SCONJ
DET
NOUN
PRON
VERB
DET
NOUN
ADJ
ADP
DET
NUM
ADP
NUM
_
ADP
DET


None
ADP
NOUN
ADP
PROPN
PROPN
PUNCT
PRON
ADP
DET
NOUN
_
ADP
DET
NOUN
PROPN
PUNCT
PROPN
VERB
SCONJ
PUNCT
VERB
ADP
NOUN
PUNCT
PRON
VERB
VERB
DET
NOUN
ADP
ADJ
PUNCT
SCONJ
AUX
DET
NOUN
DET
PROPN
PUNCT
CCONJ
ADV
AUX
ADP
DET
ADJ
NOUN
ADP
ADV
ADP
NUM
NOUN
ADP
NOUN
PUNCT
None
ADP
DET
NOUN
ADJ
ADP
DET
NOUN
ADP
DET
ADJ
NOUN
ADP
PROPN
ADP
DET
NOUN
ADJ
_
ADP
DET
NOUN
ADP
ADJ
NOUN
PUNCT
ADV
VERB
ADP
DET
NOUN
PUNCT
SCONJ
SCONJ
PRON
ADV
VERB
PUNCT
SCONJ
PRON
VERB
DET
ADJ
NOUN
PUNCT
AUX
SCONJ
_
VERB
PRON
PUNCT
PUNCT
VERB
PROPN
None
PROPN
AUX
ADP
NOUN
ADP
NOUN
ADP
ADJ
PROPN
_
ADP
DET
NOUN
NUM
ADP
DET
NOUN
PUNCT
ADP
DET
PRON
AUX
VERB
DET
NOUN
ADP
NOUN
ADJ
ADJ
ADJ
None
ADP
ADV
ADV
PRON
AUX
VERB
NUM
ADP
DET
NOUN
ADP
PROPN
PROPN
PROPN
CCONJ
PROPN
PROPN
PUNCT
CCONJ
ADV
AUX
VERB
DET
ADJ
SCONJ
PROPN
PROPN
None
NOUN
ADP
NOUN
ADP
NOUN
ADP
DET
PROPN
ADP
PROPN
ADP
NOUN
ADJ
ADP
DET
PROPN
PROPN
ADP
PROPN
ADP
NUM
NOUN
PUNCT
NOUN
ADJ
None
NOUN
ADJ
ADP
DET
DET
NOUN
CCONJ
DET
NOUN
None
PROPN
PRON
VERB
DET
NOUN
ADP
DET


None
ADP
DET
NOUN
PRON
ADV
VERB
DET
NOUN
ADJ
ADP
DET
NOUN
ADP
PROPN
_
ADP
DET
PROPN
PUNCT
PROPN
VERB
ADP
DET
NOUN
ADP
SCONJ
ADV
VERB
PUNCT
PRON
ADP
VERB
DET
NOUN
ADP
NUM
NOUN
PUNCT
CCONJ
PRON
VERB
ADJ
ADP
SCONJ
PRON
ADJ
PUNCT
PRON
AUX
VERB
DET
NOUN
_
ADP
DET
PROPN
PROPN
CCONJ
_
ADP
DET
PROPN
ADV
PRON
AUX
VERB
PUNCT
None
DET
NOUN
ADJ
VERB
PART
NOUN
DET
NOUN
ADP
SCONJ
DET
PROPN
ADV
VERB
ADP
DET
NOUN
ADP
VERB
DET
NOUN
ADJ
ADP
DET
NOUN
ADP
PROPN
PRON
DET
ADJ
NOUN
PUNCT
ADP
NOUN
ADP
DET
NOUN
CCONJ
NOUN
ADP
DET
NOUN
PUNCT
VERB
ADP
PROPN
ADP
DET
PROPN
None
NOUN
ADP
DET
NOUN
PRON
DET
NOUN
AUX
VERB
ADP
VERB
DET
ADJ
NOUN
ADP
PROPN
PUNCT
PROPN
VERB
PUNCT
PUNCT
PRON
PRON
VERB
CCONJ
VERB
DET
NOUN
ADJ
ADP
_
VERB
PRON
PUNCT
None
DET
NOUN
_
ADP
DET
PROPN
PUNCT
PROPN
PROPN
PUNCT
AUX
VERB
DET
NOUN
_
ADP
DET
ADJ
NOUN
ADP
ADJ
NOUN
None
ADP
DET
NOUN
ADP
NOUN
ADP
PROPN
PRON
VERB
PUNCT
ADP
ADJ
NOUN
PUNCT
DET
ADP
PROPN
PROPN
CCONJ
PROPN
PUNCT
CCONJ
SCONJ
PROPN
PUNCT
PROPN
CCONJ
PUNCT
ADV
PUNCT
PROPN
PUNCT
AUX

None
DET
NOUN
VERB
ADP
DET
NOUN
DET
PROPN
_
ADP
DET
ADJ
NOUN
ADP
NOUN
_
ADP
DET
NOUN
PUNCT
DET
ADP
PROPN
PUNCT
PRON
VERB
ADV
NUM
NOUN
ADP
DET
ADV
ADP
NUM
NOUN
ADP
NOUN
PRON
VERB
ADP
PROPN
ADP
DET
NOUN
_
ADP
DET
PROPN
ADP
NOUN
None
DET
PROPN
ADP
DET
NOUN
ADP
DET
DET
NOUN
_
ADP
DET
NOUN
PUNCT
PROPN
PUNCT
ADV
VERB
ADP
NOUN
ADP
DET
NOUN
ADJ
PUNCT
PRON
ADJ
SCONJ
DET
ADP
PROPN
PUNCT
ADP
DET
NOUN
PUNCT
PRON
ADP
PROPN
VERB
DET
NOUN
ADP
DET
NUM
ADJ
NOUN
ADJ
ADP
PROPN
None
DET
NOUN
ADJ
VERB
DET
NOUN
ADJ
ADP
DET
NOUN
_
ADP
DET
NOUN
PUNCT
ADJ
ADP
VERB
NOUN
ADP
NUM
ADP
DET
NUM
NOUN
_
ADP
DET
NOUN
PUNCT
NOUN
ADP
NUM
ADP
DET
NUM
NOUN
PUNCT
NUM
NOUN
ADJ
CCONJ
NUM
NOUN
ADJ
None
ADV
ADP
NUM
NOUN
ADP
DET
NUM
NOUN
ADP
NOUN
ADJ
ADP
VERB
VERB
ADP
DET
NOUN
PUNCT
PRON
PRON
VERB
DET
NOUN
ADJ
ADP
DET
NOUN
ADJ
_
ADP
DET
NUM
ADP
NUM
ADP
DET
NOUN
ADP
NOUN
ADJ
None
ADP
DET
NOUN
ADJ
ADP
DET
NOUN
ADJ
PUNCT
DET
NOUN
ADJ
_
ADP
DET
NUM
_
ADP
DET
NUM
ADP
NUM
ADP
DET
NUM
NOUN
PRON
AUX
VERB
ADP
DET
NOUN
DET
PROPN
PROPN
CCO

PROPN
VERB
ADP
DET
NOUN
ADP
DET
NOUN
ADP
NUM
NOUN
ADP
DET
NOUN
ADJ
ADJ
None
SCONJ
DET
NOUN
VERB
ADV
DET
NOUN
ADP
DET
ADJ
NOUN
PUNCT
ADP
DET
NOUN
ADP
DET
NOUN
_
ADP
DET
PROPN
ADP
DET
PROPN
PUNCT
PROPN
PUNCT
PRON
VERB
ADV
NUM
NOUN
ADP
NOUN
None
DET
ADJ
ADP
VERB
ADP
DET
NOUN
AUX
DET
ADJ
NOUN
_
ADP
DET
PROPN
PROPN
PROPN
PUNCT
PRON
VERB
ADV
DET
NOUN
None
PROPN
PUNCT
PRON
AUX
AUX
NOUN
ADJ
ADP
DET
NOUN
_
ADP
DET
ADJ
NOUN
ADJ
PUNCT
DET
ADV
ADJ
PROPN
PROPN
PUNCT
NOUN
ADP
DET
DET
NOUN
PUNCT
PUNCT
VERB
ADV
VERB
ADP
DET
NOUN
ADP
NOUN
None
PUNCT
VERB
SCONJ
ADP
DET
NOUN
ADJ
PRON
PRON
VERB
VERB
ADP
DET
PRON
SCONJ
PRON
VERB
SCONJ
PRON
ADV
VERB
DET
NOUN
PRON
VERB
PUNCT
PUNCT
VERB
PROPN
None
ADP
DET
NOUN
PUNCT
DET
ADJ
NOUN
ADP
NOUN
PUNCT
PROPN
ADP
PROPN
PUNCT
PRON
VERB
ADP
PROPN
SCONJ
PUNCT
DET
NOUN
ADP
NOUN
CCONJ
NOUN
PUNCT
PUNCT
PRON
VERB
ADJ
ADP
SCONJ
AUX
VERB
PUNCT
ADP
DET
NOUN
_
ADP
DET
NOUN
PUNCT
PRON
PROPN
PUNCT
None
ADP
NOUN
PUNCT
ADV
PRON
VERB
SCONJ
DET
ADJ
ADJ
NOUN
ADJ
PROPN
PROPN
VERB
ADP
DET

DET
NOUN
ADP
PROPN
PROPN
SCONJ
NOUN
_
ADP
DET
PROPN
ADV
AUX
ADJ
CCONJ
DET
NOUN
ADJ
VERB
ADP
VERB
PUNCT
DET
NOUN
ADP
DET
NOUN
_
ADP
DET
PROPN
PUNCT
NUM
PUNCT
PUNCT
CCONJ
ADV
VERB
NUM
NOUN
ADP
PRON
PRON
VERB
ADP
PROPN
PRON
PRON
VERB
_
ADP
DET
ADJ
NOUN
ADP
DET
NOUN
None
AUX
DET
ADJ
NOUN
ADJ
_
ADP
DET
PROPN
CCONJ
DET
ADJ
PRON
VERB
DET
NOUN
PRON
VERB
PROPN
PROPN
DET
NOUN
ADP
DET
NOUN
PROPN
None
DET
PROPN
PROPN
ADV
PRON
VERB
_
ADP
DET
None
DET
PROPN
PROPN
VERB
ADJ
ADP
PROPN
PROPN
NOUN
_
ADP
DET
PROPN
PUNCT
NUM
PUNCT
CCONJ
VERB
ADP
_
VERB
PRON
_
ADP
DET
NOUN
PRON
VERB
ADP
DET
PROPN
PROPN
None
DET
NOUN
PRON
VERB
PROPN
PROPN
ADV
ADV
VERB
PRON
PRON
AUX
VERB
ADP
NOUN
ADP
DET
ADJ
PROPN
None
DET
NOUN
ADJ
ADV
AUX
VERB
NUM
NOUN
ADV
_
ADP
DET
NOUN
PROPN
ADP
DET
ADJ
ADP
NUM
NOUN
None
ADJ
NOUN
_
ADP
DET
PROPN
ADP
PROPN
PROPN
ADP
None
DET
PROPN
PUNCT
NOUN
ADP
DET
NOUN
ADP
PROPN
PUNCT
VERB
DET
NOUN
ADP
NOUN
PUNCT
NUM
PUNCT
ADP
NOUN
_
ADP
DET
PROPN
PUNCT
PRON
ADV
AUX
VERB
PRON
ADP
DET
NUM
NOUN
PUNCT
NUM
AD

NOUN
ADJ
ADJ
ADP
DET
NOUN
ADP
DET
PROPN
PUNCT
VERB
ADP
DET
NOUN
SCONJ
PUNCT
VERB
NOUN
ADP
DET
NOUN
ADP
DET
NOUN
PUNCT
CCONJ
ADV
ADP
NOUN
ADP
DET
NOUN
PUNCT
CCONJ
SCONJ
PRON
VERB
ADP
DET
NOUN
ADP
DET
NOUN
ADP
DET
NOUN
ADJ
ADP
NOUN
CCONJ
ADP
NOUN
ADP
DET
NOUN
PUNCT
ADP
VERB
SCONJ
DET
NOUN
ADP
ADJ
NOUN
VERB
ADP
DET
NOUN
ADJ
PUNCT
None
DET
NOUN
VERB
DET
NOUN
_
ADP
DET
PROPN
ADP
DET
NOUN
ADJ
CCONJ
ADP
DET
NOUN
_
ADP
DET
NOUN
ADP
NOUN
PRON
AUX
VERB
DET
NOUN
ADP
NOUN
PUNCT
ADV
PUNCT
ADJ
ADP
DET
NOUN
ADJ
PUNCT
_
VERB
PRON
ADP
DET
NOUN
ADP
PUNCT
DET
NOUN
ADP
ADP
PRON
NUM
ADP
NUM
ADP
DET
NOUN
ADP
NOUN
PUNCT
None
DET
PROPN
ADP
PROPN
VERB
DET
NOUN
ADP
DET
PROPN
ADP
NUM
ADP
NOUN
PUNCT
ADP
PUNCT
NOUN
PUNCT
NOUN
CCONJ
NOUN
ADP
DET
NOUN
ADP
NOUN
ADP
NOUN
PUNCT
PUNCT
VERB
DET
NOUN
NUM
NOUN
ADP
NOUN
ADP
DET
NOUN
CCONJ
NOUN
PRON
PUNCT
AUX
VERB
ADP
DET
NOUN
ADP
DET
NOUN
ADP
VERB
ADP
DET
NOUN
PUNCT
PUNCT
CCONJ
ADP
VERB
ADP
DET
NOUN
ADP
NOUN
ADJ
None
ADV
PUNCT
ADV
PRON
VERB
DET
NOUN
ADP
NOUN
_
ADP
DET
NOUN


None
DET
NOUN
ADP
DET
ADJ
NOUN
CCONJ
DET
ADJ
PROPN
ADP
NOUN
_
ADP
DET
NOUN
ADP
NOUN
CCONJ
NOUN
VERB
ADV
CCONJ
AUX
ADV
ADJ
None
DET
NOUN
PUNCT
SCONJ
PROPN
PRON
AUX
VERB
ADP
PROPN
PUNCT
PRON
VERB
ADP
DET
NOUN
CCONJ
VERB
DET
NOUN
None
DET
NOUN
PRON
VERB
ADP
DET
NOUN
None
VERB
ADP
NOUN
DET
ADJ
NOUN
CCONJ
DET
NOUN
ADP
DET
NOUN
ADP
DET
NOUN
AUX
VERB
ADP
ADV
ADP
DET
NOUN
None
ADP
DET
NOUN
ADP
DET
NOUN
_
ADP
DET
NOUN
PUNCT
PROPN
PUNCT
PROPN
PROPN
PUNCT
VERB
ADP
NOUN
ADP
PROPN
PUNCT
PRON
AUX
ADJ
PUNCT
CCONJ
VERB
DET
ADJ
NOUN
PUNCT
PRON
PRON
VERB
VERB
ADV
SCONJ
VERB
ADV
ADV
CCONJ
ADV
AUX
PUNCT
ADP
NOUN
PUNCT
ADJ
None
DET
NOUN
VERB
NOUN
ADP
NUM
NOUN
ADJ
CCONJ
DET
NOUN
VERB
DET
NOUN
ADJ
None
ADP
DET
ADJ
NOUN
PUNCT
SCONJ
ADV
PRON
AUX
VERB
ADV
PUNCT
DET
NOUN
VERB
ADJ
DET
NOUN
ADJ
CCONJ
DET
PRON
PUNCT
DET
NOUN
None
SCONJ
PROPN
PRON
AUX
DET
NOUN
ADP
DET
NOUN
ADP
NOUN
CCONJ
NOUN
PUNCT
PRON
VERB
ADP
DET
NUM
ADP
NOUN
ADP
DET
PROPN
PROPN
ADP
PROPN
PROPN
PUNCT
ADP
DET
PROPN
ADP
PROPN
None
DET
VERB
ADJ
CCON

VERB
ADV
DET
NOUN
ADP
PROPN
ADP
DET
NOUN
ADV
SCONJ
ADP
DET
NUM
NOUN
PRON
AUX
VERB
_
ADP
DET
PROPN
PUNCT
NUM
_
ADP
DET
NOUN
ADJ
CCONJ
NUM
_
ADP
DET
ADJ
PUNCT
ADV
AUX
VERB
NUM
NOUN
PUNCT
AUX
VERB
NUM
CCONJ
AUX
VERB
NUM
NOUN
None
PROPN
VERB
NUM
NOUN
ADP
PROPN
ADP
NOUN
ADJ
None
DET
NOUN
ADJ
ADJ
ADP
PROPN
PROPN
PUNCT
PROPN
PROPN
CCONJ
PROPN
PROPN
VERB
ADP
ADJ
NOUN
ADP
DET
NOUN
ADP
NOUN
ADP
DET
PROPN
ADP
NOUN
ADJ
PRON
PRON
VERB
ADP
PROPN
PUNCT
PROPN
PUNCT
PUNCT
PRON
PRON
PRON
VERB
NUM
NOUN
PUNCT
DET
NOUN
ADJ
PUNCT
ADP
DET
NOUN
ADJ
ADP
DET
PROPN
ADP
PROPN
None
PROPN
VERB
DET
NOUN
ADP
VERB
ADP
DET
NOUN
CCONJ
VERB
ADP
DET
PROPN
_
ADP
DET
VERB
ADP
DET
ADJ
NOUN
PUNCT
ADV
ADV
ADP
DET
NUM
ADJ
NOUN
ADJ
PUNCT
PROPN
PUNCT
PROPN
CCONJ
PROPN
None
NUM
NOUN
ADP
DET
PROPN
None
DET
NOUN
ADP
NOUN
ADJ
CCONJ
DET
NOUN
VERB
SCONJ
VERB
ADV
ADP
DET
NUM
NOUN
ADJ
PRON
VERB
ADP
DET
NOUN
_
ADP
DET
PROPN
ADJ
ADP
NOUN
ADP
ADV
ADP
NUM
NOUN
None
DET
NOUN
ADP
DET
NOUN
ADP
PROPN
PRON
AUX
VERB
DET
ADJ
NOUN
PUNCT
SCONJ
ADV
AD

None
DET
ADJ
NOUN
PUNCT
PUNCT
DET
PROPN
ADP
DET
PROPN
_
ADP
DET
NOUN
PUNCT
PUNCT
CCONJ
ADJ
NOUN
PUNCT
ADP
DET
ADJ
NOUN
ADP
NOUN
CCONJ
NOUN
PUNCT
AUX
VERB
DET
NOUN
ADP
PROPN
PRON
ADV
PUNCT
ADP
DET
ADJ
NOUN
PUNCT
VERB
AUX
_
ADP
DET
NOUN
ADP
DET
ADJ
NOUN
PUNCT
NOUN
_
ADP
DET
NOUN
PROPN
PROPN
PUNCT
NOUN
PUNCT
NOUN
CCONJ
NOUN
None
ADP
DET
DET
NOUN
PUNCT
NOUN
CCONJ
NOUN
ADP
DET
NOUN
ADP
DET
PRON
VERB
ADP
DET
PROPN
CCONJ
ADP
DET
PROPN
PUNCT
DET
NOUN
PROPN
ADV
PRON
AUX
VERB
VERB
ADP
PROPN
PUNCT
ADP
PRON
PRON
AUX
VERB
DET
NOUN
_
ADP
DET
NOUN
ADJ
None
ADP
DET
NOUN
ADJ
ADP
DET
ADJ
NOUN
PUNCT
PROPN
AUX
VERB
DET
NOUN
None
DET
NOUN
PRON
VERB
ADV
DET
NOUN
ADJ
SCONJ
PRON
PUNCT
PROPN
PROPN
PUNCT
PRON
AUX
VERB
DET
ADJ
NOUN
PUNCT
PUNCT
VERB
CCONJ
VERB
PUNCT
ADV
VERB
DET
NOUN
ADP
NOUN
PUNCT
ADP
DET
NOUN
ADJ
PUNCT
None
NUM
NOUN
CCONJ
DET
NOUN
ADP
NUM
NOUN
PUNCT
VERB
DET
NOUN
_
ADP
DET
ADJ
PROPN
None
ADJ
CCONJ
ADJ
PUNCT
PROPN
ADV
VERB
ADP
VERB
ADP
PRON
ADP
PRON
PRON
VERB
PUNCT
CCONJ
PRON
ADP
PRON
PRON
VERB


DET
NOUN
ADJ
VERB
DET
NOUN
ADP
PROPN
PUNCT
ADJ
_
ADP
DET
NOUN
PUNCT
None
PROPN
VERB
ADV
DET
NOUN
ADP
PUNCT
VERB
PUNCT
ADP
PROPN
ADP
PUNCT
NOUN
_
ADP
DET
NOUN
ADJ
PUNCT
None
VERB
DET
NOUN
_
ADP
DET
NOUN
ADP
DET
NOUN
PROPN
PROPN
_
ADP
DET
NUM
ADP
NOUN
ADP
NUM
None
DET
NOUN
VERB
PUNCT
PUNCT
NOUN
ADP
NOUN
AUX
DET
PRON
VERB
VERB
PRON
ADP
DET
NOUN
ADV
ADJ
None
DET
ADP
PROPN
VERB
ADP
NOUN
VERB
DET
NOUN
ADP
DET
NOUN
ADV
SCONJ
DET
DET
NOUN
ADJ
_
ADP
DET
ADJ
NOUN
_
ADP
DET
PROPN
PRON
PUNCT
SCONJ
VERB
ADP
PRON
PUNCT
VERB
NUM
NOUN
CCONJ
PRON
VERB
PROPN
PROPN
PUNCT
None
SCONJ
DET
NOUN
ADP
DET
PROPN
ADP
PROPN
AUX
VERB
ADV
ADP
PROPN
PROPN
PUNCT
ADP
PROPN
PUNCT
PUNCT
DET
NOUN
ADP
PROPN
PROPN
AUX
DET
NOUN
None
VERB
ADP
PROPN
PROPN
_
ADP
DET
PROPN
PROPN
DET
NUM
ADP
NOUN
None
PROPN
PUNCT
PROPN
CCONJ
PROPN
AUX
DET
NOUN
_
ADP
DET
NOUN
ADJ
PRON
PROPN
NUM
PROPN
VERB
DET
NOUN
PUNCT
NOUN
PUNCT
PUNCT
ADP
NOUN
ADP
DET
NOUN
ADJ
None
DET
NOUN
VERB
DET
NOUN
PRON
VERB
DET
PROPN
ADP
PROPN
ADP
DET
NOUN
None
ADP
DET
NO

None
ADP
PRON
PUNCT
SCONJ
VERB
PROPN
PROPN
ADP
PROPN
PROPN
PUNCT
ADV
PRON
VERB
DET
NOUN
ADP
NOUN
ADJ
ADP
PROPN
ADP
NOUN
PUNCT
NOUN
CCONJ
SCONJ
PRON
AUX
VERB
None
DET
NOUN
ADP
DET
NOUN
ADJ
VERB
PUNCT
ADJ
PUNCT
SCONJ
PRON
VERB
DET
NOUN
ADP
DET
PROPN
CCONJ
PROPN
PUNCT
NOUN
ADP
SCONJ
VERB
SCONJ
DET
NUM
NOUN
PUNCT
PRON
VERB
ADP
DET
ADJ
NOUN
PUNCT
None
DET
NOUN
VERB
ADV
ADP
DET
PRON
VERB
DET
NOUN
ADP
DET
NOUN
NOUN
_
ADP
DET
PROPN
ADJ
CCONJ
_
ADP
DET
PROPN
PUNCT
PRON
VERB
DET
NOUN
ADJ
ADP
DET
NOUN
ADP
DET
NOUN
PUNCT
ADP
DET
NOUN
ADP
VERB
DET
NOUN
ADJ
NOUN
ADP
DET
NOUN
None
ADP
DET
ADJ
NOUN
ADP
NOUN
_
ADP
DET
PROPN
CCONJ
DET
PROPN
PRON
VERB
NOUN
ADV
PUNCT
DET
NOUN
ADP
PROPN
ADP
PROPN
PUNCT
PROPN
PROPN
PUNCT
CCONJ
DET
NOUN
_
ADP
DET
PROPN
VERB
NOUN
ADJ
ADP
ADJ
NOUN
ADP
NOUN
PUNCT
ADP
DET
PRON
PRON
VERB
DET
NOUN
ADP
DET
NOUN
ADJ
None
ADP
PRON
ADJ
NUM
NOUN
ADP
NOUN
PUNCT
PROPN
PROPN
AUX
VERB
ADV
CCONJ
PRON
PRON
AUX
VERB
ADJ
None
DET
ADJ
NOUN
AUX
VERB
DET
NOUN
PRON
VERB
_
ADP
DET
VERB
_
ADP
DET
NO

None
NUM
NOUN
ADV
PUNCT
DET
NOUN
ADJ
VERB
ADP
DET
NOUN
ADP
DET
PROPN
DET
NOUN
CCONJ
VERB
NUM
NOUN
ADP
NOUN
None
VERB
DET
NOUN
PRON
VERB
DET
NOUN
ADP
PROPN
PROPN
PRON
VERB
NOUN
ADP
DET
NOUN
ADJ
None
DET
NOUN
VERB
ADP
DET
NOUN
SCONJ
VERB
ADP
DET
NOUN
ADP
DET
PROPN
SCONJ
VERB
ADJ
ADP
DET
NOUN
NOUN
None
SCONJ
AUX
VERB
_
ADP
DET
NOUN
VERB
ADP
DET
NOUN
SCONJ
DET
NOUN
ADJ
PRON
VERB
ADJ
ADP
PRON
ADP
DET
NOUN
_
ADP
DET
NOUN
AUX
ADJ
PUNCT
AUX
ADP
NOUN
None
ADV
AUX
ADV
ADJ
SCONJ
VERB
PRON
ADV
SCONJ
DET
NOUN
_
ADP
DET
NOUN
ADV
ADV
AUX
NOUN
ADP
NOUN
None
SCONJ
ADV
PUNCT
VERB
ADP
NOUN
SCONJ
DET
NOUN
AUX
NOUN
ADJ
CCONJ
PUNCT
ADP
NOUN
PUNCT
ADV
ADJ
None
ADP
NOUN
SCONJ
DET
NOUN
ADP
DET
NOUN
CCONJ
_
ADP
DET
NOUN
PRON
AUX
VERB
PUNCT
DET
NOUN
ADP
DET
NOUN
AUX
VERB
DET
NOUN
ADJ
PUNCT
ADP
PRON
ADP
PROPN
None
PRON
AUX
VERB
DET
NOUN
PUNCT
PRON
AUX
ADJ
ADP
DET
NOUN
ADP
NOUN
ADJ
ADP
NOUN
ADJ
PRON
ADV
AUX
VERB
DET
NOUN
ADV
ADJ
SCONJ
ADP
DET
NOUN
None
NOUN
SCONJ
PROPN
CCONJ
PROPN
PROPN
PUNCT
ADV
ADJ
ADP
DET
DET
N

DET
SYM
None
PROPN
ADV
VERB
DET
ADJ
NOUN
ADJ
ADP
DET
NOUN
PUNCT
ADP
PRON
PRON
PRON
VERB
DET
SYM
ADP
DET
NOUN
None
PUNCT
AUX
ADJ
PUNCT
PUNCT
VERB
None
DET
NOUN
PRON
DET
ADJ
AUX
VERB
VERB
DET
SYM
CCONJ
SYM
ADP
DET
NOUN
PUNCT
ADP
DET
NOUN
None
VERB
SCONJ
DET
PROPN
PRON
VERB
ADP
VERB
DET
NOUN
_
ADP
DET
SYM
PUNCT
PRON
PRON
PUNCT
ADP
DET
NOUN
PUNCT
ADV
VERB
None
PUNCT
AUX
DET
NOUN
ADJ
PUNCT
PUNCT
VERB
PUNCT
CCONJ
VERB
DET
NOUN
ADP
DET
NOUN
ADP
PROPN
ADP
PROPN
None
PROPN
VERB
DET
NOUN
ADJ
ADP
PROPN
CCONJ
PRON
VERB
ADP
VERB
DET
NOUN
ADP
VERB
DET
NOUN
None
PUNCT
PRON
PRON
VERB
PUNCT
PUNCT
VERB
None
DET
NOUN
VERB
SCONJ
PUNCT
DET
NOUN
ADP
DET
NOUN
VERB
ADP
DET
NOUN
ADP
DET
NOUN
ADJ
PUNCT
CCONJ
VERB
ADP
DET
NOUN
SCONJ
AUX
VERB
ADP
DET
PUNCT
NOUN
CCONJ
NOUN
PUNCT
None
PROPN
VERB
DET
NOUN
ADJ
ADP
PROPN
ADP
DET
NOUN
ADP
DET
NOUN
ADJ
_
ADP
DET
NOUN
ADJ
PUNCT
PRON
AUX
VERB
DET
NOUN
ADP
DET
NOUN
ADP
NOUN
ADJ
None
VERB
SCONJ
ADP
DET
NOUN
ADP
DET
ADJ
NOUN
AUX
PUNCT
DET
NOUN
PUNCT
ADP
NOUN
PRON
VERB
_
ADP


None
NOUN
ADP
NOUN
None
PROPN
VERB
SCONJ
DET
NOUN
VERB
DET
NOUN
ADP
NOUN
ADP
NOUN
ADP
DET
NOUN
CCONJ
ADJ
ADP
DET
NOUN
ADP
NOUN
None
DET
NOUN
_
ADP
DET
PROPN
AUX
DET
NOUN
ADJ
_
ADP
DET
NOUN
ADJ
ADP
PROPN
PUNCT
PROPN
PROPN
CCONJ
PROPN
None
DET
NOUN
ADV
VERB
ADJ
VERB
DET
NOUN
ADP
PROPN
CCONJ
PROPN
PUNCT
ADP
DET
NOUN
ADP
VERB
NOUN
ADP
DET
NOUN
ADJ
None
DET
NOUN
PUNCT
ADJ
ADP
NUM
NOUN
PUNCT
VERB
ADV
DET
NOUN
PRON
ADV
VERB
SCONJ
DET
NOUN
ADP
PROPN
AUX
ADJ
None
PUNCT
DET
NOUN
VERB
SCONJ
PROPN
VERB
ADP
DET
NOUN
ADP
NOUN
PUNCT
PUNCT
VERB
PROPN
None
DET
NOUN
ADP
DET
NOUN
PRON
VERB
ADP
NOUN
ADJ
PRON
VERB
DET
NOUN
ADJ
ADP
DET
NOUN
CCONJ
DET
NOUN
ADP
NOUN
CCONJ
NOUN
ADP
DET
NOUN
None
ADP
DET
PROPN
CCONJ
DET
NOUN
_
ADP
DET
PROPN
PROPN
AUX
NUM
NOUN
ADJ
ADP
DET
NOUN
PUNCT
PUNCT
ADP
DET
NOUN
ADP
PRON
AUX
ADJ
PUNCT
PUNCT
CCONJ
DET
NOUN
CCONJ
NOUN
None
ADP
DET
NOUN
ADP
DET
NOUN
PRON
VERB
DET
ADJ
NOUN
None
ADP
DET
NOUN
PUNCT
DET
NOUN
CCONJ
NOUN
ADP
NOUN
PRON
PRON
VERB
AUX
_
VERB
PRON
ADP
DET
NOUN
ADP
NOUN

## Entrenamiento del modelo - calculo de probabilidades


* **probabilidades de transición:** Se calcula contando las veces que yo observo esas etiquetas, la actual y la previa, dividida en las veces que yo observo la etiqueta anterior en el corpus, este resultado se define como la probabilidad de que se de una etiqueta dado que ya ocurrio una etiqueta previa. 

$$P(tag|prevtag) = \frac{C(prevtag, tag)}{C(prevtag)}$$

* **probabilidades de emisión:** La probabilidad de que se de una palabra una vez se le asigno una etiqueta. se calcula con el numero de veces que yo veo la palabra con su etiqueta sobre las veces que veo la etiqueta 
 $$P(word|tag) = \frac{C(word|tag)}{C(tag)}$$

In [9]:
transitionProbDict = {}
emissionProbDict = {}

# transition Probabilities

for key in transitionDict.keys():
    tag,prevtag = key.split('|')
    if tagCountDict[prevtag] > 0:
        transitionProbDict[key] = transitionDict[key] / (tagCountDict[prevtag])
    else: 
        print(key)

# Emission Probabilities
for key in emissionDict.keys():
    word,tag = key.split('|')
    if emissionDict[key] > 0:
        emissionProbDict[key] = emissionDict[key] / tagCountDict[tag]
    else: 
        print(key)

In [10]:
sorted(emissionProbDict.items(),key=lambda x: x[1],reverse=True)

[('no|PART', 1.0),
 ('sí|INTJ', 0.8),
 ('y|CCONJ', 0.7771664374140302),
 ('que|SCONJ', 0.6382042253521126),
 ('del|_', 0.5839936608557845),
 ('de|ADP', 0.4614572333685322),
 (',|PUNCT', 0.45316979929913986),
 ('el|DET', 0.3435285341290563),
 ('que|PRON', 0.32481450948062657),
 ('al|_', 0.2765451664025357),
 ('.|PUNCT', 0.2642561325262823),
 ('se|PRON', 0.2485572959604287),
 ('la|DET', 0.23287330598035558),
 ('no|ADV', 0.1848086124401914),
 ("'|SYM", 0.18181818181818182),
 ('es|AUX', 0.16538461538461538),
 ('ha|AUX', 0.15384615384615385),
 ('en|ADP', 0.15252845242285581),
 ('a|ADP', 0.15205913410770855),
 ('"|PUNCT', 0.14319847085058937),
 ('como|SCONJ', 0.13380281690140844),
 ('dos|NUM', 0.11657142857142858),
 ('más|ADV', 0.1034688995215311),
 ('ay|INTJ', 0.1),
 ('no|INTJ', 0.1),
 ('los|DET', 0.09958970533383066),
 ('pero|CCONJ', 0.08321870701513068),
 ('lo|PRON', 0.07914262159934048),
 ('60%|SYM', 0.06818181818181818),
 ('20%|SYM', 0.06818181818181818),
 ('o|CCONJ', 0.0680880330123796

In [11]:
import numpy as np
np.save('transitionHMM.npy', transitionProbDict)
np.save('emissionHMM.npy', emissionProbDict)

**Conclusión** Con esto ya se entrena un modelo Marcoviano Latente, con la matriz de transición y de emisión y por tanto, se puede calcular todas las probabilidades según la regla de bayes.

En grandes rasgos, esto permite determinar, dada una secuencia de palabras cual es la secuencia de etiquetas mas probables que le corresponda, esto bajo un algoritmo de selección que se llama algoritmo de viterbi.

## Etiquetado con HMM

1. **Entrenamiento**: El modelo aprende las probabilidades de emisión y transición
2. **Decodificación**: El modelo calcula la secuencia de etiquetas mas probable con el algoritmo de viterbi.

![](.\funcion.PNG)

## Pipeline del HMM

![](.\pipeline.PNG)

## Probabilidades de Viterbi:

Es un algoritmo que se encarga de asignar una probabilidad de una combinación de cada secuencia de etiquetas gramaticales que pueden pertenecer a una secuencia de palabras, esto se convierte en un espacio de probabilidades, en la cual se selecciona la secuencia con probabilidad mayor para esa secuencia de palabras.

![](.\secuencia.PNG)

Se puede apreciar una secuencia de palabras a las cuales se les asigna una secuencia de combinaciones de posibles etiquetas a las cuales pueda pertenecer cada una. Y a estos caminos son a los que se les asigna un numero probabilistico que identifica cual es el mas adecuado para la secuencia de palabras.

![](.\proviter.PNG)

Se calcula la probabilidad para cada uno de los nodos, esta operación se denota con la letra griega Nu y es igual a el producto de la probabilidad inicial de encontrar esa etiqueta en la primera parte de la secuencia con la probabilidad condicional (emisión) de que dada esa etiqueta (PROP para el ejemplo) se presente la palabra a evaluar de la secuencia o sea esa palabra (CASTILLO para el ejemplo). 

![](.\segundo.PNG)

En el siguiente paso, el algoritmo para calcular la probabilidad en la siguiente palabra de la secuencia, considera todos los posibles caminos que pasan por el nodo para así determinar el camino con mayor probabilidad.

- A la probabilidad obtenida en la secuencia anterior se le multiplica la probabilidad de transacición, es decir, la probabilidad de que se de una categoria DET dado que ya se dio una categoria PROP.
- Tambien se le multiplica la probabilidad de emisión, es decir la probabilidad de que se de una palabra el, dado que se presento una categoria DET.
- El resultado de los dos caminos se compara y se elige el que presenta mayor probabilidad.

$$
\nu_t(j) = max\{\nu_{t-1}(i)*C_{ij}*P(palabra|j)\}
$$


## Carga del modelo HMM previamente entrenado

In [12]:
transitionProbdict = np.load('transitionHMM.npy',allow_pickle='TRUE').item() 
emissionProbdict = np.load('emissionHMM.npy',allow_pickle='TRUE').item()

### Identificar las categorias gramaticales
Para dar continuidad con el algoritmo de viterbi se debe enumerar con una llave unica a las categorias gramaticales, pero para ello se deben hallar los valores unicos de categorias gramaticales

In [13]:
# Identificar las categorias gramaticales 'upos' unicas en el corpus
stateSet = set([w.split('|')[1] for w in list(emissionProbdict.keys())])
stateSet

{'ADJ',
 'ADP',
 'ADV',
 'AUX',
 'CCONJ',
 'DET',
 'INTJ',
 'NOUN',
 'NUM',
 'PART',
 'PRON',
 'PROPN',
 'PUNCT',
 'SCONJ',
 'SYM',
 'VERB',
 '_'}

### Enumeración Categorias
Esto permite relacionar las categorias gramaticales con la columna de la matriz de viterbi

In [14]:
# Enumerar las categorias gramaticales con numeros para asignar a
# las columnas de la matriz, es decir un indice entero que lo relaciona
# con la columna en la matriz de probabilidades de viterbi

tagStateDict = {}
for i,state in enumerate(stateSet):
    tagStateDict[state] = i
tagStateDict

{'VERB': 0,
 'ADP': 1,
 'DET': 2,
 'PRON': 3,
 'NUM': 4,
 'SCONJ': 5,
 'AUX': 6,
 'NOUN': 7,
 '_': 8,
 'CCONJ': 9,
 'INTJ': 10,
 'PUNCT': 11,
 'SYM': 12,
 'PROPN': 13,
 'ADJ': 14,
 'PART': 15,
 'ADV': 16}

### Distribución Inicial de Estados Latentes
Estado inicial es la primera palabra que se puede hallar en un corpus, se debe leer el corpus para identificarlo. la probabilidad es:

$$
\rho_i^{0} = \frac{C(initCategories)}{totalCategories}
$$

In [15]:
from conllu import parse_incr

wordList = []
data_file = open("UD_Spanish-AnCora/es_ancora-ud-dev.conllu", "r", encoding="utf-8")
# Conocer la longitud del corpus
count = 0
initTagStateProb = {} #\rho_i^(o)

# Ciclo para recorrer las listas de tokens
for tokenlist in parse_incr(data_file):
    # Contador de cuantas listas hay
    count += 1
    # Extrae el tag de la primera palabra de la lista
    tag = tokenlist[0]['upos']
    
    # Asigna ese tag al diccionario para contar cuantas veces aparece de
    # Primeras en cada lista
    if tag in initTagStateProb.keys():
        initTagStateProb[tag] += 1
    else:
        initTagStateProb[tag] = 1

# Se toma ese conteo y se divide cada uno por el total de palabras iniciales
for key in initTagStateProb.keys():
    initTagStateProb[key] /= count

initTagStateProb

{'DET': 0.3633615477629988,
 'PROPN': 0.1124546553808948,
 'ADP': 0.15538089480048367,
 'PRON': 0.034461910519951636,
 'SCONJ': 0.02418379685610641,
 'ADV': 0.06287787182587666,
 'PUNCT': 0.07799274486094317,
 'VERB': 0.04353083434099154,
 'ADJ': 0.010882708585247884,
 'CCONJ': 0.03325272067714631,
 'NOUN': 0.02720677146311971,
 '_': 0.009068923821039904,
 'INTJ': 0.0006045949214026602,
 'AUX': 0.022370012091898428,
 'NUM': 0.01995163240628779,
 'SYM': 0.0006045949214026602,
 'PART': 0.0018137847642079807}

In [16]:
# Verificar el total de probabilidad
np.array([initTagStateProb[k] for k in initTagStateProb.keys()]).sum()

1.0

Dada una secuencia de palabras $\{p_1, p_2, \dots, p_n \}$, y un conjunto de categorias gramaticales dadas por la convención `upos`, se considera la matriz de probabilidades de Viterbi así:

$$
\begin{array}{c c}
\begin{array}{c c c c}
\text{ADJ} \\
\text{ADV}\\
\text{PRON} \\
\vdots \\
{}
\end{array} 
&
\left[
\begin{array}{c c c c}
\nu_1(\text{ADJ}) & \nu_2(\text{ADJ}) & \dots  & \nu_n(\text{ADJ})\\
\nu_1(\text{ADV}) & \nu_2(\text{ADV}) & \dots  & \nu_n(\text{ADV})\\ 
\nu_1(\text{PRON}) & \nu_2(\text{PRON}) & \dots  & \nu_n(\text{PRON})\\
\vdots & \vdots & \dots & \vdots \\ \hdashline
p_1 & p_2 & \dots & p_n 
\end{array}
\right] 
\end{array}
$$

Donde las probabilidades de la primera columna (para una categoria $i$) están dadas por: 

$$
\nu_1(i) = \underbrace{\rho_i^{(0)}}_{\text{probabilidad inicial}} \times \underbrace{P(p_1 \vert i)}_{\text{emisión}}
$$

luego, para la segunda columna (dada una categoria $j$) serán: 

$$
\nu_2(j) = \max_i \{ \nu_1(i) \times \underbrace{P(j \vert i)}_{\text{transición}} \times \underbrace{P(p_2 \vert j)}_{\text{emisión}} \}
$$

así, en general las probabilidades para la columna $t$ estarán dadas por: 

$$
\nu_{t}(j) = \max_i \{ \overbrace{\nu_{t-1}(i)}^{\text{estado anterior}} \times \underbrace{P(j \vert i)}_{\text{transición}} \times \underbrace{P(p_t \vert j)}_{\text{emisión}} \}
$$

### Construcción de la Matriz de viterbi
Inicialmente para la implementación del algoritmo de viterbi se debe confirmar la tokenización del texto

In [35]:
from nltk import word_tokenize

def Viterbi_tags(secuencia, transitionProbdict= transitionProbdict,emissionProbdict= emissionProbdict, 
                   tagStateDict= tagStateDict, initTagStateProb= initTagStateProb):
    """
    Secuencia: Secuencia de palabras
    transitionProbdict: Matriz de probabilidad de transición de que dada una etiqueta previa se de una etiqueta siguiente
    emissionProbdict: Probabilidades de emisión de que dada una etiqueta se de cierta palabra
    tagStateDict: Enumerar con indices las categorias gramaticales que se asignaran dentro de la matriz
    initTagStateProb: Estados iniciales de probabilidad. de que una categoria gramatical este a inicio del corpus. 
    """
    #Tokenizar el texto
    seq = word_tokenize(secuencia)
    # Crear la matriz vacia
    viterbiProb = np.zeros((17,len(seq)))
    
    #Inicialización de la primera columna:
    for key in tagStateDict.keys():
        tag_row = tagStateDict[key]
        word_tag = seq[0].lower()+'|'+key
        if word_tag in emissionProbdict.keys():
            # Llenado primera columna
            viterbiProb[tag_row,0] = initTagStateProb[key]*emissionProbdict[word_tag]
            
    # Computo siguientes columnas un sancochooooo
    for col in range(1,len(seq)):
        for key in tagStateDict.keys():
            tag_row = tagStateDict[key]
            word_tag = seq[col].lower()+'|'+key
            if word_tag in emissionProbdict.keys():
                possible_probs = []
                for key2 in tagStateDict.keys():
                    tag_row2 = tagStateDict[key2]
                    tag_prevtag = key+'|'+key2
                    if tag_prevtag in transitionProbdict.keys():
                        if viterbiProb[tag_row2 , col-1] > 0:
                            possible_probs.append(viterbiProb[tag_row2,col-1]*transitionProbdict[tag_prevtag]*emissionProbdict[word_tag])
                    
                viterbiProb[tag_row,col] = max(possible_probs)     
    
    # Construcción de la secuencia de etiquetas
    res = []
    for i,p in enumerate(seq):
        for tag in tagStateDict.keys():
            if tagStateDict[tag] == np.argmax(viterbiProb[:,i]):
                res.append((p,tag))
    
    
    return res


Viterbi_tags('Buenos días que necesita mi hijo para adquirir un crédito por primera vez')

[('Buenos', 'PROPN'),
 ('días', 'NOUN'),
 ('que', 'PRON'),
 ('necesita', 'VERB'),
 ('mi', 'DET'),
 ('hijo', 'NOUN'),
 ('para', 'ADP'),
 ('adquirir', 'VERB'),
 ('un', 'DET'),
 ('crédito', 'NOUN'),
 ('por', 'ADP'),
 ('primera', 'ADJ'),
 ('vez', 'NOUN')]

## Entrenamiento Directo de HMM con NLTK

* clase en python (NLTK) de HMM: https://www.nltk.org/_modules/nltk/tag/hmm.html

In [1]:
import nltk
nltk.download('treebank')
from nltk.corpus import treebank
train_data = treebank.tagged_sents()[:3900]


[nltk_data] Downloading package treebank to
[nltk_data]     C:\Users\GAMER\AppData\Roaming\nltk_data...
[nltk_data]   Package treebank is already up-to-date!


In [2]:
from nltk.tag import hmm
tagger = hmm.HiddenMarkovModelTrainer().train_supervised(train_data)

In [3]:
tagger.tag('Pierre Vinken will get old'.split())

[('Pierre', 'NNP'),
 ('Vinken', 'NNP'),
 ('will', 'MD'),
 ('get', 'VB'),
 ('old', 'JJ')]

In [4]:
# Accuracy
tagger.evaluate(train_data)

0.9815403947224078

## Ejercicio Ancora

**Objetivo:** Entrena un HMM usando la clase `hmm.HiddenMarkovModelTrainer()` sobre el dataset `UD_Spanish_AnCora`.

1. **Pre-procesamiento:** En el ejemplo anterior usamos el dataset en ingles `treebank`, el cual viene con una estructura diferente a la de `AnCora`, en esta parte escribe código para transformar la estructura de `AnCora` de manera que quede igual al `treebank` que usamos así:

$$\left[ \left[ (\text{'El'}, \text{'DET'}), (\dots), \dots\right], \left[\dots \right] \right]$$

In [11]:
import nltk
from nltk.tag import hmm
from conllu import parse_incr
from sklearn.model_selection import train_test_split

lista = []
word_tag = []
data_file = open("UD_Spanish-AnCora/es_ancora-ud-dev.conllu", "r", encoding="utf-8")

for tokenlist in parse_incr(data_file):
    for token in tokenlist:
        token2add = token['form'],token['upos']
        lista.append(token2add)
        word_tag.append(lista)

2. **Entrenamiento:** Una vez que el dataset esta con la estructura correcta, utiliza la clase `hmm.HiddenMarkovModelTrainer()` para entrenar con el $80 \%$ del dataset como conjunto de `entrenamiento` y $20 \%$ para el conjunto de `test`.

**Ayuda:** Para la separacion entre conjuntos de entrenamiento y test, puedes usar la funcion de Scikit Learn: 

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

En este punto el curso de Machine Learning con Scikit Learn es un buen complemento para entender mejor las funcionalidades de Scikit Learn: https://platzi.com/cursos/scikitlearn-ml/ 

In [6]:
data_train,data_test = train_test_split(word_tag, test_size = 0.2,random_state = 42)

In [None]:
tagger = hmm.HiddenMarkovModelTrainer().train_supervised(data_train)

[[('El', 'DET'),
  ('gobernante', 'NOUN'),
  (',', 'PUNCT'),
  ('con', 'ADP'),
  ('ganada', 'ADJ'),
  ('fama', 'NOUN'),
  ('desde', 'ADP'),
  ('que', 'SCONJ'),
  ('llegó', 'VERB'),
  ('hace', 'VERB'),
  ('16', 'NUM'),
  ('meses', 'NOUN'),
  ('al', '_'),
  ('a', 'ADP'),
  ('el', 'DET'),
  ('poder', 'NOUN'),
  ('de', 'ADP'),
  ('explotar', 'VERB'),
  ('al', '_'),
  ('a', 'ADP'),
  ('el', 'DET'),
  ('máximo', 'NOUN'),
  ('su', 'DET'),
  ('oratoria', 'NOUN'),
  ('y', 'CCONJ'),
  ('acusado', 'ADJ'),
  ('por', 'ADP'),
  ('sus', 'DET'),
  ('detractores', 'NOUN'),
  ('de', 'ADP'),
  ('incontinencia', 'NOUN'),
  ('verbal', 'ADJ'),
  (',', 'PUNCT'),
  ('enmudeció', 'VERB'),
  ('desde', 'ADP'),
  ('el', 'DET'),
  ('momento', 'NOUN'),
  ('en', 'ADP'),
  ('el', 'DET'),
  ('que', 'PRON'),
  ('el', 'DET'),
  ('Tribunal', 'PROPN'),
  ('Supremo', 'PROPN'),
  ('de', 'ADP'),
  ('Justicia', 'PROPN'),
  ('(', 'PUNCT'),
  ('TSJ', 'PROPN'),
  (')', 'PUNCT'),
  ('decidió', 'VERB'),
  ('suspender', 'VERB'),
  

In [17]:
wordList = []
for tokenlist in parse_incr(data_file): 
    wordList2 = []
    for token in tokenlist:
        tag = token['upos']
        valor = token['form']
        wordList2.append((valor,tag))
        print(wordList2)
    wordList.append(wordList2)