## Ejercicio de práctica

**Objetivo:** Entrena un HMM usando la clase `hmm.HiddenMarkovModelTrainer()` sobre el dataset `UD_Spanish_AnCora`.

1. **Pre-procesamiento:** En el ejemplo anterior usamos el dataset en ingles `treebank`, el cual viene con una estructura diferente a la de `AnCora`, en esta parte escribe código para transformar la estructura de `AnCora` de manera que quede igual al `treebank` que usamos así:

$$\left[ \left[ (\text{'El'}, \text{'DET'}), (\dots), \dots\right], \left[\dots \right] \right]$$

In [None]:
!pip install conllu
!git clone https://github.com/UniversalDependencies/UD_Spanish-AnCora.git
from conllu import parse_incr 

fatal: destination path 'UD_Spanish-AnCora' already exists and is not an empty directory.


In [None]:
data_file = open("UD_Spanish-AnCora/es_ancora-ud-train.conllu", "r", encoding="utf-8")
data_array = []
for tokenlist in parse_incr(data_file):
  tokenized_text = []
  for token in tokenlist: 
    tokenized_text.append((token['form'], token['upos']))
  data_array.append(tokenized_text)

In [None]:
len(data_array)

14305


2. **Entrenamiento:** Una vez que el dataset esta con la estructura correcta, utiliza la clase `hmm.HiddenMarkovModelTrainer()` para entrenar con el $80 \%$ del dataset como conjunto de `entrenamiento` y $20 \%$ para el conjunto de `test`. 

**Ayuda:** Para la separacion entre conjuntos de entrenamiento y test, puedes usar la funcion de Scikit Learn:  https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html 

En este punto el curso de Machine Learning con Scikit Learn es un buen complemento para entender mejor las funcionalidades de Scikit Learn: https://platzi.com/cursos/scikitlearn-ml/ 

In [None]:
from sklearn.model_selection import train_test_split
train_data, test_data = train_test_split(data_array, test_size=0.2, random_state=42)
print(len(train_data))
print(len(test_data))

11444
2861


In [None]:
from nltk.tag import hmm
tagger = hmm.HiddenMarkovModelTrainer().train_supervised(train_data)
tagger

<HiddenMarkovModelTagger 18 states and 34205 output symbols>

3. **Validación del modelo:** Un vez entrenado el `tagger`, calcula el rendimiento del modelo (usando `tagger.evaluate()`) para los conjuntos de `entrenamiento` y `test`.

In [None]:
tagger.evaluate(train_data)

0.979559757238844

In [None]:
tagger.evaluate(test_data)

0.5023193277310924

## Observaciones importantes

* Si usas el dataset `es_ancora-ud-dev.conllu` notarás que es muy pequeño, puedes intentar con el `es_ancora-ud-train.conllu`.

* En la práctica, se acostumbra a entrenar el modelo con `es_ancora-ud-train.conllu` y se valida el test con `es_ancora-ud-test.conllu`, el archivo `es_ancora-ud-dev.conllu` es tipicamente para prototipado rápido del modelo. 

In [None]:
tagger = hmm.HiddenMarkovModelTrainer().train_supervised(data_array)

In [None]:
data_file = open("UD_Spanish-AnCora/es_ancora-ud-train.conllu", "r", encoding="utf-8")
test_array = []
for tokenlist in parse_incr(data_file):
  tokenized_text = []
  for token in tokenlist: 
    tokenized_text.append((token['form'], token['upos']))
  test_array.append(tokenized_text)
len(test_array)

14305

In [None]:
tagger.evaluate(test_array)

0.9793093709654282