## Clasificación de Texto.

**Problemas a vencer**: La ambiguedad del lenguaje, es importante analizar el proceso de como desambiguar un texto, para evitar que varias formas de escribir o usar palabras cambia el contexto o significado.

**El primer paso es identificar las categorias gramaticales**: Una categoria gramatical encierra a las palabras según su significado, existen sustantivos, adjetivos, adverbios, verbos, preposiciones, conjunciones y articulos.

**Sustantivo o Nombre:** Es aquel tipo de palabra cuyo significado determina la realidad, esto es, los sustantivos nombran todas las cosas, personas objetos sensaciones, sentimientos ideas, etc. 

**Pronombre:** Es una palabra que sustituye a otros terminos que designan personas u objetos en momento determinado, como la, yo, tu, el, ellos, te, nos, mi, ti, este, ese, aquel, mio, tuyo... etc

**Adjetivo:** Es una palabra que acompaña al nombre para determinarlo o calificarlo. Los adjetivos posesivos son los que acompañan al sustantivo y lo determinan de la siguiente forma: Mi casa, nuestro auto...

## Ambiguedades del Lenguage:
#### Tipos:
- **Por agrupamiento** Cómo se separan las oraciones con los signos de puntuación, un signo de puntuación en una oración cambia el significado de la oración.
- **Funcional** Son dificiles de detectar y necesita bastante contexto, debido a que una sola oración puede significar dos cosas totalmente diferentes, según su espacio, tiempo y objetivo.
- **Lexico**: Dependen de la categoría gramaticales, es decir una palabra puede ser interpretada como un sustantivo o un adjetivo y eso cambia el significado de la oración.

**Punto Clave** ¿Cómo etiquetar adecuadamente una palabra? una respuesta corta, Dependiendo del contexto clasificar su categoria gramatical.

### Etiquetado en NLTK

In [1]:
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
from nltk import word_tokenize

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\GAMER\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\GAMER\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


### Etiquetado Ingles
La libreria NLTK permite etiquetar de manera sencilla con algoritmos pre-entrenados, para el español es diferente

In [2]:
# Variable Texto resultado de una tokenización
text = word_tokenize('And now here I am enjoying today')
# Aplicar etiquetas gramaticales
nltk.pos_tag(text)

[('And', 'CC'),
 ('now', 'RB'),
 ('here', 'RB'),
 ('I', 'PRP'),
 ('am', 'VBP'),
 ('enjoying', 'VBG'),
 ('today', 'NN')]

In [4]:
# Revisar tipo de categorias gramaticales
nltk.download('tagsets')
for tag in ['CC','RB','PRP']:
    print(nltk.help.upenn_tagset(tag))

CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet
None
RB: adverb
    occasionally unabatingly maddeningly adventurously professedly
    stirringly prominently technologically magisterially predominately
    swiftly fiscally pitilessly ...
None
PRP: pronoun, personal
    hers herself him himself hisself it itself me myself one oneself ours
    ourselves ownself self she thee theirs them themselves they thou thy us
None


[nltk_data] Downloading package tagsets to
[nltk_data]     C:\Users\GAMER\AppData\Roaming\nltk_data...
[nltk_data]   Package tagsets is already up-to-date!


In [6]:
# Ambiguedades: Palabras Homónimas
text = word_tokenize('They do not permit other people to get residence permit')
nltk.pos_tag(text)

[('They', 'PRP'),
 ('do', 'VBP'),
 ('not', 'RB'),
 ('permit', 'VB'),
 ('other', 'JJ'),
 ('people', 'NNS'),
 ('to', 'TO'),
 ('get', 'VB'),
 ('residence', 'NN'),
 ('permit', 'NN')]

In [None]:
for tag in ['CC','RB','PRP']:
    print(nltk.help.upenn_tagset(tag))

### Etiquetado Gramaticas Español

In [5]:
from nltk.corpus import cess_esp as cess
# Etiquetador basado en unigramas
from nltk import UnigramTagger as ut
# Etiquetador basado en bigramas
from nltk import BigramTagger as bt
from IPython.display import Image

In [8]:
# Entrenamiento del tagger por unigramas
cess_sents = cess.tagged_sents()
fraction = int(len(cess_sents)*90/100)

# Entrena el modelo con el 90% para etiquetar los tokens gramaticalmente
uni_tagger = ut(cess_sents[:fraction])

# Permite evaluar el modelo con el 10% de los datos
uni_tagger.evaluate(cess_sents[fraction:])

0.8068832283915284

In [11]:
# Revisar su categoria gramatical
uni_tagger.tag("Yo soy una persona muy amable".split(" "))

[('Yo', 'pp1csn00'),
 ('soy', 'vsip1s0'),
 ('una', 'di0fs0'),
 ('persona', 'ncfs000'),
 ('muy', 'rg'),
 ('amable', None)]

In [12]:
bi_tagger = bt(cess_sents[:fraction])
bi_tagger.evaluate(cess_sents[fraction:])

0.10983113909559244

### Conclusiones
- Etiquetar por bigramas no es tan efectivo como etiquetar por unigramas, esto se debe a que no se identifica correctamente la categoría gramatical de cada token o palabra si se analiza en conjunto de dos palabras.
- Cada modelo se debe entrenar y definir su precisión

## Stanza (StanfordNLP)

In [13]:
!pip install stanza

Collecting stanza
  Downloading stanza-1.2.1-py3-none-any.whl (334 kB)
Collecting torch>=1.3.0
  Downloading torch-1.9.0-cp38-cp38-win_amd64.whl (222.0 MB)
Installing collected packages: torch, stanza
Successfully installed stanza-1.2.1 torch-1.9.0


In [4]:
import stanza

In [15]:
stanza.download('es')

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.2.1.json:   0%|   …

2021-06-30 19:31:30 INFO: Downloading default packages for language: es (Spanish)...


Downloading http://nlp.stanford.edu/software/stanza/1.2.1/es/default.zip:   0%|          | 0.00/566M [00:00<?,…

2021-06-30 19:42:33 INFO: Finished downloading models and saved to C:\Users\GAMER\stanza_resources.


**Stanza** trabaja con flujos de procesos para el lenguaje natural, a continuación se define un Pipeline el cual tokeniza un texto y asigna etiquetas gramaticales que es lo mismo que etiquetar las partes del discurso.


In [16]:
nlp = stanza.Pipeline('es',precessors= 'tokenize,pos')
doc = nlp('Yo soy una persona muy amable')


2021-07-01 22:11:10 INFO: Loading these models for language: es (Spanish):
| Processor | Package |
-----------------------
| tokenize  | ancora  |
| mwt       | ancora  |
| pos       | ancora  |
| lemma     | ancora  |
| depparse  | ancora  |
| ner       | conll02 |

2021-07-01 22:11:10 INFO: Use device: cpu
2021-07-01 22:11:10 INFO: Loading: tokenize
2021-07-01 22:11:10 INFO: Loading: mwt
2021-07-01 22:11:10 INFO: Loading: pos
2021-07-01 22:11:11 INFO: Loading: lemma
2021-07-01 22:11:11 INFO: Loading: depparse
2021-07-01 22:11:11 INFO: Loading: ner
2021-07-01 22:11:13 INFO: Done loading processors!


In [18]:
for sentence in doc.sentences:
    for word in sentence.words:
        print(word.text, word.pos)

Yo PRON
soy AUX
una DET
persona NOUN
muy ADV
amable ADJ


Los dos paquetes 'punkt': Es un tokenizador y el averaged_perceptron es el etiquetador por defecto que usa por defecto nltk cuando estamos en el idioma ingles.

El etiquetador del perceptron promediado, esta relacionado con el funcionamiento de una red neuronal, antes de este modelo, solamente existian modelos de maxima entropia y estan muy relacionados con las regresiones logisticas.

Con la salida de este modelo se evidenció una mejora considerable en el rendimiento así el APT se convirtio en estandar. aunque existen muchos etiquetadores de clasificación, sin embargo esta no deja de ser la base de todo el universo de etiquetadores.

![title](./modelos.PNG)

# Modelo Markoviano Latente
Esta basado en las cadenas de markov, y son la base que nos van a ayudar a entender los modelos markovianos de maxima entropia

Primero es importante entender que es una cadena de markov, una cadena de marcov esta basada en un conjunto finito de estados, es decir, podemos pensar en una situación a la cual se le puede asignar una serie de diferentes categorias, por ejemplo, el estado de un día, porque en la secuencia dia a dia se le puede asignar estados como frio, caluro, lluvioso. etc. 

Ahora, para definir el sistema es necesario identificar de ese día cuantos posibles estados puede tener (frio, caliente...) y luego se define una secuencia, es decir, día uno, día dos... y de ello se puede definir una secuencia que son los estados de esa secuencia. 

Ahora, el sistema de las cadenas de markov miden la probabilidad entre las secuencias, de que un estado en una parte de esa secuencia se de despues de otro estado en otra parte de esa secuencia. 

es decir, la probabilidad de que un día frio este seguido de un día caliente, la probabilidad de que un dia caliente este dado despues de un dia frio, cada uno de ellos se define como una transición, es decir la transición es el paso entre eventos y todas esas flechas que conectan entre ellos son calculos de la probabilidad.

![](.\cadena.PNG)

Por ejemplo, en el evento donde se ve una secuencia de dias: Soleado, frio, frio, Soleado y frio, solo hay dos situacioes en las que un día soleado esta seguido de un día frio, ahora se calculan las probabilidades de todas estas transiciones y las dividimos entre todos los eventos posibles de transición. 

Una cadena de Markov define probabilidades de transición entre los posibles estados que puede tener una transición, a esto se le define como matriz de transición.
![](.\matriz.PNG)

**Componente escencial en la cadena de markov** Distribución inicial de estados, es el vector que se nombra como la letra PI II(0) el cual tiene 3 componentes en este ejemplo, definen la probabilidad inicial de que un día sea frio o caliente o tibio, y lo que se realiza es una multiplicacion entre la matriz de transición por el vector inicial de estados y el resultado es el vector inicial de estados PI II(1)

![](.\vector.PNG)

**¿Cómo se calcula la probabilidad en un transición?** El calculo podría considerarse como frecuentista, se verifican por ejemplo, en el caso de calcular la probabilidad de que se de un día soleado seguido de un día frio, es calcular cuantas veces se presenta en el espacio muestral y dividirlo entre la totalidad de elementos dentro del espacio muestral

A la final, un modelo markoviano latente es un sistema de probabilidades que evoluciona a medida que va avanzando en sus secuencias o estados.

## Modelo Markoviano Latente
A = Matriz de transición de estados - Es decir una matriz que confronta todos los estados para identificar la probabilidad de transición entre cada uno de ellos

Pi = Vector de la distribución de estados - Si hoy la probabilidad de que llueva es de % y así... por cada uno de los estados, al multiplicarse con la matriz nos retorna la probabilidad de los estados pero para la siguiente secuencia o transición.

$$
\Pi^{(0)}A = \Pi^{(1)}
$$

*Es importante definir el concepto de probabilidad condicional* 

$$
P(j|i) = \frac{P(i,j)}{p(i)}
$$

**Ejemplo**: *Probabilidad de Transición estando en el estado 3 al día siguiente sea estado 2*

$$
P(2|3) = \frac{P(3,2)}{P(3)}
$$

La probabilidad de que un día este en estado 3 y al día siguiente sea estado 2 se calcula verificando la frecuencia en la que se presenta esta evento dentro del espacio muestral

La probabilidad de dias iniciales son todos los días que anteceden un estado

$$
P(3,2) = \frac{1}{5}
$$
$$
P(3) = \frac{1}{5}
$$
$$
P(2|3) = 1
$$

Este resultado es el que se asigna a la matriz de probabilidades de transición.

**LOS ESTADOS DE MARKOV SE DEFINEN POR EL ESTADO INMEDIATAMENTE ANTERIOR** Por tanto la matriz de estas se debe multiplicar por el vector de estado inicial para encontral el vector de probabilidades de estados de la siguiente transición

![](.\operacion.PNG)

## Extrapolar en NLP los modelos markovianos latentes

**Pensemos en secuencias de palabras** de la siguiente forma, una secuencia de palabras es igual a una secuencia de etiquetas gramaticales

A la secuencia gramaticas se le llama secuencia latente u oculta por que al principio no la conocemos.

![](.\palabras.PNG)

## Entrenar un Modelo Markoviano Latente

Descubrir esa secuencia de etiquetas, que le corresponde a la secuencia de palabras, los estados serían las categorias gramaticales.

Las probabilidades se calculan con un corpus de palabras, es decir la probabilidad de dada una categoria gramatical, cual es la probabilidad de que le corresponda una cierta palabra. y se llaman:

Probabilidades de emición: se puede calcular una por cada node de la cadena markoviana.

![](.\markov.PNG)

A: Matriz de transición
Pi: Distribución de estados
B: Probabilidades de emisión corresponden a *dadas las categorias cuales son las probabilidades de que les correspondan o sean asignadas a ciertas palabras*

$$
    arg max_{(t^n)}P(t^n|w^n)
$$

![](.\argumentos.PNG)


En resumen el modelo de markov se encarga de encontrar, dada una secuencia de palabras, una secuencia de etiquetas que le corresponde con mayor probabilidad.

Es importante tener en cuenta la regla de bayes:
$$
P(t|w) = \frac{P(w|t)P(t)}{p(w)}
$$

De esta manera el modelo tendrá que calcular la probabilidad de una secuencia de palabras dada una secuencia de etiquetas^bajo el teorema de bayes: 

$$
P(t^n|w^n) = \frac{P(w^n|t^n)P(t^n)}{P(w^n)}
$$

Entendiendo el concepto de sin perdida de generalidad se puede despreciar el denominador, debido a que la comparación de resultados se mantendrá en un mismo orden y no se alterará el resultado final.

$$
\bar{t^n} = argmax_{t^n}P(t^n|w^n) = argmax_{t^n}P(w^n|t^n)P(t^n)
$$



### Hipotesis
- Hip. de independiencia: Las probabilidades condicionales de que dadas unas etiquetas les correspondan unas palabras, se representan como el producto de cada probabilidad condicional de cada etiqueta correspondiente a una palabra. o de cada palabra con su etiqueta correspondiente. Las probabilidades de palabras a etiquetas solamente dependen de la misma posición


$$
P(w^n|t^n) = \prod_{i=1}^nP(w_i|t_i)
$$


- Hip. Markoviana: Permite identificar cual es el contexto que rodea a la secuencia de palabras, ya que identifica el momento en el que se asigna cada etiqueta a cada palabra, esto se resume en la probabilidad de secuencia de etiquetas que es lo mismo que un producto de probabilidades de que dada una etiqueta anterior le corresponda le corresponda una etiqueta en la posición actual, un producto entre todas las probabilidades según la cantidad de secuencias. Un estado depende de un estado inmediatamente anterior.

$$
P(t^n) = \prod_{i=1}^nP(t_i|t_{i-1})
$$

En resumen las probabilidades que calcula un modelo markoviano se originan gracias a la combinación de estas dos hipotesis:

$$
\bar{t^n} = argmax_{t^n}\prod_{i=1}^nP(w_i|t_i)P(t_i,t_{i-1})
$$


## Corpus de español: 

* AnCora | Github: https://github.com/UniversalDependencies/UD_Spanish-AnCora

* usamos el conllu parser para leer el corpus: https://pypi.org/project/conllu/

* Etiquetas Universal POS (Documentación): https://universaldependencies.org/u/pos/

In [1]:
!git clone https://github.com/UniversalDependencies/UD_Spanish-AnCora.git

Cloning into 'UD_Spanish-AnCora'...


**parse_incr** Genera una lista de listas de tokens
**.setialize** una tributo del formato conllu

In [1]:
from conllu import parse_incr

wordList = []
data_file = open("UD_Spanish-AnCora/es_ancora-ud-dev.conllu", "r", encoding="utf-8")

# for tokenlist in parse_incr(data_file):
#     print(tokenlist.serialize())

## Entrenamiento del modelo - Calculo de conteos:

* tags (tags) `tagCountDict`: $C(tag)$
* emisiones (word|tag) `emissionProbDict`: $C(word|tag)$
* transiciones (tag|prevtag) `transitionDict`: $C(tag|prevtag)$

In [2]:
tagCountDict = {}
emissionDict = {}
transitionDict = {}

tagtype = 'upos'
data_file = open("UD_Spanish-AnCora/es_ancora-ud-dev.conllu", "r", encoding="utf-8")

for tokenlist in parse_incr(data_file):
    prevtag = None
    for token in tokenlist:   
        
        # C(tag): Cuantas veces aparece una etiqueta en el corpus
        tag = token[tagtype]
        
        if tag in tagCountDict.keys():
            tagCountDict[tag] += 1
        else:
            tagCountDict[tag] = 1
        
        # C(word|tag) Calculo para las probabilidades de emisión. Contar cuantas veces aparece una etiqueta dado una palabra
        # En el corpus
        wordtag = token['form'].lower()+'|'+token[tagtype]
        if wordtag in emissionDict.keys():
            emissionDict[wordtag] += 1
        else:
            emissionDict[wordtag] = 1
            
        # C(tag|tag_previo) Conteo para Probabilidades de transición
        if prevtag is None:
            prevtag = tag
            continue
        transitiontags = tag+'|'+prevtag
        if transitiontags in transitionDict.keys():
            transitionDict[transitiontags] = transitionDict[transitiontags] + 1
        else:
            transitionDict[transitiontags] = 1
        prevtag = tag
        


## Entrenamiento del modelo - calculo de probabilidades


* **probabilidades de transición:** Se calcula contando las veces que yo observo esas etiquetas, la actual y la previa, dividida en las veces que yo observo la etiqueta anterior en el corpus, este resultado se define como la probabilidad de que se de una etiqueta dado que ya ocurrio una etiqueta previa. 

$$P(tag|prevtag) = \frac{C(prevtag, tag)}{C(prevtag)}$$

* **probabilidades de emisión:** La probabilidad de que se de una palabra una vez se le asigno una etiqueta. se calcula con el numero de veces que yo veo la palabra con su etiqueta sobre las veces que veo la etiqueta 
 $$P(word|tag) = \frac{C(word|tag)}{C(tag)}$$

In [3]:
transitionProbDict = {}
emissionProbDict = {}

# transition Probabilities

for key in transitionDict.keys():
    tag,prevtag = key.split('|')
    if tagCountDict[prevtag] > 0:
        transitionProbDict[key] = transitionDict[key] / (tagCountDict[prevtag])
    else: 
        print(key)

# Emission Probabilities
for key in emissionDict.keys():
    word,tag = key.split('|')
    if emissionDict[key] > 0:
        emissionProbDict[key] = emissionDict[key] / tagCountDict[tag]
    else: 
        print(key)

In [4]:
sorted(emissionProbDict.items(),key=lambda x: x[1],reverse=True)

[('no|PART', 1.0),
 ('sí|INTJ', 0.8),
 ('y|CCONJ', 0.7771664374140302),
 ('que|SCONJ', 0.6382042253521126),
 ('del|_', 0.5839936608557845),
 ('de|ADP', 0.4614572333685322),
 (',|PUNCT', 0.45316979929913986),
 ('el|DET', 0.3435285341290563),
 ('que|PRON', 0.32481450948062657),
 ('al|_', 0.2765451664025357),
 ('.|PUNCT', 0.2642561325262823),
 ('se|PRON', 0.2485572959604287),
 ('la|DET', 0.23287330598035558),
 ('no|ADV', 0.1848086124401914),
 ("'|SYM", 0.18181818181818182),
 ('es|AUX', 0.16538461538461538),
 ('ha|AUX', 0.15384615384615385),
 ('en|ADP', 0.15252845242285581),
 ('a|ADP', 0.15205913410770855),
 ('"|PUNCT', 0.14319847085058937),
 ('como|SCONJ', 0.13380281690140844),
 ('dos|NUM', 0.11657142857142858),
 ('más|ADV', 0.1034688995215311),
 ('ay|INTJ', 0.1),
 ('no|INTJ', 0.1),
 ('los|DET', 0.09958970533383066),
 ('pero|CCONJ', 0.08321870701513068),
 ('lo|PRON', 0.07914262159934048),
 ('60%|SYM', 0.06818181818181818),
 ('20%|SYM', 0.06818181818181818),
 ('o|CCONJ', 0.0680880330123796

In [5]:
import numpy as np
np.save('transitionHMM.npy', transitionProbDict)
np.save('emissionHMM.npy', emissionProbDict)

**Conclusión** Con esto ya se entrena un modelo Marcoviano Latente, con la matriz de transición y de emisión y por tanto, se puede calcular todas las probabilidades según la regla de bayes.

En grandes rasgos, esto permite determinar, dada una secuencia de palabras cual es la secuencia de etiquetas mas probables que le corresponda, esto bajo un algoritmo de selección que se llama algoritmo de viterbi.

## Etiquetado con HMM

1. **Entrenamiento**: El modelo aprende las probabilidades de emisión y transición
2. **Decodificación**: El modelo calcula la secuencia de etiquetas mas probable con el algoritmo de viterbi.

![](.\funcion.PNG)

## Pipeline del HMM

![](.\pipeline.PNG)

## Probabilidades de Viterbi:

Es un algoritmo que se encarga de asignar una probabilidad de una combinación de cada secuencia de etiquetas gramaticales que pueden pertenecer a una secuencia de palabras, esto se convierte en un espacio de probabilidades, en la cual se selecciona la secuencia con probabilidad mayor para esa secuencia de palabras.

![](.\secuencia.PNG)

Se puede apreciar una secuencia de palabras a las cuales se les asigna una secuencia de combinaciones de posibles etiquetas a las cuales pueda pertenecer cada una. Y a estos caminos son a los que se les asigna un numero probabilistico que identifica cual es el mas adecuado para la secuencia de palabras.

![](.\proviter.PNG)

Se calcula la probabilidad para cada uno de los nodos, esta operación se denota con la letra griega Nu y es igual a el producto de la probabilidad inicial de encontrar esa etiqueta en la primera parte de la secuencia con la probabilidad condicional (emisión) de que dada esa etiqueta (PROP para el ejemplo) se presente la palabra a evaluar de la secuencia o sea esa palabra (CASTILLO para el ejemplo). 

![](.\segundo.PNG)

En el siguiente paso, el algoritmo para calcular la probabilidad en la siguiente palabra de la secuencia, considera todos los posibles caminos que pasan por el nodo para así determinar el camino con mayor probabilidad.

- A la probabilidad obtenida en la secuencia anterior se le multiplica la probabilidad de transacición, es decir, la probabilidad de que se de una categoria DET dado que ya se dio una categoria PROP.
- Tambien se le multiplica la probabilidad de emisión, es decir la probabilidad de que se de una palabra el, dado que se presento una categoria DET.
- El resultado de los dos caminos se compara y se elige el que presenta mayor probabilidad.

$$
\nu_t(j) = max\{\nu_{t-1}(i)*C_{ij}*P(palabra|j)\}
$$


## Carga del modelo HMM previamente entrenado

In [7]:
transitionProbdict = np.load('transitionHMM.npy',allow_pickle='TRUE').item() 
emissionProbdict = np.load('emissionHMM.npy',allow_pickle='TRUE').item()

### Identificar las categorias gramaticales
Para dar continuidad con el algoritmo de viterbi se debe enumerar con una llave unica a las categorias gramaticales, pero para ello se deben hallar los valores unicos de categorias gramaticales

In [8]:
# Identificar las categorias gramaticales 'upos' unicas en el corpus
stateSet = set([w.split('|')[1] for w in list(emissionProbdict.keys())])
stateSet

{'ADJ',
 'ADP',
 'ADV',
 'AUX',
 'CCONJ',
 'DET',
 'INTJ',
 'NOUN',
 'NUM',
 'PART',
 'PRON',
 'PROPN',
 'PUNCT',
 'SCONJ',
 'SYM',
 'VERB',
 '_'}

### Enumeración Categorias
Esto permite relacionar las categorias gramaticales con la columna de la matriz de viterbi

In [9]:
# Enumerar las categorias gramaticales con numeros para asignar a
# las columnas de la matriz, es decir un indice entero que lo relaciona
# con la columna en la matriz de probabilidades de viterbi

tagStateDict = {}
for i,state in enumerate(stateSet):
    tagStateDict[state] = i
tagStateDict

{'PROPN': 0,
 'NUM': 1,
 'PRON': 2,
 'DET': 3,
 'INTJ': 4,
 'PART': 5,
 'CCONJ': 6,
 '_': 7,
 'ADV': 8,
 'SYM': 9,
 'PUNCT': 10,
 'VERB': 11,
 'SCONJ': 12,
 'AUX': 13,
 'ADP': 14,
 'NOUN': 15,
 'ADJ': 16}

### Distribución Inicial de Estados Latentes
Estado inicial es la primera palabra que se puede hallar en un corpus, se debe leer el corpus para identificarlo. la probabilidad es:

$$
\rho_i^{0} = \frac{C(initCategories)}{totalCategories}
$$

In [10]:
from conllu import parse_incr

wordList = []
data_file = open("UD_Spanish-AnCora/es_ancora-ud-dev.conllu", "r", encoding="utf-8")
# Conocer la longitud del corpus
count = 0
initTagStateProb = {} #\rho_i^(o)

# Ciclo para recorrer las listas de tokens
for tokenlist in parse_incr(data_file):
    # Contador de cuantas listas hay
    count += 1
    # Extrae el tag de la primera palabra de la lista
    tag = tokenlist[0]['upos']
    
    # Asigna ese tag al diccionario para contar cuantas veces aparece de
    # Primeras en cada lista
    if tag in initTagStateProb.keys():
        initTagStateProb[tag] += 1
    else:
        initTagStateProb[tag] = 1

# Se toma ese conteo y se divide cada uno por el total de palabras iniciales
for key in initTagStateProb.keys():
    initTagStateProb[key] /= count

initTagStateProb

{'DET': 0.3633615477629988,
 'PROPN': 0.1124546553808948,
 'ADP': 0.15538089480048367,
 'PRON': 0.034461910519951636,
 'SCONJ': 0.02418379685610641,
 'ADV': 0.06287787182587666,
 'PUNCT': 0.07799274486094317,
 'VERB': 0.04353083434099154,
 'ADJ': 0.010882708585247884,
 'CCONJ': 0.03325272067714631,
 'NOUN': 0.02720677146311971,
 '_': 0.009068923821039904,
 'INTJ': 0.0006045949214026602,
 'AUX': 0.022370012091898428,
 'NUM': 0.01995163240628779,
 'SYM': 0.0006045949214026602,
 'PART': 0.0018137847642079807}

In [16]:
# Verificar el total de probabilidad
np.array([initTagStateProb[k] for k in initTagStateProb.keys()]).sum()

1.0

Dada una secuencia de palabras $\{p_1, p_2, \dots, p_n \}$, y un conjunto de categorias gramaticales dadas por la convención `upos`, se considera la matriz de probabilidades de Viterbi así:

$$
\begin{array}{c c}
\begin{array}{c c c c}
\text{ADJ} \\
\text{ADV}\\
\text{PRON} \\
\vdots \\
{}
\end{array} 
&
\left[
\begin{array}{c c c c}
\nu_1(\text{ADJ}) & \nu_2(\text{ADJ}) & \dots  & \nu_n(\text{ADJ})\\
\nu_1(\text{ADV}) & \nu_2(\text{ADV}) & \dots  & \nu_n(\text{ADV})\\ 
\nu_1(\text{PRON}) & \nu_2(\text{PRON}) & \dots  & \nu_n(\text{PRON})\\
\vdots & \vdots & \dots & \vdots \\ \hdashline
p_1 & p_2 & \dots & p_n 
\end{array}
\right] 
\end{array}
$$

Donde las probabilidades de la primera columna (para una categoria $i$) están dadas por: 

$$
\nu_1(i) = \underbrace{\rho_i^{(0)}}_{\text{probabilidad inicial}} \times \underbrace{P(p_1 \vert i)}_{\text{emisión}}
$$

luego, para la segunda columna (dada una categoria $j$) serán: 

$$
\nu_2(j) = \max_i \{ \nu_1(i) \times \underbrace{P(j \vert i)}_{\text{transición}} \times \underbrace{P(p_2 \vert j)}_{\text{emisión}} \}
$$

así, en general las probabilidades para la columna $t$ estarán dadas por: 

$$
\nu_{t}(j) = \max_i \{ \overbrace{\nu_{t-1}(i)}^{\text{estado anterior}} \times \underbrace{P(j \vert i)}_{\text{transición}} \times \underbrace{P(p_t \vert j)}_{\text{emisión}} \}
$$

### Construcción de la Matriz de viterbi
Inicialmente para la implementación del algoritmo de viterbi se debe confirmar la tokenización del texto

In [35]:
from nltk import word_tokenize

def Viterbi_tags(secuencia, transitionProbdict= transitionProbdict,emissionProbdict= emissionProbdict, 
                   tagStateDict= tagStateDict, initTagStateProb= initTagStateProb):
    """
    Secuencia: Secuencia de palabras
    transitionProbdict: Matriz de probabilidad de transición de que dada una etiqueta previa se de una etiqueta siguiente
    emissionProbdict: Probabilidades de emisión de que dada una etiqueta se de cierta palabra
    tagStateDict: Enumerar con indices las categorias gramaticales que se asignaran dentro de la matriz
    initTagStateProb: Estados iniciales de probabilidad. de que una categoria gramatical este a inicio del corpus. 
    """
    #Tokenizar el texto
    seq = word_tokenize(secuencia)
    # Crear la matriz vacia
    viterbiProb = np.zeros((17,len(seq)))
    
    #Inicialización de la primera columna:
    for key in tagStateDict.keys():
        tag_row = tagStateDict[key]
        word_tag = seq[0].lower()+'|'+key
        if word_tag in emissionProbdict.keys():
            # Llenado primera columna
            viterbiProb[tag_row,0] = initTagStateProb[key]*emissionProbdict[word_tag]
            
    # Computo siguientes columnas un sancochooooo
    for col in range(1,len(seq)):
        for key in tagStateDict.keys():
            tag_row = tagStateDict[key]
            word_tag = seq[col].lower()+'|'+key
            if word_tag in emissionProbdict.keys():
                possible_probs = []
                for key2 in tagStateDict.keys():
                    tag_row2 = tagStateDict[key2]
                    tag_prevtag = key+'|'+key2
                    if tag_prevtag in transitionProbdict.keys():
                        if viterbiProb[tag_row2 , col-1] > 0:
                            possible_probs.append(viterbiProb[tag_row2,col-1]*transitionProbdict[tag_prevtag]*emissionProbdict[word_tag])
                    
                viterbiProb[tag_row,col] = max(possible_probs)     
    
    # Construcción de la secuencia de etiquetas
    res = []
    for i,p in enumerate(seq):
        for tag in tagStateDict.keys():
            if tagStateDict[tag] == np.argmax(viterbiProb[:,i]):
                res.append((p,tag))
    
    
    return res


Viterbi_tags('Buenos días que necesita mi hijo para adquirir un crédito por primera vez')

[('Buenos', 'PROPN'),
 ('días', 'NOUN'),
 ('que', 'PRON'),
 ('necesita', 'VERB'),
 ('mi', 'DET'),
 ('hijo', 'NOUN'),
 ('para', 'ADP'),
 ('adquirir', 'VERB'),
 ('un', 'DET'),
 ('crédito', 'NOUN'),
 ('por', 'ADP'),
 ('primera', 'ADJ'),
 ('vez', 'NOUN')]

## Entrenamiento Directo de HMM con NLTK

* clase en python (NLTK) de HMM: https://www.nltk.org/_modules/nltk/tag/hmm.html

In [1]:
import nltk
nltk.download('treebank')
from nltk.corpus import treebank
train_data = treebank.tagged_sents()[:3900]


[nltk_data] Downloading package treebank to
[nltk_data]     C:\Users\GAMER\AppData\Roaming\nltk_data...
[nltk_data]   Package treebank is already up-to-date!


In [2]:
from nltk.tag import hmm
tagger = hmm.HiddenMarkovModelTrainer().train_supervised(train_data)

In [3]:
tagger.tag('Pierre Vinken will get old'.split())

[('Pierre', 'NNP'),
 ('Vinken', 'NNP'),
 ('will', 'MD'),
 ('get', 'VB'),
 ('old', 'JJ')]

In [4]:
# Accuracy
tagger.evaluate(train_data)

0.9815403947224078

## Ejercicio Ancora

**Objetivo:** Entrena un HMM usando la clase `hmm.HiddenMarkovModelTrainer()` sobre el dataset `UD_Spanish_AnCora`.

1. **Pre-procesamiento:** En el ejemplo anterior usamos el dataset en ingles `treebank`, el cual viene con una estructura diferente a la de `AnCora`, en esta parte escribe código para transformar la estructura de `AnCora` de manera que quede igual al `treebank` que usamos así:

$$\left[ \left[ (\text{'El'}, \text{'DET'}), (\dots), \dots\right], \left[\dots \right] \right]$$

In [13]:
import nltk
from nltk.tag import hmm
from conllu import parse_incr
from sklearn.model_selection import train_test_split

lista = []
word_tag = []
data_file = open("UD_Spanish-AnCora/es_ancora-ud-dev.conllu", "r", encoding="utf-8")

# Menos eficiente
for tokenlist in parse_incr(data_file):
    for token in tokenlist:
        token2add = token['form'],token['upos']
        lista.append(token2add)
        word_tag.append(lista)

('El', 'DET')
('gobernante', 'NOUN')
(',', 'PUNCT')
('con', 'ADP')
('ganada', 'ADJ')
('fama', 'NOUN')
('desde', 'ADP')
('que', 'SCONJ')
('llegó', 'VERB')
('hace', 'VERB')
('16', 'NUM')
('meses', 'NOUN')
('al', '_')
('a', 'ADP')
('el', 'DET')
('poder', 'NOUN')
('de', 'ADP')
('explotar', 'VERB')
('al', '_')
('a', 'ADP')
('el', 'DET')
('máximo', 'NOUN')
('su', 'DET')
('oratoria', 'NOUN')
('y', 'CCONJ')
('acusado', 'ADJ')
('por', 'ADP')
('sus', 'DET')
('detractores', 'NOUN')
('de', 'ADP')
('incontinencia', 'NOUN')
('verbal', 'ADJ')
(',', 'PUNCT')
('enmudeció', 'VERB')
('desde', 'ADP')
('el', 'DET')
('momento', 'NOUN')
('en', 'ADP')
('el', 'DET')
('que', 'PRON')
('el', 'DET')
('Tribunal', 'PROPN')
('Supremo', 'PROPN')
('de', 'ADP')
('Justicia', 'PROPN')
('(', 'PUNCT')
('TSJ', 'PROPN')
(')', 'PUNCT')
('decidió', 'VERB')
('suspender', 'VERB')
('temporalmente', 'ADV')
('los', 'DET')
('comicios', 'NOUN')
('múltiples', 'ADJ')
('ante', 'ADP')
('la', 'DET')
('imposibilidad', 'NOUN')
('"', 'PUNCT')

('residuos', 'NOUN')
('y', 'CCONJ')
('lucha', 'NOUN')
('contra', 'ADP')
('el', 'DET')
('despilfarro', 'NOUN')
('energético', 'ADJ')
('de', 'ADP')
('los', 'DET')
('países', 'NOUN')
('ricos', 'ADJ')
('.', 'PUNCT')
('Imbuido', 'ADJ')
('de', 'ADP')
('ese', 'DET')
('espíritu', 'NOUN')
(',', 'PUNCT')
('un', 'DET')
('escritor', 'NOUN')
('inglés', 'ADJ')
('-', 'PUNCT')
('excepcional', 'ADJ')
('y', 'CCONJ')
('sarcástico', 'ADJ')
('-', 'PUNCT')
('proponía', 'VERB')
('hace', 'VERB')
('poco', 'ADV')
('que', 'SCONJ')
('no', 'ADV')
('se', 'PRON')
('tirase', 'VERB')
('el', 'DET')
('agua', 'NOUN')
('de', 'ADP')
('la', 'DET')
('bolsa', 'NOUN')
('de', 'ADP')
('agua', 'NOUN')
('caliente', 'ADJ')
('.', 'PUNCT')
('Tirarla', '_')
('Tirar', 'VERB')
('la', 'PRON')
(',', 'PUNCT')
('decía', 'VERB')
(',', 'PUNCT')
('es', 'AUX')
('un', 'DET')
('despilfarro', 'NOUN')
(';', 'PUNCT')
('lo', 'PRON')
('que', 'SCONJ')
('hay', 'AUX')
('que', 'SCONJ')
('hacer', 'VERB')
('es', 'AUX')
('reciclarla', '_')
('reciclar', 'VERB

('tú', 'PRON')
('con', 'ADP')
('tus', 'DET')
('caras', 'NOUN')
('y', 'CCONJ')
('tus', 'DET')
('nombres', 'NOUN')
(',', 'PUNCT')
('nos', 'PRON')
('dejaste', 'VERB')
('tutearte', '_')
('tutear', 'VERB')
('te', 'PRON')
('.', 'PUNCT')
('Fran', 'PROPN')
(',', 'PUNCT')
('Bebeto', 'PROPN')
(',', 'PUNCT')
('Aldana', 'PROPN')
(',', 'PUNCT')
('Nando', 'PROPN')
(',', 'PUNCT')
('Djukic', 'PROPN')
(',', 'PUNCT')
('Mauro', 'PROPN')
('Silva', 'PROPN')
('...', 'PUNCT')
('Todos', 'PRON')
('éramos', 'AUX')
('un', 'DET')
('poco', 'PRON')
('de', 'ADP')
('ti', 'PRON')
('.', 'PUNCT')
('Fuiste', 'VERB')
('a', 'ADP')
('Barcelona', 'PROPN')
(',', 'PUNCT')
('viniste', 'VERB')
('a', 'ADP')
('Madrid', 'PROPN')
(',', 'PUNCT')
('viajaste', 'VERB')
('por', 'ADP')
('ahí', 'ADV')
('y', 'CCONJ')
('en', 'ADP')
('todos', 'DET')
('los', 'DET')
('lugares', 'NOUN')
('nos', 'PRON')
('cuidaste', 'VERB')
('el', 'DET')
('paladar', 'NOUN')
('.', 'PUNCT')
('Estabas', 'AUX')
('arriba', 'ADV')
('con', 'ADP')
('el', 'DET')
('gozo', 

('tiempo', 'NOUN')
('.', 'PUNCT')
('Aunque', 'SCONJ')
('el', 'DET')
('zar', 'NOUN')
('Nicolás', 'PROPN')
('I', 'CCONJ')
('intentó', 'VERB')
('resarcir', 'VERB')
('a', 'ADP')
('su', 'DET')
('viuda', 'NOUN')
('con', 'ADP')
('una', 'DET')
('renta', 'NOUN')
('anual', 'ADJ')
('de', 'ADP')
('11.000', 'NUM')
('rublos', 'NOUN')
('y', 'CCONJ')
('la', 'DET')
('edición', 'NOUN')
('de', 'ADP')
('sus', 'DET')
('obras', 'NOUN')
('completas', 'ADJ')
(',', 'PUNCT')
('entre', 'ADP')
('la', 'DET')
('rancia', 'ADJ')
('nobleza', 'NOUN')
('reinaba', 'VERB')
('la', 'DET')
('complacencia', 'NOUN')
(':', 'PUNCT')
('habían', 'AUX')
('callado', 'VERB')
('para', 'ADP')
('siempre', 'ADV')
('a', 'ADP')
('un', 'DET')
('poeta', 'NOUN')
('-', 'PUNCT')
('non', 'ADJ')
('grato', 'ADJ')
('-', 'PUNCT')
('.', 'PUNCT')
('El', 'DET')
('duelo', 'NOUN')
('ha', 'AUX')
('constituido', 'VERB')
('siempre', 'ADV')
('un', 'DET')
('sistema', 'NOUN')
('ruin', 'ADJ')
(',', 'PUNCT')
('pero', 'CCONJ')
('eficaz', 'ADJ')
('para', 'ADP')
('

('política', 'ADJ')
(',', 'PUNCT')
('aunque', 'SCONJ')
('él', 'PRON')
('afirma', 'VERB')
('que', 'SCONJ')
('-', 'PUNCT')
('el', 'DET')
('retiro', 'NOUN')
('de', 'ADP')
('la', 'DET')
('política', 'NOUN')
('lo', 'PRON')
('llevo', 'VERB')
('bien', 'ADV')
('-', 'PUNCT')
('.', 'PUNCT')
('Daniel', 'PROPN')
('Vega', 'PROPN')
(',', 'PUNCT')
('ex', 'NOUN')
('gobernador', 'NOUN')
('civil', 'ADJ')
('de', 'ADP')
('Vizcaya', 'PROPN')
(',', 'PUNCT')
('comió', 'VERB')
('con', 'ADP')
('Corcuera', 'PROPN')
('hace', 'VERB')
('unas', 'DET')
('semanas', 'NOUN')
('y', 'CCONJ')
('fue', 'AUX')
('su', 'DET')
('compañero', 'NOUN')
('en', 'ADP')
('una', 'DET')
('partida', 'NOUN')
('de', 'ADP')
('mus', 'NOUN')
('que', 'PRON')
('perdieron', 'VERB')
(',', 'PUNCT')
('-', 'PUNCT')
('seguramente', 'ADV')
('-', 'PUNCT')
('dice', 'VERB')
('Vega', 'PROPN')
('-', 'PUNCT')
('por', 'ADP')
('mi', 'DET')
('culpa', 'NOUN')
('porque', 'SCONJ')
('él', 'PRON')
('juega', 'VERB')
('muy', 'ADV')
('bien', 'ADV')
(',', 'PUNCT')
('con

('La', 'PRON')
('descolgó', 'VERB')
('inmediatamente', 'ADV')
('de', 'ADP')
('la', 'DET')
('pared', 'NOUN')
('y', 'CCONJ')
('la', 'PRON')
('guardó', 'VERB')
('en', 'ADP')
('el', 'DET')
('fondo', 'NOUN')
('de', 'ADP')
('un', 'DET')
('cajón', 'NOUN')
(',', 'PUNCT')
('de', 'ADP')
('donde', 'PRON')
('extrajo', 'VERB')
('a', 'ADP')
('su', 'DET')
('vez', 'NOUN')
('un', 'DET')
('viejo', 'ADJ')
('rollo', 'NOUN')
('de', 'ADP')
('papel', 'NOUN')
(',', 'PUNCT')
('dos', 'NUM')
('pendientes', 'NOUN')
('de', 'ADP')
('bisutería', 'NOUN')
('barata', 'ADJ')
('y', 'CCONJ')
('cuatro', 'NUM')
('chinchetas', 'NOUN')
('.', 'PUNCT')
('Mientras', 'SCONJ')
('intentaba', 'VERB')
('alisar', 'VERB')
('con', 'ADP')
('cuidado', 'NOUN')
('el', 'DET')
('vulgar', 'ADJ')
('cartel', 'NOUN')
('de', 'ADP')
('propaganda', 'NOUN')
('de', 'ADP')
('naranjas', 'NOUN')
(',', 'PUNCT')
('sus', 'DET')
('ojos', 'NOUN')
('distinguieron', 'VERB')
('una', 'DET')
('mancha', 'NOUN')
('clara', 'ADJ')
('tras', 'ADP')
('los', 'DET')
('balc

('de', 'ADP')
('mítines', 'NOUN')
('con', 'ADP')
('discursos', 'NOUN')
('no', 'ADV')
('superiores', 'ADJ')
('a', 'ADP')
('los', 'DET')
('quince', 'NUM')
('minutos', 'NOUN')
('.', 'PUNCT')
('La', 'DET')
('violencia', 'NOUN')
('hizo', 'VERB')
('acto', 'VERB')
('de', 'ADP')
('presencia', 'VERB')
('en', 'ADP')
('el', 'DET')
('tramo', 'NOUN')
('final', 'ADJ')
('con', 'ADP')
('la', 'DET')
('muerte', 'NOUN')
('a', 'ADP')
('tiros', 'NOUN')
('de', 'ADP')
('dos', 'NUM')
('seguidores', 'NOUN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('PLD', 'PROPN')
('el', 'DET')
('pasado', 'ADJ')
('29', 'NUM')
('de', 'ADP')
('abril', 'NOUN')
('en', 'ADP')
('Moca', 'PROPN')
('(', 'PUNCT')
('norte', 'NOUN')
(')', 'PUNCT')
(',', 'PUNCT')
('al', '_')
('a', 'ADP')
('el', 'DET')
('cruzarse', '_')
('cruzar', 'VERB')
('se', 'PRON')
('con', 'ADP')
('una', 'DET')
('caravana', 'NOUN')
('propagandística', 'ADJ')
('del', '_')
('de', 'ADP')
('el', 'DET')
('PRD', 'PROPN')
('.', 'PUNCT')
('Otra', 'DET')
('nota', 'NOUN')
('que'

('Mientras', 'SCONJ')
('México', 'PROPN')
(',', 'PUNCT')
('Centroamérica', 'PROPN')
('y', 'CCONJ')
('Perú', 'PROPN')
('mostraban', 'VERB')
('su', 'DET')
('descontento', 'NOUN')
(',', 'PUNCT')
('Cuba', 'PROPN')
('y', 'CCONJ')
('República', 'PROPN')
('Dominicana', 'PROPN')
('pudieron', 'AUX')
('ratificar', 'VERB')
('su', 'DET')
('posición', 'NOUN')
('privilegiada', 'ADJ')
('en', 'ADP')
('las', 'DET')
('agendas', 'NOUN')
('de', 'ADP')
('los', 'DET')
('viajeros', 'NOUN')
(',', 'PUNCT')
('junto', 'ADJ')
('con', 'ADP')
('las', 'DET')
('nuevas', 'ADJ')
('posibilidades', 'NOUN')
('abiertas', 'ADJ')
('por', 'ADP')
('Brasil', 'PROPN')
(',', 'PUNCT')
('Chile', 'PROPN')
(',', 'PUNCT')
('Argentina', 'PROPN')
('y', 'CCONJ')
('Bolivia', 'PROPN')
('.', 'PUNCT')
('La', 'DET')
('directora', 'NOUN')
('de', 'ADP')
('Turismo', 'PROPN')
('de', 'ADP')
('México', 'PROPN')
('en', 'ADP')
('Fráncfort', 'PROPN')
(',', 'PUNCT')
('Anne', 'PROPN')
('Schumacher', 'PROPN')
(',', 'PUNCT')
('dijo', 'VERB')
('que', 'SCON

('en', 'ADP')
('la', 'DET')
('Liga', 'PROPN')
('de', 'ADP')
('Campeones', 'PROPN')
('.', 'PUNCT')
('"', 'PUNCT')
('Ellos', 'PRON')
('tienen', 'VERB')
('unas', 'DET')
('plantillas', 'NOUN')
('más', 'ADV')
('amplias', 'ADJ')
('y', 'CCONJ')
('con', 'ADP')
('más', 'ADV')
('calidad', 'NOUN')
('que', 'SCONJ')
('la', 'DET')
('nuestra', 'DET')
('"', 'PUNCT')
(',', 'PUNCT')
('advirtió', 'VERB')
('Arteaga', 'PROPN')
(',', 'PUNCT')
('mientras', 'CCONJ')
('que', 'SCONJ')
('su', 'DET')
('compañero', 'NOUN')
('Mauricio', 'PROPN')
('Pochettino', 'PROPN')
(',', 'PUNCT')
('quien', 'PRON')
('también', 'ADV')
('prefiere', 'VERB')
('al', '_')
('a', 'ADP')
('el', 'DET')
('Barcelona', 'PROPN')
('en', 'ADP')
('la', 'DET')
('final', 'NOUN')
(',', 'PUNCT')
('coincidió', 'VERB')
('con', 'ADP')
('el', 'DET')
('centrocampista', 'NOUN')
('gaditano', 'ADJ')
('en', 'ADP')
('que', 'SCONJ')
('estos', 'DET')
('equipos', 'NOUN')
('"', 'PUNCT')
('tienen', 'VERB')
('plantillas', 'NOUN')
('extensísimas', 'ADJ')
('para', 'A

('en', 'ADP')
('empleo', 'NOUN')
('autónomo', 'ADJ')
('femenino', 'ADJ')
('a', 'ADP')
('la', 'DET')
('Unión', 'PROPN')
('Europea', 'PROPN')
('con', 'ADP')
('el', 'DET')
('27,9', 'NUM')
('por', 'ADP')
('ciento', 'NUM')
('de', 'ADP')
('su', 'DET')
('población', 'NOUN')
('activa', 'ADJ')
('femenina', 'ADJ')
(',', 'PUNCT')
('frente', 'NOUN')
('al', '_')
('a', 'ADP')
('el', 'DET')
('8,7', 'NUM')
('por', 'ADP')
('ciento', 'NUM')
('de', 'ADP')
('la', 'DET')
('UE', 'PROPN')
(',', 'PUNCT')
('según', 'SCONJ')
('indicó', 'VERB')
('hoy', 'ADV')
('a', 'ADP')
('EFE', 'PROPN')
('la', 'DET')
('presidenta', 'NOUN')
('nacional', 'ADJ')
('de', 'ADP')
('la', 'DET')
('Asociación', 'PROPN')
('de', 'ADP')
('Familias', 'PROPN')
('y', 'CCONJ')
('Mujeres', 'PROPN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('Medio', 'PROPN')
('Rural', 'PROPN')
('(', 'PUNCT')
('AFAMMER', 'PROPN')
(')', 'PUNCT')
(',', 'PUNCT')
('Carmen', 'PROPN')
('Quintanilla', 'PROPN')
('.', 'PUNCT')
('Carmen', 'PROPN')
('Quintanilla', 'PROPN')


('El', 'DET')
('presidente', 'NOUN')
('de', 'ADP')
('Spanair', 'PROPN')
(',', 'PUNCT')
('Gonzalo', 'PROPN')
('Pascual', 'PROPN')
(',', 'PUNCT')
('dijo', 'VERB')
('a', 'ADP')
('EFE', 'PROPN')
('que', 'SCONJ')
('no', 'ADV')
('contemplan', 'VERB')
('la', 'DET')
('posibilidad', 'NOUN')
('de', 'ADP')
('vender', 'VERB')
('la', 'DET')
('compañía', 'NOUN')
('aérea', 'ADJ')
(',', 'PUNCT')
('o', 'CCONJ')
('de', 'ADP')
('llevar', 'VERB')
('a', 'ADP')
('cabo', 'NOUN')
('alguna', 'DET')
('fusión', 'NOUN')
(',', 'PUNCT')
('pese', 'NOUN')
('a', 'ADP')
('las', 'DET')
('coyunturas', 'NOUN')
('de', 'ADP')
('compras', 'NOUN')
('y', 'CCONJ')
('ventas', 'NOUN')
('en', 'ADP')
('el', 'DET')
('sector', 'NOUN')
('.', 'PUNCT')
('Pascual', 'PROPN')
('indicó', 'VERB')
('que', 'SCONJ')
('"', 'PUNCT')
('vivimos', 'VERB')
('un', 'DET')
('momento', 'NOUN')
('de', 'ADP')
('fusiones', 'NOUN')
(',', 'PUNCT')
('de', 'ADP')
('compra', 'NOUN')
('y', 'CCONJ')
('venta', 'NOUN')
('de', 'ADP')
('compañías', 'NOUN')
(',', 'PUNC

('policía', 'NOUN')
('hizo', 'VERB')
('acto', 'VERB')
('de', 'ADP')
('presencia', 'VERB')
('y', 'CCONJ')
('detuvo', 'VERB')
('a', 'ADP')
('varios', 'PRON')
('de', 'ADP')
('los', 'DET')
('seguidores', 'NOUN')
('hondureños', 'ADJ')
(',', 'PUNCT')
('pero', 'CCONJ')
('no', 'ADV')
('pudo', 'AUX')
('acercarse', '_')
('acercar', 'VERB')
('se', 'PRON')
('a', 'ADP')
('la', 'DET')
('galería', 'NOUN')
('este', 'ADJ')
('debido', 'ADJ')
('al', '_')
('a', 'ADP')
('el', 'DET')
('lanzamiento', 'NOUN')
('de', 'ADP')
('todas', 'DET')
('clases', 'NOUN')
('de', 'ADP')
('objetos', 'NOUN')
('.', 'PUNCT')
('Perú', 'PROPN')
('realizó', 'VERB')
('un', 'DET')
('planteamiento', 'NOUN')
('de', 'ADP')
('partido', 'NOUN')
('muy', 'ADV')
('serio', 'ADJ')
(',', 'PUNCT')
('con', 'ADP')
('un', 'DET')
('juego', 'NOUN')
('muy', 'ADV')
('ordenado', 'ADJ')
('en', 'ADP')
('el', 'DET')
('centro', 'NOUN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('campo', 'NOUN')
('que', 'PRON')
('le', 'PRON')
('permitió', 'VERB')
('llegar', 

('el', 'DET')
('mensaje', 'NOUN')
('que', 'PRON')
('envió', 'VERB')
('ayer', 'ADV')
('a', 'ADP')
('las', 'DET')
('organizaciones', 'NOUN')
('juveniles', 'ADJ')
('Jarrai', 'PROPN')
('y', 'CCONJ')
('Gasteriak', 'PROPN')
(',', 'PUNCT')
('fusionadas', 'ADJ')
('en', 'ADP')
('Haika', 'PROPN')
('.', 'PUNCT')
('"', 'PUNCT')
('Lo', 'PRON')
('peor', 'ADJ')
('que', 'PRON')
('podemos', 'AUX')
('hacer', 'VERB')
('a', 'ADP')
('un', 'DET')
('menor', 'ADJ')
('de', 'ADP')
('edad', 'NOUN')
('es', 'AUX')
('darle', '_')
('dar', 'VERB')
('le', 'PRON')
('un', 'DET')
('fusil', 'NOUN')
('o', 'CCONJ')
('ponerle', '_')
('poner', 'VERB')
('le', 'PRON')
('un', 'DET')
('cóctel', 'NOUN')
('en', 'ADP')
('la', 'DET')
('mano', 'NOUN')
('"', 'PUNCT')
(',', 'PUNCT')
('destacó', 'VERB')
('.', 'PUNCT')
('El', 'DET')
('lehendakari', 'NOUN')
('puso', 'VERB')
('de', 'ADP')
('relieve', 'NOUN')
('que', 'SCONJ')
('el', 'DET')
('PNV', 'PROPN')
('siempre', 'ADV')
('ha', 'AUX')
('guiado', 'VERB')
('y', 'CCONJ')
('guiará', 'VERB')


('El', 'DET')
('delantero', 'NOUN')
('portugués', 'ADJ')
('del', '_')
('de', 'ADP')
('el', 'DET')
('Deportivo', 'PROPN')
('Pauleta', 'PROPN')
('aseguró', 'VERB')
('hoy', 'ADV')
('que', 'SCONJ')
('su', 'DET')
('equipo', 'NOUN')
('quiere', 'VERB')
('el', 'DET')
('título', 'NOUN')
('de', 'ADP')
('Liga', 'PROPN')
('y', 'CCONJ')
('que', 'SCONJ')
('para', 'ADP')
('conseguirlo', '_')
('conseguir', 'VERB')
('lo', 'PRON')
('lucharán', 'VERB')
('"', 'PUNCT')
('contra', 'ADP')
('todo', 'PRON')
('y', 'CCONJ')
('contra', 'ADP')
('todos', 'DET')
('los', 'DET')
('que', 'PRON')
('se', 'PRON')
('nos', 'PRON')
('pongan', 'VERB')
('delante', 'ADV')
(',', 'PUNCT')
('contra', 'ADP')
('otros', 'DET')
('equipos', 'NOUN')
('y', 'CCONJ')
('contra', 'ADP')
('los', 'DET')
('árbitros', 'NOUN')
('"', 'PUNCT')
('.', 'PUNCT')
('El', 'DET')
('ariete', 'NOUN')
(',', 'PUNCT')
('sancionado', 'ADJ')
('con', 'ADP')
('dos', 'NUM')
('partidos', 'NOUN')
('por', 'ADP')
('una', 'DET')
('acción', 'NOUN')
('que', 'PRON')
('el', 

('superado', 'VERB')
('por', 'ADP')
('los', 'DET')
('españoles', 'NOUN')
('Diego', 'PROPN')
('Alejandro', 'PROPN')
('López', 'PROPN')
('(', 'PUNCT')
('2.22:46', 'NUM')
(')', 'PUNCT')
('y', 'CCONJ')
('Jacinto', 'PROPN')
('Farto', 'PROPN')
('(', 'PUNCT')
('2.23:25', 'NUM')
(')', 'PUNCT')
('en', 'ADP')
('su', 'DET')
('debú', 'NOUN')
('.', 'PUNCT')
('El', 'DET')
('ministro', 'NOUN')
('egipcio', 'ADJ')
('del', '_')
('de', 'ADP')
('el', 'DET')
('Interior', 'PROPN')
(',', 'PUNCT')
('general', 'NOUN')
('Habib', 'PROPN')
('Al', '_')
('A', 'ADP')
('el', 'DET')
('Adli', 'PROPN')
(',', 'PUNCT')
('justificó', 'VERB')
('la', 'DET')
('ampliación', 'NOUN')
('por', 'ADP')
('otros', 'DET')
('tres', 'NUM')
('años', 'NOUN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('estado', 'NOUN')
('de', 'ADP')
('emergencia', 'NOUN')
(',', 'PUNCT')
('vigente', 'ADJ')
('en', 'ADP')
('el', 'DET')
('país', 'NOUN')
('desde', 'ADP')
('1981', 'NOUN')
(',', 'PUNCT')
('al', '_')
('a', 'ADP')
('el', 'DET')
('considerar', 'VERB')

(',', 'PUNCT')
('vencedor', 'NOUN')
('el', 'DET')
('pasado', 'ADJ')
('año', 'NOUN')
('bajo', 'ADP')
('un', 'DET')
('diluvio', 'NOUN')
('y', 'CCONJ')
('del', '_')
('de', 'ADP')
('el', 'DET')
('italiano', 'NOUN')
('Jarno', 'PROPN')
('Trulli', 'PROPN')
(',', 'PUNCT')
('así', 'ADV')
('como', 'SCONJ')
('los', 'DET')
('Williams-BMW', 'PROPN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('alemán', 'NOUN')
('Ralf', 'PROPN')
('Schumacher', 'PROPN')
('y', 'CCONJ')
('del', '_')
('de', 'ADP')
('el', 'DET')
('británico', 'NOUN')
('Jenson', 'PROPN')
('Button', 'PROPN')
(',', 'PUNCT')
('a', 'ADP')
('pesar', 'NOUN')
('de', 'ADP')
('que', 'SCONJ')
('no', 'ADV')
('han', 'AUX')
('estado', 'AUX')
('a', 'ADP')
('la', 'DET')
('altura', 'NOUN')
('de', 'ADP')
('lo', 'PRON')
('esperado', 'ADJ')
('en', 'ADP')
('las', 'DET')
('tres', 'NUM')
('últimas', 'ADJ')
('carreras', 'NOUN')
('y', 'CCONJ')
('el', 'DET')
('BAR-Honda', 'PROPN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('canadiense', 'NOUN')
('Jacques', 'PROPN')


('Arenas', 'PROPN')
(',', 'PUNCT')
('quien', 'PRON')
('recordó', 'VERB')
('que', 'SCONJ')
('en', 'ADP')
('el', 'DET')
('pasado', 'NOUN')
('ha', 'AUX')
('tenido', 'VERB')
('"', 'PUNCT')
('el', 'DET')
('honor', 'NOUN')
('y', 'CCONJ')
('la', 'DET')
('satisfacción', 'NOUN')
('"', 'PUNCT')
('de', 'ADP')
('acompañar', 'VERB')
('a', 'ADP')
('los', 'DET')
('trabajadores', 'NOUN')
('de', 'ADP')
('la', 'DET')
('mina', 'NOUN')
('.', 'PUNCT')
('Señaló', 'VERB')
('que', 'SCONJ')
('tiene', 'VERB')
('la', 'DET')
('esperanza', 'NOUN')
('de', 'ADP')
('que', 'SCONJ')
('este', 'DET')
('crédito', 'NOUN')
('sirva', 'VERB')
('para', 'ADP')
('solucionar', 'VERB')
('el', 'DET')
('problema', 'NOUN')
(',', 'PUNCT')
('aunque', 'SCONJ')
('precisó', 'VERB')
('que', 'SCONJ')
('existen', 'VERB')
('"', 'PUNCT')
('circunstancias', 'NOUN')
('externas', 'ADJ')
('"', 'PUNCT')
('que', 'PRON')
('condicionan', 'VERB')
('la', 'DET')
('actividad', 'NOUN')
('minera', 'ADJ')
('en', 'ADP')
('Huelva', 'PROPN')
('y', 'CCONJ')
('di

(',', 'PUNCT')
('quien', 'PRON')
('festejó', 'VERB')
('los', 'DET')
('resultados', 'NOUN')
('de', 'ADP')
('la', 'DET')
('votación', 'NOUN')
('ante', 'ADP')
('unos', 'PRON')
('500', 'NUM')
('simpatizantes', 'NOUN')
('socialistas', 'ADJ')
('en', 'ADP')
('un', 'DET')
('restaurante', 'NOUN')
('abierto', 'ADJ')
('por', 'ADP')
('un', 'DET')
('grupo', 'NOUN')
('de', 'ADP')
('parados', 'NOUN')
('y', 'CCONJ')
('decorado', 'ADJ')
('con', 'ADP')
('materiales', 'NOUN')
('reciclados', 'ADJ')
(',', 'PUNCT')
('dijo', 'VERB')
('sentirse', '_')
('sentir', 'VERB')
('se', 'PRON')
('"', 'PUNCT')
('orgulloso', 'ADJ')
('"', 'PUNCT')
('del', '_')
('de', 'ADP')
('el', 'DET')
('PS', 'PROPN')
('parisiense', 'ADJ')
('y', 'CCONJ')
('abogó', 'VERB')
('por', 'ADP')
('la', 'DET')
('unión', 'NOUN')
('de', 'ADP')
('todas', 'DET')
('las', 'DET')
('fuerzas', 'NOUN')
('de', 'ADP')
('izquierda', 'NOUN')
('.', 'PUNCT')
('En', 'ADP')
('este', 'DET')
('sentido', 'NOUN')
(',', 'PUNCT')
('aseguró', 'VERB')
('que', 'SCONJ')
('d

('la', 'DET')
('Asamblea', 'PROPN')
('Consultiva', 'PROPN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('Pueblo', 'PROPN')
(',', 'PUNCT')
('el', 'DET')
('máximo', 'ADJ')
('órgano', 'NOUN')
('legislativo', 'ADJ')
(',', 'PUNCT')
('lo', 'PRON')
('convirtió', 'VERB')
('en', 'ADP')
('el', 'DET')
('primer', 'ADJ')
('presidente', 'NOUN')
('de', 'ADP')
('la', 'DET')
('era', 'NOUN')
('democrática', 'ADJ')
('de', 'ADP')
('esta', 'DET')
('nación', 'NOUN')
('asiática', 'ADJ')
('.', 'PUNCT')
('La', 'DET')
('euforia', 'NOUN')
('de', 'ADP')
('aquellos', 'DET')
('momentos', 'NOUN')
('de', 'ADP')
('optimistas', 'ADJ')
('expectativas', 'NOUN')
('creadas', 'ADJ')
('por', 'ADP')
('la', 'DET')
('elección', 'NOUN')
('de', 'ADP')
('Wahid', 'PROPN')
('sofocó', 'VERB')
('el', 'DET')
('enfado', 'NOUN')
('de', 'ADP')
('algunos', 'DET')
('diputados', 'NOUN')
('cuando', 'SCONJ')
('el', 'DET')
('presidente', 'NOUN')
('les', 'PRON')
('llamó', 'VERB')
('"', 'PUNCT')
('parvulitos', 'NOUN')
('"', 'PUNCT')
('y', 'CCONJ')


('El', 'DET')
('Real', 'PROPN')
('Madrid', 'PROPN')
(',', 'PUNCT')
('que', 'PRON')
('llevaba', 'VERB')
('quince', 'NUM')
('partidos', 'NOUN')
('consecutivos', 'ADJ')
('sin', 'ADP')
('perder', 'VERB')
('entre', 'ADP')
('Liga', 'PROPN')
(',', 'PUNCT')
('Copa', 'PROPN')
('y', 'CCONJ')
('Mundial', 'PROPN')
('de', 'ADP')
('clubes', 'NOUN')
(',', 'PUNCT')
('sufrió', 'VERB')
('una', 'DET')
('espectacular', 'ADJ')
('goleada', 'NOUN')
('(', 'PUNCT')
('5-2', 'NUM')
(')', 'PUNCT')
('frente', 'ADV')
('al', '_')
('a', 'ADP')
('el', 'DET')
('Deportivo', 'PROPN')
('en', 'ADP')
('Riazor', 'PROPN')
(',', 'PUNCT')
('un', 'DET')
('estadio', 'NOUN')
('que', 'PRON')
('desde', 'ADP')
('hace', 'VERB')
('años', 'NOUN')
('suele', 'VERB')
('ser', 'AUX')
('sinónimo', 'ADJ')
('de', 'ADP')
('desastre', 'NOUN')
('para', 'ADP')
('el', 'DET')
('equipo', 'NOUN')
('blanco', 'ADJ')
('.', 'PUNCT')
('La', 'DET')
('última', 'ADJ')
('victoria', 'NOUN')
('madridista', 'ADJ')
('en', 'ADP')
('La', 'DET')
('Coruña', 'PROPN')
('

('el', 'DET')
('Nouveau', 'PROPN')
('Marche', 'PROPN')
('en', 'ADP')
('Francia', 'PROPN')
('.', 'PUNCT')
('La', 'DET')
('dimisión', 'NOUN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('primer', 'ADJ')
('ministro', 'NOUN')
('israelí', 'ADJ')
(',', 'PUNCT')
('Ehud', 'PROPN')
('Barak', 'PROPN')
(',', 'PUNCT')
('pone', 'VERB')
('fin', 'NOUN')
('al', '_')
('a', 'ADP')
('el', 'DET')
('Gobierno', 'PROPN')
('más', 'ADV')
('corto', 'ADJ')
('y', 'CCONJ')
('accidentado', 'ADJ')
('de', 'ADP')
('la', 'DET')
('historia', 'NOUN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('país', 'NOUN')
('.', 'PUNCT')
('Estos', 'PRON')
('son', 'AUX')
('los', 'DET')
('principales', 'ADJ')
('acontecimientos', 'NOUN')
('ocurridos', 'ADJ')
('desde', 'ADP')
('que', 'SCONJ')
('el', 'DET')
('líder', 'NOUN')
('laborista', 'ADJ')
('accedió', 'VERB')
('al', '_')
('a', 'ADP')
('el', 'DET')
('poder', 'NOUN')
(':', 'PUNCT')
('1999', 'NUM')
('17', 'NUM')
('de', 'ADP')
('mayo', 'NOUN')
('.', 'PUNCT')
('-', 'PUNCT')
('El', 'DET')
('ca

('aseguró', 'VERB')
('que', 'SCONJ')
('desconoce', 'VERB')
('de', 'ADP')
('dónde', 'PRON')
('ha', 'AUX')
('partido', 'VERB')
('la', 'DET')
('noticia', 'NOUN')
(',', 'PUNCT')
('y', 'CCONJ')
('explicó', 'VERB')
('que', 'SCONJ')
('desde', 'ADP')
('el', 'DET')
('año', 'NOUN')
('1977', 'NUM')
('ha', 'AUX')
('tenido', 'VERB')
('"', 'PUNCT')
('más', 'ADV')
('problemas', 'NOUN')
('"', 'PUNCT')
('pero', 'CCONJ')
('manifestó', 'VERB')
('que', 'SCONJ')
('no', 'ADV')
('le', 'PRON')
('gusta', 'VERB')
('"', 'PUNCT')
('hacer', 'VERB')
('gala', 'NOUN')
('de', 'ADP')
('lo', 'PRON')
('que', 'PRON')
('me', 'PRON')
('ha', 'AUX')
('ocurrido', 'VERB')
(',', 'PUNCT')
('porque', 'SCONJ')
('entra', 'VERB')
('dentro', 'ADV')
('de', 'ADP')
('mi', 'DET')
('trabajo', 'NOUN')
('y', 'CCONJ')
('de', 'ADP')
('mi', 'DET')
('lucha', 'NOUN')
('política', 'ADJ')
('por', 'ADP')
('la', 'DET')
('libertad', 'NOUN')
('y', 'CCONJ')
('por', 'ADP')
('la', 'DET')
('paz', 'NOUN')
('"', 'PUNCT')
('.', 'PUNCT')
('"', 'PUNCT')
('He', 

(',', 'PUNCT')
('que', 'SCONJ')
('las', 'DET')
('propias', 'ADJ')
('empresas', 'NOUN')
('concesionarias', 'ADJ')
('se', 'PRON')
('encargan', 'VERB')
('del', '_')
('de', 'ADP')
('el', 'DET')
('mantenimiento', 'NOUN')
(',', 'PUNCT')
('y', 'CCONJ')
('que', 'SCONJ')
('vienen', 'VERB')
('dedicando', 'VERB')
('en', 'ADP')
('tal', 'DET')
('labor', 'NOUN')
('unos', 'PRON')
('30.000', 'NUM')
('millones', 'NOUN')
('de', 'ADP')
('pesetas', 'NOUN')
('anuales', 'ADJ')
('.', 'PUNCT')
('Por', 'ADP')
('último', 'NOUN')
(',', 'PUNCT')
('el', 'DET')
('diputado', 'NOUN')
('popular', 'ADJ')
('se', 'PRON')
('refirió', 'VERB')
('a', 'ADP')
('la', 'DET')
('derogación', 'NOUN')
('de', 'ADP')
('una', 'DET')
('serie', 'NOUN')
('de', 'ADP')
('artículos', 'NOUN')
('de', 'ADP')
('la', 'DET')
('ley', 'NOUN')
('8/1972', 'PROPN')
(',', 'PUNCT')
('"', 'PUNCT')
('lo', 'PRON')
('que', 'PRON')
('no', 'ADV')
('se', 'PRON')
('puede', 'AUX')
('hacer', 'VERB')
('alegremente', 'ADV')
(',', 'PUNCT')
('y', 'CCONJ')
('añadió', '

('"', 'PUNCT')
('Todos', 'DET')
('los', 'DET')
('resultados', 'NOUN')
('nos', 'PRON')
('han', 'AUX')
('beneficiado', 'VERB')
(',', 'PUNCT')
('pero', 'CCONJ')
('estoy', 'AUX')
('especialmente', 'ADV')
('contento', 'ADJ')
('porque', 'SCONJ')
('la', 'DET')
('imagen', 'NOUN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('equipo', 'NOUN')
('ha', 'AUX')
('sido', 'AUX')
('muy', 'ADV')
('buena', 'ADJ')
('"', 'PUNCT')
(',', 'PUNCT')
('dijo', 'VERB')
('Flores', 'PROPN')
(',', 'PUNCT')
('quien', 'PRON')
('no', 'ADV')
('comparte', 'VERB')
('la', 'DET')
('opinión', 'NOUN')
('con', 'ADP')
('Víctor', 'PROPN')
('Fernández', 'PROPN')
('sobre', 'ADP')
('que', 'SCONJ')
('la', 'DET')
('expulsión', 'NOUN')
('de', 'ADP')
('Coira', 'PROPN')
('resultara', 'VERB')
('determinante', 'ADJ')
('en', 'ADP')
('la', 'DET')
('suerte', 'NOUN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('partido', 'NOUN')
('.', 'PUNCT')
('Flores', 'PROPN')
('destacó', 'VERB')
('la', 'DET')
('actuación', 'NOUN')
('de', 'ADP')
('Tamudo', 'PROP

('su', 'DET')
('cabeza', 'NOUN')
('.', 'PUNCT')
('Tras', 'ADP')
('la', 'DET')
('pelea', 'NOUN')
('en', 'ADP')
('la', 'DET')
('cueva', 'NOUN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('trol', 'NOUN')
(',', 'PUNCT')
('Aragorn', 'PROPN')
('(', 'PUNCT')
('Viggo', 'PROPN')
('Mortensen', 'PROPN')
(')', 'PUNCT')
('acude', 'VERB')
('en', 'ADP')
('auxilio', 'NOUN')
('de', 'ADP')
('Frodo', 'PROPN')
(',', 'PUNCT')
('que', 'PRON')
('está', 'AUX')
('herido', 'ADJ')
(',', 'PUNCT')
('y', 'CCONJ')
('aparta', 'VERB')
('unas', 'DET')
('grandes', 'ADJ')
('piedras', 'NOUN')
(',', 'PUNCT')
('que', 'PRON')
('se', 'PRON')
('tambalean', 'VERB')
('demostrando', 'VERB')
('claramente', 'ADV')
('que', 'SCONJ')
('pesan', 'VERB')
('muy', 'ADV')
('poco', 'ADV')
('y', 'CCONJ')
('no', 'ADV')
('son', 'AUX')
(',', 'PUNCT')
('en', 'ADP')
('consecuencia', 'NOUN')
(',', 'PUNCT')
('reales', 'ADJ')
('.', 'PUNCT')
('Los', 'DET')
('protagonistas', 'NOUN')
('pasan', 'VERB')
('frente', 'NOUN')
('a', 'ADP')
('dos', 'NUM')
('esta

('Actúan', 'VERB')
('desde', 'ADP')
('hace', 'VERB')
('cinco', 'NUM')
('años', 'NOUN')
('en', 'ADP')
('el', 'DET')
('Bagdad', 'PROPN')
('y', 'CCONJ')
(',', 'PUNCT')
('ahora', 'ADV')
(',', 'PUNCT')
('se', 'PRON')
('sienten', 'VERB')
('más', 'ADV')
('orgullosos', 'ADJ')
('de', 'ADP')
('la', 'DET')
('pared', 'NOUN')
('que', 'PRON')
('tienen', 'VERB')
('delante', 'ADV')
('cuando', 'SCONJ')
('copulan', 'VERB')
('en', 'ADP')
('escena', 'NOUN')
('.', 'PUNCT')
('"', 'PUNCT')
('Es', 'AUX')
('bonito', 'ADJ')
('saberlo', '_')
('saber', 'VERB')
('lo', 'PRON')
('.', 'PUNCT')
('Y', 'CCONJ')
('es', 'AUX')
('que', 'SCONJ')
('cuando', 'SCONJ')
('toco', 'VERB')
('la', 'DET')
('pared', 'NOUN')
('noto', 'VERB')
('que', 'SCONJ')
('tiene', 'VERB')
('historia', 'NOUN')
(',', 'PUNCT')
('que', 'SCONJ')
('tiene', 'VERB')
('sentimiento', 'NOUN')
('"', 'PUNCT')
(',', 'PUNCT')
('dice', 'VERB')
('Claudia', 'PROPN')
(',', 'PUNCT')
('segura', 'ADJ')
('de', 'ADP')
('saber', 'VERB')
('siempre', 'ADV')
('lo', 'PRON')
('

('Si', 'SCONJ')
('España', 'PROPN')
('termina', 'VERB')
('cuarta', 'ADJ')
('en', 'ADP')
('la', 'DET')
('Copa', 'PROPN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('Mundo', 'PROPN')
(',', 'PUNCT')
('aún', 'ADV')
('tendrá', 'VERB')
('una', 'DET')
('última', 'ADJ')
('oportunidad', 'NOUN')
('en', 'ADP')
('el', 'DET')
('Preolímpico', 'PROPN')
(',', 'PUNCT')
('que', 'PRON')
('se', 'PRON')
('disputará', 'VERB')
('en', 'ADP')
('la', 'DET')
('ciudad', 'NOUN')
('alemana', 'ADJ')
('de', 'ADP')
('Hannóver', 'PROPN')
('en', 'ADP')
('mayo', 'NOUN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('2000', 'NUM')
('.', 'PUNCT')
('Un', 'DET')
('partido', 'NOUN')
('dramático', 'ADJ')
('.', 'PUNCT')
('Después', 'ADV')
('de', 'ADP')
('la', 'DET')
('victoria', 'NOUN')
('de', 'ADP')
('EEUU', 'PROPN')
('ante', 'ADP')
('Rusia', 'PROPN')
(',', 'PUNCT')
('España', 'PROPN')
('necesitaba', 'VERB')
('ganar', 'VERB')
('a', 'ADP')
('Australia', 'PROPN')
('para', 'ADP')
('seguir', 'VERB')
('adelante', 'ADV')
('.', 'PUNCT')
(

('un', 'DET')
('suicidio', 'NOUN')
('.', 'PUNCT')
('Yo', 'PRON')
('siempre', 'ADV')
('digo', 'VERB')
('no', 'ADV')
('tengo', 'VERB')
('que', 'SCONJ')
('rendir', 'VERB')
('pleitesía', 'NOUN')
('a', 'ADP')
('nadie', 'PRON')
(',', 'PUNCT')
('ni', 'CCONJ')
('siquiera', 'NOUN')
('a', 'ADP')
('la', 'DET')
('gente', 'NOUN')
('que', 'PRON')
('me', 'PRON')
('sigue', 'VERB')
('.', 'PUNCT')
('Canto', 'VERB')
('lo', 'PRON')
('que', 'PRON')
('me', 'PRON')
('apetece', 'VERB')
(',', 'PUNCT')
('porque', 'SCONJ')
('tengo', 'VERB')
('que', 'SCONJ')
('ser', 'AUX')
('honesta', 'ADJ')
('conmigo', 'PRON')
('misma', 'ADJ')
('.', 'PUNCT')
('Ha', 'AUX')
('pasado', 'VERB')
('el', 'DET')
('tiempo', 'NOUN')
('y', 'CCONJ')
('ahora', 'ADV')
('la', 'DET')
('gente', 'NOUN')
('ya', 'ADV')
('no', 'ADV')
('se', 'PRON')
('rasga', 'VERB')
('las', 'DET')
('vestiduras', 'NOUN')
('por', 'ADP')
('algo', 'PRON')
('así', 'ADV')
('.', 'PUNCT')
('-', 'PUNCT')
('-', 'PUNCT')
('¿', 'PUNCT')
('Le', 'PRON')
('parece', 'VERB')
('aprov

('La', 'DET')
('esquiadora', 'NOUN')
('francesa', 'ADJ')
('Régine', 'PROPN')
('Cavagnoud', 'PROPN')
(',', 'PUNCT')
('de', 'ADP')
('31', 'NUM')
('años', 'NOUN')
(',', 'PUNCT')
('murió', 'VERB')
('ayer', 'ADV')
('en', 'ADP')
('una', 'DET')
('clínica', 'NOUN')
('de', 'ADP')
('Innsbruck', 'PROPN')
('(', 'PUNCT')
('Austria', 'PROPN')
(')', 'PUNCT')
('en', 'ADP')
('la', 'DET')
('que', 'PRON')
('había', 'AUX')
('sido', 'AUX')
('ingresada', 'VERB')
('el', 'DET')
('pasado', 'ADJ')
('Lunes', 'NOUN')
('después', 'ADV')
('de', 'ADP')
('sufrir', 'VERB')
('un', 'DET')
('espectacular', 'ADJ')
('accidente', 'NOUN')
('mientras', 'SCONJ')
('se', 'PRON')
('entrenaba', 'VERB')
('en', 'ADP')
('el', 'DET')
('glaciar', 'NOUN')
('de', 'ADP')
('Pitztal', 'PROPN')
(',', 'PUNCT')
('en', 'ADP')
('los', 'DET')
('Alpes', 'PROPN')
('.', 'PUNCT')
('La', 'DET')
('campeona', 'NOUN')
('de', 'ADP')
('la', 'DET')
('Copa', 'PROPN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('Mundo', 'PROPN')
('de', 'ADP')
('supergigante', '

('Con', 'ADP')
('La', 'DET')
('ciénaga', 'PROPN')
(',', 'PUNCT')
('primer', 'ADJ')
('filme', 'NOUN')
('de', 'ADP')
('la', 'DET')
('realizadora', 'NOUN')
('Lucrecia', 'PROPN')
('Martel', 'PROPN')
(',', 'PUNCT')
('el', 'DET')
('cine', 'NOUN')
('argentino', 'ADJ')
('deja', 'VERB')
('a', 'ADP')
('un', 'DET')
('lado', 'NOUN')
('la', 'DET')
('palabra', 'NOUN')
(',', 'PUNCT')
('aunque', 'SCONJ')
('en', 'ADP')
('la', 'DET')
('mayoría', 'NOUN')
('de', 'ADP')
('sus', 'DET')
('secuencias', 'NOUN')
('se', 'PRON')
('hable', 'VERB')
('bastante', 'ADV')
(',', 'PUNCT')
('para', 'ADP')
('crear', 'VERB')
('a', 'ADP')
('través', 'NOUN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('sonido', 'NOUN')
(',', 'PUNCT')
('el', 'DET')
('decorado', 'NOUN')
('y', 'CCONJ')
('el', 'DET')
('gesto', 'NOUN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('actor', 'NOUN')
('una', 'DET')
('atmósfera', 'NOUN')
('auténticamente', 'ADV')
('inquietante', 'ADJ')
('y', 'CCONJ')
('malsana', 'ADJ')
('.', 'PUNCT')
('La', 'DET')
('primera

('El', 'DET')
('equipo', 'NOUN')
('de', 'ADP')
('Maljkovic', 'PROPN')
('fue', 'AUX')
('el', 'DET')
('primero', 'ADJ')
('que', 'PRON')
('rompió', 'VERB')
('el', 'DET')
('equilibrio', 'NOUN')
('con', 'ADP')
('una', 'DET')
('excepcional', 'ADJ')
('racha', 'NOUN')
('de', 'ADP')
('cinco', 'NUM')
('triples', 'NOUN')
('seguidos', 'ADJ')
('en', 'ADP')
('el', 'DET')
('segundo', 'ADJ')
('cuarto', 'NOUN')
(',', 'PUNCT')
('en', 'ADP')
('respuesta', 'NOUN')
('a', 'ADP')
('una', 'DET')
('defensa', 'NOUN')
('en', 'ADP')
('zona', 'NOUN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('Barça', 'PROPN')
('(', 'PUNCT')
('26-39', 'NUM')
(')', 'PUNCT')
('.', 'PUNCT')
('Pero', 'CCONJ')
('los', 'DET')
('jugadores', 'NOUN')
('de', 'ADP')
('Aíto', 'PROPN')
('no', 'ADV')
('tardaron', 'VERB')
('en', 'ADP')
('rehacerse', '_')
('rehacer', 'VERB')
('se', 'PRON')
(',', 'PUNCT')
('protagonismo', 'NOUN')
('de', 'ADP')
('Digbeu', 'PROPN')
('y', 'CCONJ')
('la', 'DET')
('eficacia', 'NOUN')
('de', 'ADP')
('Jasikevicius', 'PROP

('último', 'ADJ')
('minuto', 'NOUN')
('por', 'ADP')
('un', 'DET')
('título', 'NOUN')
('merecen', 'VERB')
('una', 'DET')
('audiencia', 'NOUN')
('digna', 'ADJ')
('de', 'ADP')
('una', 'DET')
('Copa', 'PROPN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('Mundo', 'PROPN')
('de', 'ADP')
('fútbol', 'NOUN')
('.', 'PUNCT')
('En', 'ADP')
('el', 'DET')
('inicio', 'NOUN')
('de', 'ADP')
('este', 'DET')
('tinglado', 'NOUN')
('de', 'ADP')
('princesas', 'NOUN')
('por', 'ADP')
('unos', 'DET')
('días', 'NOUN')
('hay', 'AUX')
('que', 'SCONJ')
('recordar', 'VERB')
('a', 'ADP')
('Eric', 'PROPN')
('Morley', 'PROPN')
(',', 'PUNCT')
('fallecido', 'ADJ')
('el', 'DET')
('pasado', 'ADJ')
('noviembre', 'NOUN')
('.', 'PUNCT')
('Él', 'PRON')
('creó', 'VERB')
('el', 'DET')
('concurso', 'NOUN')
('en', 'ADP')
('1951', 'NOUN')
('y', 'CCONJ')
('la', 'DET')
('máquina', 'NOUN')
('echó', 'VERB')
('a', 'ADP')
('rodar', 'VERB')
('.', 'PUNCT')
('En', 'ADP')
('realidad', 'NOUN')
('lo', 'PRON')
('que', 'PRON')
('quería', 'VERB')


('Fuentes', 'NOUN')
('de', 'ADP')
('seguridad', 'NOUN')
('no', 'ADV')
('descartaban', 'VERB')
('ayer', 'ADV')
('que', 'SCONJ')
('se', 'PRON')
('pudiera', 'AUX')
('tratar', 'VERB')
('de', 'ADP')
('un', 'DET')
('primer', 'ADJ')
('atentado', 'NOUN')
('realizado', 'ADJ')
('por', 'ADP')
('el', 'DET')
('movimiento', 'NOUN')
('palestino', 'ADJ')
('Al', '_')
('A', 'ADP')
('el', 'DET')
('Fatah', 'PROPN')
('en', 'ADP')
('el', 'DET')
('interior', 'NOUN')
('de', 'ADP')
('Israel', 'PROPN')
(',', 'PUNCT')
('en', 'ADP')
('represalia', 'NOUN')
('por', 'ADP')
('la', 'DET')
('cadena', 'NOUN')
('de', 'ADP')
('ejecuciones', 'NOUN')
('de', 'ADP')
('líderes', 'NOUN')
('de', 'ADP')
('este', 'DET')
('movimiento', 'NOUN')
('realizadas', 'ADJ')
('en', 'ADP')
('las', 'DET')
('últimas', 'ADJ')
('semanas', 'NOUN')
('.', 'PUNCT')
('SEPELIO', 'NOUN')
('MULTITUDINARIO', 'ADJ')
('.', 'PUNCT')
('Unas', 'PRON')
('70.000', 'NUM')
('personas', 'NOUN')
('participaron', 'VERB')
('ayer', 'ADV')
('en', 'ADP')
('el', 'DET')
('

('Bosnia', 'PROPN')
('y', 'CCONJ')
('Croacia', 'PROPN')
('no', 'PART')
('sólo', 'ADV')
('saludaron', 'VERB')
('ayer', 'ADV')
('la', 'DET')
('detención', 'NOUN')
('de', 'ADP')
('Slobodan', 'PROPN')
('Milosevic', 'PROPN')
(',', 'PUNCT')
('sino', 'CCONJ')
('que', 'SCONJ')
('reclamaron', 'VERB')
('su', 'DET')
('entrega', 'NOUN')
('al', '_')
('a', 'ADP')
('el', 'DET')
('Tribunal', 'PROPN')
('Penal', 'PROPN')
('Internacional', 'PROPN')
('para', 'ADP')
('la', 'DET')
('antigua', 'ADJ')
('Yugoslavia', 'PROPN')
('(', 'PUNCT')
('TPI', 'PROPN')
(')', 'PUNCT')
(',', 'PUNCT')
('que', 'PRON')
('lo', 'PRON')
('acusa', 'VERB')
('de', 'ADP')
('crímenes', 'NOUN')
('de', 'ADP')
('guerra', 'NOUN')
('.', 'PUNCT')
('Los', 'DET')
('dirigentes', 'NOUN')
('albaneses', 'ADJ')
('de', 'ADP')
('Kosovo', 'PROPN')
('consideraron', 'VERB')
('que', 'SCONJ')
('el', 'DET')
('arresto', 'NOUN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('expresidente', 'NOUN')
('yugoslavo', 'ADJ')
('es', 'AUX')
('"', 'PUNCT')
('un', 'DET')


('del', '_')
('de', 'ADP')
('el', 'DET')
('país', 'NOUN')
('en', 'ADP')
('la', 'DET')
('que', 'PRON')
('prometió', 'VERB')
('a', 'ADP')
('los', 'DET')
('bereberes', 'NOUN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('Rif', 'PROPN')
('que', 'SCONJ')
(',', 'PUNCT')
('con', 'ADP')
('él', 'PRON')
(',', 'PUNCT')
('se', 'PRON')
('habían', 'AUX')
('terminado', 'VERB')
('las', 'DET')
('cuatro', 'NUM')
('décadas', 'NOUN')
('de', 'ADP')
('abandono', 'NOUN')
('oficial', 'ADJ')
('a', 'ADP')
('las', 'DET')
('que', 'PRON')
('les', 'PRON')
('condenó', 'VERB')
('Hassan', 'PROPN')
('II', 'PROPN')
('por', 'ADP')
('sus', 'DET')
('tendencias', 'NOUN')
('rebeldes', 'ADJ')
('.', 'PUNCT')
('Sin', 'ADP')
('duda', 'NOUN')
(',', 'PUNCT')
('el', 'DET')
('movimiento', 'NOUN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('nuevo', 'ADJ')
('monarca', 'NOUN')
('que', 'PRON')
('ha', 'AUX')
('suscitado', 'VERB')
('más', 'ADV')
('comentarios', 'NOUN')
('ha', 'AUX')
('sido', 'AUX')
('la', 'DET')
('desactivación', 'NOUN')
('d

('John', 'PROPN')
('McCain', 'PROPN')
('se', 'PRON')
('ha', 'AUX')
('traído', 'VERB')
('incluso', 'ADV')
('sus', 'DET')
('amuletos', 'NOUN')
('de', 'ADP')
('la', 'DET')
('suerte', 'NOUN')
('.', 'PUNCT')
('"', 'PUNCT')
('Mi', 'DET')
('marido', 'NOUN')
('es', 'AUX')
('extrañamente', 'ADV')
('supersticioso', 'ADJ')
('"', 'PUNCT')
(',', 'PUNCT')
('confirmó', 'VERB')
('ayer', 'ADV')
('su', 'DET')
('esposa', 'NOUN')
('Cindy', 'PROPN')
('.', 'PUNCT')
('Precisamente', 'ADV')
('por', 'ADP')
('ello', 'PRON')
(',', 'PUNCT')
('el', 'DET')
('senador', 'NOUN')
('por', 'ADP')
('Arizona', 'PROPN')
('pensaba', 'VERB')
('ayer', 'ADV')
('matar', 'VERB')
('la', 'DET')
('ansiedad', 'NOUN')
('yéndose', '_')
('yendo', 'VERB')
('se', 'PRON')
('al', '_')
('a', 'ADP')
('el', 'DET')
('cine', 'NOUN')
(',', 'PUNCT')
('"', 'PUNCT')
('como', 'SCONJ')
('hace', 'VERB')
('todos', 'DET')
('los', 'DET')
('días', 'NOUN')
('de', 'ADP')
('elecciones', 'NOUN')
('"', 'PUNCT')
(',', 'PUNCT')
('dijo', 'VERB')
('Cindy', 'PROPN')

('valioso', 'ADJ')
('.', 'PUNCT')
('Tiene', 'VERB')
('un', 'DET')
('inagotable', 'ADJ')
('talento', 'NOUN')
('humano', 'ADJ')
('y', 'CCONJ')
('no', 'ADV')
('existe', 'VERB')
('mayor', 'ADJ')
('tesoro', 'NOUN')
('.', 'PUNCT')
('"', 'PUNCT')
('Este', 'DET')
('partido', 'NOUN')
('lo', 'PRON')
('habíamos', 'AUX')
('soñado', 'VERB')
(',', 'PUNCT')
('lo', 'PRON')
('habíamos', 'AUX')
('pensado', 'VERB')
('y', 'CCONJ')
('lo', 'PRON')
('hemos', 'AUX')
('conseguido', 'VERB')
('.', 'PUNCT')
('Es', 'AUX')
('un', 'DET')
('gran', 'ADJ')
('premio', 'NOUN')
('para', 'ADP')
('nuestro', 'DET')
('país', 'NOUN')
('y', 'CCONJ')
('para', 'ADP')
('los', 'DET')
('jugadores', 'NOUN')
('"', 'PUNCT')
(',', 'PUNCT')
('proclamó', 'VERB')
('un', 'DET')
('emocionado', 'ADJ')
('Bruno', 'PROPN')
('Metsu', 'PROPN')
(',', 'PUNCT')
('un', 'DET')
('anónimo', 'ADJ')
('técnico', 'NOUN')
('francés', 'ADJ')
('que', 'PRON')
('ha', 'AUX')
('ganado', 'VERB')
('a', 'ADP')
('Francia', 'PROPN')
('.', 'PUNCT')
('Un', 'DET')
('tipo',

('ayer', 'ADV')
('en', 'ADP')
('el', 'DET')
('congreso', 'NOUN')
('permitió', 'VERB')
('aprobar', 'VERB')
('la', 'DET')
('legitimidad', 'NOUN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('colectivo', 'NOUN')
('para', 'ADP')
('sacar', 'VERB')
('adelante', 'NOUN')
('el', 'DET')
('código', 'NOUN')
('de', 'ADP')
('autorregulación', 'NOUN')
('.', 'PUNCT')
('Alonso-Cuevillas', 'PROPN')
('aseguró', 'VERB')
('que', 'SCONJ')
('la', 'DET')
('abogacía', 'NOUN')
('debe', 'AUX')
('adecuarse', '_')
('adecuar', 'VERB')
('se', 'PRON')
('a', 'ADP')
('la', 'DET')
('sociedad', 'NOUN')
('actual', 'ADJ')
('para', 'ADP')
('cambiar', 'VERB')
('la', 'DET')
('"', 'PUNCT')
('imagen', 'NOUN')
('distorsionada', 'ADJ')
('"', 'PUNCT')
('que', 'PRON')
('los', 'DET')
('ciudadanos', 'NOUN')
('tienen', 'VERB')
('del', '_')
('de', 'ADP')
('el', 'DET')
('colectivo', 'NOUN')
('.', 'PUNCT')
('El', 'DET')
('decano', 'NOUN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('colegio', 'NOUN')
('barcelonés', 'ADJ')
('aprovechó', 'VERB

('La', 'DET')
('gestión', 'NOUN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('hotel', 'NOUN')
('se', 'PRON')
('halla', 'VERB')
('en', 'ADP')
('manos', 'NOUN')
('de', 'ADP')
('la', 'DET')
('empresa', 'NOUN')
('R-C', 'PROPN')
('Spain', 'PROPN')
('SL', 'PROPN')
('-', 'PUNCT')
('-', 'PUNCT')
('filial', 'NOUN')
('de', 'ADP')
('la', 'DET')
('cadena', 'NOUN')
('hotelera', 'ADJ')
('internacional', 'ADJ')
('Ritz-Carlton', 'PROPN')
('-', 'PUNCT')
('-', 'PUNCT')
('hasta', 'ADP')
('el', 'DET')
('2019', 'NOUN')
('.', 'PUNCT')
('Fuentes', 'NOUN')
('de', 'ADP')
('la', 'DET')
('dirección', 'NOUN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('establecimiento', 'NOUN')
('desconocían', 'VERB')
('ayer', 'ADV')
('los', 'DET')
('cambios', 'NOUN')
('que', 'PRON')
('se', 'PRON')
('habían', 'AUX')
('producido', 'VERB')
('en', 'ADP')
('la', 'DET')
('propiedad', 'NOUN')
('del', '_')
('de', 'ADP')
('el', 'DET')
('inmueble', 'NOUN')
('.', 'PUNCT')
('Letsbuyit.com', 'PROPN')
('prescinde', 'VERB')
('de', 'ADP')
('200',

('que', 'PRON')
('venderá', 'VERB')
('a', 'ADP')
('precio', 'NOUN')
('de', 'ADP')
('oro', 'NOUN')
('.', 'PUNCT')
('El', 'DET')
('PP', 'PROPN')
('y', 'CCONJ')
('el', 'DET')
('PSOE', 'PROPN')
('denunciaron', 'VERB')
('ayer', 'ADV')
('que', 'SCONJ')
('el', 'DET')
('Grupo', 'PROPN')
('Independiente', 'PROPN')
('Liberal', 'PROPN')
('(', 'PUNCT')
('GIL', 'PROPN')
(')', 'PUNCT')
('ha', 'AUX')
('ofrecido', 'VERB')
('"', 'PUNCT')
('cantidades', 'NOUN')
('millonarias', 'ADJ')
('"', 'PUNCT')
('a', 'ADP')
('varios', 'DET')
('ediles', 'NOUN')
('de', 'ADP')
('la', 'DET')
('oposición', 'NOUN')
('para', 'ADP')
('que', 'SCONJ')
('no', 'ADV')
('propicien', 'VERB')
('el', 'DET')
('pacto', 'NOUN')
('anti-Gil', 'ADJ')
(',', 'PUNCT')
('que', 'PRON')
('haría', 'VERB')
('perder', 'VERB')
('la', 'DET')
('alcaldía', 'NOUN')
('de', 'ADP')
('Estepona', 'PROPN')
('(', 'PUNCT')
('Málaga', 'PROPN')
(')', 'PUNCT')
('a', 'ADP')
('Jesús', 'PROPN')
('Gil', 'PROPN')
('Marín', 'PROPN')
(',', 'PUNCT')
('hijo', 'NOUN')
('de

('¿', 'PUNCT')
('O', 'CCONJ')
('que', 'SCONJ')
('los', 'DET')
('varones', 'NOUN')
('mirábamos', 'VERB')
('con', 'ADP')
('demasiada', 'DET')
('avidez', 'NOUN')
('?', 'PUNCT')
('.', 'PUNCT')
('Lo', 'PRON')
('cierto', 'ADJ')
('es', 'AUX')
('que', 'SCONJ')
('a', 'ADP')
('mí', 'PRON')
(',', 'PUNCT')
('me', 'PRON')
('da', 'VERB')
('un', 'DET')
('poco', 'PRON')
('de', 'ADP')
('pena', 'NOUN')
('.', 'PUNCT')


In [16]:
data_file = open("UD_Spanish-AnCora/es_ancora-ud-dev.conllu", "r", encoding="utf-8")

wordList = []
for tokenlist in parse_incr(data_file): 
    wordList2 = []
    for token in tokenlist:
        wordList2.append((token['form'],token['upos']))
    wordList.append(wordList2)

In [22]:
len(word_tag),len(wordList)

(54685, 1654)

2. **Entrenamiento:** Una vez que el dataset esta con la estructura correcta, utiliza la clase `hmm.HiddenMarkovModelTrainer()` para entrenar con el $80 \%$ del dataset como conjunto de `entrenamiento` y $20 \%$ para el conjunto de `test`.

**Ayuda:** Para la separacion entre conjuntos de entrenamiento y test, puedes usar la funcion de Scikit Learn: 

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

En este punto el curso de Machine Learning con Scikit Learn es un buen complemento para entender mejor las funcionalidades de Scikit Learn: https://platzi.com/cursos/scikitlearn-ml/ 

In [26]:
data_train,data_test = train_test_split(wordList, test_size = 0.2,random_state = 42)

In [27]:
tagger = hmm.HiddenMarkovModelTagger.train(data_train)

In [28]:
tagger.evaluate(data_train)

0.969611436115727

In [None]:
tagger.evaluate(data_test)

# Modelo Markoviano de Máxima Entropia

La diferencia entre el modelo markoviano latente, es que en este caso, las probabilidades se calculan de una manera mas sencilla ó en un solo Paso.

* Dada una palabra o una etiqueta anterior, cual es la probabilidad de que se de una etiqueta actual. es decir, el espacio muestral se ve reducido en conjunto a la condición de que el evento de una etiqueta anterior y una palabra ya se presentaron, por tanto, se calcula la probabilidad de que se de una etiqueta en la posición actual con esos dos datos.
* No se usa especificamente la regla de bayes para calcular la probabilidad de emisión y transición, contrario al modelo Markoviano latente el cual si la usa.
* En este caso se estan creando nuevas dependencias, es decir una probabilidad que no se descompone

![](.\MEMM.PNG)


* El modelo markoviano de maxima entropia, gira en torno al calculo de la probabilidad que se de una etiqueta en la posición actual, la cual recibe como insumo o condiciones las probabilidades de que ya se dió una etiqueta anterior, posterior y una palabra anterior, actual y posterior.
* En este caso, el MEMM a diferencia del HMM, calcula una probabilidad a posteriori, hablando en el contexto del teorema de Bayes, es decir, dada unas circustancias del entorno que ya se dieron, cual es la probabilidad que se de una etiqueta en esta posición.
* El HMM se concentra en la probabilidad a priori, el cual dada la probabilidad de transición, de que se de una etiqueta dada una etiqueta anterior por la probabilidad de emisión, es decir el primer dato que se obtiene por la probabilidad de que se de una palabra dado que se tiene una etiqueta.
* En conclusión, dado un contexto al rededor de una etiqueta particular, cual es la probabilidad de que esa categoria sea cierta etiqueta gramatical. Esto tambien se conoce como un Hiper-parametro conocido como Window Size

$$
P(t_i|w_i,t_{i-1}) = \frac{C(w_i,t_{i-1},t_i)}{C(w_i,t_{i-1})}
$$

* El calculo se realiza bajo un esquema de conteo de frecuencias de las se cuencias de palabras y etiquetas en el corpus.
* Cantidad de veces que se observa la palabra con cierta etiqueta anterior y cierta etiqueta actual.
* Dividido en la cantidad de veces que se observa la palabra con la etiqueta anterior.


## Algoritmo de Viterbi para MEMM

Se aplica una ligera modificación, la probabilidad de la primera palabra se calcula como la probabilidad maxima entre el producto de la probabilidad de que dado un contexto se de una etiqueta en la posición actual.

* La probabilidad a posterior, dada la probabilidad de la secuencia anterior por la probabilidad de que dado un contexto se de una etiqueta en la posición actual

![](.\viterbiMEMM.PNG)

## Clasificación de Texto.

Para el desarrollo de un modelo se deben realizar un proceso de extracción de caracteristicas, tales como:
- Tema de conservación
- Sentimiento
- Etiquetas

Se deben vectorizar hasta cierto punto los atributos de cada uno de los datapoints para cada documento, dado unos atributos se debe llegar a una etiqueta.

### Tecnicas de Clasificación:
- Basadas en teoria de la probabilidad
- Basadas en teoria de la información
- Basadas en espacios vectoriales

### Clasificación de Palabras:
- Identificación de genero de nombres
- Etiquetado POS (Categorias gramaticales)
- Bloqueo de palabras ofensivas

### Clasificación de documentos:
- Analisis de sentimientos
- Topicos de conversación 
- Priorización de CRM



In [None]:
import nltk, random
from nltk.corpus import names

def atributos(palabra):
    return {'letra_f':palabra[-1]}

tagset = [
    
    (n, 'M'/'F') for n in names.words('')
]