In [148]:
import sys
sys.path.append("C:/Users/sumit/OneDrive/Escritorio/Universidad/P_Curriculares/Clasificación de texto (NLP)/venv/Lib/site-packages")

%pwd

'C:\\Users\\sumit\\OneDrive\\Escritorio\\Universidad\\P_Curriculares\\Clasificación de texto (NLP)'

# Entrenando un Modelo Markoviano de máxima entropía

## Entrenamiento del modelo - Cálculo de Conteos

- P(ti | wi,ti-1) = C(wi/ti/ti-1) / C(wi/ti-1)
- word_tags = C(wi/ti/ti-1)
- word_prevtag = C(wi/ti-1)

In [149]:
from conllu import parse_incr

word_tags = {}
word_prevtag = {}

tagtype = 'upos'
data_file = open("UD_Spanish-AnCora/es_ancora-ud-train.conllu", "r", encoding="utf-8")

for tokenlist in parse_incr(data_file):
    prevtag = "None"
    for token in tokenlist:
        tag = token[tagtype]
        
        # Conteo de C(wi|ti|ti-1)
        wordtags = token['form'].lower() + "|" + tag + "|" + prevtag
        
        if wordtags in word_tags.keys():
            word_tags[wordtags] += 1
        else:
            word_tags[wordtags] = 1
            
        # Conteo de C(wi|ti-1)
        wordprevtag = token['form'].lower() + "|" + prevtag
        if wordprevtag in word_prevtag.keys():
            word_prevtag[wordprevtag] += 1
        else:
            word_prevtag[wordprevtag] = 1
                
        prevtag = tag

In [150]:
sum(word_prevtag.values())

463363

## Entrenamiento del modelo - calculo de probabilidades

- P(ti|wi,ti-1) = C(wi|ti|ti-1) / C(wi|ti-1)

In [151]:
memmProbs = {}

# Cálculo de las probabilidades:
for key in word_tags.keys():
    x = key.split("|")
    if len(x) > 3:
        new_key = x[2] + "|" + "|," + x[3]
        memmProbs[new_key] = word_tags[key] / word_prevtag["|"+"|"+x[3]]
    else:
        new_key = x[1] + "|" + x[0] + "," + x[2]
        memmProbs[new_key] = word_tags[key] / word_prevtag[x[0]+"|"+x[2]]

In [152]:
memmProbs
print(memmProbs['ADV|mientras,PUNCT'])
print(memmProbs['NUM|miles,ADP'])

0.029239766081871343
0.95


## Algoritmo de Viterbi para MEMM

In [153]:
# identificamos las categorias gramaticales 'upos' unicas en el corpus
stateSet = {'ADJ',
 'ADP',
 'ADV',
 'AUX',
 'CCONJ',
 'DET',
 'INTJ',
 'NOUN',
 'NUM',
 'PART',
 'PRON',
 'PROPN',
 'PUNCT',
 'SCONJ',
 'SYM',
 'VERB',
 '_'}

In [154]:
# enumeramos las categorias con numeros para asignar a 
# las filas de la matriz de Viterbi
tagStateDict = {}
for i, state in enumerate(stateSet):
  tagStateDict[state] = i
tagStateDict

{'NOUN': 0,
 'PRON': 1,
 'ADP': 2,
 'ADV': 3,
 'CCONJ': 4,
 'INTJ': 5,
 'NUM': 6,
 'ADJ': 7,
 'AUX': 8,
 'VERB': 9,
 'PART': 10,
 'DET': 11,
 'SCONJ': 12,
 'PUNCT': 13,
 '_': 14,
 'SYM': 15,
 'PROPN': 16}

## Distribución inicial de estados latentes

Para poder calcular la distribución inicial de estados, tenemos que sacar las probabilidades de que al principio de la frase aparezca alguna categoría gramatical:

In [155]:
# Calculamos distribución inicial de estados
initTagStateProb = {} # \rho_i^{(0)}
from conllu import parse_incr 

data_file = open("UD_Spanish-AnCora/es_ancora-ud-train.conllu", "r", encoding="utf-8")
count = 0 # cuenta la longitud del corpus
for tokenlist in parse_incr(data_file):
  count += 1
  tag = tokenlist[0]['upos']
  if tag in initTagStateProb.keys():
    initTagStateProb[tag] += 1
  else:
    initTagStateProb[tag] = 1

for key in initTagStateProb.keys():
  initTagStateProb[key] /= count

initTagStateProb

{'DET': 0.34799021321216356,
 'ADP': 0.14931842013282068,
 'VERB': 0.04557846906675987,
 'ADV': 0.07577770010485844,
 'PROPN': 0.10506815798671792,
 'PRON': 0.04173365955959455,
 'ADJ': 0.010136315973435861,
 'CCONJ': 0.036980076896190144,
 'PART': 0.002446696959105208,
 'PUNCT': 0.09143656064313177,
 'NOUN': 0.025026214610276126,
 'NUM': 0.0068507514854945824,
 '_': 0.009227542817196784,
 'SCONJ': 0.027123383432366307,
 'AUX': 0.022789234533379936,
 'INTJ': 0.0020272631946871723,
 'SYM': 0.0004893393918210416}

In [156]:
# verificamos que la suma de las probabilidades es 1 (100%)
import numpy as np
np.array([initTagStateProb[k] for k in initTagStateProb.keys()]).sum()

1.0

## Construcción del algoritmo de Viterbi para MEMM

Dada una secuencia de palabras $\{p_1, p_2, \dots, p_n \}$, y un conjunto de categorias gramaticales dadas por la convención `upos`, se considera la matriz de probabilidades de Viterbi así:

$$
\begin{array}{c c}
\begin{array}{c c c c}
\text{ADJ} \\
\text{ADV}\\
\text{PRON} \\
\vdots \\
{}
\end{array} 
&
\left[
\begin{array}{c c c c}
\nu_1(\text{ADJ}) & \nu_2(\text{ADJ}) & \dots  & \nu_n(\text{ADJ})\\
\nu_1(\text{ADV}) & \nu_2(\text{ADV}) & \dots  & \nu_n(\text{ADV})\\ 
\nu_1(\text{PRON}) & \nu_2(\text{PRON}) & \dots  & \nu_n(\text{PRON})\\
\vdots & \vdots & \dots & \vdots \\ \hdashline
p_1 & p_2 & \dots & p_n 
\end{array}
\right] 
\end{array}
$$

Donde las probabilidades de Viterbi en la primera columna (para una categoria $i$) están dadas por: 

$$
\nu_1(i) = \underbrace{\rho_i^{(0)}}_{\text{probabilidad inicial}} \times P(i \vert p_1, \text{"None"})
$$

y para las siguientes columnas: 

$$
\nu_{t}(j) = \max_i \{ \overbrace{\nu_{t-1}(i)}^{\text{estado anterior}} \times P(j \vert p_t, i) \}
$$

In [157]:
import nltk
from nltk import word_tokenize

In [158]:
def ViterbiMatrix(secuencia, memmProbs=memmProbs,
                  tagStateDict=tagStateDict,
                  initTagStateProb=initTagStateProb):
    seq = word_tokenize(secuencia)
    viterbiProb = np.zeros((17, len(seq)))  # upos tiene 17 categorias

    # inicialización primera columna
    for key in tagStateDict.keys():
        tag_row = tagStateDict[key]
        word_tags = key + "|" + seq[0].lower() + "," + "None"
        if word_tags in memmProbs.keys():
            viterbiProb[tag_row, 0] = initTagStateProb[key]*memmProbs[word_tags]
    
    # computo de las siguientes columnas
    for col in range(1, len(seq)):
        for key in tagStateDict.keys():
            tag_row = tagStateDict[key]
            possible_probs = []
            for key2 in tagStateDict.keys():
                word_tags = key + "|" + seq[col].lower() + "," + key2
                tag_row2 = tagStateDict[key2]
            
                if word_tags in memmProbs.keys():
                    # miramos estados de la col anterior
                    if viterbiProb[tag_row2, col-1]>0:
                        possible_probs.append(viterbiProb[tag_row2, col-1]*memmProbs[word_tags])
            
            if len(possible_probs) > 0:
                viterbiProb[tag_row, col] = max(possible_probs)

    return viterbiProb

In [159]:
matrix = ViterbiMatrix('el mundo es pequeño')
matrix

array([[0.00000000e+00, 3.32592416e-01, 5.82360262e-03, 0.00000000e+00],
       [0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
       [0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
       [0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
       [0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
       [0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
       [0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
       [0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 3.26768814e-01],
       [0.00000000e+00, 0.00000000e+00, 3.26768814e-01, 0.00000000e+00],
       [0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
       [0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
       [3.47990213e-01, 0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
       [0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
       [0.00000000e+00, 0.00000000e+00, 0.00000000e

In [160]:
def ViterbiTags(secuencia, memmProbs=memmProbs,
                  tagStateDict=tagStateDict,
                  initTagStateProb=initTagStateProb):
    seq = word_tokenize(secuencia)
    viterbiProb = np.zeros((17, len(seq)))  # upos tiene 17 categorias

    # inicialización primera columna
    for key in tagStateDict.keys():
        tag_row = tagStateDict[key]
        word_tags = key + "|" + seq[0].lower() + "," + "None"
        if word_tags in memmProbs.keys():
            viterbiProb[tag_row, 0] = initTagStateProb[key]*memmProbs[word_tags]
    
    # computo de las siguientes columnas
    for col in range(1, len(seq)):
        for key in tagStateDict.keys():
            tag_row = tagStateDict[key]
            possible_probs = []
            for key2 in tagStateDict.keys():
                word_tags = key + "|" + seq[col].lower() + "," + key2
                tag_row2 = tagStateDict[key2]
            
                if word_tags in memmProbs.keys():
                    # miramos estados de la col anterior
                    if viterbiProb[tag_row2, col-1]>0:
                        possible_probs.append(viterbiProb[tag_row2, col-1]*memmProbs[word_tags])
            
            if len(possible_probs) > 0:
                viterbiProb[tag_row, col] = max(possible_probs)
    
    # contruccion de secuencia de tags
    res = []
    for i, p in enumerate(seq):
        for tag in tagStateDict.keys():
            if tagStateDict[tag] == np.argmax(viterbiProb[:, i]):
                res.append((p, tag))

    return res

In [161]:
ViterbiTags('el mundo es muy pequeño')

[('el', 'DET'),
 ('mundo', 'NOUN'),
 ('es', 'AUX'),
 ('muy', 'ADV'),
 ('pequeño', 'ADJ')]

In [162]:
ViterbiTags('estos instrumentos han de rasgar')

[('estos', 'DET'),
 ('instrumentos', 'NOUN'),
 ('han', 'AUX'),
 ('de', 'ADP'),
 ('rasgar', 'NOUN')]

In [166]:
ViterbiTags('Yo me llamo Sumit')

[('Yo', 'PRON'), ('me', 'PRON'), ('llamo', 'VERB'), ('Sumit', 'NOUN')]

### ¿ Siguientes Pasos ? 

El modelo construido, aunque es la base de un MEMM, no explota todo el potencial del concepto  que estos modelos representan, en nuestro caso sencillo consideramos solo un **feature** para predecir la categoría gramatical: $<w_i, t_{i-1}>$. Es decir, las probabilidades de una cierta etiqueta $t_i$ dada una observación $<w_i, t_{i-1}>$ se calculan contando eventos donde se observe que $<w_i, t_{i-1}>$ sucede simultáneamente con $t_i$. 

La generalización de esto (donde puedo considerar multiples observaciones o **features**, y a partir de estos inferir la categoría gramatical) se hace construyendo las llamadas **feature-functions**, donde estas funciones toman valores de 0 o 1, cuando se cumplan las condiciones de la observación o feature en cuestion. En general podemos considerar una **feature-function** como : 

$$f_a(t, o) = f_a(\text{tag}, \text{observation}) = 
\begin{cases}
  1 , & \text{se cumple condición } a \\
  0, & \text{en caso contrario}
\end{cases}
$$

donde la condición $a$ es una relacion entre los valores que tome $\text{tag}$ y $\text{context}$, por ejemplo:

$$f_a(t, o) = f_a(\text{tag}, \text{observation}) = 
\begin{cases}
  1 , & (t_i, t_{i-1}) = \text{('VERB', 'ADJ')} \\
  0, & \text{en caso contrario}
\end{cases}
$$

Al considerar varias funciones, y por lo tanto varios features observables, consideramos una combinacion lineal de estos por medio de un coeficiente que multiplique a cada función: 

$$
\theta_1 f_1(t, o) + \theta_2 f_2(t, o) + \dots
$$

donde los coeficientes indicarán cuales features son más relevantes y por lo tanto pesan más para la decisión del resultado del modelo. De esta manera los coeficientes $\theta_j$ se vuelven parámetros del modelo que deben ser optimizados (esto puede realizarse con cualquier técnica de optimizacion como el Gradiente Descendente). Ahora, las probabilidades que pueden obtener usando un softmax sobre estas combinaciones lineales de features: 

$$
P = \prod_i \frac{\exp{\left(\sum_j \theta_j f_j(t_i, o)\right)}}{\sum_{t'}\exp{\left(\sum_j \theta_j f_j(t', o)\right)}}
$$

Así, lo que buscamos con el algoritmo de optimización es encontrar los parámetros $\theta_j$ que maximizan la probabilidad anterior. En NLTK encontramos la implementación completa de un clasificador de máxima entropia que no esta restringido a relaciones markovianas: https://www.nltk.org/_modules/nltk/classify/maxent.html

Un segmento resumido de la clase en python que implementa este clasificador en NLTK lo encuentras así: 

```
class MaxentClassifier(ClassifierI):

    def __init__(self, encoding, weights, logarithmic=True):
        self._encoding = encoding
        self._weights = weights
        self._logarithmic = logarithmic
        assert encoding.length() == len(weights)

    def labels(self):
        return self._encoding.labels()

    def set_weights(self, new_weights):
        self._weights = new_weights
        assert self._encoding.length() == len(new_weights)


    def weights(self):
        return self._weights

    def classify(self, featureset):
        return self.prob_classify(featureset).max()

    def prob_classify(self, featureset):
        ### ...

        # Normalize the dictionary to give a probability distribution
        return DictionaryProbDist(prob_dict, log=self._logarithmic, normalize=True)

    @classmethod
    def train(
        cls,
        train_toks,
        algorithm=None,
        trace=3,
        encoding=None,
        labels=None,
        gaussian_prior_sigma=0,
        **cutoffs
    ):
     ### ......
```

Donde te das cuenta de la forma que tienen las clases en NLTK que implementan clasificadores generales. Aquí vemos que la clase `MaxentClassifier` es una subclase de una más general `ClassifierI` la cual representa el proceso de clasificación general de categoría única (es decir, que a cada data-point le corresponda solo una categoria), también que esta clase depende de definir un `encoding`
 y unos pesos `weights` : 

```
class MaxentClassifier(ClassifierI):

    def __init__(self, encoding, weights, logarithmic=True):
```

los pesos corresponden a los parámetros $\theta_i$. Y el encoding es el que corresponde a las funciones $f_a(t, o)$ que dan como resultado valores binarios $1$ o $0$.

La documentación de NLTK te puede dar mas detalles de esta implementación: https://www.nltk.org/api/nltk.classify.html

Finalmente, un ejemplo completo de uso y mejora de un modelo de máxima entropía, lo puedes encontrar en este fork que guarde especialmente para el curso, para que lo tengas de referencia y puedas jugar y aprender con él: 

https://github.com/pachocamacho1990/nltk-maxent-pos-tagger

El cual fue desarrollado originalmente por Arne Neumann (https://github.com/arne-cl) basado en los fueatures propuestos por Ratnaparki en 1996 para la tarea de etiquetado por categorias gramaticales.