# Introduction

Ce TP continue le TP précédent. Nous allons reprendre d'ailleurs les mêmes données et commencer la mise en oeuvre d'un modèle de Markov pour la prédiction des étiquettes: 
* une observation est une phrase, représentée comme une séquence de variables aléatoires, une par mot de la phrase
* à cette observation est associée une séquence de variables aléatoires représentant les étiquettes, une par mot de la phrase également

On suppose que la séquence d'observation (une phrase) est générée par un modèle de Markov caché. Les variables cachées sont donc les étiquettes à inférer. Nous allons commencer par écrire une classe python pour représenter le HMM. Cette classe évoluera au fil des TPs. 

Pour cela le code de départ suivant est donné. Afin d'initialiser un HMM, nous devons connaitre : 
- l'ensemble des états (ou *state_list*), dans notre cas l'ensemble des étiquettes grammaticales;
- l'ensemble des observations (ou *observation_list*), dans notre cas l'ensemble des mots connus; tous les autres mots seront remplacés par l'élément spécial *UNK* qui fait partie de l'ensemble des observations. 

Enfin, en interne il est plus facile d'indexer les mots et et les états par des entiers. Ainsi à chaque éléments de respectivement l'ensemble des états et l'ensemble des observations, est associé un indice. Cela nous permet de tout traiter en "matricielle". 

In [1]:
import pickle

with open('train20.pkl', 'rb') as f:
#with open('train10.pkl', 'rb') as f:
    data_train = pickle.load(f)
with open('test20.pkl', 'rb') as f:    
#with open('test10.pkl', 'rb') as f:
    data_test = pickle.load(f)
    

In [2]:
len(data_train)

27184

In [3]:
import nltk
from numpy import array, ones, zeros
import sys

# Some words in test could be unseen during training, or out of the vocabulary (OOV) even during the training. 
# To manage OOVs, all words out the vocabulary are mapped on a special token: UNK defined as follows: 
UNK = "<unk>" 
UNKid = 0 

class HMM:
        def __init__(self, state_list, observation_list,
                 transition_proba = None,
                 observation_proba = None,
                 initial_state_proba = None,
                    transition_proba_2= None):
            """Builds a new Hidden Markov Model
            state_list is the list of state symbols [q_0...q_(N-1)]
            observation_list is the list of observation symbols [v_0...v_(M-1)]
            transition_proba is the transition probability matrix
                [a_ij] a_ij = Pr(Y_(t+1)=q_i|Y_t=q_j)
            observation_proba is the observation probablility matrix
                [b_ki] b_ki = Pr(X_t=v_k|Y_t=q_i)
            initial_state_proba is the initial state distribution
                [pi_i] pi_i = Pr(Y_0=q_i)"""
            print ("HMM creating with: ")
            self.N = len(state_list) # The number of states
            self.M = len(observation_list) # The number of words in the vocabulary
            print (str(self.N)+" states")
            print (str(self.M)+" observations")
            self.omega_Y = state_list # Keep the vocabulary of tags
            self.omega_X = observation_list # Keep the vocabulary of tags
            # Init. of the 3 distributions : observation, transition and initial states
            if transition_proba is None:
                self.transition_proba = zeros( (self.N, self.N), float) 
            else:
                self.transition_proba=transition_proba
                
            if transition_proba_2 is None:
                self.transition_proba_2 = zeros( (self.N, self.N**2), float) 
            else:
                self.transition_proba_2=transition_proba_2   
                
            if observation_proba is None:
                self.observation_proba = zeros( (self.M, self.N), float) 
            else:
                self.observation_proba=observation_proba
            if initial_state_proba is None:
                self.initial_state_proba = zeros( (self.N,), float ) 
            else:
                self.initial_state_proba=initial_state_proba
            # Since everything will be stored in numpy arrays, it is more convenient and compact to 
            # handle words and tags as indices (integer) for a direct access. However, we also need 
            # to keep the mapping between strings (word or tag) and indices. 
            self.make_indexes()
            
        def make_indexes(self):
            """Creates the reverse table that maps states/observations names
                to their index in the probabilities array"""
            self.Y_index = {}
            for i in range(self.N):
                
                self.Y_index[list(self.omega_Y)[i]] = i
            self.X_index = {}
            for i in range(self.M):
                self.X_index[list(self.omega_X)[i]] = i


       # Matrice de transitions (N, N)
        def transition_matrix(self , compt_transition, compt_tag):
            trans = np.zeros((len(compt_tag), len(compt_tag)))
            N= len(compt_tag)
            i=0
            j=0
            for el1, value in compt_tag.items():
                for el2, value in compt_tag.items():
                    try:
                        trans[i,j]= compt_transition[(el1, el2)]
                    except:
                        trans[i,j]=0
                        
                    j=j+1
                i=i+1
                j=0
            trans = trans + 0.0001
            trans= trans/ np.sum(trans,axis=0)
            self.transition_proba = trans
           # return trans
        
        # Mots et le tag associés (M, N)
        def observation_matrix(self, compt_tag, compt_pair, compt_mot):
            obs = np.zeros((len(compt_pair), len(compt_tag)))
            i=0
            j=0
            for word, value  in compt_mot.items():
                for tags, value in compt_tag.items():
                    try:
                        obs[i,j]=compt_pair[(word, tags)]
                    except:
                        obs[i,j]=0
                    j=j+1
                i=i+1
                j=0
            obs = obs + 0.0001
            obs = obs/ np.sum(obs,axis=0)
            self.observation_proba = obs
           # return obs
        
        def observation_matrix(self, compt_tag, compt_pair, compt_mot):
            obs = np.zeros((len(compt_pair), len(compt_tag)))
            i=0
            j=0
            l= []
            for word, value  in compt_mot.items():
                for tags, value in compt_tag.items():
                    try:
                        obs[i,j]=compt_pair[(word, tags)]
                    except:
                        obs[i,j]=0
                    j=j+1
                i=i+1
                j=0
            obs = obs[:len(compt_mot),:]
            obs = obs/ np.sum(obs,axis=0)
            self.observation_proba = obs
           # return obs
        
        
        # Inititations des tags (N,)
        def init(self, compt_init):
            init= np.zeros(len(compt_init))
            i=0
            for tag, valeur in compt_init.items():
                init[i] = valeur
                i=i+1
            init = init +0.0001
            init = init/np.sum(init)
            
            self.initial_state_proba = init 
           # return init
            

        
        
        def matrix_transition3(self , compt_trans2,compt_transition):
            import string
            alphabet =list(string.ascii_lowercase)
            alpha_t = alpha_tuple(alphabet)
            trans_2 = np.zeros((len(alphabet), len(alpha_t)))
            N= len(alphabet)
            i=0
            j=0
            k=0
            list_1=[]
            for l in alphabet :
                for l_1, l_2 in alpha_t:

                    try: 
                        trans_2[i,j]= compt_trans2_train[((l_1,l),(l_2,l)) ]  /compt_transition[(l_2,l_1)]
                    except:

                        trans_2[i,j]=0
                    j=j+1

                i=i+1
                j=0
            trans_2 = trans_2 + 0.0001
            trans_2 = trans_2 / trans_2.sum(axis=0).reshape(1, self.N**2)
            self.transition_proba_2 = trans_2
        
        def train(self,  compt_tag, compt_pair, compt_mot, compt_init, compt_transition, compt_transition_2 = None ):
            self.observation_matrix(compt_tag, compt_pair, compt_mot)
            self.transition_matrix(compt_transition, compt_tag)
            self.init(compt_init)
            if compt_transition_2 !=None:
                self.matrix_transition3(compt_transition_2,compt_transition)

      


### Compter les mots, les tags , les paires , les transitions , les premiers mots 

In [27]:
# Fonction qui compte mots, tags, pairS (mot, tag), les transitions(tag1, tag2), les premiers mots 
# compter : lettre (x ) , lettre (y), (pair: (x, y) (lettre, lettre ), (etat, etat): (lettre, lettre ), (lettre premiere:  etat)

def compteur_dict(data_sent):

    compt_mot = {}
    compt_tag = {}
    compt_pair= {}
    compt_transition = {}
    compt_init = {}
    compt_transitions2 ={}
    
    
    for sentence in data_sent:
        for i in range(len(sentence)):
            pair=sentence[i]
            mot, tag =pair 
            
            if mot in compt_mot:
                compt_mot[mot]=compt_mot[mot]+1
            else:
                compt_mot[mot]=1
                
            if tag in compt_tag:
                compt_tag[tag]=compt_tag[tag]+1
            else:
                compt_tag[tag]=1
                
            if pair in compt_pair:
                compt_pair[pair]=compt_pair[pair]+1
            else:
                compt_pair[pair]=1
                
            if i > 1:
                trans2 = ((sentence[i-2][1], sentence[i-1][1]), tag) #(tag at t-2, tag at t-1, tag at t)
                if trans2 in c_transitions2:
                    compt_transitions2[trans2] = compt_transitions2[trans2] + 1
                else:
                    compt_transitions2[trans2] = 1

            if i > 0:
                trans = (sentence[i-1][1],tag)
                if trans in compt_transition:
                    compt_transition[trans]=compt_transition[trans]+1
                else:
                    compt_transition[trans]=1
                    
            else:
                if tag in compt_init:
                    compt_init[tag]=compt_init[tag]+1
                else:
                    compt_init[tag]=1
                    
    return compt_mot,compt_tag,compt_pair, compt_transition, compt_init, compt_transitions2


In [5]:
# rajoutez z = 0

compt_mot_train,compt_tag_train,compt_pair_train, compt_transition_train, compt_init_train, compt_transition2_train =compteur_dict(data_train)
compt_init_train['z']=0

### Creation du train/ test set + filtrage vocabulaire >10 occurences 

In [6]:
hmm = HMM(state_list=compt_tag_train.keys(), observation_list=compt_mot_train.keys(),
                 transition_proba = None,
                 observation_proba = None,
                 initial_state_proba = None,
                 transition_proba_2 =None)

HMM creating with: 
26 states
26 observations


In [10]:
import numpy as np
hmm.train(compt_tag_train, compt_pair_train, compt_mot_train, compt_init_train, compt_transition_train)

In [11]:
print("transition matrix ", hmm.transition_proba.shape)
print("observation matrix ", hmm.observation_proba.shape)
print("initiation matrix ", hmm.initial_state_proba.shape)
print("transition2 matrix", hmm.transition_proba_2.shape)

transition matrix  (26, 26)
observation matrix  (26, 26)
initiation matrix  (26,)
transition2 matrix (26, 676)


In [13]:
np.sum(hmm.transition_proba, axis = 0)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1.])

## Mapper / Demapper vers les observations / tags 

In [14]:
# utilisable pour tag 

def encode_word(sentence_tokenize, words):
    enc=[]
    for word, tag in sentence_tokenize:
        i=0
        for w in words:
            if w == word:
                enc.append(i)
            i=i+1
        
    return enc



def decode_word(numbers, words):
    dec=[]
    for num in numbers:
        for i in range(0,len(words)):
            if i==num:
                dec.append(words[i])
            i=i+1
    return dec 





## Viterbi 

In [16]:
import numpy as np

def viterbi(sentence, trans, obs, init):
   
    N = trans.shape[0]
    
    init = init if init is not None else np.full(N, 1 / N)
    T = len(sentence)
    T1 = np.empty((N, T), 'd')
    T2 = np.empty((N, T), 'B')

   
    T1[:, 0] = init * obs[:, sentence[0]]
    T2[:, 0] = 0

    for i in range(1, T):
        T1[:, i] = np.max(T1[:, i - 1] * trans.T * obs[np.newaxis, :, sentence[i]].T, 1)
        T2[:, i] = np.argmax(T1[:, i - 1] * trans.T, 1)

    x = np.empty(T, 'B')
    x[-1] = np.argmax(T1[:, T - 1])
    for i in reversed(range(1, T)):
        x[i - 1] = T2[x[i], i]

    return x


y=  encode_word(data_train[3], compt_mot_train )


trans, obs , ini = hmm.transition_proba, hmm.observation_proba, hmm.initial_state_proba
x = viterbi(  y, trans, obs.T, ini)

print("mot initial", data_train[3])
 # x = predictions tag : indice des tags prédit dans le dictionnaire  
decode_word(x, list(compt_tag_train.keys()))  #recupère les tags 

mot initial [('a', 'a'), ('c', 'c'), ('f', 'c'), ('o', 'o'), ('u', 'u'), ('n', 'n'), ('f', 't')]


['a', 'c', 't', 'o', 'u', 'n', 'f']

### Associer predictions aux mots

In [17]:
# L'état 0 ne renvoit pas de prédictions , si mot pas dans vocaublaire =>chunk, unkid = 0
def associate_word_tag(data_sent, vocabulaire, tag ,  trans, obs, ini ):
    result =[]
    data_set = []
    for line  in data_sent:
        
       
        y=  encode_word(line, vocabulaire ) #ex :['Bonjour', 'le', 'monde'] = >[3,8,11]  en fonction emplacement dans dictionnaire
        
        # si ligne vide ou aucun mot de la ligne contenu dans le vocabulaire
        
        
        if y == []:
            print(line)
            for val in range(0, len(line)):
                result.append(('CHUNK' , 0))
                data_set.append(line[val] )
                
        if y != []:
            # x = predictions index de tag, en fonction emplacement dans dictionnaire

            x = viterbi(  y, trans, obs.T, ini)

            tag_pred = decode_word(x, list(tag))   # cherche dans le dictionnaire tags correspondant aux index

            for j in range(0, len(tag_pred)):
                if j == 0 :
                    i=0
                while line[i][0]  not in vocabulaire and i <len(line):
                    result.append(('CHUNK' , 0))
                    data_set.append(line[i] )
                    i=i+1

                if line[i][0] in vocabulaire:
                    result.append((line[i][0] , tag_pred[j]))
                    data_set.append(line[i] )
                i=i+1
    return result , data_set


predictions =associate_word_tag(data_train[0:1000] , compt_mot_train, compt_tag_train.keys() ,  trans, obs, ini )    

In [18]:
result , data_set = predictions
print(len(result), len(data_set))

4855 4855


In [19]:
data_train[-10:]

[[('w', 's'),
  ('i', 'i'),
  ('g', 'g'),
  ('n', 'n'),
  ('i', 'i'),
  ('t', 'f'),
  ('i', 'i'),
  ('c', 'c'),
  ('a', 'a'),
  ('n', 'n'),
  ('f', 't')],
 [('q', 'q'),
  ('u', 'u'),
  ('w', 'e'),
  ('s', 's'),
  ('y', 't'),
  ('i', 'i'),
  ('o', 'o'),
  ('m', 'n')],
 [('t', 't'), ('o', 'o')],
 [('w', 'w'), ('h', 'h'), ('i', 'i'), ('c', 'c'), ('h', 'h')],
 [('h', 'h'),
  ('i', 'i'),
  ('d', 's'),
  ('t', 't'),
  ('o', 'o'),
  ('r', 'r'),
  ('j', 'i'),
  ('s', 'a'),
  ('n', 'n'),
  ('d', 's')],
 [('o', 'o'), ('i', 'u'), ('g', 'g'), ('h', 'h'), ('t', 't')],
 [('t', 't'), ('k', 'o')],
 [('g', 'g'), ('i', 'i'), ('f', 'v'), ('e', 'e')],
 [('t', 't'), ('n', 'h'), ('r', 'e'), ('i', 'i'), ('r', 'r')],
 [('a', 'a'),
  ('t', 't'),
  ('t', 't'),
  ('e', 'e'),
  ('n', 'n'),
  ('t', 't'),
  ('i', 'i'),
  ('o', 'o'),
  ('n', 'n')]]

In [16]:
result[-10:]

[('g', 't'),
 ('h', 'h'),
 ('e', 'e'),
 ('n', 'n'),
 ('c', 'c'),
 ('o', 'o'),
 ('m', 'm'),
 ('e', 'e'),
 ('t', 't'),
 ('o', 'o')]

In [20]:
def precision(data_sent, predictions, unk=False):
    test = data_sent
    compt=0
    if(unk== True):
        for i in range(len(predictions)): 
            if predictions[i]== test[i] or predictions[i] == ('CHUNK',0) :   # 0.96 si on compte les CHUNK
                compt= compt+1
    else:   
        for i in range(len(predictions)): 
            if predictions[i]== test[i]: #   0.86 si on ne compte compte les CHUNK
                compt= compt+1

    return compt/len(predictions)
    
    
    

In [21]:
predictions =  associate_word_tag(data_test , compt_mot_train,compt_tag_train.keys(), trans, obs, ini )

### Précision sur le test set
les résultats sont sensiblement les mêmes sur train_set, car le vocabulaire qui n'est pas >10 occurences est traité de la même facon 

In [22]:
# train20 test20
result_test, test_set = predictions 
precision(test_set, result_test, unk=False)  # on ne compte pas les unk comme bon

0.8498592055598826

In [19]:
#train10 test10
result_test, test_set = predictions 
precision(test_set, result_test, unk=False)  # on ne compte pas les unk comme bon

0.923224043715847

In [20]:
precision(test_set, result_test, unk=True)

0.923224043715847

### Resultat viterbi 1ere ordre 7.6% d erreur pour train10 et test10

In [21]:
error = 1-precision(test_set, result_test, unk=False)
error

0.07677595628415301

### Resultat viterbi 1ere ordre 15% d erreur pour train10 et test10

In [23]:
error = 1-precision(test_set, result_test, unk=False)
error

0.1501407944401174

In [22]:
def do_nothing(data_test):
    acc= 0
    total= 0
    for mot in data_test:
        for l1, l2 in mot:
            if l1==l2:
                acc= acc+1
            total= total+1
    return acc/total
# un peu moin de 3% d'amelioration avec un viterbi du 1er ordre 
do_nothing(data_test)

0.898224043715847

### En faisant rien 19.4% train20 test20   :   4.4% d'erreur en moins avec viterbi et hmm d'ordre 1

In [26]:
# 4.4 % d'amélioration avec viterbi au premier ordre 
1-do_nothing(data_test)

0.19405667725121323

### En faisant rien 10% train10 test10 :  :  2.4% d'erreur en moins avec viterbi et hmm d'ordre 1

In [23]:
1-do_nothing(data_test)

0.10177595628415304