# Introduction

Ce TP continue le TP précédent. Nous allons reprendre d'ailleurs les mêmes données et commencer la mise en oeuvre d'un modèle de Markov pour la prédiction des étiquettes: 
* une observation est une phrase, représentée comme une séquence de variables aléatoires, une par mot de la phrase
* à cette observation est associée une séquence de variables aléatoires représentant les étiquettes, une par mot de la phrase également

On suppose que la séquence d'observation (une phrase) est générée par un modèle de Markov caché. Les variables cachées sont donc les étiquettes à inférer. Nous allons commencer par écrire une classe python pour représenter le HMM. Cette classe évoluera au fil des TPs. 

Pour cela le code de départ suivant est donné. Afin d'initialiser un HMM, nous devons connaitre : 
- l'ensemble des états (ou *state_list*), dans notre cas l'ensemble des étiquettes grammaticales;
- l'ensemble des observations (ou *observation_list*), dans notre cas l'ensemble des mots connus; tous les autres mots seront remplacés par l'élément spécial *UNK* qui fait partie de l'ensemble des observations. 

Enfin, en interne il est plus facile d'indexer les mots et et les états par des entiers. Ainsi à chaque éléments de respectivement l'ensemble des états et l'ensemble des observations, est associé un indice. Cela nous permet de tout traiter en "matricielle". 

In [1]:
import nltk
from numpy import array, ones, zeros
from __future__ import division
import sys

# Some words in test could be unseen during training, or out of the vocabulary (OOV) even during the training. 
# To manage OOVs, all words out the vocabulary are mapped on a special token: UNK defined as follows: 
UNK = "<unk>" 
UNKid = 0 

class HMM:
        def __init__(self, state_list, observation_list,
                 transition_proba = None,
                 observation_proba = None,
                 initial_state_proba = None):
            """Builds a new Hidden Markov Model
            state_list is the list of state symbols [q_0...q_(N-1)]
            observation_list is the list of observation symbols [v_0...v_(M-1)]
            transition_proba is the transition probability matrix
                [a_ij] a_ij = Pr(Y_(t+1)=q_i|Y_t=q_j)
            observation_proba is the observation probablility matrix
                [b_ki] b_ki = Pr(X_t=v_k|Y_t=q_i)
            initial_state_proba is the initial state distribution
                [pi_i] pi_i = Pr(Y_0=q_i)"""
            print "HMM creating with: "
            self.N = len(state_list) # The number of states
            self.M = len(observation_list) # The number of words in the vocabulary
            print str(self.N)+" states"
            print str(self.M)+" observations"
            self.omega_Y = state_list # Keep the vocabulary of tags
            self.omega_X = observation_list # Keep the vocabulary of tags
            # Init. of the 3 distributions : observation, transition and initial states
            if transition_proba is None:
                self.transition_proba = zeros( (self.N, self.N), float) 
            else:
                self.transition_proba=transition_proba
            if observation_proba is None:
                self.observation_proba = zeros( (self.M, self.N), float) 
            else:
                self.observation_proba=observation_proba
            if initial_state_proba is None:
                self.initial_state_proba = zeros( (self.N,), float ) 
            else:
                self.initial_state_proba=initial_state_proba
            # Since everything will be stored in numpy arrays, it is more convenient and compact to 
            # handle words and tags as indices (integer) for a direct access. However, we also need 
            # to keep the mapping between strings (word or tag) and indices. 
            self.make_indexes()

        def make_indexes(self):
            """Creates the reverse table that maps states/observations names
            to their index in the probabilities arrays"""
            self.Y_index = {}
            for i in range(self.N):
                self.Y_index[self.omega_Y[i]] = i
            self.X_index = {}
            for i in range(self.M):
                self.X_index[self.omega_X[i]] = i
      


# Interface avec les données et apprentissage supervisé

Ainsi pour initialiser un HMM, nous allons devoir lire les données (chose faîte lors du TP précédent): 
* écrire une fonction permettant d'initialiser le HMM à partir des données d'apprentissage
* écrire une fonction *apprentissage_supervisé* qui permet d'estimer les paramètres 

Dans un premier temps, nous limiterons, comme lors du TP précédent, le vocabulaire aux mots apparaissant 10 fois ou plus. Les autres mots sont tous remplacés par la même forme *unk*

Pour cela, le plan de travail peut être envisagé ainsi: 
* Lire les données puis générer un corpus de **train** (80%) puis de **test** (10%)
* écrire une fonction qui créer à partir des données d'apprentissage (**train**), tous les comptes nécessaires pour l'estimation supervisée des paramètres du HMM
* écrire 3 fonctions qui estimes les paramètres à partir des comptes, une fonction par distribution: observation, transition, état initial. 
* écrire une fonction qui reprend le tout et qui estime tous les paramètres du HMM


# Exercice : Algorithme de Viterbi

La question qui se pose est comment calculer la meilleure séquence d'étiquettes pour une phrase donnée connaissant les paramètres du HMM. Par meilleure, on entend la séquence d'étiquettes (ou d'états) la plus probable connaissant la séquence d'obervation. 

Proposer et implémenter un algorithme répondant à cette question. Pour vous aider à démarrer, cet algorithme s'appelle Viterbi et regardez cette vidéo https://www.youtube.com/watch?v=RwwfUICZLsA, pour comprendre comment il opère. 

# TODO pour la prochaine fois

* Finir la partie interface (qui comprend l'apprentissage supervisé)
* Regarder la vidéo et implémenter l'algorithme de Viterbi




In [42]:
#lire des données
import numpy as np
import pickle
data = pickle.load(open( "brown.save.p", "rb" ))

#créer un dictionaire pour les étiquettes, dans la suite on va utiliser les listes au lieu de dictionaire

#state_list
etiquette={'0':0,'DET':1, 'NOUN':2, 'ADJ':3, 'VERB':4, 'ADP':5, '.':6, 'ADV':7, 'CONJ':8, 'PRT':9, 'PRON':10, 'NUM':11, 'X':12}

#Générer training set et test set
def create_set(data, train_per, dev_per):
    #separer des données suivant leur pourcentage
    train_set=[]
    dev_set=[]
    test_set=[]
    num=int(train_per*len(data))
    train_set=data[0:num]
    num2=int(dev_per*len(data))
    dev_set=data[num+1:(num+num2)]
    test_set=data[(num+num2)+1:len(data)]
    return train_set, dev_set, test_set

def map_function(data, etiquette):
    #a map function
    association={}
    for phrase in range(len(data)):
        for mot in range(len(data[phrase])):
            if data[phrase][mot][0] not in association.keys():
                association[data[phrase][mot][0]] = np.zeros(13)
            association[data[phrase][mot][0]][etiquette[data[phrase][mot][1]]]+=1
            
    association["<unk>"]=np.zeros(13)
    unk_list=[]
    
    #observation_list
    dictionary=[]
    
    for mot in association.keys():
        occurence=association[mot].sum()
        if occurence<10:
            unk_list.append(mot)
            association["<unk>"][0]+=occurence
        else:
            dictionary.append(mot)
            
    for mot in unk_list:
        del association[mot]
        
    return association, dictionary





'''
def préprocesse(data)
    for phrase in range(len(data)):
        for mot in range(len(data[phrase])):
            if data[phrase][mot][0] not in dictionary:
                data[phrase][mot][0]="<unk>"
                data[phrase][mot][1]="0"
    return data
'''


'\ndef pr\xc3\xa9processe(data)\n    for phrase in range(len(data)):\n        for mot in range(len(data[phrase])):\n            if data[phrase][mot][0] not in dictionary:\n                data[phrase][mot][0]="<unk>"\n                data[phrase][mot][1]="0"\n    return data\n'

In [3]:
train_set, dev_set, test_set=create_set(data, 80, 10)

map_train, dictionary = map_function(train_set, etiquette)

print(map_train["<unk>"])

print (dictionary.index("<unk>"))

[107008.      0.      0.      0.      0.      0.      0.      0.      0.
      0.      0.      0.      0.]
124


In [95]:
#Dans la suite il suffit de calculer les paramètres transition_proba, observation_proba, initial_state_proba
def calculate_transition_proba(data):
    #compter chaque transition, chaque colonne diviser par la somme colonne.
    tags=[]
    for phrase in range(len(data)):
        for mot in range(len(data[phrase])):
            if data[phrase][mot][1] not in tags:
                tags.append(data[phrase][mot][1])
    tags_dic={}
    for i,j in zip(tags,range(0,len(tags))):
        tags_dic[i]=j
    #Transition matrix
    transition = np.zeros([len(tags),len(tags)])
    for phrase in range(len(data)):
        for mot in range(len(data[phrase])-1): #Go through 0-(len-1) we always need to check i+1
            transition[tags_dic[data[phrase][mot][1]],tags_dic[data[phrase][mot+1][1]]]+=1
    transition = (transition/transition.sum(axis=1)[:,None])
    return transition

def calculate_observation_proba(data):
    #compter P(X|Y), chaque colonne diviser par la somme colonne, presque comme dans TP1
    #observation matrix
    #Create a dic for words (word,nb of appearance)
    association={}
    for phrase in range(len(data[0:1500])):
        for mot in range(len(data[phrase])):
            if data[phrase][mot][0] not in association.keys():
                association[data[phrase][mot][0]] = 1
            else:
                association[data[phrase][mot][0]] += 1
    tags=[]
    for phrase in range(len(data)):
        for mot in range(len(data[phrase])):
            if data[phrase][mot][1] not in tags:
                tags.append(data[phrase][mot][1])
    #For every word and label create the only entries to the obeservation matrix
    words_dic={}
    for i,j in zip(association.keys(),range(0,len(association.keys()))):
        words_dic[i]=j
    tags_dic={}
    for i,j in zip(tags,range(0,len(tags))):
        tags_dic[i]=j
    #Init a zero matrix with size (len(words),len(tags))
    observation = np.zeros([len(words_dic),len(tags)])
    for phrase in range(len(data)):
        for mot in range(len(data[phrase])):
            #Thanks to the entries we created easy insertion it to the matrix
            observation[words_dic[data[phrase][mot][0]],tags_dic[data[phrase][mot][1]]]+=1
    for i in range(len(words_dic)):
        #for every word, we calculate P(X|Y)
        #words_dic.keys()[words_dic.values().index(i)] help us to find a key in a dict by a unique value
        observation[i,:]=observation[i,:]/association[words_dic.keys()[words_dic.values().index(i)]]
    return observation

def calculate_initial_state(data):
    initial_state_proba = np.zeros(len(etiquette), float ) 
    #juste compter l'état du premier mot, et divise par la somme
    #initial_state
    initial_state={}
    for phrase in range(len(data)):
        #From phrase we take first word's label
            if data[phrase][0][1] not in initial_state.keys():
                    initial_state[data[phrase][0][1]] = 1
            else:
                    initial_state[data[phrase][0][1]] += 1
    count = 0
    for key in initial_state.keys():
        count+=initial_state[key]
    count
    for key in initial_state.keys():
        initial_state[key] = initial_state[key]/count
        
    return np.array(initial_state.values())

In [96]:
calculate_initial_state(data)

array([0.09134984, 0.14114057, 0.12284618, 0.03667597, 0.21342867,
       0.08892571, 0.15969655, 0.04513429, 0.00052319, 0.016812  ,
       0.04912801, 0.03433903])

In [71]:
calculate_observation_proba(data)
#Becareful this could take a while we have so many words P(X|Y)

array([[0. , 0. , 0. , ..., 0. , 0. , 0. ],
       [0. , 0. , 0. , ..., 0. , 1. , 0. ],
       [0. , 0. , 0. , ..., 0. , 0. , 0. ],
       ...,
       [0. , 0. , 0. , ..., 0. , 0. , 0. ],
       [0. , 1. , 0. , ..., 0. , 0. , 0. ],
       [0. , 0.5, 0. , ..., 0. , 0. , 0. ]])

In [73]:
calculate_transition_proba(data)

array([[5.90506639e-03, 6.24966241e-01, 2.39750075e-01, 6.46783600e-02,
        9.07292647e-03, 1.27809286e-02, 1.75181203e-02, 6.42331078e-04,
        2.00728462e-03, 9.91233641e-03, 9.76635207e-03, 2.99997810e-03],
       [1.55285163e-02, 1.49901215e-01, 1.29477207e-02, 1.59240196e-01,
        2.45299525e-01, 2.84496271e-01, 2.64823172e-02, 5.98613369e-02,
        1.78942457e-02, 1.98881655e-02, 8.09961580e-03, 3.60873971e-04],
       [5.84299199e-03, 6.52336002e-01, 5.69363126e-02, 1.74811805e-02,
        8.85051978e-02, 1.00418210e-01, 9.67857570e-03, 3.76030589e-02,
        1.92854582e-02, 3.82363484e-03, 6.97813359e-03, 1.11124388e-03],
       [1.63067759e-01, 9.74990145e-02, 5.75423766e-02, 1.84327231e-01,
        1.69314747e-01, 8.06633525e-02, 1.03253252e-01, 1.43883317e-02,
        6.56289694e-02, 5.50676711e-02, 9.00091980e-03, 2.46375542e-04],
       [4.55657028e-01, 2.58417497e-01, 8.26275577e-02, 4.12205198e-02,
        2.03028503e-02, 9.74730239e-03, 1.55017339e-02, 1.88