# TP - HMM et Viterbi DEBONNE & DI CARLO

Création d'un détecteur d'entités nommées en utilisant un HMM. Les états représenteront les étiquettes des entités, les observations seront les mots.

## Question 1 - Statistiques sur le corpus d'apprentissage

In [None]:
from itertools import chain
import math

fichier = open("train.ester1.cut.bio", "r")
# Liste des phrases
train = fichier.read().split("\n\n")
fichier.close()

# Liste de tous les couples
couples = []
mots = []
etiquettes = []

for phrase in train:
    temp = phrase.split("\n")
    for t in temp:
        if t != '':
            couples.append(t)
            t1 = t.split(" ")
            mots.append(t1[0])
            etiquettes.append(t1[1])

etiquettes = list(set(etiquettes))
mots = list(set(mots))
print("Nombre de mots differents: " + str(len(mots)))
print("Nombre d etiquettes differents: " + str(len(etiquettes)))

In [None]:
# Création des phrases split en couple de mot
def splitPhrases( desPhrases ):
    phrasesSplit = []

    for phrase in desPhrases:
        temp = []
        for couple in phrase.split("\n"):
            temp.append(couple.split(" "))
        phrasesSplit.append(temp)
        
    return phrasesSplit

## Question 2 - Apprentissage

Nous avons 3 paramètres à calculer:
- les probabilités initiales pi
- la matrice de transition A
- les probabilités d'émission

In [None]:
# On travail sur le corpus d'entrainement
trainSplit = splitPhrases( train )

### Probabilités initiales pi

In [None]:
# Liste des premieres etiquettes de chaque phrase
listfirstetiq = []
listeprobainit = []
    
for p in trainSplit:
    # Premiere etiquette de chaque phrase
    listfirstetiq.append(p[0][1])

nbphrase = len(listfirstetiq) # Nombre total de phrases du corpus

# Calcul des logs probabilites pour chaque etiquette
for e in etiquettes:
    # On rajoute 1 occurence pour chaque étiquette pour gérer les logs(0)
    p = (1.0+(listfirstetiq.count(e)))/(nbphrase+len(etiquettes))
    p = math.log10(p) 
    listeprobainit.append(p)

# Memorisation dans un dictionnaire
pi = dict(zip(etiquettes,listeprobainit))

# Affichage
print("Log probabiltés initiales : ")
for e,p in pi.items():
    print("\t", str(e) + ": "+ str(round(p,3)))




### Matrice de transition A 

In [None]:
cpt = 0
tabDic = []
# Création d'un dictionnaire par étiquettes
for eti in etiquettes:
    
    probas = [0] * len(etiquettes)
    dic = dict(zip(etiquettes,probas))

    for sentence in trainSplit:
        cpt += 1
        # On vérifie que le dernier couple ne soit pas vide
        if sentence[(len(sentence)-1)] == ['']:
            end = (len(sentence)-2)
        else:
            end = (len(sentence)-1)

        # Calcul sur toutes les phrases du nombre de transition d'un état à l'autre
        for i in range(0, end):
            if sentence[i][1] == eti:
                dic[sentence[i+1][1]] += 1

    # Ajout +1 partout pour éviter les logs(0)
    for d in dic:
        dic[d] += 1
        
    # Total -> Probabilités
    tot = sum(dic.values())
    for et in dic:
        dic[et] = math.log10(dic[et]/(tot+15))

    tabDic.append(dic)

# Création du dictionnaire contenant comme clé l'étiquette et comme valeur son dictionnaire de transition
A = dict(zip(etiquettes,tabDic))
for t in A:
    print(t)
    for k,v in A[t].items():
        print("\t", k, ": ", round(v,3))
    print("\n")


### Probabilités d'émission

In [None]:
tabDic = []
# Création d'un dictionnaire par étiquettes
for eti in etiquettes:

    probas = [0] * len(mots)
    dic = dict(zip(mots,probas))
    
    for sentence in trainSplit:
        
        for couple in sentence:
            if couple != ['']:
                if couple[1] == eti:
                    dic[couple[0]] += 1
    
    # Ajout +1 partout pour éviter les logs(0)
    for d in dic:
        dic[d] += 1
        
    # Total -> Probabilités
    tot = sum(dic.values())
    for et in dic:
        dic[et] = math.log10(dic[et]/(tot+15))
        
    tabDic.append(dic)    

emission = dict(zip(etiquettes,tabDic))
"""
for t in emission:
    print(t)
    for k,v in emission[t].items():
        print("\t", k, ": ", round(v,3))
    print("\n")
"""

## Question 3 - Algorithme de Viterbi

In [None]:
# On travail sur le corpus de développement
fichier = open("dev.ester1.cut.bio", "r")
dev = fichier.read().split("\n\n")
devSplit = splitPhrases( dev )
fichier.close()

print(devSplit[0])

In [None]:
def erreurSequence( seq1, seq2 ):
    if(len(seq1)!=len(seq2)):
        return -1
    else:
        nbcorrect=0
        for i in range(0,len(seq1)):
            if(seq1[i]==seq2[i]):
                nbcorrect+=1
        return (1-(nbcorrect/len(seq1))) * 100


In [None]:
def cheminPhrase( unePhrase ):
    chemin = []
    
    # Séparaion Etiquettes / Observations
    tabObservations = []
    tabEtiquettes = []

    for mot in unePhrase:
        tabObservations.append( mot[0] )
        tabEtiquettes.append( mot[1] )

    # Pour la séquence d'observation on génère la séquence d'étiquette ayant la probabilité maximale
    tabViterbiProba = []
    tabViterbiEti = []
    lastDic = {}
    for obs in tabObservations:
        dicProba = {}
        dicEti = {}

        # Si c'est le premier mot de la phrase les calculs ne sont pas les mêmes -> utilisation de pi
        if tabObservations.index(obs) == 0:
            for et in etiquettes:
                dicProba[et] = pi[et] + emission[et][obs]
                dicEti[et] = "-"            

        else:
            for et in etiquettes:
                probTemp = {}
                for eti in etiquettes:
                    probTemp[eti] = ( lastDic[eti] + A[eti][et] + emission[et][obs] )

                dicProba[et] = max(zip(probTemp.values(), probTemp.keys()))[0]
                dicEti[et] = max(zip(probTemp.values(), probTemp.keys()))[1]

        tabViterbiProba.append(dicProba)
        tabViterbiEti.append(dicEti)
        lastDic = dicProba

    """# Affichage
    mot=0
    for tab in tabViterbiProba:
        print(tabObservations[mot])
        mot+=1

        for e,p in tab.items():
            print("\t", str(e) + ": "+ str(round(p,3)))

        print("\n")

    mot=0
    for tab in tabViterbiEti:
        print(tabObservations[mot])
        mot+=1

        for e,p in tab.items():
            print("\t", str(e) + ": "+ p)

        print("\n")
    """
    
    # Chainage arrière pour connaitre le chemin de probabilité maximale   
    i = len(tabViterbiProba) - 1
    eti = ""
    while i >= 0:
        if i == len(tabViterbiProba) - 1:
            dic = tabViterbiProba[i]
            eti = max(zip(dic.values(), dic.keys()))[1]
            chemin.append(eti)
        else:
            chemin.append(tabViterbiEti[i+1][eti])
            
        i -= 1
             
    chemin = chemin[::-1]
    
    print( "\nChemin prédis:\t", chemin, "\nChemin réel:\t", tabEtiquettes )
    
    
    return round(erreurSequence( chemin, tabEtiquettes ), 2)
    

In [None]:
for phrase in devSplit:
    print( cheminPhrase( phrase ), "% d'erreur" )
    
# Nous avons une erreur pour la phrase 8 car le mot "ramenés" est présent dans le corpus de développement
# mais pas dans le corpus train. La probabilité d'émission concernant ce mot n'est donc pas connue.
# Nous ne savons donc pas comment pallier à ce problème...