<h1><b>Statistique en Bioinformatique : </b> TME 5 et 6 </h1>
<br>
L’objectif de ce TME est:
<br>
<ul>
<li> implémenter l'algorithme de Viterbi et l'estimation des paramètres (en utilisant le Viterbi training)
pour l'exemple du occasionally dishonest casino.   </li> 
</ul>
<br>
<div class="alert alert-warning" role="alert" style="margin: 10px">
<p><b>Soumission</b></p>
<ul>
<li>Renomer le fichier TME5_6.ipynb pour NomEtudiant1_NomEtudiant2.ipynb </li>
<li>Soumettre via moodle </li>
</div>
</div>

Nom etudiant 1 : Anastasia AZMOUDEH
<br>
Nom etudiant 2 : Késia DETHELOT-DELAG
<br>

<h3>Introduction</h3>
Un casino parfois malhonnête (occasionally dishonest casino) utilise 2 types de pieces : fair et unfair. <br>
La matrice de transition entre les états cachés est:<br>
${\cal S}=\{F,U\}$ (fair, unfair):
$$
p = \left(
\begin{array}{cc}
0.99 & 0.01\\
0.05 & 0.95
\end{array}
\right)\ ,
$$

les probabilités d'émission des symboles 
${\cal O} = \{H,T\}$ (head, tail):
\begin{eqnarray}
e_F(H) =  0.5 &\ \ \ \ &
e_F(T) = 0.5 \nonumber\\
e_U(H) = 0.9 &\ \ \ \ &
e_U(T) = 0.1 \nonumber
\end{eqnarray}

<br> Et la condition initiale $\pi^{(0)} = (0.999,0.001)$ (le jeux commence presque toujours avec le pieces juste (fair).

<b>Exercice 1</b>:
<u>Simulation</u>: Écrire une fonction qui simule $T$ jets de pièces. 
La fonction renverra un tableau à deux colonnes correspondant 
aux valeurs simulées pour les états cachés $X_t$ 
(type de dés utilisée, “F” ou “U”) et aux symboles observées $Y_t$ 
(résultat du jet de dés, “H” ou “T”). On simulera une séquence
de longueur 2000 qu'on gardera pour les applications ultérieures.


In [1]:
import numpy as np
import matplotlib.pyplot as plt

#states
S = { 0:'F',1 :'U'}

#transition probability matrix
Pij = np.array([[0.99,0.01], [0.05,0.95]])

#emision symbols 
O = {0:'H', 1: 'T'}

#emission probability matrix
Ei = np.array([[0.5,0.5], [0.9,0.1]]) #ça aurait dû être Eio

# initial Condition
pi0=np.array([0.999,0.001])

#number of jets
T = 2000

In [2]:
import random

# Fonction qui simule T jets de pieces
def jets(T, pi0, Eij, Pij):
    """
      simulation of occasionally dishonest casino
      input1 T: number of jets
      input2 pi0: initial condition
      input3 Eij: emission probability matrix
      input4 Pij: transition probability matrix
      output1 jetsRes: matrix |2xT| containing simulations
    """

    # Creation du tableau
    jetsRes = np.zeros((T,len(pi0)),dtype=int)

    
    # création d'une matrice pour les observations avec des chiffres
    Traj_ind = []
    
    # création d'une séquence aléatoire de longueur T 
    nb_alea = []
    for i in range (T): 
        alea = random.random()
        nb_alea.append(alea)
    
#     normalisation de la matrice
    taille_Pi_0 = len(pi0)
    Pi_0_normal = np.zeros(taille_Pi_0)
    somme = np.sum(pi0)


    for i in range (len(pi0)): 
        Pi_0_normal[i]= pi0[i]/somme


    # création de la matrice pi' (avec les sommes cumulées croissantes)
    Pi_0_bis = np.zeros(taille_Pi_0)
    Pi_0_bis[0]= Pi_0_normal[0]
    for i in range (1,taille_Pi_0): 
        Pi_0_bis[i]= Pi_0_normal[i] + Pi_0_bis[i-1]

    
    # normalisation de la matrice Pij 
    for i in range (int(len(Pij))): 
        Somme = np.sum(Pij[i])
        for j in range (int(len (Pij[i]))):
            Pij[i][j]= (Pij[i][j])/Somme   
    
    # création de la matrice P' (avec les sommes cumulées croissantes)
    taille_P = len(Pij)
    P_bis = np.zeros((taille_P, taille_P))
    for i in range(taille_P): 
        for j in range(taille_P): 
            if j == 0 : 
                P_bis[i][j]=Pij[i][j]
            else : 
                P_bis[i][j]=Pij[i][j] + P_bis[i][j-1]

    # trouver le premier état
    premier = nb_alea[0]
    if premier < Pi_0_bis[0]:
        Traj_ind.append('0')
    
    else: 
        Traj_ind.append('1')
        
    
    # trouver les états suivants
    for i in range(1, T): 
        if Traj_ind[-1] == "0": 
            indice = 0
        if Traj_ind[-1] == "1": 
            indice = 1

        suivant = nb_alea[i]
        if suivant <= P_bis[indice][0]:
            Traj_ind.append('0')
        else: 
            Traj_ind.append('1')

    Obs_ind = []
    
    
    for i in range(T): 
        if Traj_ind[i]== '0': 
            liste = ["0", "1"]
            e = random.choices(liste, weights = (Eij[0][0], Eij[0][1]), k = 1)   
            Obs_ind.append(e)
          
    
        if Traj_ind[i]== '1': 
            liste = ["0", "1"]
            e = random.choices(liste, weights = (Eij[1][0], Eij[1][1]), k = 1)
            Obs_ind.append(e)

    Obs_ind = sum(Obs_ind, []) # pour transformer liste de listes en une seule et unique liste 
    
    for i in range (len(jetsRes)): 
        jetsRes[i][0]= Traj_ind[i]
        jetsRes[i][1]= Obs_ind[i]
   
    return jetsRes



def printSimulation(resultat):
    for i in resultat : 
        print (S[i[0]], O[i[1]])
        
jetsRes = jets(T, pi0, Ei, Pij) 
# print(jetsRes)
printSimulation(jetsRes)


F T
F T
F T
F H
F T
F H
F T
F H
F T
F H
F H
F T
F H
F H
F H
F H
F H
F T
F H
F H
F H
F H
F T
F H
F H
F T
F H
F T
F T
F H
F T
F T
F T
F T
F H
F H
F H
F T
F T
F T
F H
F T
F H
F T
F H
F H
F H
F H
F T
F H
F H
F T
F H
F H
F H
F T
F H
F H
F T
F T
F H
F T
F T
F H
F T
F T
F T
F H
F T
F H
F T
F H
F H
F T
F H
F T
F H
F T
F T
F T
F H
F H
F H
F H
F T
F H
F T
F T
F H
F H
F H
F T
F T
F H
F H
F H
F H
F H
F H
F H
F H
F T
F T
F H
F H
F H
F T
F T
F T
F H
F H
F H
F T
F T
F H
F T
F H
F H
F H
F T
F H
F T
F T
F T
F H
F T
F H
F T
F H
F T
F T
F T
F H
F H
F H
F T
F H
F H
F T
F T
F T
F T
F H
F H
F T
F H
F H
F T
F T
F H
F H
F H
F T
F H
F H
F H
F T
F T
F H
F H
F H
F H
F T
F T
F H
F H
F T
F T
F T
F H
F T
F H
F H
F T
F H
F H
F T
F T
F H
F H
F T
F H
F T
F H
F T
F T
F H
F H
F T
F T
F H
F H
F H
F T
F T
F T
F H
F T
F H
F H
F H
F T
F T
F T
F H
F H
F T
F H
F H
F H
F T
F T
F T
F T
F T
F T
F T
F T
F T
F H
F T
F H
F H
F H
F H
F T
F H
F T
F H
F H
F H
F H
F H
F H
F T
F H
F T
F H
F T
F T
F H
F H
F T
F T
F T
F H
U H
U H
U H
U H


<b>Exercice 2</b>: <u>Algorithme de Viterbi </u>: Écrire une fonction qui permet
de déterminer la séquence $(i^\star_t)_{t=0:T}$ d'états cachés
plus probable, ainsi que sa probabilité. Pour tester votre fonction utiliser le résultat de la 
simulation (2éme colonne) de la question 1. Comparer $(i^\star_t)_{t=0:T}$ avec
les vrais états cachés (1ère colonne de la simulation).


In [3]:
# Algorithme de Viterbi
import operator

def viterbi(jets, Pij, Ei, pi0, nS, nO, enLog):
    """
    Implement Viterbi algorithm
    input1 jets: matrix |2xT| containing simulations
    input4 Pij: transition probability matrix
    input3 Ei: emission probability matrix
    input4 pi0: initial condition
    input5 nS: number of states
    input6 nO: number of observations
    input7 enLog: bool, when True we apply log to avoid underflow
    output1 i_star: most problable path
    output2 prob: probability associated to the most problable path
    """
    
    obs = jets[:,1] # les observations

    T = len(obs) #Nombre d'observations (longueur des observations)
    etat = jets[:,0] # les états cachés
    
    i_star = np.zeros((T))
    prob = 1
    path = np.zeros((T))
    
    # avec le log 
    if enLog: 
        # pour t = 1
        from_F = np.log(pi0[0]) + np.log(Ei[0][obs[0]])
        from_U = np.log(pi0[1]) + np.log(Ei[1][obs[0]])
        path[0] = max(from_F, from_U)
    
        if path[0] == from_F : 
            i_star[0] = 0
        else: 
            i_star[0] = 1

        # pour les autres t>1    
        for i in range(1,T): 
            from_F = np.log(Ei[0][obs[i]]) + max (from_F + np.log(Pij[0][0]), from_U + np.log(Pij [1][0]))
            from_U = np.log(Ei[1][obs[i]]) + max (from_F + np.log(Pij[0][1]), from_U + np.log(Pij [1][1]))
            path[i]= max(from_F, from_U)

            if path[i] == from_F : 
                i_star[i] = 0
            else: 
                i_star[i] = 1
    
    # sans le log 
    else: 
        # pour t = 1
        from_F = pi0[0] * Ei[0][obs[0]]
        from_U = pi0[1] * Ei[1][obs[0]]
        path[0] = max(from_F, from_U)

        if path[0] == from_F : 
            i_star[0] = 0
        else: 
            i_star[0] = 1

        # pour les autres t>1    
        for i in range(1,T): 
            from_F = Ei[0][obs[i]] * max (from_F * Pij[0][0], from_U * Pij [1][0])
            from_U = Ei[1][obs[i]] * max (from_F * Pij[0][1], from_U * Pij [1][1])
            path[i]= max(from_F, from_U)

            if path[i] == from_F : 
                i_star[i] = 0
            else: 
                i_star[i] = 1
            
    prob = path[-1]
    
    return i_star, prob

def analyseResultats(jets, estimation):    
    """
    Compare expected and obtained paths
    input1 jets: expected path
    input2 estimation: obtained path
    output1 error: percentage error
    """
    l = len(jets)
    faute = 0
    
#     print(jets)
#     print(estimation)
    
    etat = jets[:,0]
    
    for i in range (l): 
        if etat[i] != estimation [i]: 
            faute += 1
    error = (faute/l)*100
        
    return error

i_est, P_est = viterbi(jetsRes, Pij, Ei, pi0, 2, 2, False)
error = analyseResultats(jetsRes, i_est)
print('erreur d\'estimation de viterbi:')
print(error,'%')
print('Probabilité estimé:')
print(P_est)

# En utilisant le log
print("=========================================================")
i_est2, P_est2 = viterbi(jetsRes, Pij, Ei, pi0, 2, 2, True)
error2 = analyseResultats(jetsRes, i_est2)
print('erreur d\'estimation de viterbi:')
print(error2,'%')
print('Probabilité estimé:')
print(P_est2)

erreur d'estimation de viterbi:
10.8 %
Probabilité estimé:
0.0
erreur d'estimation de viterbi:
9.049999999999999 %
Probabilité estimé:
-1389.7987288672582


<b>Exercice 3</b>: <u>Estimation des paramètres</u>
<br>
3.1) Écrire une fonction qu'utilise tous les résultats de la simulation
(états et symboles) pour compter les nombres d'occurrence $N_{ij}$ est $M_{iO}$ définis en cours. Estimer $P_{ij}$ est $E_i(O)$. Attention, pour éviter les probabilités à zéro nous allons utiliser les pseudo-count.

In [4]:
# Estimation de Parametres par contage
def nombresOccurrence(jets, nS, nO):
    """
    Parameter estimation
    input1 jets: matrix |2xT| containing data
    input2 nS: number of states
    input3 nO: number of observations
    output1 Nij: transition probability matrix
    output2 Mio: emission probability matrix
    output3 pi0: initial condition 
    """

    Nij = np.ones((nS,nS)) #pseudo-count = 1
    Mio = np.ones((nS,nO))  #pseudo-count = 1
    pi0 = np.ones((nS))
    
    Caches = jets[:,0] 
    Obs    = jets[:,1]
   
    
    # estimation de la matrice de trasnition 
    Nb_FF = 0
    Nb_FU = 0  
    Nb_UU = 0 
    Nb_UF = 0
    erreur = 0
    
    
    for i in range (len(Caches)-1): 
#         print("i" , i)
        if Caches[i] == 0 and Caches[i+1] == 0: 
#             print("FF")
            Nb_FF +=1
        elif Caches[i] == 0 and Caches[i+1] == 1:
            Nb_FU +=1
#             print("FU")
        elif Caches[i] == 1 and Caches[i+1] == 1:
#             print("UU")
            Nb_UU +=1
        elif Caches[i] == 1 and Caches[i+1] == 0:
#             print("UF")
            Nb_UF +=1
        else : 
            erreur += 1  
            
    # erreur doit être égale à 0
#     print("erreur", erreur) # pour vérifier que toutes les transitions sont prises en compte et donc qu'il n'y a pas d'erreur
#     print(np.sum([Nb_FF,Nb_FU,Nb_UU,Nb_UF])) # on vérifie que la somme vale (len-1)
    
    Nij[0][0] += (Nb_FF)/ (Nb_FF + Nb_UF)
    Nij[1][0] += (1 - ((Nb_FF)/ (Nb_FF + Nb_UF)))
    Nij[1][1] += ( Nb_UU)/ (Nb_UU + Nb_FU)
    Nij[0][1] += (1 - ( Nb_UU)/ (Nb_UU + Nb_FU))
    
    
    
    
    # estimation de la matrice d'emission 
    erreur_compte = 0
    Nb_F = 0
    Nb_U = 0
    
    
    for i in range (len(Caches)): 
        if Caches[i] == 0: 
            Nb_F += 1
        elif Caches[i] == 1: 
            Nb_U += 1
        else: 
            erreur_compte +=1
            
    # initialisation du décompte pour chaque état caché/observation
    Nb_FH = 0 
    Nb_FT = 0 
    Nb_UH = 0
    Nb_UT = 0
    
    for i in range (len(Caches)): 
        if Caches[i] == 0: 
            if Obs[i] == 0: 
                Nb_FH += 1
            elif Obs[i] == 1: 
                Nb_FT += 1
        else: 
            if Obs[i] == 0: 
                Nb_UH += 1
            elif Obs[i] == 1: 
                Nb_UT += 1
                


    Mio[0][0] += Nb_FH/Nb_F
    Mio[1][0] += Nb_FT/Nb_F
    Mio[1][1] += Nb_UH/Nb_U
    Mio[0][1] += Nb_UT/Nb_U
    
   
    # estimation des probabilités initiales
    pi0[0] = Nb_F/ (Nb_F + Nb_U)
    pi0[1] = Nb_U/ (Nb_F + Nb_U)
#     print(np.sum(pi0)) # la somme vaut 1, la matrice est déjà normalisée
    

    # Nous normalisons les matrices estimées
    
    for i in range(len(Nij)): 
        Somme = np.sum(Nij[:,i])
        for j in range (len(Nij)): 
            Nij[j][i] = Nij[j][i] / Somme    

    for i in range(len(Mio)): 
        Somme = np.sum(Mio[:,i])
        for j in range (len(Mio)): 
            Mio[j][i] = Mio[j][i] / Somme    
        
    
    return Nij, Mio, pi0

Nij, Mio, pi0 = nombresOccurrence(jetsRes, 2, 2)

print('Pij estimé:')
print(Nij)
print('\nEio estimé:')
print(Mio)
print('\npi0 estimé:')
print(pi0)

Pij estimé:
[[0.66367209 0.35779817]
 [0.33632791 0.64220183]]

Eio estimé:
[[0.5114104  0.36391437]
 [0.4885896  0.63608563]]

pi0 estimé:
[0.891 0.109]


3.2) <u> Viterbi training </u>: Écrire une fonction qui utilise
seulement la séquence $(O_t)_{t=0:T}$ (2emme colonne de la simulation) pour estimer les
paramètres $P_{ij}$ est $Ei(O)$. On s’arrêtera quand les différences entre les logVraissamblance est inférieur à 1e-04. Comparer les résultats de 3.1 et de 3.2 (3.2 avec plusieurs restarts,
et avec initialisation des paramètres aléatoire).


In [5]:
import matplotlib.pyplot as plt

# Initialisation aleatoire de Pij, Eij, pi0
def InititRandom(nS, nO):
    """
    randomly initialisations 
    input1 nS: number of states
    input2 nO: number of observations
    output1 Pij_init: transition probability matrix
    output2 Ei_init: emission probability matrix
    output3 pi0_init: initial condition 
    """
    random.seed(10)
    Pji_init=np.zeros((nS,nS))
    Ei_init=np.zeros((nO,nS))
    pi0_init=np.zeros((nS))
    
    for i in range(nS):
        pi0_init[i]=np.random.rand()
    som=np.sum(pi0_init)
    for i in range(nS):
        pi0_init[i]= pi0_init[i]/som
    for i in range(nS):
        for j in range(nO):
            Pji_init[i][j]=np.random.rand()
    
    for i in range(nO):
        for j in range(nS):
            Ei_init[i][j]=np.random.rand()
           
    for i in range(nS):
        summ=np.sum(Pji_init[i])
        for j in range(nO):
             Pji_init[i][j]=Pji_init[i][j]/summ
                
    for i in range(nO):
        s=np.sum(Ei_init[i])
        for j in range(nS):
             Ei_init[i][j]=Ei_init[i][j]/s

    return Pji_init, Ei_init, pi0_init


Pij_init, Ei_init, pi0_init=InititRandom(2, 2)
print("Pij_init\n",Pij_init)
print("Ei_init\n",Ei_init)
print("pi0_init\n",pi0_init)



# Calcule log Vraissamblance
def logLikelhihood(Aij,Bij,pi0,jets):
    """
    compute Log Likelihood 
    input1 Pij: transition probability matrix
    input2 Ei: emission probability matrix
    input3 pi0: initial condition 
    input4 jets: matrix |2xT| containing data
    """
    etat_seq = jets[:,0]
    obs_seq = jets[:,1]
    T = len(obs_seq) #Nombre d'observations (longueur des observations)
    lLikelihood = np.log(pi0[etat_seq[0]])
    return lLikelihood

Log_LL = logLikelhihood(Nij,Mio,pi0,jetsRes)
print(Log_LL)


def Training(jets, nS, nO):
    """
    Viterbi Training
    input1 jets: matrix |2xT| containing data
    input2 nS: number of states
    input3 nO: number of observations
    output1 Pij_est: transition probability matrix
    output2 Ei_est: emission probability matrix
    output3 pi0_est: initial condition 
    output4 lLikelihood: log Likelihood
    """
    jets_est = np.array(jets)  
    Pij_est, Ei_est, pi0_est = InititRandom(nS, nO)
    print("Pij_est\n",Pij_est)
    print("Ei_est\n",Ei_est)
    print("pi0_est\n",pi0_est)
    
    nIteration = 10000
    criterion = 1e-04
    lLikelihood = np.zeros((nIteration))
    LL = []
    
    Val_LL_AVANT = logLikelhihood(Pij_est, Ei_est, pi0_est, jets)
    It_star, prob = viterbi(jets,Pij_est, Ei_est,pi0_est,2,2,True)
    Pij_est, Ei_est, pi0_est = nombresOccurrence(jets, 2, 2)       
    Val_LL = logLikelhihood(Pij_est, Ei_est, pi0_est, jets)
    diff = abs(Val_LL_AVANT - Val_LL)
    print("diff", diff)
    
    for i in range (1,nIteration): 
        if diff > criterion: 
#             print("vrai")
            It_star, prob = viterbi(jets,Pij_est, Ei_est,pi0_est,2,2,True)
            Pij_est, Ei_est, pi0_est = nombresOccurrence(jets, 2, 2)       
            Val_LL = logLikelhihood(Pij_est, Ei_est, pi0_est, jets)
            LL.append(Val_LL)
            diff = abs(Val_LL_AVANT - Val_LL)
#             print(diff)
            Val_LL_AVANT = Val_LL
            
    lLikelihood = LL

    return Pij_est, Ei_est, pi0_est, lLikelihood
    
# #imprimer les Parametres du Viterbi Training
Pij_est, Ei_est, pi0_est, lLikelihood = Training(jetsRes, 2, 2)
itCount = len(lLikelihood)
print('Le modèle est convergé après '+str(itCount)+' itérations.')
print('\nPij estimée:')
print(Pij_est)
print('\nEij estimée:')
print(Ei_est)

Pij_init
 [[0.08127043 0.91872957]
 [0.83751648 0.16248352]]
Ei_init
 [[0.4635838  0.5364162 ]
 [0.06520827 0.93479173]]
pi0_init
 [0.38144849 0.61855151]
-0.11541085151132773
Pij_est
 [[0.18607544 0.81392456]
 [0.66611931 0.33388069]]
Ei_est
 [[0.54550268 0.45449732]
 [0.53322104 0.46677896]]
pi0_est
 [0.2802367 0.7197633]
diff 1.1567098284840878
Le modèle est convergé après 2 itérations.

Pij estimée:
[[0.66367209 0.35779817]
 [0.33632791 0.64220183]]

Eij estimée:
[[0.5114104  0.36391437]
 [0.4885896  0.63608563]]


<font color="blue">
Remark: Nous remarquons que nous trouvons exactement les mêmes valeurs pour les matrices estimées. 
</font>

3.3) <u>Viterbi training deuxième version</u>. 
<BR>Écrivez une version de 3.2 qui:
- part plusieurs fois (100x) d'une initialisation aléatoire desparamètres de l'HMM,
- utilise Viterbi training pour estimer les paramètres,
- calcul la log-vraisemblance pour les paramètres estimés,
- sauvegarde seulement l'estimation avec la valeur maximale de lalog-vraisemblance.

Qu'est-ce que vous observez?



In [6]:
# Viterbi Training  deuxiemme version

def TrainingV2(jets, nS, nO, nIterat=100):
    """
    Viterbi Training version 2.0
    input1 jets: matrix |2xT| containing data
    input2 nS: number of states
    input3 nO: number of observations
    input4 nIterat: number of iterations
    output1 Pij_best: best transition probability matrix
    output2 Ei_best: best emission probability matrix
    output3 pi0_best: best initial condition 
    output4 lLikelihood_best: best log Likelihood
    """

    Pij_best = []
    Ei_best = []
    pi0_best = []
    lLikelihood_best = -10000
    

    return Pij_best, Ei_best, pi0_best, lLikelihood_best
    

# Imprimer les Parametres du Viterbi Training deuxiemme version
nIterat = 100
Pij_best, Ei_best, pi0_best, lLikelihood_best = TrainingV2(jetsRes, 2, 2, nIterat)

print('Meilleur Pij estimée:');
print(Pij_best)
print('\nMeilleur Eij estimée:')
print(Ei_best)

Meilleur Pij estimée:
[]

Meilleur Eij estimée:
[]


<font color="blue">
Remark:
</font>