<h1><b>Statistique en Bioinformatique : </b> TME 4  et 5 </h1>
<br>
L’objectif de ce TME est: 
<br>
<ul>
<li> implémenter l'algorithme de Viterbi et l'estimation des paramètres (en utilisant le Viterbi training)
pour l'exemple du occasionally dishonest casino.   </li> 
</ul>
<br>
<div class="alert alert-warning" role="alert" style="margin: 10px">
<p>**Soumission**</p>
<ul>
<li>Renomer le fichier TME4_5.ipynb pour TME4_5_NomEtudiant1_NomEtudiant2.ipynb </li>
<li>Soumettre à https://www.dropbox.com/request/ZylCDDpggbrN5toTiJKV </li>
</ul>

</div>

Nom etudiant 1 :
<br>
Nom etudiant 2 :
<br>

<h3>Introduction</h3>
Un casino parfois malhonnête (occasionally dishonest casino) utilise 2 types de pieces : fair et unfair. <br>
La matrice de transition entre les états cachés est:<br>
${\cal S}=\{F,U\}$ (fair, unfair):
$$
p = \left(
\begin{array}{cc}
0.99 & 0.01\\
0.05 & 0.95
\end{array}
\right)\ ,
$$

les probabilités d'éemission des symboles 
${\cal O} = \{H,T\}$ (head, tail):
\begin{eqnarray}
e_F(H) =  0.5 &\ \ \ \ &
e_F(T) = 0.5 \nonumber\\
e_U(H) = 0.9 &\ \ \ \ &
e_U(T) = 0.1 \nonumber
\end{eqnarray}

<br> Et la condition initiale $\pi^{(0)} = (1,0)$ (le jeux commence toujours avec le pieces juste (fair).

<b>Exercice 1</b>:
<u>Simulation</u>: Ecrire une fonction qui simule $T$ jets de pieces. 
La fonction renverra un tableau à deux colonnes correspondant 
aux valeurs simulées pour les états cachés $X_t$ 
(type de dés utilisée, “F” ou “U”) et aux symboles observées $Y_t$ 
(résultat du jet de dés, “H” ou “T”). On simulera une séquence
de longueur 2000 qu'on gardera pour les applications ultérieures.


In [26]:
import numpy as np
import matplotlib.pyplot as plt


S = {0: "F", 1: "U"}
Pij = np.array([[0.99, 0.01], [0.05, 0.95]])

O = {0: "H", 1: "T"}
Eij = np.array([[0.5, 0.5], [0.9, 0.1]])  # ça aurait dû être Eio

# Condition initiale
pi0 = np.array([0.999, 0.001])

T = 2000

In [52]:
import random

def simule(pi0,Eij,Pij,T):
    s = np.where(np.cumsum(pi0)>random.random())[0][0]
    table = np.zeros((T,2), dtype=np.int64)
    for i in range(T-1):
        throw = np.where(np.cumsum(Eij[s])>random.random())[0][0]
        table[i]=[s,throw]
        s=np.where(np.cumsum(Pij[s])>random.random())[0][0]
    return table

seq=simule(pi0,Eij,Pij,T)

<b>Exercice 2</b>: <u>Algorithme de Viterbi </u>: Ecrire une fonction qui permet
de déterminer la séquence $(i^\star_t)_{t=0:T}$ d'états cachés
plus probable, ansi que sa probabilité. Pour tester votre fonction utiliser le résultat de la 
simulation (2éme colonne) de la question 1. Comparer $(i^\star_t)_{t=0:T}$ avec
les vrais états cachés (1ère colonne de la simulation). 


In [57]:
# Algorithme de Viterbi
def viterbi(obs, Pi, A, B):
    """
    Parameters
    ----------
    obs : array (T,)
        Sequence d'observations.
    Pi: array, (K,)
        Distribution de probabilite initiale
    A : array (K, K)
        Matrice de transition
    B : array (K, M)
        Matrice d'emission matrix

    """
    ## initialisation
    psi = np.zeros((len(A), len(obs)))  # A = N
    psi[:, 0] = -1
    delta = np.zeros(
        (len(A), len(obs))
    ) 

    for i in range(len(psi[:, 0])):
        delta[i, 0] = np.log(Pi[i]) + np.log(B[i, obs[0]])

    ## fin initialisation

    for t in range(1, delta.shape[1]):
        for e in range(delta.shape[0]):

            values = np.zeros(delta.shape[0])

            for i in range(delta.shape[0]):
                values[i] = delta[i, t - 1] + np.log(A[i, e])

            val_max = np.amax(values)
            index_max = np.argmax(values)

            delta[e, t] = val_max + np.log(B[e, obs[t]])

            psi[e, t] = index_max

    C = np.zeros(len(obs),dtype=np.int64)
    C[-1] = np.argmax(delta[:, -1])

    for i in range(len(obs) - 2, -1, -1):
        C[i] = psi[C[i + 1].astype("int"), i + 1]

    return C,np.amax(delta[:, -1])



print(list(viterbi(seq[:,1], pi0, Pij, Eij)[0]))

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

<b>Exercice 3</b>: <u>Estimation des paramètres</u>
<br>
3.1) Ecrire une fonction qui utilise tous les résultats de la simulation
(états et symboles) pour compter les nombres d'occurrence $N_{ij}$ est $M_{iO}$ définis
en cours. Estimer $p_{ij}$ est $e_i(O)$, voir slides  37-39 dans la presentation. Attention, pour eviter les probabilites à zero nous alons utiliser les pseudo-count.

In [50]:
# Estimation de Parametres par contage
def param(hidden_states,obs,size_states,size_symbols):

    A= np.ones((size_states,size_states))
    B = np.ones((size_states, size_symbols))
    for i in range(1,len(hidden_states)-1):
        p=(hidden_states[i-1],hidden_states[i])
        A[p[0],p[1]] +=1
    A = A/np.maximum(A.sum(1).reshape(size_states, 1), 1)
    
    for i in range(len(obs)):
        B[hidden_states[i], obs[i]] += 1

    for b in range(len(B)):
        B[b, :] = B[b, :] / B[b, :].sum()
    Pi = np.full(size_states,0.0001)     
    Pi[hidden_states[0]]=0.9999
    return A,B,Pi
A,B,Pi = param(seq[:,0], seq[:,1],2,2)
print(A)
print(B)
print(Pi)

[[0.99384099 0.00615901]
 [0.0462963  0.9537037 ]]
[[0.50643537 0.49356463]
 [0.88479263 0.11520737]]
[9.999e-01 1.000e-04]


3.2) <u> Viterbi training </u>: Ecrire une fonction qui utilise 
seulement la séquence $(O_t)_{t=0:T}$ (2emme colone de la simulation) pour estimer les 
paramètres $p_{ij}$ est $e_i(O)$. On s'arretera quand les diferences entre les logVraissamblance est inferieur à 1e-04. Comparer les résultats de 3.1 et de 3.2 (3.2 avec plusieurs restarts,
et avec initialisation des paramètres alèatoire).


In [87]:
import matplotlib.pyplot as plt
def viterbi_training(obs,size_states,affichage=False):
    
    # Initialisation aleatoire de Pij, Eij, pi0
    
    Estimate_Pij=np.random.rand(size_states,size_states)
    for a in range(len(Estimate_Pij)):
        Estimate_Pij[:,a] = Estimate_Pij[:,a] / Estimate_Pij[:, a].sum()
    
    Estimate_Eij=np.random.rand(size_states,size_states)
    for b in range(len(Estimate_Eij)):
        Estimate_Eij[b, :] = Estimate_Eij[b, :] / Estimate_Eij[b, :].sum()
    Estimate_pi0=np.random.rand(size_states)
    Estimate_pi0=Estimate_pi0/Estimate_pi0.sum()
    # Calcule log Vraissamblance
    hiden_state,vraissamblance_after = viterbi(obs, Estimate_pi0, Estimate_Pij, Estimate_Eij)
    vraissamblance_before = 1000
    
    if affichage:
        print("Initialisation :")
        print("")
        print("Pij :")
        print(Estimate_Pij)
        print("Eij :")
        print(Estimate_Eij)
        print("Pi0 :")
        print(Estimate_pi0)
        print(vraissamblance_after)
        print("")
        print("Training ...")
        print("")
        
    # Viterbi Training
    step = 0
    while np.abs(vraissamblance_after-vraissamblance_before) >= 10**-4:
        vraissamblance_before = vraissamblance_after
        Estimate_Pij,Estimate_Eij,Estimate_pi0=param(hiden_state,obs,size_states,size_states)
        hiden_state,vraissamblance_after = viterbi(obs, Estimate_pi0, Estimate_Pij, Estimate_Eij)
        step+=1
        if affichage:
            print("vraissamblance :"+str(vraissamblance_after)+" at step "+str(step))

    return Estimate_Pij,Estimate_Eij,Estimate_pi0,vraissamblance_after

obs=seq[:,1]

Estimate_Pij,Estimate_Eij,Estimate_pi0,vraissamblance = viterbi_training(obs,2, affichage = True)
print("")
print("last estimation :")
print("")
print("Pij :")
print(Estimate_Pij)
print("Eij :")
print(Estimate_Eij)
print("Pi0 :")
print(Estimate_pi0)
print("vraissamblance :")
print(vraissamblance)

Initialisation :

Pij :
[[0.79556741 0.55514478]
 [0.20443259 0.44485522]]
Eij :
[[0.84164989 0.15835011]
 [0.46106805 0.53893195]]
Pi0 :
[0.30774884 0.69225116]
-2036.3517378830313

Training ...

vraissamblance :-1609.4355892378264 at step 1
vraissamblance :-1609.4355892378264 at step 2

last estimation :

Pij :
[[0.85289958 0.14710042]
 [0.3537415  0.6462585 ]]
Eij :
[[0.8319209  0.1680791 ]
 [0.00170068 0.99829932]]
Pi0 :
[9.999e-01 1.000e-04]
vraissamblance :
-1609.4355892378264


3.3) <u>Viterbi training deuxiemme version </u> Ecrivez une version de 3.3 qui:
- part plusieurs fois (100x) d'une initialisation aléatoire des 
paramètres de l'HMM,
- utilise Viterbi training pour estimer les paramètres,
- calcule la log-vraisemblance pour les paramètres estimés,
- sauvegarde seulement l'estimation avec la valeur maximale de la
log-vraisemblance.

Qu'est-ce que vous observez?



In [91]:
# Viterbi Training  deuxiemme version

max_vraissamblance = -np.inf

for i in range(100):
    Estimate_Pij,Estimate_Eij,Estimate_pi0,vraissamblance_after = viterbi_training(obs,2)
    if vraissamblance_after>max_vraissamblance:
        max_vraissamblance = vraissamblance_after
        maxEstimate_Pij,maxEstimate_Eij,maxEstimate_pi0,maxvraissamblance_after=Estimate_Pij,Estimate_Eij,Estimate_pi0,vraissamblance_after



-inf
-1355.6734681810485
-1355.6734681810485
-1355.6734681810485
-1355.6734681810485
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1345.091060553129
-1344.5983788377766
-1344.5983788377766
-1344.5983788377766
-1344.5983788377766
-1344.5983788377766
-1344.5983788377766
-1344.5983788377766
-1344.5983788377766
-1344.5983788377766
-1344.5983788377766
-1344.5983788377766
-1344.5983788377766
-1344.5983788377766
-1344.5983788377766
-1344.5983788377766
-1344.5983788377766
-1344.5983788377766
-1344.5983788377766
-1344.5983788377766
-13

In [93]:
print(max_vraissamblance)
print(maxEstimate_Pij,"\n",maxEstimate_Eij,"\n",maxEstimate_pi0,"\n",maxvraissamblance_after)

-1344.5983788377766
[[0.97385621 0.02614379]
 [0.00216333 0.99783667]] 
 [[0.92156863 0.07843137]
 [0.56077796 0.43922204]] 
 [1.000e-04 9.999e-01] 
 -1344.5983788377766
