<h1><b>Statistique en Bioinformatique : </b> TME5 </h1>
<br>
L’objectif de ce TME est: 
<br>
<ul>
<li> implémenter l'algorithme de Viterbi et l'estimation des paramèetres (en utilisant le Viterbi training)
pour l'exemple du occasionally dishonest casino.   </li> 
</ul>
<br>
<div class="alert alert-warning" role="alert" style="margin: 10px">
<p>**Soumission**</p>
<ul>
<li>Renomer le fichier TME5_subject_st.ipynb pour NomEtudiant1_NomEtudiant2.ipynb </li>
<li>Envoyer par email à edoardo.sarti@upmc.fr, l’objet du email sera [SBAS-2019] TME5 (deadline 19/03/2018 23:59)</li>
</ul>
</div>

Nom etudiant 1 :
<br>
Nom etudiant 2 :
<br>

<h3>Introduction</h3>
Un casino parfois malhonnête (occasionally dishonest casino) utilise 2 types de pieces : fair et unfair. <br>
La matrice de transition entre les états cachés est:<br>
${\cal S}=\{F,U\}$ (fair, unfair):
$$
p = \left(
\begin{array}{cc}
0.99 & 0.01\\
0.05 & 0.95
\end{array}
\right)\ ,
$$

les probabilités d'éemission des symboles 
${\cal O} = \{H,T\}$ (head, tail):
\begin{eqnarray}
e_F(H) =  0.5 &\ \ \ \ &
e_F(T) = 0.5 \nonumber\\
e_U(H) = 0.9 &\ \ \ \ &
e_U(T) = 0.1 \nonumber
\end{eqnarray}

<br> Et la condition initiale $\pi^{(0)} = (1,0)$ (le jeux commence toujours avec le pieces juste (fair).

<b>Exercice 1</b>:
<u>Simulation</u>: Ecrire une fonction qui simule $T$ jets de pieces. 
La fonction renverra un tableau à deux colonnes correspondant 
aux valeurs simulées pour les états cachés $X_t$ 
(type de dés utilisée, “F” ou “U”) et aux symboles observées $Y_t$ 
(résultat du jet de dés, “H” ou “T”). On simulera une séquence
de longueur 2000 qu'on gardera pour les applications ultérieures.


In [None]:
import numpy as np
import matplotlib.pyplot as plt


S = { 0:'F',1 :'U'}
Pij = np.array([[0.99,0.01], [0.05,0.95]])

O = {0:'H', 1: 'T'}
Eij = np.array([[0.5,0.5], [0.9,0.1]]) #ça aurait dû être Eio

# Condition initiale
pi0=np.array([0.999,0.001])

T = 2000

In [None]:
import random

# Fonction qui simule T jets de pieces
def jets(T, pi0, Eij, Pij):
    # Creation du tableau
    jetsRes = np.zeros((T,len(pi0)),dtype=int)
    
    ffRange = Pij[0][0]
    fuRange = ffRange + Pij[0][1]
        
    ufRange = Pij[1][0]
    uuRange = ufRange + Pij[1][1]
    
    eFHRange = Eij[0][0]
    eFTRange = eFHRange + Eij[0][1]
    
    eUHRange = Eij[1][0]
    eUTRange = eUHRange + Eij[1][1]

    jetsRes[0][0] = 0
    uniRandNum2 = random.uniform(0,1)
    if(uniRandNum2 <= eFHRange):
        jetsRes[0][1] = 0
    else:
        jetsRes[0][1] = 1
        
    for t in range(1,T):
        if(jetsRes[t-1][0] == 0):
            trajProb(jetsRes, t, eFHRange, eUHRange, ffRange)
        else:
            trajProb(jetsRes, t, eFHRange, eUHRange, ufRange)
    return jetsRes


def trajProb(jetsRes, t, eFHRange, eUHRange, rang):
    uniRandNum1 = random.uniform(0,1)
    #print(uniRandNum1)
    if(uniRandNum1 <= rang):
        jetsRes[t][0] = 0 
        uniRandNum2 = random.uniform(0,1)
        if(uniRandNum2 <= eFHRange):
            jetsRes[t][1] = 0
        else:
            jetsRes[t][1] = 1
    else:
        jetsRes[t][0] = 1
        uniRandNum2 = random.uniform(0,1)
        if(uniRandNum2 <= eUHRange):
            jetsRes[t][1] = 0
        else:
            jetsRes[t][1] = 1

def imprimerResultats(resultat):
    for i in resultat : 
        print (S[i[0]], O[i[1]])

jetsRes = jets(T, pi0, Eij, Pij)
imprimerResultats(jetsRes)

<b>Exercice 2</b>: <u>Algorithme de Viterbi </u>: Ecrire une fonction qui permet
de déterminer la séquence $(i^\star_t)_{t=0:T}$ d'états cachés
plus probable, ansi que sa probabilité. Pour tester votre fonction utiliser le résultat de la 
simulation (2éme colonne) de la question 1. Comparer $(i^\star_t)_{t=0:T}$ avec
les vrais états cachés (1ère colonne de la simulation). 


In [None]:
# Algorithme de Viterbi
import operator

def viterbi(jets,P,E,pi,enLog):
    
    obs = jets[:,1]
    
    nS = len(P) #Nombre d'états
    T = len(obs) #Nombre d'observations (longueur des observations)
    Delta = np.zeros((nS,T))
    Psi = np.zeros((nS,T)) # Selon Rabiner, on définit une vecteur Psi qui nous aide dans le processus de traceback!
    i_star = np.zeros((T))
    for i in range(0,nS):
        if(enLog):
            Delta[i][0] = np.log(pi[i]) + np.log(E[i][obs[0]])
            Psi[i][0] = -1
        else:
            Delta[i][0] = pi[i] * E[i][obs[0]]
            Psi[i][0] = 0
        
    for t in range(1,T):
        for j in range(0,nS):
            if(enLog):
                v = Delta[:,t-1] + np.log(P[:,j])
            else:
                v = Delta[:,t-1] * P[:,j]
            i, maxvalue = max(enumerate(v), key=operator.itemgetter(1))
            
            if(enLog):
                Delta[j][t] = maxvalue + np.log(E[j][obs[t]])
            else:
                Delta[j][t] = maxvalue * E[j][obs[t]]
            Psi[j][t] = i
    
    v = Delta[:,T-1]
    i_star[T-1], prob = max(enumerate(v), key=operator.itemgetter(1))
    
    for t in range(T-2,0,-1):
        i_star[t] = Psi[int(i_star[t+1])][t+1]
    
    return i_star, prob

def analyseResultats(jets, estimation):    
    diff = jets[:,0]-estimation    
    error = (np.count_nonzero(diff)*100) / len(jets)
    return error

i_est, p_est = viterbi(jetsRes,Pij,Eij,pi0,False)
error = analyseResultats(jetsRes, i_est)
print('erreur d\'estimation de viterbi:')
print(error,'%')
#print('Probabilité estimé:')
#print(p_est)

<b>Exercice 3</b>: <u>Estimation des paramètres</u>
<br>
3.1) Ecrire une fonction qui utilise tous les résultats de la simulation
(états et symboles) pour compter les nombres d'occurrence $N_{ij}$ est $M_{iO}$ définis
en cours. Estimer $p_{ij}$ est $e_i(O)$, voir slides  37-39 dans la presentation. Attention, pour eviter les probabilites à zero nous alons utiliser les pseudo-count.

In [None]:
# Estimation de Parametres par contage
def nombresOccurrence(jets,nS,nO):
    
    etat_seq = jets[:,0]
    #nS = len(set(etat_seq)) #Nombre d'états
    obs_seq = jets[:,1]
    #nO = len(set(obs_seq)) #Nombre d'observations possibles
    T = len(obs_seq) #Nombre d'observations (longueur des observations)
    
    Nij = np.ones((nS,nS)) #pseudo-count = 1
    Mio = np.ones((nS,nO))  #pseudo-count = 1
        
    for i in range(0,T-1): 
        Nij[etat_seq[i]][etat_seq[i+1]] += 1
        Mio[etat_seq[i]][obs_seq[i]] += 1
    
    pi = np.ones((nS)) / 1000 # Il n'y a pas assez d'informations pour π
    pi[etat_seq[0]] = 0.999  # On doit répéter le procès de génération de séquence de plusieurs fois pour obtenir le meilleur π
        
    # normalisation
    for n in range(0,nS):
        Nij[n] = Nij[n] / sum(Nij[n])
        Mio[n] = Mio[n] / sum(Mio[n])
    pi = pi/pi.sum()
    
    return Nij,Mio,pi

Nij,Mio,pi = nombresOccurrence(jetsRes,2,2)

print('Nij estimé:')
print(Nij)
print('\nMio estimé:')
print(Mio)
print('\npi0 estimé:')
print(pi)

3.2) <u> Viterbi training </u>: Ecrire une fonction qui utilise 
seulement la séquence $(O_t)_{t=0:T}$ (2emme colone de la simulation) pour estimer les 
paramètres $p_{ij}$ est $e_i(O)$. On s'arretera quand les diferences entre les logVraissamblance est inferieur à 1e-04. Comparer les résultats de 3.1 et de 3.2 (3.2 avec plusieurs restarts,
et avec initialisation des paramètres alèatoire).


In [None]:
import matplotlib.pyplot as plt

# Initialisation aleatoire de Pij, Eij, pi0
def InititRandom(nS,nO):
    random.seed(10)
    Pij_init = np.random.uniform(0,1,(nS,nS))
    Eij_init = np.random.uniform(0,1,(nS,nO))
    pi0_init = np.random.uniform(0,1,nS)
    return Pij_init,Eij_init,pi0_init

# Calcule log Vraissamblance
def logLikelhihood(Aij,Bij,pi,jets):
    etat_seq = jets[:,0]
    obs_seq = jets[:,1]
    T = len(obs_seq) #Nombre d'observations (longueur des observations)
    lLikelihood = np.log(pi[etat_seq[0]])
    lLikelihood += np.log(Bij[etat_seq[0]][obs_seq[0]])
    for i in range(1,T):
        lLikelihood += np.log(Aij[etat_seq[i-1]][etat_seq[i]]) + np.log(Bij[etat_seq[i]][obs_seq[i]])
    return lLikelihood

# Viterbi Training
def Training(jets):
    jets_est = np.array(jets)    
    nS = 2 #Nombre d'états
    nO = 2 #Nombre d'observations possibles
    Pij_est,Eij_est,pi0_est = InititRandom(nS,nO)
    
    nIteration = 10000
    iCount = 0
    criterion = 1e-04
    lLikelihood = np.zeros((nIteration))
    while(iCount < nIteration):
        i_est, p_est = viterbi(jets_est,Pij_est,Eij_est,pi0_est,False)
        jets_est[:,0] = i_est
                
        Pij_est,Eij_est,pi0_est = nombresOccurrence(jets_est,nS,nO)
        
        lLikelihood[iCount] = logLikelhihood(Pij_est,Eij_est,pi0_est,jets_est)
        
        if(iCount > 0):
            if(abs(lLikelihood[iCount]-lLikelihood[iCount-1]) <= criterion):
                break
        iCount+=1
        
    lLikelihood = lLikelihood[:np.argmax(lLikelihood)]
    return Pij_est,Eij_est,pi0_est,lLikelihood
    
#imprimer les Parametres du Viterbi Training
Pij_est,Eij_est,pi0_est,lLikelihood = Training(jetsRes)
itCount = len(lLikelihood)
print('Le modèle est convergé après '+str(itCount)+' itérations.')
print('\nPij estimée:')
print(Pij_est)
print('\nEij estimée:')
print(Eij_est)

<font color="blue">
Ici, on a remarqué que parfois le processus d'apprentissage converge vers un minimum local (mauvais modèle). On dois exécuter la fonction d'apprentissage plusieurs fois pour trouver le meilleur modèle. Ce problème est résolu dans la section suivante.
</font>

3.3) <u>Viterbi training deuxiemme version </u> Ecrivez une version de 3.3 qui:
- part plusieurs fois (100x) d'une initialisation aléatoire des 
paramètres de l'HMM,
- utilise Viterbi training pour estimer les paramètres,
- calcule la log-vraisemblance pour les paramètres estimés,
- sauvegarde seulement l'estimation avec la valeur maximale de la
log-vraisemblance.

Qu'est-ce que vous observez?



In [None]:
# Viterbi Training  deuxiemme version
def TrainingV2(jets,nIterat):
    itCount = np.zeros((nIterat)) #Pour savoir chaque fois le nombre d'itérations nécessaires pour converger
    Pij_meilleur = []
    Eij_meilleur = []
    pi0_meilleur = []
    lLikelihood_meilleur = -10000
    for i in range(0,nIterat):
        Pij_est,Eij_est,pi0_est,lLikelihood = Training(jetsRes)
        
        itCount[i] = len(lLikelihood)
        lastlLikelihood = lLikelihood[-1]
        
        if(lastlLikelihood > lLikelihood_meilleur):
            lLikelihood_meilleur = lastlLikelihood
            Pij_meilleur = Pij_est
            Eij_meilleur = Eij_est
            pi0_meilleur = pi0_est
    return Pij_meilleur, Eij_meilleur, pi0_meilleur, lLikelihood_meilleur, itCount
    

# Imprimer les Parametres du Viterbi Training deuxiemme version
nIterat = 100
Pij_meilleur, Eij_meilleur, pi0_meilleur, lLikelihood_meilleur, itCount = TrainingV2(jetsRes,nIterat)

print('Meilleur Pij estimée:')
print(Pij_meilleur)
print('\nMeilleur Eij estimée:')
print(Eij_meilleur)

<font color="blue">
Les valeurs initiales des matrices transition et émission est très importante pour le processus d'apprentissage; parce que certaines des valeurs initiales pourraient mener à un minimum local des fonctions de coût (l'apprentissage s'arrête au minimum local au lieu du minimum global). C'est pourquoi dans cet exercice on avait répété l'apprentissage avec des valeurs initiales différentes pour trouver le meilleur modèle.  
</font>

In [None]:
plt.stem(itCount)
plt.title('Nombre d\'itérations nécessaires pour converger chaque fois!')
plt.show()