<h1><b>Statistique en Bioinformatique : </b> TME5 </h1>
<br>
L’objectif de ce TME est: 
<br>
<ul>
<li> implémenter l'algorithme de Viterbi et l'estimation des paramèetres (en utilisant le Viterbi training)
pour l'exemple du occasionally dishonest casino.   </li> 
</ul>
<br>
<div class="alert alert-warning" role="alert" style="margin: 10px">
<p>**Soumission**</p>
<ul>
<li>Renomer le fichier TME5_subject_st.ipynb pour NomEtudiant1_NomEtudiant3.ipynb </li>
<li>Envoyer par email à juliana.silva_bernardes@upmc.fr, l’objet du email sera [SBAS-2018] TME5 (deadline 19/03/2018 23:59)</li>
</ul>
</div>
<br>

<h3>Introduction</h3>
Un casino parfois malhonnête (occasionally dishonest casino) utilise 2 types de dés : fair et unfair. <br>
La matrice de transition entre les états cachés est:<br>
${\cal S}=\{F,U\}$ (fair, unfair):
$$
p = \left(
\begin{array}{cc}
0.99 & 0.01\\
0.05 & 0.95
\end{array}
\right)\ ,
$$

les probabilités d'éemission des symboles 
${\cal O} = \{H,T\}$ (head, tail):
\begin{eqnarray}
e_F(H) =  0.5 &\ \ \ \ &
e_F(T) = 0.5 \nonumber\\
e_U(H) = 0.9 &\ \ \ \ &
e_U(T) = 0.1 \nonumber
\end{eqnarray}

<br> Et la condition initiale $\pi^{(0)} = (1,0)$ (le jeux commence toujours avec le dés juste (fair).

<b>Exercice 1</b>:
<u>Simulation</u>: Ecrire une fonction qui simule $T$ jets de dés. 
La fonction renverra un tableau à deux colonnes correspondant 
aux valeurs simulées pour les états cachés $X_t$ 
(type de dés utilisée, “F” ou “U”) et aux symboles observées $Y_t$ 
(résultat du jet de dés, “H” ou “T”). On simulera une séquence
de longueur 2000 qu'on gardera pour les applications ultérieures.


In [1]:
import numpy as np
import matplotlib.pyplot as plt


S = { 0:'F',1 :'U'}
Pij = np.array([[0.99,0.01], [0.05,0.95]])

O = {0:'H', 1: 'T'}
Eij = np.array([[0.5,0.5], [0.9,0.1]])

# Condition initiale
pi0=np.array([0.5,0.5])

T = 2000
#to test
#T = 20



In [3]:
# Fonction qui simule T jets de dés
def jets(T, pi0, Eij, Pij):
	# Creation du tableau
	resultat = np.zeros((T,len(pi0)),dtype=int)
	#Etat initial
	resultat[0,0] = 0
	jet = np.random.rand()
	if jet < pi0[0]:
		resultat[0,1] = 0; resultat[0,0] = 0
	else : 
		resultat[0,1] = 1	
	# Boucle sur le reste des jets
	for i in range(1,T):
		previousstate = resultat[i-1,0]
		# transition
		jet = np.random.rand()
		if jet <  Pij[int(previousstate),0]:
			resultat[i,0] = 0 
		else :
			resultat[i,0] = 1
		
		# Observation
		jet = np.random.rand()
		if jet <  Eij[int(resultat[i,0]),0]:
			resultat[i,1] = 0 
		else :
			resultat[i,1] = 1
	return resultat

def imprimerResultats(resultat):
	for i in resultat : 
		print (S[i[0]], O[i[1]])

jettest = jets(T)
#imprimerResultats(jettest)

<b>Exercice 2</b>: <u>Algorithme de Viterbi </u>: Ecrire une fonction qui permet
de déterminer la séquence $(i^\star_t)_{t=0:T}$ d'états cachés
plus probable, donnés les paramètres du modèle et la séquence
des symboles émis. Appliquer cette fonction aux résultats de la 
simulation (2éme colonne) et comparer $(i^\star_t)_{t=0:T}$ avec
les vrais états cachés (1ère colonne de la simulation). Est-ce 
que vous pouvez comprendre les différences entre $(i^\star_t)_{t=0:T}$
et $(i_t)_{t=0:T}$?

In [4]:
def viterbi(obsjets, T, pi0, Eij, Pij):
	delta = np.zeros((T,len(pi0)))
	path = np.zeros((T,len(pi0)), dtype=int)
	# Initialisation
	for i in range(len(pi0)):
		delta[0,i] = np.log(pi0[i])  + np.log(Eij[i,int(obsjets[0])])
		path[0,i] = -1
	# Recursion
	for t in range(1,T):
		for i in range(len(pi0)):
			listeSum = []
			for j in range(len(pi0)):
				sum1 = (delta[t-1,j] + np.log(Pij[j,i]))
				listeSum.append(sum1)
			delta[t,i] = np.log(Eij[i, int(obsjets[t])]) + max(listeSum)
			arMax = np.argmax(listeSum)
			path[t,i] = arMax
	# Backtracking
	pathEtats = np.zeros((len(obsjets),1),dtype=int)
	maximEtat = np.argmax(delta[T-1])
	probabilite = max(delta[T-1]) 
	pathEtats[T-1] = maximEtat
	for t in range (1,len(path)):
		maximEtat = path[T-t, maximEtat] 
		pathEtats[T-1-t] = maximEtat
	return pathEtats, probabilite

paths, probabilite = viterbi(jettest[:,1], T, pi0, Eij, Pij)
print (paths, probabilite)

[[0]
 [0]
 [0]
 ..., 
 [0]
 [0]
 [0]] -1346.0820408


<b>Exercice 3</b>: <u>Estimation des paramètres</u>
<br>
3.1) Ecrire une fonction qui utilise tous les résultats de la simulation
(états et symboles) pour compter les nombres d'occurrence $N_{ij}$ est $M_{iO}$ définis
en cours. Estimer $p_{ij}$ est $e_i(O)$.

In [None]:
def imprimerPathViterbi(resultat):
	for i in range(len(resultat)):  
		print (S[paths[i][0]])


def designer(jets, paths):
	plt.plot(jets, 'blue')
	plt.plot(paths, 'red')
	plt.axis([0, T, 0, 1.5])
	plt.xlabel("B = Viterbi, R = Vrai")
	plt.show()

def imprimerResultatsViterbi(resultat, paths):
	comptage = 0.
	for i in range(len(resultat)): 
		#print ('Vrai : ', S[resultat[i]], ' Obtenu Viterbi: ', S[paths[i][0]])
		if S[resultat[i]] == S[paths[i][0]]:
			comptage = comptage + 1
	pourcentage = (comptage / len(resultat))*100
	print ('Pourcentage de vraissemblance %: ', pourcentage, ' Qte. egale: ', comptage, ' Taille : ', T)
	designer(jettest[:,0], paths)

#imprimerResultatsViterbi(jettest[:,0], paths)

def normalisation(matrix):
	for line in range(len(matrix)):
		sommeLine = np.sum(matrix[line])
		if sommeLine != 0:
			for element in range(len(matrix[line])):
				matrix[line,element] = matrix[line,element]/sommeLine
	return matrix

def estimationParametres(jets, s, o):
	Pij = np.zeros((s,s))
	Eia = np.zeros((s,o))
	pi0 = np.zeros(s)
	
	for i in range(len(jets)-1):
		if i == 0:
			pi0[jets[i][0]] = 1
		etat1 = jets[i][0]  
		etat2 = jets[i+1][0]
		Pij[etat1][etat2] = Pij[etat1][etat2] + 1
		a = jets[i][1]
		Eia[etat1][a] = Eia[etat1][a] +1
	return  normalisation(Pij), normalisation(Eia), pi0

def imprimerParametres(jettest, s, o):
	Pij, Eia, pi0 = estimationParametres(jettest, 2, 2)
	print ("===Ini Estimation paramètres===")
	print ("Pij")
	print (Pij)
	print ("Eia")
	print (Eia)
	print ("pi0")
	print (pi0)
	print ("===Fin Estimation paramètres===")
    
#3.1
imprimerParametres(jettest, 2, 2)

3.2) <u> Viterbi training </u>: Ecrire une fonction qui utilise 
seulement la séquence $(O_t)_{t=0:T}$ pour estimer les 
paramètres $p_{ij}$ est $e_i(O)$. Vous devez donner comme paramètre le
nombre d'Interation. Comparer les résultats de 3.1 et de 3.2 (3.2 avec plusieurs restarts,
et avec initialisation des paramètres alèatoire).


In [None]:
def initialisation(s, o):
	Pij = np.zeros((s,s))
	Eia = np.zeros((s,o))
	pi0 = np.zeros(s)
	p = np.random.rand()
	pi0[0] = p
	pi0[1] = 1-p
	
	for i in range (len(Pij)):
		p = np.random.rand()
		Pij[i,0] = p
		Pij[i,1] = 1-p
		p = np.random.rand()
		Eia[i,0] = p
		Eia[i,1] = 1-p
	return Pij, Eia, pi0
  
def creationArrayIetA(etats, obs, T, s):
	resultat = np.zeros((T,s),dtype=int)
	for i in range(T):
		resultat[i,0] = etats[i]
		resultat[i,1] = obs[i]
	return resultat
	

def calculeVraissamblance(i,a,pi0, T, p, e):
	lV = np.log(e[i[0],int(a[0])])
	for t in range (1,T):
		lV += np.log(p[i[t-1], i[t]]) + np.log(e[i[t],int(a[t])])
	return lV

def viterbiTraining(obs, T, s, o):
	# Initialisation
	Pij, Eia, pi0 = initialisation(s,o)
	critere = 1e-4
	logV = -10000
	flag = 1

	while(flag==1):
		path, probabilite = viterbi(obs, T, pi0, Eia, Pij)
		jeuEtatsObs = creationArrayIetA(path,obs, T, s )
		Pij, Eia, pi0 = estimationParametres(jeuEtatsObs, s, o)
		'''
		print ""
		print "Pij"
		print Pij
		print "Eia"
		print Eia
		'''
		logAux = calculeVraissamblance(jeuEtatsObs[:,0],jeuEtatsObs[:,1],pi0, T, Pij, Eia)
		#print "Log Vrai: ", logAux, "Log Vrai Posterieur : ", logV
		if abs(logAux-logV) < critere:
			flag = 0
		logV = logAux
	return Pij, Eia, pi0, logV

def imprimerParametresViterbiTraining(jettest, T, s, o):
    Pij, Eia, pi0, logV = viterbiTraining(jettest, T, 2, 2)
    print ("===Ini Paramètres Viterbi Training===")
    print ("Pij")
    print (Pij)
    print ("Eia")
    print (Eia)
    print ("pi0")
    print (pi0)
    print ("LogV")
    print (logV)
    print ("===Fin Paramètres Viterbi Training===")


imprimerParametresViterbiTraining(jettest[:,1], T, 2, 2)

In [None]:
#Visualiser graphiquement les résultats.



3.3) <u>Viterbi training deuxime version </u> Ecrivez une version de 3.3 qui\\
- part plusieurs fois (100x) d'une initialisation aléatoire des 
paramètres de l'HMM,\\
- utilise Viterbi training pour estimer les paramètres,\\
- calcule la log-vraisemblance pour les paramètres estimés,\\
- sauvegarde seulement l'estimation avec la valeur maximale de la
log-vraisemblance.
Qu'est-ce que vous observez?



In [None]:
def viterbiTrainingOptionnel(obs, T, s, o, iterations):
	resultat = [0,0,0,-10000]
	for i in range (iterations):
		Pij, Eia, pi0, logV = viterbiTraining(obs, T, s, o)
		if logV > resultat[3] :
			resultat = [Pij, Eia, pi0, logV]
	return resultat


def imprimerParametresViterbiTrainingOptionnel(jettest, T, s, o, iterations):
	resultat = viterbiTrainingOptionnel(jettest, T, 2, 2, iterations)
	print ("===Ini Paramètres Viterbi Training Optionnel===")
	print ("Pij")
	print (resultat[0])
	print ("Eia")
	print (resultat[1])
	print ("pi0")
	print (resultat[2])
	print ("LogV")
	print (resultat[3])
	print ("===Fin Paramètres Viterbi Training Optionnel===")


imprimerParametresViterbiTrainingOptionnel(jettest[:,1], T, 2, 2, 100)
