<h1><b>Statistique en Bioinformatique : </b> TME9 </h1><br>

L’objectif de ce TME est: 
<br>
<ul>
<li> Implementer la méthode Expectation-Maximisation pour la recherche de motifs. </li> 
</ul>
<div class="alert alert-warning" role="alert" style="margin: 10px">
<p>**Soumission**</p>
<ul>
<li>Renomer le fichier TME9_subject_st.ipynb pour NomEtudiant1_NomEtudiant2_TME9.ipynb </li>
<li>Envoyer par email à riccardo.vicedomini@upmc.fr, l’objet de l'email sera [SBAS-2018] TME9 (deadline 14/05/2018 23:59)</li>
</ul>
</div>

<H1>Expectation-Maximisation Motif</H1>
<br>
La méthode EM (Expectation-Maximisation) permet de détecter des motifs dans un ensemble de séquences ADN ou protéiques reliées, non alignées. En particulier, étant donné un groupe de séquences de longueur L, dont on sait qu’elles partagent un motif commun de longueur w, l’algorithme EM:
- Infère un modèle (Θ, p0, Ζ) pour le motif
- Localise l’occurrence du motif dans chaque séquence

Θ est la matrice des poids-position pc,k du motif, avec c ∈ {A,C,G,T} et k ∈ {1...w}, p0 est le vecteur de probabilités du modèle null ou background. Ζ est la matrice des variables cachées, qui donnent les positions initiales du motif : Zi,j = 1 si le motif commence en position j de la séquence i, Zi,j = 0 sinon. 

L’algorithme affine les paramètres du modèle de manière itérative par espérance-maximisation. Chaque itération t se compose de deux étapes :
- (E) Calcul des valeurs attendues Ζ(t) de Ζ, étant donné Θ(t-1), p(t-1)
- (M) Estimation des paramètres du modèle

1\. Faite une fonction pour lire le fichier d'entré qui contient un ensemble de séquences ADN ou protéiques reliées, non alignées. Pour simplifier nous allons utiliser les données vu en cours du fichier "toyEx.txt".

In [2]:
import numpy as np

nts = ['A', 'C', 'G', 'T']
w = 3
input_f = "toyEx.txt"


def read_training_file (input_f):
    seqs = []
    with open(input_f, 'r') as in_f:
        for line in in_f:
            seqs.append(line[:-1])
    return seqs

#teste
seqs = read_training_file (input_f)
print (seqs)


['GTCAGG', 'GAGAGT', 'ACGGAG', 'CCAGTC']


2\. Faites une fonction pour initialiser la matrice poids-position p. On consider le modèle nul par defaut, p0=(0.25, 0.25, 0.25, 0.25) et pour initialiser p(t) on prend généralement un motif au hasard dans une sequence, et on fixe à 0.5 les poids du nucleotide correspondant et (1-0.5)/3 les autres. 

In [3]:
p0 = np.array([[0.25],[0.25],[0.25],[0.25]])

def initialiseP(seqs, w, p0):
	#get a sequence randomly
	rand_seq_idx = np.random.randint(len(seqs))
	#print('rand_seq_idx: ' + str(rand_seq_idx))
	rand_seq = seqs[rand_seq_idx] #get a motif of size w, randomly
	rand_mot_start = np.random.randint(len(rand_seq) - w)
	#print('rand_mot_start: ' + str(rand_mot_start))
	rand_mot = rand_seq[rand_mot_start:rand_mot_start+w]
	#print('rand_mot: ' + str(rand_mot))
	pm = np.zeros((4,w))+(0.5/3.)
	#print (pm)
	for i, n in enumerate(rand_mot):
		pm[nts.index(n),i] = 0.5
	p = np.hstack((p0,pm))
	#print(p)
	return p

#tester
p = initialiseP(seqs, w, p0)
print (p)

[[0.25       0.16666667 0.5        0.16666667]
 [0.25       0.16666667 0.16666667 0.16666667]
 [0.25       0.5        0.16666667 0.5       ]
 [0.25       0.16666667 0.16666667 0.16666667]]


3\. Faites une fonction pour initialiser la matrice $Z$ à zeros. Rappel: la dimension de $Z$ est $nbSeq \times (lenSeq -w +1)$, où $nbSeq$ est le nombre de sequences et $lenSeq$ la taille de sequences.

In [4]:
def initialiseZ(seqs, w):
	n_seqs = len(seqs)
	seq_len = len(seqs[0])
	z = np.zeros((n_seqs,seq_len-w+1))
	return z

#tester
z = initialiseZ(seqs, w)
print (z)


[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


4\. Faites une fonction pour le pas Expectation, estimer $Z$ à partir de $p$. Faite aussi une fonction pour normaliser $Z$.

In [5]:
def E_step (seqs, w, z, p):
	for i, seq in enumerate(seqs):
		for j in range(len(seq)-w+1):
			z[i,j] = 1
			for k, c in enumerate(seq):
				if k>=j and k<j+w:
					z[i,j] *= p[nts.index(c),k-j+1]
				# null model
				else:
					z[i,j] *= p[nts.index(c),0]
	return z
	
def normaliseZ(z, seqs):
	#normalisation
	for i in range(len(seqs)):
		z[i] /= z[i].sum()
	return z

#teste
z = E_step (seqs, w, z, p)
print (z)


[[2.17013889e-04 7.23379630e-05 6.51041667e-04 2.17013889e-04]
 [1.95312500e-03 7.23379630e-05 1.95312500e-03 7.23379630e-05]
 [2.17013889e-04 2.17013889e-04 2.17013889e-04 1.95312500e-03]
 [7.23379630e-05 6.51041667e-04 7.23379630e-05 2.17013889e-04]]


5\.  Faites une fonction pour le pas Maximisation, c'est a dire estimer $p$ a partir de $Z$. Utiliser les pseudocounts pour éviter les probabilités à zero. 

In [6]:
def countNuc(seqs):
	# count of each nucleotide in the entire training set
	n_tot = np.zeros(4)
	for s in seqs:
		for c in s:
			n_tot[nts.index(c)] += 1
	return n_tot
	
	
def M_step (seqs, n_tot, w, z, p):
	n = np.zeros(p.shape)
	for k in range(1,w+1):
		for c in range(4):
			for i, s in enumerate(seqs):
				for j in range(len(s)-w+1):
					if c == nts.index(s[j+k-1]):
						n[c,k] += z[i,j]
	for c in range(4):
		n[c,0] = n_tot[c] - n[c].sum()
	for k in range(w+1):
		div = n[:,k].sum()+4
		for c in range(4):
			p[c,k] = (n[c,k]+1)/div
	return p
	
#teste
p = M_step (seqs, countNuc(seqs), w, z, p)
print (p)

[[0.24994182 0.24961204 0.25123606 0.24955791]
 [0.21440319 0.24984662 0.24953986 0.24955791]
 [0.39268592 0.25107366 0.24966617 0.25139846]
 [0.14296908 0.24946768 0.24955791 0.24948573]]


6\. Faite un fonction pour trouver la  log-vraisemblance  d'ensemble de sequences.

In [7]:

def likelihood (seqs, w, z):
    lh = -len(seqs)*np.log2(len(seqs[0])-w+1)
    for i, s in enumerate(seqs):
        lh += np.log2(z[i].sum())
    return lh

#teste
lh = likelihood (seqs, w, z)
print (lh)



-44.23491516309635


7\. Implementer l'algorithme expectation maximisation. Vous calculerez la valeur de la log-vraisemblance totale du modele a chaque iteration et l'algorithme prendra fin lorsque Δ log P(D | Θ, p0) << ε. Utiliser ε = 1e-4. Votre implementation devra renvoyer les paramètres du modele (p et la log-likelihood associé), ainsi bien que la liste des meilleures positions du motif dans chaque sequence (Z). Attention, utiliser Z non-normaliser pour trouver la log-vraisemblance.

In [8]:
def EM (w, seqs, p0, eps=1e-4):
	p = initialiseP(seqs, w, p0)
	z = z = initialiseZ(seqs, w)
	n_tot = countNuc(seqs)
	
	t = 0
	old_lh = -np.inf
	while (True):
		t += 1

		z = E_step(seqs, w, z, p)
		#print ("after E ", p)
		lh = likelihood(seqs, w, z)
		print(t, lh)
		z = normaliseZ(z, seqs)
		
		p = M_step(seqs, n_tot, w, z, p) #print ("after M ", p)

		if lh - old_lh > eps:
			old_lh = lh
		elif lh - old_lh < 0:
			break
		else:
			break
	return p, z, lh

def positionMotif(seqs, z, w):
	for i,s in enumerate(seqs):
		start_motif = np.argmax(z[i])
		print(str(start_motif)+'\t'+s[start_motif:start_motif+w])

#tester
p, z, lh = EM (w, seqs, p0, eps=1e-7)
print('-> Motifs:')
positionMotif(seqs, z, w)


1 -47.1183059761865
2 -45.19522350882328
3 -44.83790344358008
4 -44.46427736322832
5 -44.15286666090301
6 -43.9393083716706
7 -43.8019112962006
8 -43.71180542908687
9 -43.65018505257517
10 -43.60645294662849
11 -43.57461987502257
12 -43.551119257592845
13 -43.53367132999334
14 -43.520701900575176
15 -43.5110326487005
16 -43.5036970825342
17 -43.49780509557768
18 -43.492408656084706
19 -43.48632810456585
20 -43.47789127105092
21 -43.46452566842418
22 -43.442159634497536
23 -43.40454205266279
24 -43.34315049612042
25 -43.24952600782494
26 -43.12215911495936
27 -42.974596000443924
28 -42.83260599345631
29 -42.71787551260186
30 -42.63698512156677
31 -42.58501051114077
32 -42.55351530439631
33 -42.53510087428597
34 -42.52456513740943
35 -42.51861582430741
36 -42.515283217509
37 -42.513425633855356
38 -42.512393437546784
39 -42.5118210190244
40 -42.511503987243344
41 -42.511328551714605
42 -42.51123152802838
43 -42.51117789139038
44 -42.51114824847697
45 -42.511131869334505
46 -42.5111228204

8\. Qu'observez vous quand vous exécutez l'algorithme EM plusieurs fois? Justifiez votre réponse.

réponse :  l'algorithme EM produit des motifs diferents à chaque execution, ça est du à l'initialisation de la matrice p. 

9\. Pour éviter le problème precedent, faites une fonction pour executer l'algorithme EM N iterations (N=10) et prenez les paramètres associes à la meilleure log-vraisemblance. Avez vous trouvez les bon motifs?

In [9]:
def EM_iteratif (w, seqs, p0, n_iters, eps=1e-4):
	best_lh = -np.inf
	best_p,best_z = None,None
	for i in range(n_iters):
		print('Iteration ' + str(i+1))
		p,z,lh = EM(w, seqs, p0, eps)
		if lh > best_lh:
			best_p, best_z, best_lh = p, z, lh
	return best_p, best_z, best_lh
	
#tester
n_iters = 10
p, z, lh = EM_iteratif (w, seqs, p0, n_iters, eps=1e-7)
print('-> Motifs:')
positionMotif(seqs, z, w)


Iteration 1
1 -46.156912651095084
2 -43.7619017252146
3 -43.57651361741866
4 -43.46362552359257
5 -43.38479898375845
6 -43.328307849412035
7 -43.287950797716626
8 -43.25920283863341
9 -43.238631092730266
10 -43.223730959516885
11 -43.212746515716184
12 -43.20447952306174
13 -43.198123861570934
14 -43.19313903879703
15 -43.18916054985232
16 -43.185939204921205
17 -43.18330121017505
18 -43.18112234104983
19 -43.17931137440054
20 -43.17779947889098
21 -43.17653339092243
22 -43.17547097905956
23 -43.17457831243179
24 -43.173827678734554
25 -43.17319620651365
26 -43.17266487722061
27 -43.17221779367528
28 -43.171841621614696
29 -43.171525151758715
30 -43.171258948697584
31 -43.17103506451536
32 -43.17084680224556
33 -43.17068851874908
34 -43.17055545946727
35 -43.170443619373124
36 -43.17034962570547
37 -43.170270638957604
38 -43.170204269238624
39 -43.170148505618954
40 -43.17010165645888
41 -43.170062299033134
42 -43.17002923702342
43 -43.170001464668054
44 -43.169978136540955
45 -43.1699

42 -43.17002923702342
43 -43.170001464668054
44 -43.169978136540955
45 -43.16995854208796
46 -43.16994208418072
47 -43.169928261061344
48 -43.169916651146956
49 -43.16990690024498
50 -43.16989871079963
51 -43.169891832848975
52 -43.16988605642196
53 -43.169881205147206
54 -43.169877130881275
55 -43.16987370919429
56 -43.169870835576546
57 -43.16986842225117
58 -43.16986639549639
59 -43.16986469339576
60 -43.169863263948415
61 -43.16986206348157
62 -43.16986105531705
63 -43.169860208651315
64 -43.16985949761461
65 -43.1698589004809
66 -43.16985839900417
67 -43.16985797786112
68 -43.16985762418297
69 -43.169857327162376
70 -43.169857077723144
71 -43.16985686824306
72 -43.16985669232086
73 -43.169856544580774
74 -43.16985642050813
75 -43.16985631631152
76 -43.16985622880687
Iteration 9
1 -46.156912651095084
2 -43.7619017252146
3 -43.57651361741866
4 -43.46362552359257
5 -43.38479898375845
6 -43.328307849412035
7 -43.287950797716626
8 -43.25920283863341
9 -43.238631092730266
10 -43.2237309

10\. Appliquez votre algorithme EM au ensemble de séquence du fichier trainingSequences.txt, utilisez w=10. 

In [10]:
w= 10
input_f = "trainingSequences.txt"

11\. Construire un LOGO pour le motif prédît avec le service WebLogo. Pour cela, identifier le motif dans chaque séquence et utiliser clustalOmega pout les alignées puis WebLogo pour générer le LOGO. Ajouter le Logo à votre réponse.

12\. Comparer les motifs trouvés par votre programme avec les motifs du fichier testingSequences.txt, où les vrais motifs sont montrés en lettre majuscule. Quell est la performance de votre programme? 