<h1><b>Statistique en Bioinformatique : </b> TME4 </h1>
<br>
L’objectif de ce TME sont: 
<br>
<ul>
<li> objectif 1 : Utiliser les chaines de Markov pour comprendre les états phénotypiques de cellules cancéreuses.   </li> 
<li> objectif 2 : étudier la dynamique des proportions phénotypiques dans les lignées cellulaires du cancer du sein humain: SUM159 et SUM149</li>
</ul>
<br>
<div class="alert alert-warning" role="alert" style="margin: 10px">
<p>**Soumission**</p>
<ul>
<li>Renomer le fichier TME4_subject_st.ipynb pour NomEtudiant1_NomEtudiant3.ipynb </li>
<li>Envoyer par email à nikaabdollahi@gmail.com, l’objet du email sera [SBAS-2019] TME4 (deadline 04/03/2018 23:59)</li>
</ul>
</div>


Nom etudiant 1 :
<br>
Nom etudiant 2 :
<br>

<h3>Introduction</h3>
<ul>
<li> Les cellules cancéreuses au sein des tumeurs existent souvent dans des états phénotypiques distincts.</li>
<li> Les sous-populations de cellules purifiées pour un état phénotypique reviennent vers des proportions d'équilibre dans le temps.</li>
<li> Cet équilibre peut s'expliquer par un modèle de Markov dans lequel les cellules passent de manière stochastique entre les états.  </li>
</ul>

<img src="img/CellStateTransition.png" />

<b>Exercice 1</b>:
Traduire les graphes de transition de la figure D en matrices de transition, 
$P_{149}$ et $P_{159}$. Verifier bien que les matrices et les vecteur  $\pi_{0}$ soitent normalisés.


In [12]:
import matplotlib.pyplot as plt
import numpy as np
import scipy as sp
from matplotlib.legend_handler import HandlerLine2D
import random
import math as mt

#distribuition inicialle vecteur pi_0 S, L, B
pi0_149 = np.array([0.039, 0.033, 0.9280])
pi0_159 = np.array([0.019, 0.973, 0.0062])



#matrices 
#p_149 = np.array([[0.61,0.09,0.3],[0.01,0.9,0.08],[0.01,0,0.99]])
p_149 = np.array([[0.61, 0.30, 0.09], [0.01, 0.99, 0.00], [0.01, 0.08, 0.90]])


#p_159 = np.array([[0.58,0.35,0.07],[0.01,0.99,0],[0.04,0.49,0.47]])
p_159 = np.array([[0.58, 0.07, 0.35], [0.04, 0.47, 0.49], [0.01, 0.00, 0.99]])

#Normaliser les vecteurs π0.
pi0_149 = pi0_149 / sum(pi0_149)
pi0_159 = pi0_159 / sum(pi0_159)


#Normaliser matrice
def normalise(m):
	m /= m.sum(axis=1)[:,np.newaxis]  
	return m
print (normalise(p_149))
print (normalise(p_159))

[[0.61       0.3        0.09      ]
 [0.01       0.99       0.        ]
 [0.01010101 0.08080808 0.90909091]]
[[0.58 0.07 0.35]
 [0.04 0.47 0.49]
 [0.01 0.   0.99]]


<b>Exercice 2</b>: Déterminer les états stationnaires 
$\pi^\star_{149}$ et $\pi^\star_{159}$ 
Est-ce que les valeurs que vous trouvez sont consistentes avec les 
valeurs experimentales en Fig. 1?

In [13]:
eigenvalues149, eigenvectors149 = np.linalg.eig(np.transpose(p_149))
eigenvalues159, eigenvectors159 = np.linalg.eig(np.transpose(p_159))

print (eigenvalues149)
print (eigenvectors149)

tolerance = 1e-4           
index149 = 1
index159 = 0

pi_stat_149 = np.linalg.eig(np.transpose(p_149))
pi_stat_149 = np.absolute(pi_stat_149[1][:,index149])

pi_stat_159 = np.linalg.eig(np.transpose(p_159))
pi_stat_159 = np.absolute(pi_stat_159[1][:,index159])


pi_stat_149 /=  pi_stat_149.sum()[np.newaxis]
pi_stat_159 /=  pi_stat_159.sum()[np.newaxis]

print ("Pi star 149 " , pi_stat_149)
print ("Pi star 159 " , pi_stat_159)


[0.59997059 1.         0.90912032]
[[-7.93741374e-01  2.62977651e-02  2.31020909e-04]
 [ 5.62644550e-01  9.99315074e-01 -7.07222263e-01]
 [ 2.31096824e-01  2.60347875e-02  7.06991242e-01]]
Pi star 149  [0.02500625 0.95023756 0.02475619]
Pi star 159  [0.0234721  0.00310009 0.97342781]


<b>Exercice 3</b>: Déterminer les matrices de transition $P_{149,159}^n$ pour $n$ 
iterations avec $n=2,4,8,16,32,64$, imprimer toutes les matrices. Computer les vectors $\pi^{(n)}$ et les comparer avec
$\pi^\star_{149,159}$. Utilisez le $\pi^0$ du papier de Gupta, page 2, ci-dessous.

In [14]:
pi_zero_149 = np.array([[0.039, 0.928, 0.033]])
pi_zero_159 = np.array([[0.019, 0.0062, 0.973]])


#matrice P**n
def matTransN(M, n):
	temp_p = np.linalg.matrix_power(p_149, n)
	return temp_p

#matrice P**n where n = 2,4,8,16,32,64
def printMat(M, n, pi_0, M_name):
	for n in (2**x for x in range(1,7)):
		print(M_name+'^'+str(n)+':')
		temp_p = matTransN(M, n)
		print(temp_p)
		print('pi('+str(n)+')')
		print(pi_0.dot(temp_p))

print (printMat(p_149, 2, pi_zero_149, '149'))
print (printMat(p_159, 2, pi_zero_159, '159'))

149^2:
[[3.76009091e-01 4.87272727e-01 1.36718182e-01]
 [1.60000000e-02 9.83100000e-01 9.00000000e-04]
 [1.61524334e-02 1.56492195e-01 8.27355372e-01]]
pi(2)
[[0.03004538 0.93648468 0.03346994]]
149^4:
[[0.15138753 0.68365212 0.16496035]
 [0.02176028 0.97442282 0.0038169 ]
 [0.02194114 0.29119277 0.68686609]]
pi(4)
[[0.02682171 0.94053617 0.03264212]]
149^8:
[[0.04141407 0.81769789 0.14088804]
 [0.0245817  0.96548774 0.00993056]
 [0.02472868 0.49875543 0.47651589]]
pi(8)
[[0.02524301 0.94432177 0.03043522]]
149^16:
[[0.0252995  0.89361016 0.08109033]
 [0.02499693 0.9572199  0.01778317]
 [0.02506798 0.73942773 0.23550429]]
pi(16)
[[0.02501107 0.94755198 0.02743695]]
149^32:
[[0.02501034 0.93794977 0.03703989]
 [0.02500575 0.95175682 0.02323742]
 [0.02502124 0.90433435 0.07064441]]
pi(32)
[[0.02500644 0.94965341 0.02534015]]
149^64:
[[0.02500644 0.94965498 0.02533858]
 [0.02500623 0.95030959 0.02468418]
 [0.02500696 0.94806122 0.02693182]]
pi(64)
[[0.02500626 0.95020986 0.02478388]]
None

<b> Exercice 4 </b>:
 Ecrire une fonction pour déterminer les
$(\pi^{(t)})_{t=1:n}$ d'une chaine de Markov à trois états. Appliquer
pour $P_{149}$ et $P_{159}$, pour les conditions initiales 
$\pi^{(0)}\in\{ (0.998,0.001,0.001), (0.001,0.998,0.001), 
(0.001,0.001,0.998) \}$ et pour $n=20$ itérations de la chaine 
de Markov. Visualiser graphiquement les résultats.


In [9]:
#Déterminer la probabilité (π(t))t=0:n
def M_trans(pi_0, M, n):
    TransP = matTransN(M, n)
    Pi_n = pi_0.dot(TransP)
    return Pi_n 


In [9]:
#Déterminer la probabilité (π(t))t=0:n

def Pi_n(pi0,M):
	n=20
	liste_M_trans=[]
	for i in range(n):
		liste_M_trans.append(M_trans(pi0,M,i) )
	return np.array(liste_M_trans)


In [10]:
def graph(PI):
	SL,=plt.plot(range(20), PI[:,0] , 'c^',linewidth=2, label='SL')
	plt.plot(range(20), PI[:,0] , ':c',linewidth=1.5)
	plt.legend(handler_map={SL: HandlerLine2D(numpoints=1)},loc=3)
	plt.legend(bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.)

	B,=plt.plot(range(20),PI[:,1], 'ro',linewidth=2, label='Basal')
	plt.plot(range(20), PI[:,1], ':r',linewidth=1.5)
	plt.legend(handler_map={B: HandlerLine2D(numpoints=1)},loc=2)
	plt.legend(bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.)

	L,=plt.plot(range(20), PI[:,2] ,'ms',  linewidth=2, label='Luminal')
	plt.plot(range(20),PI[:,2] , ':m',linewidth=1.5)
	plt.legend(handler_map={L: HandlerLine2D(numpoints=2)},loc=1)
	plt.legend(bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.)
	
	plt.show()


In [11]:
pi1 = np.array([0.998,0.001,0.001])
graph(Pi_n(pi1,p_149))

TypeError: 'numpy.ndarray' object is not callable

<b> Exercice 5 </b>:
Ecrire une fonction pour simuler la trajectoire stochastique
$(x_t)_{t=0:n}$ d'une seule réalisation de la chaiine de Markov. 
Créer des population de $N=10,100,1000,10000$ trajectoires. Estimer 
la trajectoire moyenne de chaque population.


In [None]:
def Trajectoire (n, Pi_0, P):
	Traj = []    
	Proba = Pi_0
	for i in range (n) :
		nb = random.random() 
		if nb < Proba[0]:
			Traj.append("S")
			Proba = P[0]
		if nb < (Proba[0] + Proba[1]) and nb >= Proba[0]:
			Traj.append("B")
			Proba = P[1]
		if nb >= (Proba[0] + Proba[1]):
			Traj.append("L")
			Proba = P[2]
	return Traj

#Déterminer une trajectoire pour N population.
def Trajectoire_P(n, Pi_0, P, N):
	TrajP=[]
	for i in range (N):
		TrajP.append(Trajectoire(n, Pi_0, P))
	return TrajP
    

#Estimer la trajectoire moyenne d'une chaine de markov pou N
def Trajectoire_moy(n, Pi_0, P, N):
	Pb = Trajectoire_P(n, Pi_0, P, N)
	TrajMoy = np.zeros((3,n))
	for i in range (n):
		for j in Pb :
			if j[i] == "S":
				TrajMoy[0][i] += 1
			if j[i] == "B" :
				TrajMoy[1][i] += 1
			if  j[i] == "L" :
				TrajMoy[2][i] += 1
	TrajMoy = TrajMoy/ float(N)
	return TrajMoy

#Visualiser graphique des trajectoires.
def graph2(t):
	
	SL,=plt.plot(range(20), t[0,:] , 'c^',linewidth=2, label='SL')
	plt.plot(range(20), t[0,:] , ':c',linewidth=1.5)
	plt.legend(handler_map={SL: HandlerLine2D(numpoints=1)},loc=3)
	plt.legend(bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.)

	B,=plt.plot(range(20),t[1,:], 'ro',linewidth=2, label='Basal')
	plt.plot(range(20), t[1,:], ':r',linewidth=1.5)
	plt.legend(handler_map={B: HandlerLine2D(numpoints=1)},loc=2)
	plt.legend(bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.)

	L,=plt.plot(range(20), t[2,:] ,'ms',  linewidth=2, label='Luminal')
	plt.plot(range(20),t[2,:] , ':m',linewidth=1.5)
	plt.legend(handler_map={L: HandlerLine2D(numpoints=2)},loc=1)
	plt.legend(bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.)

	plt.show()

In [None]:
graph2(Trajectoire_moy(20, pi1, p_149, 10))

<b> Exercice 6 </b>: 
Ecrire une fonction pour calculer la probabilité d'une trajectoire
$(x_t)_{t=0:n}$. Pour y facilite vous devez applique le log et utlise la some au
lieu du product.  Ensuite vouz devez comparer les probabilités de 
deux chaiines de Markov $P_{149}$ et $P_{159}$. Visualiser les histogrammes pour les deux populations de taille $N=10000$ (géenérées avec $P_{149}$ et $P_{159}$). Est-ce que vous observez des différences entre les deux modèles? Comment est-ce que vous expliquer cettes différences?

In [None]:
def Trajectoire_Index(Traj): 
	ind = []
	for i in range(len(Traj)) :
		if Traj[i] == "S":
			ind.append(0)
		if Traj[i] == "B" :
			ind.append(1)
		if  Traj[i] == "L" :
			ind.append(2)
	return ind

#Calculer la probabilité d’une trajectoire (xt)t=0:n
def Pb_Trajectoire(Traj, Pi_0, P): 
	traj = Trajectoire_Index(Traj)
	if Pi_0[traj[0]] == 0:
		Pi_0[traj[0]] = 10**(-100)
	Proba = mt.log(Pi_0[traj[0]],2)
	for i in range(1, len(Traj)):
		if P[traj[i-1], traj[i]] == 0:
			P[traj[i-1], traj[i]] = 10**(-100)
		Proba += mt.log(P[traj[i-1], traj[i]],2)
	return Proba


def Histo (Traj, Pi_0, P):
	pop = []
	for i in Traj :
		pop.append(Pb_Trajectoire(i, Pi_0, P))
	return pop

def graph3(Histo149,Histo159):
	plt.hist(Histo149, bins = 35, color = "blue")
	plt.show()
	plt.hist(Histo159, bins = 35, color = "red")
	plt.show()

#-------------------------------------------------------------
graph3(Histo(Trajectoire_P(20, pi0_149, p_149, 10000),pi0_149, p_149), Histo(Trajectoire_P(20, pi0_159, p_159, 10000),pi0_159, p_159))
