# Bioinfo Avanc√©e TP 2 : √©volution des s√©quences g√©n√©tique

##Partie 1 : Evolution des s√©quences d'ADN

Nous allons simuler des cha√Ænes de Markov pour faire √©voluer des s√©quences d'ADN. Ces cha√Ænes ont 4 √©tats, un pour chaque nucl√©otide et forment un graphe complet, ou chaque √©tat peut transitionner vers chaque autre et vers lui-m√™me. On repr√©sente une telle cha√Æne sous la forme d'une matrice de taux de transitions $Q$ de taille 4$\times$4 o√π $q_{ij}$ donne le taux de mutation de $i \rightarrow j$ et
$$q_{ii}=-\sum\limits_{j} q_{ij}$$
de sorte que la somme de chaque ligne soit $0$

On simule une telle cha√Æne en deux √©tapes :
	1. En consid√©rant que l'√©tat actuel est $i$, le temps de r√©sidence dans l'√©tat $\tau$ correspond au temps avant qu'une transition sortante ne se produise, ce qui est fonction de $-q_{ii}$. Plus pr√©cis√©ment, pour une cha√Æne de Markov en temps continue, ce temps est une valeur al√©atoire distribu√©e selon une loi exponentielle :

$$œÑ \sim exp(-q_{ii} )$$.

  2. Une fois qu'on a d√©termin√© le temps de sortie, il faut choisir l'√©tat d'arriv√©. La probabilit√© de sauter vers un autre √©tat $j \neq i$ est donn√©e par :

$$p_{ij}=\frac{q_{ij}}{-q_{ii}}.$$

Appelons $u,v,w$ les trois √©tats sortants de $i$ et formons le vecteur de leurs probabilit√©es cumul√©es

$$S=[p_{iu},p_{iu}+p_{iv},p_{iu}+p_{iv}+p_{iw}].$$

On va alors tirer une valeur al√©atoire distribu√©e uniform√©ment dans $[0,1]$ : $u \sim U([0,1])$ et chercher l'indice $k^*$ de l'√©l√©ment minimum dans $S$ tel que $u \leq s_{k^*}$. Si $k^*$=0 alors l'√©tat suivant est $u$, si $k^*=1$ c'est $v$ et si $k^*$=2 c'est $w$.
On va r√©p√©ter ces deux op√©rations tant que $t<t_{max}$ avec √† chaque it√©ration $t=t+\tau$.



###Question 1

Simulez la cha√Æne pour $t_{max} = 50$ ans, un caract√®re initial "A" et la matrice $Q$ suivant le mod√®le JC69 avec $\mu = 0.1$ mutations par an.

In [7]:
import numpy as np

states = ["A", "T", "G", "C"]

Q_JC69 = [
    [ -0.025*3, 0.025, 0.025, 0.025 ],
    [0.025, -0.025*3, 0.025, 0.025 ],
    [0.025, 0.025, -0.025*3, 0.025 ],
    [0.025, 0.025, 0.025, -0.025*3 ]
]

def compute_S(Q) :
  S = [ Q[0][1] / - Q[0][0] ]
  S.append( S[0] + Q[0][2] / - Q[0][0] )
  S.append( S[0] + S[1] + Q[0][3] / - Q[0][0] )
  return S

def chain_simulation(t_max, initial_state, Q) :
  chain = initial_state
  current_state = initial_state[-1]
  current_time = t_max
  S = compute_S(Q)

  while current_time >= 0 :
    time_to_next_state = np.random.exponential(-Q[states.index(current_state)][states.index(current_state)])
    current_time -= time_to_next_state

    u = np.random.uniform(0, 1)
    if u <= S[0] :
      current_state = "A"
    elif u <= S[1] :
      current_state = "T"
    elif u <= S[2] :
      current_state = "G"
    else :
      current_state = "C"

    chain += current_state

  return chain


chain_simulation(50, "A", Q_JC69)

'AAATGAAGGTATTTGATGTTGAAATTAAGGTGTTTGGTAAGTAAGGGGATGTTTGTGTGTAATAGGGGAAGTTTTGGGAAGGAGTTTTGGTGATTTGGTTGTATTTGAAAAGGTATGGATATGATAAGAGTTGATTGTTGAGGTATGGGAATATGAGAGGGGGGGTGGATTTTTGAAAGAAGAAATGTGGAGGGAGTTGTGAGTTGGATATGGGATATGTATGATAAGTGGAGTTAAGAAATGTAAAGTTTGAGATAAAGAAATGGTGAATTTGAGTATGGTTGTGGAATTGTTAAAAAAATATTATGGTAATAGTGTAAAGATGATGGGTGAGTTGGTTATTTAGGGATGGAGAAGTAAGTAGAGTGTAGAGTTTATGGTTGGGTAAATGTTGGAGTAAGAAGAGGGTTGGTTTAATTTAGATAAAATGGAAGGATTATGGGTTTTAAATATGGGGAGAAGGTGGTATGGTTAGTTGAGATGGAAGTAAGGGTATGGATAATAAGTTTTATGATAGGTGGTGGTGAAGTATTGAAGTTGTATGGTAGGTGTTTATTGGAGATTTATTATTGTTGGTAAGGGATAATGTAAGTAGAAAAATTTTGTAAGAGTAGAAGATTAAGAAAGTAGAAGAGTTAGATGAGAATATTTTGGATAGGAGTTAATGGGG'

###Question 2

Utilisez les m√™me param√®tres mais cette fois simulez l'√©volution de la s√©quence s0 = "ATTGCGTAGCTAC"

In [16]:
s0 = "ATTGCGTAGCTAC"
print(chain_simulation(50, s0, Q_JC69))
print()

ATTGCGTAGCTACATAGTTGATGTTAGGTGAGGTGGAGTATTTTTAAGATAATTGGGTGGGTAGAGTTAGTGTGAGTTAATAGTGAAAAGGTTGTATAGTGAAAGGGGTTAGGGTATTGGAAGTAGGGAGAAAATATGATGTTGGTATTGAAATTGTGAGTTAGGGGAATGAGATTTAGTAGGGATGATGTGAATGGATAATAGAAAGAAGTTTAGAGTGATTGAGAGGGAAAAGGATGTGTATGTTTGAGGATTAAGGTTTGTTTGGAATTTAAAGGTTGTGTAGGAGAGAGGATTGAGGAAAGGGTGTAAGTTGAGATAGATAATAAATGGGGAAATTAGGGTAGGGGTGTGGAAAGGTGTGGTGTATTGTTAAGGGTGTTTGGTGGGGTTAAATAGTAGGGTGGTAAGTAGAGAAGTGTTTATAGGTAAGGATGATTTGTAAATGGTATATTGTAGTTGATATGAGGAATATTGTAAGGTGAGTAAGTATAGATAAAAATATAGGAATAGAAGGATAAAGTAGATGTTAAAGGGTGAATGGTGTATTAGAAAGAGGGGGAGTGAAGGGAGGTGAATATATATGGTTTTGGAGATTTTTGTTATGGGTGAAGTGGATAAGGATATGG



###Question 3

M√™me chose que la question 2 mais cette fois avec la matrice $Q$ suivant le mod√®le HYK85 avec la fr√©quence d'apparition de chaque caract√®re $\pi_n$ calcul√©e sur s0 et $\kappa = 5$.

In [17]:
def compute_HYK85(seq, kappa) :
  pi = []
  for state in states :
    pi.append(seq.count(state) / len(seq))

  Q = [
      [0, kappa * pi[1], kappa * pi[2], kappa * pi[3] ],
      [kappa * pi[1], 0, kappa * pi[2], kappa * pi[3] ],
      [kappa * pi[1], kappa * pi[2], 0, kappa * pi[3] ],
      [kappa * pi[1], kappa * pi[2], kappa * pi[3], 0 ]
  ]

  for i in range(4) :
    Q[i][i] = -sum(Q[i])

  return Q

Q_HYK85 = compute_HYK85("ATTGCGTAGCTAC", 5)
print(Q_HYK85)
chain_simulation(50, "ATTGCGTAGCTAC", Q_HYK85)

[[-3.8461538461538467, 1.5384615384615385, 1.153846153846154, 1.153846153846154], [1.5384615384615385, -3.8461538461538467, 1.153846153846154, 1.153846153846154], [1.5384615384615385, 1.153846153846154, -3.8461538461538467, 1.153846153846154], [1.5384615384615385, 1.153846153846154, 1.153846153846154, -3.8461538461538467]]


'ATTGCGTAGCTACAATTTGAATGAAAA'

###Question 4

Faites varier $\kappa$ et regardez l'effet sur les s√©quences g√©n√©r√©es.

In [18]:
for k in range(1, 10) :
  print(" k = ", k)

  Q_HYK85 = compute_HYK85(s0, k)
  print(Q_HYK85)

  print(chain_simulation(50, "A", Q_HYK85))
  print()

 k =  1
[[-0.7692307692307693, 0.3076923076923077, 0.23076923076923078, 0.23076923076923078], [0.3076923076923077, -0.7692307692307693, 0.23076923076923078, 0.23076923076923078], [0.3076923076923077, 0.23076923076923078, -0.7692307692307693, 0.23076923076923078], [0.3076923076923077, 0.23076923076923078, 0.23076923076923078, -0.7692307692307693]]
AAGTTGAGGTTAATATTTTGATGGGGATAGGTAAATATGGAGATATAGGGAAAT

 k =  2
[[-1.5384615384615385, 0.6153846153846154, 0.46153846153846156, 0.46153846153846156], [0.6153846153846154, -1.5384615384615385, 0.46153846153846156, 0.46153846153846156], [0.6153846153846154, 0.46153846153846156, -1.5384615384615385, 0.46153846153846156], [0.6153846153846154, 0.46153846153846156, 0.46153846153846156, -1.5384615384615385]]
ATTAAGTTGATAGTGAGTGTTTAAGGTAAGGG

 k =  3
[[-2.3076923076923075, 0.9230769230769231, 0.6923076923076923, 0.6923076923076923], [0.9230769230769231, -2.3076923076923075, 0.6923076923076923, 0.6923076923076923], [0.9230769230769231, 0.69230769230769

##Partie 2 : r√©solution de SUDOKU par algorithme √©volutionnaire

Dans le cours, nous avons vu que la pression de s√©lection sur une population faisait augmenter l'adaptation moyenne de celle-ci au cours du temps. On peut utiliser le m√™me principe pour r√©soudre des probl√®mes d'optimisation. Cette fois notre population consiste en un ensemble de solutions possibles au probl√®me : c'est la famille des algorithmes g√©n√©tiques.

###Algorithmes g√©n√©tiques
Le principe d'un algorithme g√©n√©tique est assez simple mais autorise beaucoup de variations :

----

1 G√©n√©rer une population initiale d'individus

2 Tant que le crit√®re d'arr√™t n'est pas rempli :

3$\ \ \ \ $S√©lectionner un sous-groupe d'individus qui vont se reproduire bas√© sur leur adaptation.

4$\ \ \ \ $Faire se reproduire al√©atoirement les individus, en choisissant deux parents et g√©n√©rant une solution bas√©e sur les leurs.

5$\ \ \ \ $Faire muter certains individus

6$\ \ \ \ $Evaluer les individus, chercher si on a pas une solution satisfaisante parmi eux et calculer l'adaptation moyenne de la population.

----

Cet algorithme va converger vers maximum local car √† chaque it√©ration on biaise la population vers les meilleurs individus. Comme tout algorithme d'optimisation, il y a un compromis entre d√©couverte de nouvelles solutions et vitesse de convergence vers un maximum local. Ainsi on trouve plusieurs m√©ta-param√®tres dans ces algorithmes :

* Le taux de s√©lection des individus (√©tape 2.a), ici on veut choisir les meilleures solutions mais aussi d'autres solutions au hasard pour assurer la diversit√© de la population.
* Le taux de crossing-over pour les individus qui se reproduisent.
* Le taux de mutation pour chaque individu.
* La taille de la population. C'est le param√®tre le plus important, en g√©n√©ral, plus la population est grande, mieux c'est.

La formulation de l'algorithme est tr√®s simple, la complexit√© r√©side dans l'encodage du probl√®me sous forme de g√®nes et la d√©finition des op√©rateurs de reproduction et mutation. En particulier, il faut √™tre capable de g√©n√©rer des solutions meilleures √† partir de solutions existantes. G√©n√©rer des solutions valides peut parfois √™tre compliqu√©, on trouve alors deux √©coles : g√©n√©rer des solutions al√©atoires jusqu'√† en obtenir une valide ou alors cr√©er une proc√©dure, plus complexe, pour g√©n√©rer des solutions valides. La m√©thode √† utiliser d√©pendra du probl√®me et de la complexit√© de v√©rifier une solution par rapport √† la g√©n√©rer.

####Sudoku
Vous devriez tous √™tres familiers avec le sudoku mais rappelons rapidement ses r√®gles. On dispose d'une grille de taille 9x9, dans chaque case on doit entrer un chiffre entre 1 et 9. Pour r√©soudre la grille, il faut qu'il n'y ait aucune r√©p√©tition de chiffre sur aucune ligne et colonne. La grille est aussi divis√©e en 9 carr√©s de taille 3x3 dans lesquels il ne doit pas y avoir de r√©p√©tition mais c'est redondant avec les lignes et colonnes (s'il n'y a aucune r√©p√©tition en ligne et colonne il n'y aura aucune r√©p√©tition dans les carr√©s et vice versa). La grille initiale poss√®de d√©j√† certaines cases pr√©remplies qui d√©finissent la difficult√© de la grille.

Le sudoku est int√©ressant car on peut facilement √©valuer la qualit√© d'une solution, il suffit de s'assurer que toutes les valeurs sur les lignes et colonnes sont uniques.

#### Impl√©mentation
Je vous propose une impl√©mentation mais je vous encourage fortement √† tester des versions alternatives en particulier s'il vous reste du temps avant la fin du TP.

En entr√©e notre solveur prend la grille initiale pr√©remplie $G$ et les param√®tres suivants :

* Nombre de g√©n√©rations N_gen (entier > 0).
* Taille de la population N (entier > 0).
* Taux de s√©lection des individus t_sel (entre 0 et 1).
* Taux de s√©lection al√©atoire des individus t_sel_rnd (entre 0 et 1).
* Nombre d'enfant par couples : N_kids (entier > 0).
* Taux de mutation des enfants : mu (entre 0 et 1).


####Encodage du probl√®me
On va consid√©rer que chaque individu poss√®de 9 chromosomes contenant chacun 9 valeurs entre 1 et 9, chaque chromosome repr√©sentant une ligne de la grille.

####Population initiale
Chaque individu de notre population de d√©part doit respecter les trois crit√®res suivants :

* √ätre al√©atoire ;
* Ne pas avoir de chiffre r√©p√©t√© sur une m√™me ligne (chromosome) ;
* Respecter les positions des valeurs de la grille de d√©part $G$.

Etant donn√© ces contraintes, g√©n√©rez $N$ individus.


####Score d'adaptation d'un individu

Le score d'adaptation d'un individu est donn√© par la somme pour chaque colonne du nombre de chiffres diff√©rents qu'elle contient (c'est-√†-dire pour une m√™me position sur chacun des chromosomes). La valeur maximale est de $81$.

####S√©lection de la population
A cette √©tape, on choisit quels individus survivent et seront autoris√©s √† se reproduire. Cette s√©lection se fait en deux √©tapes :

1. La fraction t_sel des individus les mieux adapt√©s survit forc√©ment.
2. Choisir al√©atoirement une fraction t_sel_rnd d'individus parmi la population restante.

La premi√®re √©tape permet de biaiser la population vers les individus les plus adapt√©s, alors que la deuxi√®me permet d'assurer la diversit√© des individus. A la fin de cette √©tape, on a une fraction t_sel + t_sel_rnd de la population d'individus qui a surv√©cu jusqu'√† l'√¢ge adulte et va se reproduire.


####Reproduction
On va former al√©atoirement des paires d'individus parmi les adultes et les faire se reproduire pour g√©n√©rer N_kids enfants chacun. Notez que vous devez respecter la relation

(t_sel+t_sel_rnd)/2 * N_kids=1,

pour que la taille de la population reste constante.

Pour cr√©er une nouvelle solution √† partir des g√©nomes des parents, on va tirer al√©atoirement une position $0 \neq k < 9$ et prendre les chromosomes 0 √† k d'un parent et k+1 √† 8 de l'autre. On s'assure ainsi que nos solutions n'aient pas de chiffre r√©p√©t√© par ligne et respectent la grille initiale.

####Mutation
Chaque enfant g√©n√©r√© va muter avec une probabilit√© mu. Quand cela se produit, la strat√©gie la plus simple pour conserver l'unicit√© des valeurs par ligne, est d'√©changer al√©atoirement deux valeurs d'un m√™me chromosome qui ne sont pas des positions de la grille initiale.

####Structure du code
Maintenant que l'on a vu les √©tapes individuelles vous devez les assembler pour former l'algorithme g√©n√©tique. Voici l'id√©e :

----
1 G√©n√©rez une population al√©atoire de N individus

2 Tant que nombre de g√©n√©rations < max et qu'on a pas trouv√© de solution optimale

3$\ \ \ \ $S√©lectionnez la population d'individu mature
  
4$\ \ \ \ $Faites-les se reproduire
  
5$\ \ \ \ $Faites muter les enfants

----

Lorsque vous impl√©mentez l'algorithme, vous pouvez affichez l'adaptation moyenne de la population √† chaque g√©n√©ration, celui-ci devrait augmenter √† chaque g√©n√©ration jusqu'√† trouver la solution ou atteindre un plateau (√™tre bloqu√© dans un maximum local).

Vous trouverez ici un ensemble de grilles initiales pr√©remplies de sudoku.

A vous de jouer üòâ

In [None]:
print("Votre code ici !")

### Pour aller plus loin
Essayez de changer l'encodage (ex : 1 chromosome de 81 valeurs ?) et observez si le taux de convergence s'am√©liore.
