# Exercice ADN

L'étude de l'ADN est un enjeu majeur dans le domaine médical, ainsi que dans de nombreux autres domaines.

![](dna.png)

L'analyse de cette longue molécule du vivant permet, par exemple, de détecter des maladies héréditaires ou d'identifier des agents pathogènes.

Dans le cadre de cet atelier, nous allons partir d'un scénario de contamination alimentaire. Après avoir mangé de la soupe, M Sanger est tombé malade et s'est retrouvé hospitalisé.

![](soup.JPG)

Nous avons séquencé l'ADN présent dans cette soupe et possédons un ensemble de fragments d'ADN issues du mélange sous format texte.

![](soupe_seq.png)


Le but de l'atelier sera de nous aider à mettre au point une méthode informatique (que nous programmerons ensemble) permettant de déterminer quelles sont les différentes espèces (via leur ADN) présentes dans la soupe et ainsi de découvrir d'éventuels agents pathogènes.


# Préliminaires

Nous allons dans un premier temps nous familiariser avec quelques notions du langage de programmation Python.

Une séquence ADN est affectée à une variable, puis affichée.

(Cliquez sur une cellule de code puis appuyer sur Shift+Entrée pour l'exécuter.)


In [15]:
sequence1 = "ACGTATCG"
print(sequence1)

ACGTATCG


Représentons toutes les séquences ADN présentes dans l'exemple précédent.

In [16]:
sequence2 = "CAAGGCC"
sequence3 = "TATTTTCC"
print(sequence2)
print(sequence3)

CAAGGCC
TATTTTCC


Nous pouvons les stocker dans un tableau:

In [17]:
toutes_les_sequences = [sequence1,sequence2,sequence3]
print(toutes_les_sequences)

['ACGTATCG', 'CAAGGCC', 'TATTTTCC']


Enfin, il est possible de parcourir le tableau pour trouver la séquence correspondant au chou

In [4]:
for sequence in toutes_les_sequences:
    if sequence == "TATTTTCC":
        print("trouvé le chou:", sequence)

trouvé le chou: TATTTTCC


# Mise en situation

La situation en réalité est un peu plus complexe que le schéma ci-dessus. 

Notre expérience de séquençage ADN de la soupe ne nous donne pas un seul morceau d'ADN par organisme. Elle en donne plusieurs (en vrai.. des millions).

![](soupe_seq2.png)

Par ailleurs, le séquenceur ne nous dit pas directement quelle séquence ADN correspond à quel organisme. Cette information est cependant connue via d'autres moyens. Par exemple, regardons la fonction donnée ci-dessous.


In [7]:
# le mot-clé "def" permet de définir une fonction, dont le corps est un ensemble d'instructions
def afficher_organisme(sequence):
    if sequence == "ACGTATCG" or sequence == "GTATCG" or sequence == "ACGTATCG":
        print("crevette")
    if sequence == "CAAGGCC" or sequence == "AGGCCTTGG":
        print("mais")
    if sequence == "TATTTTCC" or sequence == "GGTTAATCC" or sequence == "TAATCCAAAC":
        print("chou")

afficher_organisme("TATTTTCC")

chou


Cette fonction réalise l'identification d'un organisme étant donnée sa séquence ADN. Elle compare la séquence donnée à une ensemble de séquences connues.

### Exo : Identification d'espèces

Pour l'ensemble de séquences donné ci-dessous, utiliser la fonction ci-dessus pour afficher leur organisme

In [6]:
sequences = ["ACGTATCG", "GTATCG", "ACGTATCG", "CAAGGCC", "AGGCCTTGG", "AGGCCTTGG", "TATTTTCC", "GGTTAATCC", "TAATCCAAAC"]
# à vous de jouer:
# le résultat sera de la forme:
# crevette
# crevette
# ...
# écrire le code ici:



# fin du code

# Génomes de référence

Dans les exercices précédents, une espèce était identifiée lorsque l'on retrouvait exactement sa séquence parmis des morceaux de référence de l'espèce.

Dans la réalité, l'ADN présent dans les cellules est bien plus grand que les morceaux donnés par le séquenceur. Pour identifier une espèce, nous n'utilisons pas une base de données de morceaux connus, mais plutot une base de données de gènes complets. Il s'agit alors de retrouver si les morceaux séquencés sont contenus dans (au moins un) des gènes complets connus.

Les lignes de code suivantes permettent de découper un brin d'ADN pour en extraire une sous-partie et l'afficher, ainsi que sa taille.

In [7]:
ADN = "ACTTTACGTTTGCCAGCGTGACGGCAACGTGCAAGTCAGCTGACGTACCCCCGA"
sequence = ADN[3:10]
print(sequence)

taille = len(sequence)
print (taille)

TTACGTT
7


En Python, il est possible réaliser plusieurs fois la même suite d'instructions, paramétrée par une variable ("i") prenant des valeurs croissantes sur un intervalle d'entiers [a,b[, comme ceci:

In [25]:
a=1
b=4
for i in range(a,b):
    print(i)
    print(i*2)

1
2
2
4
3
6


### Exo : Générer tous les morceaux de taille 5

Afin de pouvoir retrouver un morceau séquencé d'ADN d'une certaine taille dans un gène, un moyen possible est de générer tous les morceaux possibles du gène et de comparer chacun des morceaux de gène au morceau séquencé. 

Dans un premier temps, pouvez-vous afficher toutes les sous-séquences possibles de taille 5 de l'ADN de référence suivant?


In [8]:
ADN = "ACTTTACGTTTGCCAGCGTGACGGCAACGTGCAAGTCAGCTGACGTACCCCCGA"
# à vous de jouer:
# le résultat sera de la forme:
# ACTTT
# CTTTA
# TTTAC
# ...
# écrire le code ici:



# fin du code

### Exo : Identifier un fragment

Dans cet exercice, vous aurez une liste de fragments à identifier. Pouvez-vous dire si ils font partie du génome de la crevette ?

In [9]:
crevette = "ACTTTACGTTTGCCAGCGTGACGGCAACGTGCAAGTCAGCTGACGTACCCCCGA"
fragments = ["ACGTATCG", "CAAGGCCT", "AGGCCTGG", "AAAGGCCT", "GGTTAACC", "TAATAAAC", "CAGCTGAC"]
# à vous de jouer:
# le résultat sera de la forme:
# Pas présent
# Pas présent
# Présent
# ...
# écrire le code ici:



# fin du code

### Exo : Assigner les fragments

Plus que la présence ou l'absence de fragments, nous aimerions savoir à quel espèce ils appartiennent. Pour la suite, nous aurons donc besoin de parcourir plusieurs ADNs rangés par espèce dans ce qu'on appelle un dictionnaire. Le code suivant vous montre comment parcourir et récupérer un élement d'un dictionnaire.

In [10]:
ADNs = {
    "crevette" : "ACTTTACGTTTGCCAGCGTGACGGCAACGTGCAAGTCAGCTGACGTACCCCCGA",
    "poireau" : "AGCACTGATAGCGTCTGTGACGAGAAGTGCGCGCGTGAGGGGCTCTTTTTCGAGGACATACGCGT",
    "carotte" : "ATTCGATCTAGCCTAAAGCTTAGCTAGCGCATTGCGCTATATGCTCTAGCTAGC"
}

print (ADNs["poireau"])

for espece in ADNs:
    print (espece)

AGCACTGATAGCGTCTGTGACGAGAAGTGCGCGCGTGAGGGGCTCTTTTTCGAGGACATACGCGT
crevette
poireau
carotte


Pouvez-vous assiner chaque fragement à l'espèce correspondante ?

In [11]:
ADNs = {
    "crevette" : "ACTTTACGTTTGCCAGCGTGACGGCAACGTGCAAGTCAGCTGACGTACCCCCGA",
    "poireau" : "AGCACTGATAGCGTCTGTGACGAGAAGTGCGCGCGTGAGGGGCTCTTTTTCGAGGACATACGCGT",
    "carotte" : "ATTCGATCTAGCCTAAAGCTTAGCTAGCGCATTGCGCTATATGCTCTAGCTAGC"
}
fragments = ["TGTGACGA", "CGATCTAG", "TCTAGCCT", "ACGTACCC", "CGCTATAT", "CTTTTTCG", "CAGCTGAC"]

# à vous de jouer:
# le résultat sera de la forme:
# carotte
# poireau
# poireau
# ...
# écrire le code ici:



# fin du code

# Des données réelles

Jusqu'à présent, nous avons exécuté nos algorithmes sur des petits exemples bien pratiques. Passons désormais aux données réelles.

Les données réelles sont tellement volumineuses que nous ne les afficherons pas ici. Le code que nous utiliserons par la suite se chargera de charger directement les références et fragments depuis des fichiers vers des structures identiques à celles présentées auparavant. Pour vous rendre compte vous même de taille des données, n'hésitez pas à ouvrir les fichiers dans un éditeur de texte.

## Premier jeu de données

Le premier jeu de données est très similaire aux exemples que nous venons de traiter. Seule la taille est beaucoup plus importante.

Vu le nombre de fragments à analyser, nous n'allons plus écrire l'appartenance de chaque fragment, mais compter le nombre de fragment qui appartient à chaque espèce. Pour cela, nous aurons besoin d'initialiser et d'incrémenter un compteur par espèce. Dans le code suivant, vous trouverez tout ce qu'il faut pour y parvenir.

In [2]:
ADNs = {
    "crevette" : "ACTTTACGTTTGCCAGCGTGACGGCAACGTGCAAGTCAGCTGACGTACCCCCGA",
    "poireau" : "AGCACTGATAGCGTCTGTGACGAGAAGTGCGCGCGTGAGGGGCTCTTTTTCGAGGACATACGCGT",
    "carotte" : "ATTCGATCTAGCCTAAAGCTTAGCTAGCGCATTGCGCTATATGCTCTAGCTAGC"
}

# Initialisation des compteurs
compteurs = {};
for espece in ADNs:
    compteurs[espece] = 0;

# Ajout de carottes et poireaux
compteurs["carotte"] = compteurs["carotte"] + 1
compteurs["carotte"] = compteurs["carotte"] + 1
compteurs["poireau"] = compteurs["poireau"] + 1

# Affichage des compteurs
for espece in ADNs:
    print(espece + " : " + str(compteurs[espece]))
    # Ici il est nécessaire de transformer le compteur en une chaine
    # de caractère pour pouvoir l'imprimer (méthode str)

carotte : 2
crevette : 0
poireau : 1


### Exo : Comptage d'espèces

En s'inspirant des codes précédents, comptez le nombre de fragments appartenants à chaque espèce présente dans la soupe et affichez le résultat.

In [25]:
import outils_tp      
ADNs = outils_tp.lecture_base() # dictionnaire des espèces connues
fragments = outils_tp.lecture_donnees('reads/soupe_sequencage_exo1.fasta') # données de séquençage adn

# à vous de jouer:
# le résultat sera de la forme:
# carotte : 3
# poireau : 12
# ...
# écrire le code ici:


# fin du code

La composition de la soupe vous paraît-elle normale ? Si certains noms d'espèce ne vous disent rien, n'hésitez pas à consulter wikipédia.

## Complexité de problèmes

En informatique, la complexité temporelle d'un problème représente le nombre d'opétationsr qui vont être effectuées par ce problème. Cette complexité est mesurée par rapport à une opération effectuée par le programme écrit. Prenons comme exemple le programme suivant.

In [23]:
somme = 0
for i in range (1, 11):
    somme = somme + i
    
print(somme)

55


Pour calculer la complexité de ce programme, nous devons choisir une opération effectuée dans ce programme et compter le nombre de fois qu'elle est appliquée. Ici, nous pouvons par exemple prendre "additionner deux nombres".

L'opération d'addition est effectuée une unique fois au sein d'une boucle qui parcours tous les indices de 1 à 10 inclus. On dira donc que la complexité du problème en fonction de l'addition est 10.

Il est important de choisir précautionneusement l'opération à mesurer afin de représenter au mieux l'ordre de grandeur du nombre d'instructions effectuées par la machine. Par exemple, si nous avions choisis l'affectation comme opération (symbole =), nous aurions eu 1 opération avant le for et 10 pendant, soit 11 opérations. Ce nombre est encore plus précis que le premier mais ne change pas l'ordre de grandeur. Si on remplace le 11 de la boucle par n'importe quel autre nombre, la variation entre les deux calculs ne sera que de 1. Au contraire, si on prend l'opération afficher (_print(...)_), quel que soit les valeurs dans la boucle, la complexité vaudra toujours 1. Cette mesure ne représentera donc pas bien le nombre d'instructions effectuées par la machine.

### Exo : Calculs de complexités

Voici deux fonctions qui effectuent des calculs, quelle est leur complexité ? Pour vérifier vos calculs, appelez les fonctions avec un n et un m que vous définirez.

In [5]:
# n est un entier positif passé en paramètre des fonctions
def fonction_1 (n):
    somme = 0
    for i in range (1, n+1):
        somme = somme + 1
        somme = somme + 1
    print (somme)

# n et m sont des entiers positifs passés en paramètre des fonctions
def fonction_2 (n, m):
    somme = 0
    for i in range (1, n+1):
        for j in range (1, m+1):
            somme = somme + 1
    print (somme)
    
# Modifier les paramètres ici
fonction_1 (0)
fonction_2 (0, 0)

0
0


### Exo : Complexité de votre programme ?

Pouvez-vous calculer la complexité de votre analyse de séquences d'ADN précédente ?

## Second jeu de données

Dans le premier jeu de données, nous avons été sélectifs sur les fragments d'ADN que vous aviez à annoter. Chaque fragment appartenait à exactement une espèce de référence. Dans la réalité, les étres vivants évoluent tous à partir d'ancêtres communs. C'est à dire que plusieurs espèces issues d'un ancêtre commun on un jour partagé le même ADN. Il est donc très logique de retrouver dans la soupe, des fragments d'ADN pouvant appartenir à plusieurs espèces simultanément.

A votre avis, que doit on faire dans ce cas ? Pouvez-vous modifier votre programme précédent pour prendre en compte cette possibilité ?

In [6]:
import outils_tp      
ADNs = outils_tp.lecture_base()
fragments = outils_tp.lecture_donnees('reads/soupe_sequencage_exo2.fasta')

# à vous de jouer:
# le résultat sera de la forme:
# carotte : 3
# poireau : 12
# ...
# écrire le code ici:



# fin du code

## Super-bonus : Réduction de complexité

Depuis le début, nous comparons des chaînes de caractère sans nous soucier de leur taille grace à l'opérateur "==" de python. En réalité, l'opérateur == n'effectue pas une unique opération mais une comparaison successive de chaque caractère. Donc comparer deux chaînes de 5 caratères coûtent en réalité 5 opérations.

Afin de réduire cette complexité, nous souhaiterions ne plus comparer des chaînes de caractères mais plutôt des entiers. Pour cela, regardons comment transformer un mot en nombre.

Si l'on considère n'analyser que des textes ADN, les 4 seuls caractères composant notre texte sont donc A, C, G et T. En attribuant un nombre à chacune de ces lettres, il est très facile d'encoder un texte d'un seul caractère. Donnons par exemple les valeurs suivantes :

* A = 0
* C = 1
* G = 2
* T = 3

Essayons maintenant de donner une valeur à un mot de plus de 1 lettre. Pour cela, prenons l'exemple du mot GATTACA. Décomposons ce mot en valeurs sur chaque lettre :  

![](gattaca.png)

La façon simple de transformer cette suite de lettres en nombre est de simplement les additionner. Cependant, on s'apperçoit très vite que dans ce cas, les mots TA et AT donnent tous les deux une valeur de 3. Par cette simple addition nous avons encodé la composition et non l'ordre des lettres.

Pour encoder notre mot, nous allons nous inspirer de ce qui est fait pour coder du binaire <https://fr.wikipedia.org/wiki/Syst%C3%A8me_binaire>.  
A la place de faire une simple addition, nous additionnerons les nombres en les décalant à chaque fois d'une puissance de la taille de notre alphabet. Ainsi, un mot à une lettre aura 4 valeurs distinctes, un mot à deux lettres 16 valeurs, 3 lettres 64 etc.

Notre mot GATTACA se voit alors codé par l'entier 9156 par les opérations suivantes :

![](gattaca2.png)

Une telle fonction qui transforme un texte en nombre est appelé fonction de hachage. Pouvez-vous implémenter une fonction de hash qui prenne une chaîne de caractère en entrée et qui sorte le nombre correspondant en sortie ?

In [26]:
def hachage (mot):
    # à modifier
    return 0

print (hachage("GATTACA"))

0


### Retour à la comparaison

Nous pouvons également effectuer la même opération de hachage succéssivement pour chacun des indices de notre ADN de référence. La comparaison du morceau de la référence et du fragment se fera alors en une seule comparaison d'entier.

Pouvez-vous adapter votre code précédent en tranformant la comparaison des deux chaînes en comparaison de deux entiers ?

In [8]:
import outils_tp      
ADNs = outils_tp.lecture_base()
fragments = outils_tp.lecture_donnees('reads/soupe_sequencage_exo2.fasta')

# à vous de jouer:
# le résultat sera de la forme:
# carotte : 3
# poireau : 12
# ...
# écrire le code ici:



# fin du code

### Une fenêtre glissante

Avec la fonction de hachage ci-dessus, nous avons triché. En réalité, le nombre de comparaisons de caractères a été remplacé par un nombre d'additions plus élevé. Là où il y avait 5 comparaisons de lettres, il y a 5 désormais additions. La complexité est donc restée la même. Cependant, il est possible de s'en tirer uniquement avec deux opérations d'addition. Lorsque l'on calcul la valeur de hachage pour deux sous chaînes succéssives de la référence, ces chaînes possèdent toutes leurs lettres en commun sauf une.

Par exemple, travaillons sur la référence CATTAGG... Imaginons que je recherche les des fragments de taille 4. Alors mes deux premiers fragments seront CATT et ATTA. Ces deux mots ont ATT en commun. L'astuce est de tirer partie de ce sous mot en commun pour n'avoir qu'à retirer la première lettre et ajouter la dernière.

Voici le hachage du premier fragment :

![](init.png)

Multiplier le nombre obtenu par la taille de notre alphabet (ici 4) revient à augmenter l'ensemble des puissance de 1.

![](decal.png)

On peut ensuite ajouter à notre hashage la valeur du nouveau nucléotide. Ici un A donc 0 :

![](add.png)

Enfin, on peut supprimer le nucléotide dont on n'a plus besoin en soustrayant la valeur de ce nucléotide multiplié par son décalage (la taille de l'alphabet à la puissance de la taille du fragment). Ici diviser par 1 (car C) multiplié par 4^4 (taille de l'aphabet puissance taille du fragment) :

![](rmv.png)

En effectuant une multiplication, une addition et une soustraction, nous somme parvenu a passer d'un hachage vers le suivant.

Pouvez-vous implémenter une fonction qui fait cela ?

In [9]:
def hach_decal (hachage, nouvelle_lettre, ancienne_lettre):
    # à modifier
    return 0

# transformation de GATTACA en ATTACAT
hach_decal(9156, 'T', 'G')

0

Pouvez-vous l'inclure dans votre code précédent ?

In [10]:
import outils_tp      
ADNs = outils_tp.lecture_base()
fragments = outils_tp.lecture_donnees('reads/soupe_sequencage_exo2.fasta')

# à vous de jouer:
# le résultat sera de la forme:
# carotte : 3
# poireau : 12
# ...
# écrire le code ici:



# fin du code