# À la découverte de notre ADN

L'objectif de ce TP est de dmettre en pratique le langage python pour construire
et analyser un brin d'[ADN](https://fr.wikipedia.org/wiki/Acide_d%C3%A9soxyribonucl%C3%A9ique).
L'idée est, dans un premier temps, de reprendre les
éléments de base du langage (condition, boucles ...) pour créer des fonctions qui
construise un brin d'ADN, le lisent, réalise une transcription une traduction ...
puis d'écrire une classe qui réalise ces actions.

## Introduction

Ce n'est pas l'objet de faire ici un cours complet sur l'ADN. Vous trouverez
de nombreuses choses sur le sujet. On va juste rappeler quelques éléments de base
pour qu'un *non biologiste* puisse faire le TP.

### ADN ?

L'ADN, pour Acide DésoxyriboNucléique, est une macromolécule constituée de deux
brins qui forme une double hélice maintenue par des liaisons hydrogène. Ces brins
sont formés par un enchainement de maillons appelés, nucléotides qui contiennent
les *bases* de l'ADN :

* A pour Adénine
* T pour Thymine
* G pour Guanine
* C pour Cytosine

Les bases de l'ADN fonctionnent par paire, une sur chaque brin : adénine avec
thymine et guanine avec cytosine.

[![DNA](./DNA.png)](https://commons.wikimedia.org/wiki/File:DNA_chemical_structure-1-.fr.svg)

### Traduction et transcription

**La transcription** est un mécanisme qui permet de "recopier" l'ADN dans le noyau
de la cellule pour former un ARN (acide ribonucléique) qui sera utilisé dans la
cellule notamment lors de la traduction. L'ARN présente la même structure que
l'ADN mais lors de la transicription, la thymine (T) est remplacé par l'uracile
(U).

**La traduction de l'ADN** consiste à lire l'ARN issue de la transcription pour
synthétiser une protéine avec l'aide de la machinerie cellulaire. L'ARN est
découpé en codons qui sont constitués de 3 bases et correspondent à un 
[acide aminé](https://fr.wikipedia.org/wiki/Acide_amin%C3%A9_prot%C3%A9inog%C3%A8ne), 
c'est le code génétique. Les codons sont lus les uns à la suite des
autres et la protéines est assemblée comme une chaîne (peptidique)
[d'acides aminés](https://fr.wikipedia.org/wiki/Acide_amin%C3%A9_prot%C3%A9inog%C3%A8ne).

![traduction de l'ADN](./traduction.png)

### Correspondance codons - acides aminés

Le schéma ci-dessous vous donne la correspondance entre un codon, composé de
trois bases de l'ARN et un
[acide aminé](https://fr.wikipedia.org/wiki/Acide_amin%C3%A9_prot%C3%A9inog%C3%A8ne).

[![code génétique](./codegenetique.png)](http://www.cours-pharmacie.com/biologie-moleculaire)

Par exemple, GUA est un codon qui code pour l'acide aminé Val, c'est à dire
la Valine. On remarquera que plusieurs codons peuvent coder pour le même acide
aminé ce qui limite la portée des erreurs de copies ou des mutations. On note
également la présence de codons STOP indiquant la fin de la partie "codante" et
qui stoppe la synthèse de la protéine.

## Les dictionnaires python

Pour entrer le code génétique dans python on pourra utiliser les dictionnaires.
Ces objets python sont un peu comme des listes ils contiennent plusieurs autres
objets. À la différence des listes, les éléments d'un dictionnaire sont repérés
par une clef et non par un indice. On peut utiliser tout type de clef : des
nombres, des chaînes de caractères ou même des tuples.

### Petit aperçu

In [1]:
aa = dict()
print(aa)

{}


Une liste est délimitée par des crochets, un dictionnaire par des accolades. Par contre, comme pour les listes, La clef est donnée entre crochets :

In [15]:
aa["M"] = "Met"
aa["L"] = "Leu"
aa["A"] = "Ala"
print("dictionnaire : ", aa)
print("un élément   : ", aa["L"])

dictionnaire :  {'A': 'Ala', 'L': 'Leu', 'M': 'Met'}
un élément   :  Leu


*Remarque :* Les dictionnaires ne sont pas ordonnés. On voit sur l'exemple
ci-dessus que bien que la clef "A" ait été ajoutée en dernier, elle apparait
en premier dans le dictionnaire.

On peut lister les `clefs` et les `valeurs` d'un dictionnaire ou les deux et 
les parcourir avec une boucle `for`.

Liste des clefs :

In [16]:
print(aa.keys())
for key in aa:
    print(key)

dict_keys(['A', 'L', 'M'])
A
L
M


Pour les valeurs :

In [9]:
print(aa.values())
for val in aa.values():
    print(val)

dict_values(['Ala', 'Leu', 'Met'])
Ala
Leu
Met


On peut aussi parcourir les deux simultanément :

In [10]:
print(aa.items())
for key, val in aa.items():
    print(key, " = ", val)

dict_items([('A', 'Ala'), ('L', 'Leu'), ('M', 'Met')])
A  =  Ala
L  =  Leu
M  =  Met


`aa.items()` retourne une liste de tuple de la forme `(clef, valeur)`.

### Petit exercice 

1. Construire un dictionnaire qui met en relation le code à une lettre et le 
   code à trois lettre des acides aminés. 
   [Voir ce tableau](https://fr.wikipedia.org/wiki/Acide_amin%C3%A9_prot%C3%A9inog%C3%A8ne#Propri.C3.A9t.C3.A9s_chimiques).
2. Construire un dictionnaire qui pour un acide aminé donné donne plusieurs
   informations :
   * Code à 1 lettre,
   * Code à 3 lettres,
   * Polarité
   * Masse 
   * pI
   * ...
3. Afficher le nombre d'acides aminés contenus dans le dictionnaire
4. Afficher la liste des acides aminés polaires

**Conseil :** Les dictionnaires sont des objets permettant de structurer des
données. C'est un modèle simpliste de base de données. Il est tout à fait possible
de les imbriquer.

### Pour le code génétique

Pour le code génétique on peut envisager plusieurs solutions :

* la clef est un tuple correspondant au codon :

In [11]:
gencode = {("A", "U", "A"): "Ile", ("U", "G", "A"): "STOP"}
print(gencode)

{('A', 'U', 'A'): 'Ile', ('U', 'G', 'A'): 'STOP'}


* la clef est un acide aminé, la valeur est la liste des codons associés

In [12]:
gencode = {"Phe": ["UUU", "UUC"], "Met": ["AUG"]}
print(gencode)

{'Phe': ['UUU', 'UUC'], 'Met': ['AUG']}


## Questions

L'idée est d'écrire dans un premier temps des fonctions qui réalisent les
opérations suivantes puis d'écrire une classe qui contient les même
fonctionnalités.

1. Écrire une fonction qui génère aléatoirement un brin d'ADN. On pourra choisir
   aléatoirement un codon STOP pour terminer le brin ou la partie codante.
2. Écrire une fonction qui écrit le brin d'ADN dans un fichier
3. Écrire une fonction qui lit un brin d'ADN dans un fichier
4. Identifier s'il s'agit d'un brin d'ADN ou d'ARN et si ce brin est valide
5. Statistique : extraire les informations suivantes d'un brin d'ADN
    * Nombre total de bases
    * Nombre de codons
    * pourcentage de chaque base dans le brin
6. Écrire une fonction qui réalise la transcription de l'ADN en ARN
7. Écrire une fonction qui traduit l'ARN et renvoie la chaîne d'acides aminés
   correspondante. Attention, elle doit s'arrêter au codon STOP.
8. Statistique. Extraire des statistiques sur les acides aminés : nombre, polarité, ...


## Programmation

Commençons par charger les modules dont nous aurons besoin.

In [33]:
%pylab --no-import-all inline

Populating the interactive namespace from numpy and matplotlib


### Exercice sur les dictionnaires

En prennant les données de 
[ce tableau](https://fr.wikipedia.org/wiki/Acide_amin%C3%A9_prot%C3%A9inog%C3%A8ne#Propri.C3.A9t.C3.A9s_chimiques)
on va construire une base de données sur les acides aminés.

#### Correspondance des noms

On peut reprendre l'exemple décrit plus haut pour introduire les dictionnaire et le compléter :

In [20]:
aa = dict()
aa["M"] = "Met"
aa["L"] = "Leu"
aa["A"] = "Ala"
print("dictionnaire : ", aa)

dictionnaire :  {'A': 'Ala', 'L': 'Leu', 'M': 'Met'}


Avec tous les acides aminés :

In [18]:
aa = {
    "V": "Val",
    "I": "Ile",
    "L": "Leu",
    "M": "Met",
    "F": "Phe",
    "A": "Ala",
    "P": "Pro",
    "W": "Trp",
    "G": "Gly",
    "Y": "Tyr",
    "S": "Ser",
    "T": "Thr",
    "C": "Cys",
    "N": "Asn",
    "Q": "Gln",
    "R": "Arg",
    "K": "Lys",
    "H": "His",
    "D": "Asp",
    "E": "Glu"    
}
print(aa)

{'I': 'Ile', 'R': 'Arg', 'F': 'Phe', 'M': 'Met', 'H': 'His', 'K': 'Lys', 'P': 'Pro', 'D': 'Asp', 'V': 'Val', 'Q': 'Gln', 'G': 'Gly', 'T': 'Thr', 'L': 'Leu', 'C': 'Cys', 'N': 'Asn', 'E': 'Glu', 'A': 'Ala', 'Y': 'Tyr', 'S': 'Ser', 'W': 'Trp'}


#### Base de données plus complète 

Pour cela on va *imbriquer* des dictionnaires. Voici un exemple pour un acide aminé :

In [21]:
aa = {
    "Valine": {
        "A": "V",
        "Abr": "Val",
        "masse": 117.14784,
        "pI": 5.96,
        "polaire": False
    }
}

On peut ensuite utiliser nos données de la façon suivante :

In [23]:
print("masse = ", aa["Valine"]["masse"])
print("Abreviation : ", aa["Valine"]["Abr"])

masse =  117.14784
Abreviation :  Val


Voici le dictionnaire complet :

In [27]:
acideAmine = {
    "Alanine": {
        "A": "A",
        "Abr": "Ala",
        "masse": 89.09404,
        "pI": 6.00,
        "polaire": False
    },
    "Arginine": {
        "A": "R",
        "Abr": "Arg",
        "masse": 174.20274,
        "pI": 10.76,
        "polaire": True
    },
    "Asparagine": {
        "A": "N",
        "Abr": "Asn",
        "masse": 132.11904,
        "pI": 5.41,
        "polaire": True
    },
    "Aspartate": {
        "A": "D",
        "Abr": "Asp",
        "masse": 133.10384,
        "pI": 2.77,
        "polaire": True
    },
    "Cystéine": {
        "A": "C",
        "Abr": "Cys",
        "masse": 121.15404,
        "pI": 5.07,
        "polaire": False
    },
    "Glutamate": {
        "A": "E",
        "Abr": "Glu",
        "masse": 147.13074,
        "pI": 3.22,
        "polaire": True
    },
    "Glutamine": {
        "A": "Q",
        "Abr": "Gln",
        "masse": 146.14594,
        "pI": 5.65,
        "polaire": True
    },
    "Glycine": {
        "A": "G",
        "Abr": "Gly",
        "masse": 75.06714,
        "pI": 5.97,
        "polaire": False
    },
    "Histidine": {
        "A": "H",
        "Abr": "His",
        "masse": 155.15634,
        "pI": 7.59,
        "polaire": True
    },
    "Isoleucine": {
        "A": "I",
        "Abr": "Ile",
        "masse": 131.17464,
        "pI": 6.02,
        "polaire": False
    },
    "Leucine": {
        "A": "L",
        "Abr": "Leu",
        "masse": 131.17464,
        "pI": 5.98,
        "polaire": False
    },
    "Lysine": {
        "A": "K",
        "Abr": "Lys",
        "masse": 146.18934,
        "pI": 9.74,
        "polaire": True
    },
    "Methionine": {
        "A": "M",
        "Abr": "Met",
        "masse": 149.20784,
        "pI": 5.74,
        "polaire": False
    },
    "Phénylalanine": {
        "A": "F",
        "Abr": "Phe",
        "masse": 165.19184,
        "pI": 5.48,
        "polaire": False
    },
    "Proline": {
        "A": "P",
        "Abr": "Pro",
        "masse": 115.13194,
        "pI": 6.30,
        "polaire": False
    },
    "Sérine": {
        "A": "S",
        "Abr": "Ser",
        "masse": 105.09344,
        "pI": 5.68,
        "polaire": True
    },
    "Thréonine": {
        "A": "T",
        "Abr": "Thr",
        "masse": 119.12034,
        "pI": 5.60,
        "polaire": True
    },
    "Tryptophane": {
        "A": "W",
        "Abr": "Trp",
        "masse": 204.22844,
        "pI": 5.89,
        "polaire": False
    },
    "Tyrosine": {
        "A": "Y",
        "Abr": "Tyr",
        "masse": 181.19124,
        "pI": 5.66,
        "polaire": True
    },
    "Valine": {
        "A": "V",
        "Abr": "Val",
        "masse": 117.14784,
        "pI": 5.96,
        "polaire": False
    }
}

#### Lecture des données

Essayons maintenant de lire des données. Par exemple le nombre d'acides aminés :

In [28]:
print(len(acideAmine.keys()))

20


La liste des acides aminés polaires :

In [31]:
print("Liste des acides aminés polaires :")
for nom, data in acideAmine.items():
    if data["polaire"]:
        print("  * ", nom)

Liste des acides aminés polaires :
  *  Arginine
  *  Histidine
  *  Glutamate
  *  Lysine
  *  Asparagine
  *  Aspartate
  *  Sérine
  *  Thréonine
  *  Tyrosine
  *  Glutamine


Ou en une seule ligne avec une compréhension de liste :

In [30]:
print([nom for nom, data in acideAmine.items() if data["polaire"]])

['Arginine', 'Histidine', 'Glutamate', 'Lysine', 'Asparagine', 'Aspartate', 'Sérine', 'Thréonine', 'Tyrosine', 'Glutamine']


### Construire aléatoirement un brin d'ADN

Définissons tout d'abord quelques constantes

In [32]:
BASE_ADN = ["A", "T", "C", "G"]
BASE_ARN = ["A", "U", "C", "G"]
STOP = ["TAA", "TAG", "TGA"]

On va utiliser la fonction `randint()` de numpy pour choisir aléatoirement une base.

In [52]:
def gen_brins(nbases=10, typ="ADN"):
    """ 
    génère un fragment d'ADN ou ARN contenant nbases plus un codon stop

    Args:
        nbases (int): nombre de bases
        typ (str): "ADN" ou "ARN"

    Return:
        fragment (str): le fragment d'ADN
    """
    # type ADN ou ARN
    if typ == "ADN":
        bases = BASE_ADN
    elif typ == "ARN":
        bases = BASE_ARN
    else:
        raise ValueError("typ doit être 'ARN' ou 'ADN', typ = %s" % typ)
    
    # construction fragment ADN
    fragment = "".join([bases[np.random.randint(0, 3)] for i in range(nbases - nbases % 3)])

    codon_stop = STOP[np.random.randint(0, 2)]
    if typ == "ARN":
        codon_stop.replace("T", "U")
    fragment += codon_stop

    return fragment

Utilisons notre fonction :

In [53]:
brin = gen_brins(10)
print(brin)
print(len(brin))

TACAATCTTTAA
12


On a un brin de 12 bases avec les trois dernières qui correspondent à un codon STOP.

### Écrire le brin dans un fichier

On va simplement écrire la chaîne de caractère dans un fichier :

In [54]:
def write_file(fragment, fichier="brin.dat"):
    """ Écrit le fragment dans un fichier """
    with open(fichier, "w") as f:
        f.write(fragment)

Pour avoir un fichier plus lisible, on pourrait choisir d'afficher un certain nombre de codons par ligne avec un séparateur donné entre chaque codon :

In [55]:
def write_file(fragment, fichier="brin.dat", codonParLigne=15, separateur=" "):
    """ 
    Ecrit le fragment dans un fichier 
   
    Args:
       fichier (str): nom du fichier.
       fragment (str): fragment d'ADN
       codonParLigne (int): nombre de codons par ligne.
       separateur (str): séparateur des codons
    """

    # calcul nombre de codons dans le fragment
    ncodon = len(fragment) // 3

    with open(fichier, "w") as out:
        n = 0
        while n < ncodon:
            out.write(fragment[3*n : 3*n + 3] + separateur)
            n += 1
            if n % codonParLigne == 0:
                out.write("\n")