<span style="float:left;">Licence CC BY-NC-ND</span><span style="float:right;">François Rechenmann &amp; Thierry Parmentelat&nbsp;<img src="media/inria-25.png" style="display:inline"></span><br/>

# Calcul des fréquences des 4 bases

### Implémentation en python

Dans ce complément nous allons revoir l'algorithme qui a été expliqué dans la vidéo, qui calcule la fréquence respective de chaque base `A`, `C`, `G` et `T` dans un morceau d'ADN.

Contrairement à ce qui a été illustré dans la vidéo, il ne s'agit plus ici de pseudo-code mais de **code exécutable**, que grâce à la technologie des notebooks nous allons pouvoir utiliser directement dans ce complément.

Nous commençons, comme on l'a vu dans le complément sur les rudiments en python, par nos formules magiques pour écrire du code qui puisse fonctionner indiféremment en pyhon2 et python3.

In [None]:
# la formule magique pour utiliser print() en python2 et python3
from __future__ import print_function
# pour que la division se comporte en python2 comme en python3
from __future__ import division

### L'algorithme (1ère version)

Dans sa version la plus élémentaire, ce premier algorithme, expliqué dans la vidéo, peut s'écrire comme ceci. On commence par initialiser les variables&nbsp;:

In [None]:
### On commence par déclarer nos variables
# les nombres d'occurences
nbA = nbC = nbG = nbT = nbTotal = 0

# on initialise la séquence d'entrée
dna = "TATCCTGACTGGACGACAACGACGCAAT"

Ceci ne produit pas d'impression, ce qui est normal. On peut examiner le contenu d'une de ces variables comme ceci&nbsp;:

In [None]:
print(dna)

ou encore plus simplement, en profitant du fait que dans un notebook, la dernière expression d'une cellule est affichée&nbsp;:

In [None]:
dna

On peut à présent balayer la chaine en entrée, et calculer les nombres d'occurrences de chaque base, ainsi que le nombre total de bases&nbsp;:

In [None]:
# en python pour parcourir une chaine c'est très simple
for nucleotide in dna:
    if nucleotide == 'A':
        nbA += 1
    elif nucleotide == 'C':
        nbC += 1
    elif nucleotide == 'G':
        nbG += 1
    elif nucleotide == 'T':
        nbT += 1
    nbTotal += 1

À nouveau, cette séquence de code ne produit pas d'affichage, c'est normal. Il nous reste à présent à afficher le résultat&nbsp;:

In [None]:
print("Longueur de la séquence", nbTotal)
print("A = ", 100 * nbA / nbTotal)
print("C = ", 100 * nbC / nbTotal)
print("G = ", 100 * nbG / nbTotal)
print("T = ", 100 * nbT / nbTotal)

Cet algorithme fonctionne parfaitement, mais il est possible de l'améliorer de plusieurs façons, que nous allons voir pas à pas dans la suite de ce complément.

##### Cosmétique

Pour commencer, nous allons améliorer la présentation des résultats pour les rendre un peu plus lisibles&nbsp;: deux chiffres après la virgule fourniront une précision bien suffisante; et il se trouve que python a un format justement adapté aux pourcentages, ce qui nous évite le besoin de multiplier le ratio par 100&nbsp;: 

In [None]:
print("Longueur de la séquence", nbTotal)
print("A = {:.2%}".format(nbA / nbTotal))
print("C = {:.2%}".format(nbC / nbTotal))
print("G = {:.2%}".format(nbG / nbTotal))
print("T = {:.2%}".format(nbT / nbTotal))

***

### Utiliser une fonction (2ème version)

On a maintenant une sortie plus jolie, mais il nous reste un problème plus profond, qui est qu'on a du mal à lancer cet algorithme avec une autre séquence d'ADN. Imaginons que j'aie maintenant

In [None]:
dna2 = "AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGC"

Pour relancer l'algorithme il faut ... que je retape tout le code ci-dessus; ça n'est pas souhaitable, et c'est exactement à ça que servent les fonctions en python. Voici ce que ça donne&nbsp;:

In [None]:
def display_freq_bases_v1(dna):
    """
    Une fonction qui affiche les fréquences 
    des 4 bases dans une séquence d'ADN
    """
    # on initialiase les variables
    nbA = nbC = nbG = nbT = nbTotal = 0
    # on balaie la chaine
    for nucleotide in dna:
        if nucleotide == 'A':
            nbA += 1
        elif nucleotide == 'C':
            nbC += 1
        elif nucleotide == 'G':
            nbG += 1
        elif nucleotide == 'T':
            nbT += 1
        # le total doit être incrémenté dans tous les cas
        nbTotal += 1
    # on affiche le résultat
    print("Longueur de la séquence", nbTotal)
    print("A = {:.2%}".format(nbA / nbTotal))
    print("C = {:.2%}".format(nbC / nbTotal))
    print("G = {:.2%}".format(nbG / nbTotal))
    print("T = {:.2%}".format(nbT / nbTotal))

Vous avez évalué cette cellule, mais vous ne voyez rien affiché&nbsp;; c'est normal, en fait on a seulement expliqué à l'interpréteur python ce qu'il **devra** faire la prochaine fois qu'on appellera cette fonction.


Maintenant qu'on a défini cette fonction, on peut l'appeler avec des segments différents comme ceci&nbsp;:

In [None]:
# avec la première entrée
print("entrée", dna)
display_freq_bases_v1(dna)

In [None]:
# avec la seconde entrée
print("entrée", dna2)
display_freq_bases_v1(dna2)

### Séparer le calcul de l'impression (3ème version)

Pour finir, nous allons séparer les deux étapes que sont le calcul et l'impression&nbsp;; en effet maintenant que nous avons un morceau de code réutilisable, on se dit qu'il y aura sans doute des cas où ce calcul nous sera utile dans un contexte où on ne voudra pas forcément imprimer le résultat.

La technique que nous allons utiliser ici consiste à écrire une fonction qui *renvoie* une valeur. Commençons par voir ce mécanisme sur un tout petit exemple.

##### Une fonction python peut renvoyer une valeur

In [None]:
# un exemple de fonction qui renvoie une valeur
# ici on va calculer le double d'un entier
def double(entier):
    return 2 * entier

Avec cette forme, on peut stocker dans une variable le résultat de la fonction comme ceci&nbsp;:

In [None]:
x = double(10)
y = double(25)

Mais remarquez bien que ceci ne produit aucune impression&nbsp;; pour voir le résultat on peut appeler `print`

In [None]:
print ("Le double de 10:", x)
print ("Le double de 25:", y)

##### Une fonction python peut même renvoyer plusieurs valeurs

En fait on peut même en python renvoyer plusieurs valeurs, comme par exemple&nbsp;:

In [None]:
def doubles (entier1, entier2):
    return 2 * entier1, 2 * entier2

Et maintenant on peut obtenir et afficher les résultats comme ceci&nbsp;:

In [None]:
x, y = doubles(10, 25)
print("Le double de 10:", x, "et le double de 25:", y)

Techniquement, on renvoie en fait un seul objet tuple, mais restons synthétiques... 

##### Reprenons

Maintenant que nous avons à notre disposition cette notion de fonction qui renvoie plusieurs valeurs, nous allons nous en servir pour écrire une troisième fois notre algorithme&nbsp;:

In [None]:
# La fonction qui calcule
def count_bases(dna):
    """
    retourne 5 valeurs:
    * la longueur totale de la chaîne
    * le nombre de 'A'
    * le nombre de 'C'
    * le nombre de 'G'
    * le nombre de 'T'
    """
    nbA = nbC = nbG = nbT = nbTotal = 0
    for nucleotide in dna:
        if nucleotide == 'A':
            nbA += 1
        elif nucleotide == 'C':
            nbC += 1
        elif nucleotide == 'G':
            nbG += 1
        elif nucleotide == 'T':
            nbT += 1
        nbTotal += 1
    return (nbTotal, nbA, nbC, nbG, nbT)

In [None]:
# La fonction qui affiche
def display_freq_bases_v2 (counts):
    """
    affiche le résultat de count_bases
    """
    # on extrait les 5 informations qui nous viennent
    # de count_bases
    nbTotal, nbA, nbC, nbG, nbT = counts
    # et on les affiche
    print("Longueur de la séquence", nbTotal)
    print("A = {:.2%}".format(nbA / nbTotal))
    print("C = {:.2%}".format(nbC / nbTotal))
    print("G = {:.2%}".format(nbG / nbTotal))
    print("T = {:.2%}".format(nbT / nbTotal))
    # si on veut afficher également les proportions
    # de GC par rapport à TA
    print("CG = {:.2%}".format((nbC + nbG) / nbTotal))
    print("TA = {:.2%}".format((nbT + nbA) / nbTotal))

Et à nouveau on peut appeler l'algorithme sur plusieurs segments différents:

In [None]:
# le premier segment
print("entrée", dna)
comptage = count_bases(dna)
display_freq_bases_v2(comptage)

In [None]:
# le second segment
print("entrée", dna2)
# de manière équivalente, si on préfère être plus court
display_freq_bases_v2(count_bases(dna2))