<span style="float:left;">Licence CC BY-NC-ND</span><span style="float:right;">Thierry Parmentelat &amp; François Rechenmann,<img src="media/inria-25.png" style="display:inline"></span><br/>

# Calcul des fréquences des 4 bases

### Implémentation en python

Dans ce complément nous allons revoir l'algorithme qui a été expliqué dans la vidéo, qui calcule la fréquence respective de chaque base `A`, `C`, `G` et `T` dans un morceau d'ADN.

Contrairement à ce qui a été illustré dans la vidéo, il s'agit ici de **code exécutable** et non plus de pseudo-code. Et par conséquent nous allons pouvoir l'utiliser directement dans ce complément, grâce à la technologie des notebooks.

### Comment utiliser ce notebook

xxx à voir
J'ai un complément dans le cours python2 que je peux sans doute adapter; on avait aussi fait une vidéo mais je ne pense pas qu'elle soit réutilisable dans ce contexte

### L'algorithme (1ère version)

Dans sa version la plus élémentaire, ce premier algorithme peut s'écrire comme ceci. On commence par initialiser les variables&nbsp;:

In [None]:
### On commence par déclarer nos variables
# les nombres d'occurences
nbA = nbC = nbG = nbT = nbTotal = 0

# on initialise la sequence d'entrée
adn = "TATCCTGACTGGACGACAACGACGCAAT"

Ceci ne produit pas d'impression, ce qui est normal. On peut examiner le contenu d'une de ces variables comme ceci&nbsp;:

In [None]:
print(adn)

ou encore plus simplement, en profitant du fait que dans un notebook, la dernière expression d'une cellule est affichée&nbsp;:

In [None]:
adn

On peut à présent balayer la chaine en entrée, et calculer les nombres d'occurrences de chaque base, ainsi que le nombre total de bases&nbsp;:

In [None]:
# en python pour parcourir une chaine c'est très simple
for nucleotide in adn:
    if nucleotide == 'A':
        nbA += 1
    elif nucleotide == 'C':
        nbC += 1
    elif nucleotide == 'G':
        nbG += 1
    elif nucleotide == 'T':
        nbT += 1
    nbTotal += 1

Cette séquence de code ne produit pas d'affichage, c'est normal. Il nous reste à présent à afficher le résultat&nbsp;:

In [None]:
print("Longueur de la séquence", nbTotal)
print("A = ", 100*nbA/nbTotal)
print("C = ", 100*nbC/nbTotal)
print("G = ", 100*nbG/nbTotal)
print("T = ", 100*nbT/nbTotal)

Cet algorithme fonctionne parfaitement, mais il est possible de l'améliorer de plusieurs façons, que nous allons voir pas à pas dans la suite de ce complément.

##### Cosmétique

Pour commencer, nous allons améliorer la présentation des résultats pour les rendre un peu plus lisibles&nbsp;: deux chiffres après la virgule fourniront une précision bien suffisante; et il se trouve que python a un format justement adapté aux pourcentages, ce qui nous évite le besoin de multiplier le ratio par 100&nbsp;: 

In [None]:
print("Longueur de la séquence", nbTotal)
print("A = {:.2%}".format(nbA/nbTotal))
print("C = {:.2%}".format(nbC/nbTotal))
print("G = {:.2%}".format(nbG/nbTotal))
print("T = {:.2%}".format(nbT/nbTotal))

***

### Utiliser une fonction (2ème version)

On a maintenant une sortie plus jolie, mais il nous reste un problème plus profond, qui est qu'on a du mal à lancer cet algorithme avec une autre séquence d'ADN. Imaginons que j'aie maintenant

In [None]:
adn2 = "AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGC"

Pour relancer l'algorithme il faut ... que je retape tout le code ci-dessus; ça n'est pas souhaitable, et c'est exactement à ça que servent les fonctions en python. Voici ce que ça donne&nbsp;:

In [None]:
def afficher_frequences_bases_v1(adn):
    """
    Une fonction qui affiche les frequences 
    des 4 bases dans une sequence d'ADN
    """
    # on initialiase les variables
    nbA = nbC = nbG = nbT = nbTotal = 0
    # on balaie la chaine
    for nucleotide in adn:
        if nucleotide == 'A':
            nbA += 1
        elif nucleotide == 'C':
            nbC += 1
        elif nucleotide == 'G':
            nbG += 1
        elif nucleotide == 'T':
            nbT += 1
        # le total doit être incrémenté dans tous les cas
        nbTotal += 1
    # on affiche le résultat
    print("Longueur de la séquence", nbTotal)
    print("A = {:.2%}".format(nbA/nbTotal))
    print("C = {:.2%}".format(nbC/nbTotal))
    print("G = {:.2%}".format(nbG/nbTotal))
    print("T = {:.2%}".format(nbT/nbTotal))

Vous avez évalué cette cellule, mais vous ne voyez rien affiché; c'est normal, en fait on a seulement expliqué à l'interpréteur python ce qu'il **devra** faire la prochaine fois où on appellera cette fonction.

Maintenant qu'on a défini cette fonction, on peut l'appeler avec des segments différents comme ceci&nbsp;:

In [None]:
print("entrée", adn)
afficher_frequences_bases_v1(adn)
print("entrée", adn2)
afficher_frequences_bases_v1(adn2)

### Séparer le calcul de l'impression (3ème version)

Pour finir, nous allons séparer les deux étapes que sont le calcul et l'impression; en effet maintenant que nous avons un morceau de code réutilisable, on se dit qu'il y aura sans doute des cas où ce calcul nous sera utile dans un contexte où on ne voudra pas forcément imprimer le résultat.

La technique que nous allons utiliser ici consiste à écrire une fonction qui *renvoie* une valeur. Commençons par voir ce mécanisme sur un tout petit exemple.

##### Une fonction python peut renvoyer une valeur

In [None]:
# un exemple de fonction qui renvoie une valeur
# ici on va calculer le double d'un entier
def double(entier):
    return 2*entier

Avec cette forme, on peut stocker dans une variable le résultat de la fonction comme ceci&nbsp;:

In [None]:
x = double(10)
y = double(25)

Mais remarquez bien que ceci ne produit aucune impression; pour voir le résultat on peut appeler `print`

In [None]:
print ("Le double de 10:", x)
print ("Le double de 25:", y)

##### Une fonction python peut même renvoyer plusieurs valeurs

En fait on peut même en python renvoyer plusieurs valeurs, comme par exemple&nbsp;:

In [None]:
def doubles (entier1, entier2):
    return 2*entier1, 2*entier2

Et maintenant on peut obtenir et afficher les résultats comme ceci&nbsp;:

In [None]:
x, y = doubles(10, 25)
print("Le double de 10:", x, "et le double de 25:", y)

Techniquement, on renvoie en fait un seul un seul objet tuple, mais restons synthétiques... 

##### Reprenons

Maintenant que nous avons à notre disposition cette notion de fonction qui renvoie plusieurs valeurs, nous allons nous en servir pour récrire une troisième fois notre algorithme&nbsp;:

In [None]:
# La fonction qui calcule
def comptage_bases(adn):
    """
    retourne 5 valeurs:
    * la longueur totale de la chaîne
    * le nombre de 'A'
    * le nombre de 'C'
    * le nombre de 'G'
    * le nombre de 'T'
    """
    nbA = nbC = nbG = nbT = nbTotal = 0
    for nucleotide in adn:
        if nucleotide == 'A':
            nbA += 1
        elif nucleotide == 'C':
            nbC += 1
        elif nucleotide == 'G':
            nbG += 1
        elif nucleotide == 'T':
            nbT += 1
        nbTotal += 1
    return (nbTotal, nbA, nbC, nbG, nbT)

In [None]:
# La fonction qui affiche
def afficher_frequences_bases_v2 (comptage):
    """
    affiche le résultat de comptage_bases
    """
    # on extrait les 5 informations qui nous viennent
    # de comptage_bases
    nbTotal, nbA, nbC, nbG, nbT = comptage
    # et on les affiche
    print("Longueur de la séquence", nbTotal)
    print("A = {:.2%}".format(nbA/nbTotal))
    print("C = {:.2%}".format(nbC/nbTotal))
    print("G = {:.2%}".format(nbG/nbTotal))
    print("T = {:.2%}".format(nbT/nbTotal))


In [None]:
# et à nouveau on peut appeler l'algorithme 
# sur plusieurs segments différents

# le premier segment
print("entrée", adn)
comptage = comptage_bases(adn)
afficher_frequences_bases_v2(comptage)

# le second segment
print("entrée", adn2)
# de manière équivalente, si on préfère être plus court
afficher_frequences_bases_v2(comptage_bases(adn2))

Nous avons à présent notre premier algorithme en place. Dans le complément suivant, nous allons voir d'autres techniques de programmation en python qui vont nous permettre de rendre le code encore plus court et plus simple.