# Calcul des fréquences des 4 bases

### Implémentation en python

Dans ce complément nous allons revoir l'algorithme qui a été expliqué dans la vidéo, qui calcule la fréquence respective de chaque base `A`, `C`, `G` et `T` dans un morceau d'ADN.

Contrairement à ce qui a été illustré dans la vidéo, il s'agit ici de **code exécutable** et non plus de pseudo-code. Et par conséquent nous allons pouvoir l'utiliser directement dans ce complément, grâce à la technologie des notebooks.

### Comment utiliser ce notebook

xxx à voir

### L'algorithme (1ère version)

Dans sa version la plus élémentaire, ce premier algorithme peut s'écrire comme ceci. On commence par initialiser les variables&nbsp;:

In [1]:
### On commence par déclarer nos variables
# les nombres d'occurences
nbA = nbC = nbG = nbT = nbTotal = 0

# on initialise la sequence d'entrée
adn = "TATCCTGACTGGACGACAACGACGCAAT"

On peut à présent balayer la chaine en entrée, et calculer les nombres d'occurrences de chaque base, ainsi que le nombre total de bases&nbsp;:

In [2]:
# en python pour parcourir une chaine c'est très simple
for nucleotide in adn:
    if nucleotide == 'A':
        nbA += 1
    elif nucleotide == 'C':
        nbC += 1
    elif nucleotide == 'G':
        nbG += 1
    elif nucleotide == 'T':
        nbT += 1
    nbTotal += 1

Cette séquence de code ne produit pas d'affichage, c'est normal. Il nous reste à présent à afficher le résultat&nbsp;:

In [4]:
print("Longueur de la séquence", nbTotal)
print("A = ", 100*nbA/nbTotal)
print("C = ", 100*nbC/nbTotal)
print("G = ", 100*nbG/nbTotal)
print("T = ", 100*nbT/nbTotal)

Longueur de la séquence 28
A =  32.142857142857146
C =  28.571428571428573
G =  21.428571428571427
T =  17.857142857142858


***

Cet algorithme fonctionne parfaitement, mais il est possible de l'améliorer de plusieurs façons, que nous allons voir pas à pas dans la suite de ce complément.

### Cosmétique

Pour commencer, nous allons améliorer la présentation des résultats pour les rendre un peu plus lisibles&nbsp;: deux chiffres après la virgule fourniront une précision bien suffisante; et il se trouve que python a un format justement adapté aux pourcentages, ce qui nous évite le besoin de multiplier le ratio par 100&nbsp;: 

In [5]:
print("Longueur de la séquence", nbTotal)
print("A = {:.2%}".format(nbA/nbTotal))
print("C = {:.2%}".format(nbC/nbTotal))
print("G = {:.2%}".format(nbG/nbTotal))
print("T = {:.2%}".format(nbT/nbTotal))

Longueur de la séquence 28
A = 32.14%
C = 28.57%
G = 21.43%
T = 17.86%


### Utiliser une fonction

On a maintenant une sortie plus jolie, mais il nous reste un problème plus profond, qui est qu'on a du mal à lancer cet algorithme avec une autre séquence d'ADN. Imaginons que j'aie maintenant

In [6]:
adn2 = "AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGC"

Pour relancer l'algorithme il faut ... que je retape tout le code ci-dessus; ça n'est pas souhaitable, et c'est exactement à ça que servent les fonctions en python. Voici ce que ça donne&nbsp;:

In [9]:
def afficher_frequences_bases(adn):
    nbA = nbC = nbG = nbT = nbTotal = 0
    for nucleotide in adn:
        if nucleotide == 'A':
            nbA += 1
        elif nucleotide == 'C':
            nbC += 1
        elif nucleotide == 'G':
            nbG += 1
        elif nucleotide == 'T':
            nbT += 1
        nbTotal += 1
    print("Longueur de la séquence", nbTotal)
    print("A = {:.2%}".format(nbA/nbTotal))
    print("C = {:.2%}".format(nbC/nbTotal))
    print("G = {:.2%}".format(nbG/nbTotal))
    print("T = {:.2%}".format(nbT/nbTotal))

Vous avez évalué cette cellule, mais vous ne voyez rien affiché; c'est normal, en fait on a seulement expliqué à l'interpréteur python ce qu'il **devra** faire la prochaine fois où on appellera cette fonction.

Maintenant qu'on a défini cette fonction, on peut l'appeler avec des segments différents comme ceci&nbsp;:

In [10]:
print("entrée", adn)
afficher_frequences_bases(adn)
print("entrée", adn2)
afficher_frequences_bases(adn2)

entrée TATCCTGACTGGACGACAACGACGCAAT
Longueur de la séquence 28
A = 32.14%
C = 28.57%
G = 21.43%
T = 17.86%
entrée AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGC
Longueur de la séquence 70
A = 28.57%
C = 17.14%
G = 24.29%
T = 30.00%


### Séparer le calcul de l'impression

### Une version un peu plus *pythonique*

In [None]:
nucleotides = 'CAGT'

In [None]:
def pourcentages1(adn):
    total = len(adn)
    resultats = {}
    for nucleotide in nucleotides:
        extrait = [ n for n in adn if n == nucleotide]
        resultats[nucleotide] = (len(extrait)*100.)/total
    return resultats

### En version plus pédestre

In [None]:
def pourcentages2(adn):
    total = len(adn)
    resultats = { nucleotide: 0 for nucleotide in nucleotides}
    for n in adn:
        resultats[n] += 1
    for nucleotide in resultats:
        resultats[nucleotide] *= 100. / total
    return resultats

In [None]:
# comparer le résultat des deux méthodes
def compare(adn):
    r1 = pourcentages1(adn)
    r2 = pourcentages2(adn)
    if r1 == r2:
        print(r1)
    else:
        # ne devrait pas arriver
        print("ATTENTION: résultats différents")
        print(r1)
        print(r2)

In [None]:
from samples import slides
adn1 = slides['1.6']
compare(adn1)

In [None]:
# l'échantillon du pdf
adn2 = "AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGC"
compare(adn2)