# Notebook séance 6

Commenter son code et autres [bonnes pratiques](https://python.sdv.univ-paris-diderot.fr/15_bonnes_pratiques/)

## Mettre des commentaires pour expliquer ce qu'on fait

Comparer :

In [24]:
def orf(seq):
    debut = 0
    orf = None
    while debut < len(seq) and seq[debut:debut+3] != 'ATG':
        debut += 1
    fin = debut+3
    while fin < len(seq) and seq[fin:fin+3] not in ['TAA', 'TAG', 'TGA']:
        fin += 3
    if fin < len(seq):
        orf = seq[debut:fin+3]
    return orf

Et :

In [25]:
def orf(seq):
    # orf contiendra l'ORF extraite si elle existe, None sinon
    orf = None
    # on recherche la position du codon start
    debut = 0
    while debut < len(seq) and seq[debut:debut+3] != 'ATG':
        debut += 1
    # on recherche la position du codon stop qui doit débuter après le codon start        
    fin = debut+3
    while fin < len(seq) and seq[fin:fin+3] not in ['TAA', 'TAG', 'TGA']:
        # le codon STOP est en phase avec le codon start donc on avance de 3 en 3
        fin += 3
    # si on a trouvé un STOP en phase avant la fin de la séquence, on a trouvé une ORF
    if fin < len(seq):
        orf = seq[debut:fin+3]
    return orf

## Ecrire du code lisible

En Python l'indentation est obligatoire et permet de bien visualiser les blocs de code. Ainsi on repère facilement les blocs de code exécutés dans une boucle ou une conditionnelle. Comme il n'y a pas de séparateur d'instruction, on a aussi une seule instruction par ligne, ce qui facilite la lecture.

Néanmoins, il y a d'autres éléments auxquels faire attention, comme les espaces, les parenthèses et les noms de variables.

In [1]:
def orf(seq):
    orf = None
    debut = 0
    while debut < len(seq) and seq[debut:debut+3] != 'ATG':
        debut += 1
    fin = debut+3
    while fin < len(seq) and seq[fin:fin+3] not in ['TAA', 'TAG', 'TGA']:
        fin += 3
    if fin < len(seq):
        orf = seq[debut:fin+3]
    return orf

In [26]:
def orf(seq):
    orf=None
    debut=0
    while debut<len(seq) and seq[debut:debut+3]!='ATG':
        debut+=1
    fin=debut+3
    while fin<len(seq) and seq[fin:fin+3] not in ['TAA','TAG','TGA']:
        fin+=3
    if fin<len(seq):
        orf=seq[debut:fin+3]
    return orf

In [27]:
def orf(s):
    o=None
    d=0
    while d<len(s) and s[d:d+3]!='ATG':
        d+=1
    f=d+3
    while f<len(s) and s[f:f+3] not in ['TAA','TAG','TGA']:
        f+=3
    if f<len(s):
        o=s[d:f+3]
    return o

In [28]:
def orf(s):
    o=None
    d=0
    while ((d<len(s)) and (s[d:d+3]!='ATG')):
        d+=1
    f=d+3
    while ((f<len(s)) and (s[f:f+3] not in ['TAA','TAG','TGA'])):
        f+=3
    if (f<len(s)):
        o=s[d:f+3]
    return o

In [2]:
def toto(x):
    y=None
    z=0
    while ((y<len(x)) and (x[z:z+3]!='ATG')):
        z+=1
    t=z+3
    while ((t<len(s)) and (x[t:t+3] not in ['TAA','TAG','TGA'])):
        t+=3
    if (t<len(s)):
        y=x[z:t+3]
    return y

## Docstrings

Les commentaires avec `"""` se nomment les docstrings et sont donc à réserver à l'usage des commentaires de fonction (et de modules), et pas pour commenter le code qu'on est en train d'écrire. Les docstrings sont interprétées par la fonction `help` de python.

In [3]:
def multiplie_nombres(nombre1, nombre2):
    """Multiplication de deux nombres entiers.

    Cette fonction ne sert pas à grand chose.

    Parameters
    ----------
    nombre1 : int
        Le premier nombre entier.
    nombre2 : int
        Le second nombre entier.

        Avec une description plus longue.
        Sur plusieurs lignes.

    Returns
    -------
    int
        Le produit des deux nombres.
    """
    return nombre1 * nombre2

In [4]:
help(multiplie_nombres)

Help on function multiplie_nombres in module __main__:

multiplie_nombres(nombre1, nombre2)
    Multiplication de deux nombres entiers.
    
    Cette fonction ne sert pas à grand chose.
    
    Parameters
    ----------
    nombre1 : int
        Le premier nombre entier.
    nombre2 : int
        Le second nombre entier.
    
        Avec une description plus longue.
        Sur plusieurs lignes.
    
    Returns
    -------
    int
        Le produit des deux nombres.



In [8]:
help(len)

Help on built-in function len in module builtins:

len(obj, /)
    Return the number of items in a container.



In [9]:
help(sorted)

Help on built-in function sorted in module builtins:

sorted(iterable, /, *, key=None, reverse=False)
    Return a new list containing all items from the iterable in ascending order.
    
    A custom key function can be supplied to customize the sort order, and the
    reverse flag can be set to request the result in descending order.



In [16]:
import random

def random_dna(length):
    """
    Returns a random DNA sequence.
    
    Parameters
    ----------
    length : int
        Length of the DNA sequence.
        
    Returns
    -------
    string
        A random DNA sequence. Empty if length <= 0.
    """
    return ''.join([random.choice(['A','C','T','G']) for _ in range (length)])

In [17]:
help(random_dna)

Help on function random_dna in module __main__:

random_dna(length)
    Returns a random DNA sequence.
    
    Parameters
    ----------
    length : int
        Length of the DNA sequence.
        
    Returns
    -------
    string
        A random DNA sequence. Empty if length <= 0.



In [18]:
random_dna(-3)

''

Les commentaires existent aussi dans les scripts `.py` qu'on va exécuter en ligne de commande.

In [5]:
"""Ce programme calcule les fréquences de chaque acide aminé d'une protéine donnée en argument.

Usage:
======
    python freq_aa.py argument

    argument: une chaîne de caractères correspondant à une séquence protéique
"""

__authors__ = ("Etudiants du master MISO")
__contact__ = ("miso@univ-lille.fr")
__version__ = "1.0.0"
__copyright__ = "copyleft"
__date__ = "2021/10"
__version__= "0.0.2"

import sys


# les constantes
AA_ALPHABET = ['A', 'R', 'N', 'D', 'C', 'Q', 'E', 'G', 'H', 'I', 'L', 'K', 'M', 'F', 'P', 'S', 'T', 'W', 'Y', 'V', 'X', 'Z', 'J', 'U']


# les fonctions
def number_of_aa (aa, protein):
    """
    Computes the number of given amino acid in a protein sequence.
    
    Parameters
    ----------
    aa : string
        an amino acid (should be one char)
    protein : string
        a protein sequence
        
    Returns
    -------
    int
        the number of aa 'aa' in 'protein'
    """
    cpt = 0
    for a in protein:
        if a == aa:
            cpt += 1
    return cpt


def most_frequent_aa (protein):
    """
    Computes the most frequent amino acid in a protein sequence.
    
    Parameters
    ----------
    protein : string
        a protein sequence
        
    Returns
    -------
    string
        the most frequent aa in 'protein'
    """
    cpt = 0
    m_f_aa = None
    for aa in AA_ALPHABET:
        c = number_of_aa (aa, protein)
        if c > cpt:
            cpt = c
            m_f_aa = aa
    return m_f_aa


# le programme principal
if __name__ == "__main__":
    for i in range(1,len(sys.argv)):
        p = sys.argv[i]
        print(most_frequent_aa(p))

None
L


## Hamming

In [6]:
"""This script computes the Hamming distance between two protein sequences. Both sequences must have the same length.

Usage:
======
    python hamming.py argument1 argument2

    argument1: a protein sequence as a string
    argument2: a protein sequence as a string
"""

__authors__ = "Etudiants du master MISO"
__contact__ = "miso@univ-lille.fr"
__version__ = "1.0.0"
__copyright__ = "copyleft"
__date__ = "2021/10"

import sys


# functions
def hamming(p1, p2):
    """
    Computes the Hamming distance between two protein sequences.
    Both sequences must have the same length.

    Parameters
    ----------
    p1 : string
        a protein sequence
    p2 : string
        a protein sequence

    Returns
    -------
    int
        the Hamming distance
    """
    distance = 0
    # to compute the hamming distance we compare letters at each position and add one to 'distance' when letters differ
    for i in range(len(p1)):
        if p1[i] != p2[i]:
            distance += 1
    return distance


# main program
if __name__ == "__main__":
    if len(sys.argv) != 3:
        print("Usage : python hamming.py argument1 argument2")
    else:
        p = sys.argv[1]
        q = sys.argv[2]
        if len(p) != len(q):
            print("Both sequences must have the same length")
        else:
            print(hamming(p, q))


Both sequences must have the same length


## Vérifier la qualité d'écriture

`pycodestyle` permet de tester l'écriture de son code

`pydoctyle` permet de tester l'écriture de la documentation