# Notebook séance 5

Sortir des Notebook.

[Chapitre 8](https://python.sdv.univ-paris-diderot.fr/08_modules/) sur les modules.

Le code Python est enregistré dans des fichiers `.py` qu'on peut exécuter en passant ce fichier en argument d'une commande `python` dans le terminal de commandes.

Python exécute alors les instructions les unes à la suite des autres.

Par exemple, supposons que notre fichier Python `carre.py` contienne :
```python
x = 3
y = x ** 2
print(y)
```
alors l'exécution donne :
```shell
$ python3 carre.py
9
$
```

## print or not print

Si par contre notre fichier Python `carre.py` contient :
```python
x = 3
y = x ** 2
y
```
alors l'exécution donne :
```shell
$ python3 carre.py
$
```
Rien n'est affiché puisque le calcul de `y` n'a pas été affiché.

Pour faire le lien avec les Notebook, tout ce qui est affiché dans les notebook précédé par `Out[]` écrit en rouge ne sera pas affiché dans le terminal. Seul ce qui est affiché avec `print` le sera.

Comparer :

In [1]:
x = 3
y = x ** 2
print(y)

9


In [2]:
x = 3
y = x ** 2
y

9

## Fonctions

On peut bien sûr définir des fonctions dans un fichier Python.

```python
def carre(x):
    return x ** 2
    
x = 3
y = carre(x)
print("Le carre de {} vaut {}".format(x,y))
```

Attention, les fonctions doivent être définies avant d'être utilisées.

```python
x = 3
y = carre(x)
print("Le carre de {} vaut {}".format(x,y))

def carre(x):
    return x ** 2
```
produira une erreur à l'exécution.

Il en va de même pour la composition de fonctions (fonctions qui en appellent d'autres : si `a` appelle `b` alors le code de `b` doit être écrit avant le code de `a`)

## Un exemple complet

On prend l'exemple du calcul de fréquences des acides aminés dans un peptide. 

Le fichier `freq_aa.py` contient :
```python
# les constantes
AA_ALPHABET = ['A', 'R', 'N', 'D', 'C', 'Q', 'E', 'G', 'H', 'I', 'L', 'K', 'M', 'F', 'P', 'S', 'T', 'W', 'Y', 'V', 'X', 'Z', 'J', 'U']

# les fonctions
def number_of_aa (aa, protein):
    """
    Input  : a protein sequence 'protein' given as a string and an amino acid 'aa' given as a string
    Returns: the number of aa 'aa' in 'protein'
    """
    cpt = 0
    for a in protein:
        if a == aa:
            cpt += 1
    return cpt

def most_frequent_aa (protein):
    """
    Input  : a protein sequence 'protein' given as a string
    Returns: the most frequent aa in 'protein'
    """
    cpt = 0
    m_f_aa = None
    for aa in AA_ALPHABET:
        c = number_of_aa (aa, protein)
        if c > cpt:
            cpt = c
            m_f_aa = aa
    return m_f_aa

# le programme principal
p = 'NFEYLEIRRLETHPDPTRSLLDDWQGRPGASVGRLLELLAKLGRDDVLVELGPS'
print(most_frequent_aa(p))

```

L'exécution donne :

```shell
$ python3 freq_aa.py
L
$ 
```

## Le programme principal

Le programme principal est le morceau de code exécuté par Python à la lecture du fichier. Par défaut c'est tout le code qui se trouve hors des fonctions.

Néanmoins, pour des raisons qu'on expliquera un peu plus tard lorsqu'on créera nos propres modules, il est conseillé de prendre l'habitude de mettre l'ensemble du code du programme principal dans une conditionnelle :

```python
if __name__ == "__main__":
    p = 'NFEYLEIRRLETHPDPTRSLLDDWQGRPGASVGRLLELLAKLGRDDVLVELGPS'
    print(most_frequent_aa(p))
```

Cela a à voir avec l'importation de modules. Si vous êtes impatients vous pouvez aller voir le [chapitre 14](https://python.sdv.univ-paris-diderot.fr/14_creation_modules/)

Il est dommage que si on veut tester sur différents peptides il faille modifier le programme.

Ce serait bien plus pratique de pouvoir écrire :
```shell
$ python3 freq_aa.py "NFEYLEIRRLETHPDPTRSLLDDWQGRPGASVGRLLELLAKLGRDDVLVELGPS"
```

Pour ce faire, on va utiliser le **module** Python qui s'appelle `sys` (nous avons déjà utilisé des modules : `random`).

`sys`fournit une variable qui se nomme `argv`:
```python
import sys
print(sys.argv)
```

L'exécution de ce code dans un fichier `argv.py` donne :
```shell
$ python3 argv.py un deux trois quatre cinq
['argv.py', 'un', 'deux', 'trois', 'quatre', 'cinq']
$
```

- sys.argv est la liste (au sens Python) des arguments
- `sys.argv[0]` contient le nom du programme exécuté
- `sys.argv[i]`, i > 0, contient le i-ème argument de la ligne de commande

On peut donc réécrire le programme `freq_aa.py` ainsi :

```python
import sys

...

# le programme principal
if __name__ == "__main__":
    p = sys.argv[1]
    print(most_frequent_aa(p))
```

Et l'exécution :
```shell
$ python3 freq_aa.py "NFEYLEIRRLETHPDPTRSLLDDWQGRPGASVGRLLELLAKLGRDDVLVELGPS"
L
```

## Exercices

### Exercice 1

Q1. Pour s'entraîner, créer un programme `randomDNA.py` qui génère une séquence aléatoire d'ADN dont la taille est passée en argument sur la ligne de commande.


Q2. Si l'utilisateur du programme n'indique rien sur la ligne de commande alors qu'il est attendu quelque chose cela produira une erreur puisque l'accès à `sys.argv[1]` (par exemple) produit une erreur d'accès. 

Modifier le programme précédent pour qu'il affiche un message à l'utilisateur si l'argument attendu n'est pas donné.

Q3. On propose maintenant de pouvoir ajouter un second argument optionnel qui représente un nom de fichier. Si cet argument est présent alors la séquence aléatoire est enregistrée au format Fasta dans le fichier du nom de l'argument. Sinon il est toujours affiché dans le terminal.

```shell
$ python3 randomDNA.py 20
GGATGCAGGTGAGAGCAGGATAGGA
$ python3 randomDNA.py 20 ma_sequence.fasta
$ cat ma_sequence.fasta
> ma_sequence.fasta
ATGCCGATGGATGTGAGACGACATT
```

Q4. Modifier enfin le programme pour que le nom de la séquence dans le fichier Fasta corresponde uniquement au nom du fichier, privé de son extension. On utilisera des fonctionalités du module `os` pour cela.

```shell
$ python3 randomDNA.py 20 /tmp/ma_sequence.fasta
$ cat /tmp/ma_sequence.fasta
> ma_sequence
ATGCCGATGGATGTGAGACGACATT
```


### Exercice 2

Q1. Ecrire un programme qui prend en argument deux chaînes de caractères et calcule la [distance de Hamming](https://python.sdv.univ-paris-diderot.fr/10_plus_sur_les_chaines_de_caracteres/#1075-distance-de-hamming) et l'affiche.

On prendra soin de vérifier le nombre d'arguments et que les deux chaînes sont de même longueur.

Q2. Reprendre le même programme mais qui cette fois prend en paramètres deux noms de fichier qui contiennent des séquences au format Fasta (on pourra utiliser l'exercice précédent pour générer des fichiers test).

Dans l'écriture du programme, il sera judicieux de créer une fonction pour les différentes tâches (lecture du fichier, calcul de la distance, et plus si vous trouvez cela utile). 


### Exercice 3

Q1. Ecrire un programme qui prend en argument une séquence d'ADN au format Fasta et une chaîne de caractères représentant un motif et calcule toutes les occurrences de ce motif dans la séquence. Le programme affichera sur la sortie standard (i.e. le terminal) la liste des positions d'occurrence.

```shell
$ python3 searchformotif.py ma_sequence.fasta ATG
1
7
11
```

Q2. Reprendre le même programme mais cette fois avec un troisième argument qui indique la distance de Hamming maximale autorisée pour décider de l'occurrence du motif (si la distance maximale est 0, cela revient à la question 1). En  plus, on affichera la partie correspondante de la séquence.

```shell
$ python3 searchformotif.py ma_sequence.fasta ATG 1
1 ATG
7 ATG
11 ATG
13 GTG
17 ACG
```

Q3. Sauriez-vous réécrire la même chose mais en utilisant le module `re` (voir la [documentation](https://docs.python.org/3/howto/regex.html))