# Chapitre 10 : "Quelques techniques avancées de programmation"

***

<div class="alert alert-success">
<blockquote>
**« _Informatique : rencontre de la logique formelle et du fer à souder._ »**
<p>
Maurice Nivat
</p>
</blockquote>
</div>


***

<div class="alert alert-danger">
**CE QU'IL FAUT RETENIR**
</div>

**Techniques procédurales**

- L'introspection permet d'avoir des informations sur les données manipulées au moment de l'exécution.
- Les gestionnaires de contexte offrent une sécurité en mettant en place des blocs de code assurant que l'appel du code de *finition* est bien réalisé dans tous les cas.
- Les fonctions récursives facilitent des traitements sur des données imbriquées en arborescence.
- Les expressions en compréhension des listes, dictionnaires et ensembles permettent d'avoir une syntaxe simple réalisant implicitement des boucles de calcul pour construire les valeurs.
- Les générateurs en compréhension permettent, avec le même genre de syntaxe, de produire des valeurs au fur et à mesure des besoins.
- La définition de fonctions incluses couplées à la fermeture (capture de données du contexte) permet de produire des fonctions paramétrées adaptées au besoin.
- Les décorateurs offrent un moyen d'enrichir les définitions de fonctions ou de classes par des mécanismes communs.

**Techniques objets**

- Les fonctions sont des objets de premier niveau, manipulables comme toute donnée.
- Outre la définition par `def`, on distingue plus largement les *functors* : il est possible de donner à des objets le comportement de fonctions.
- Les accesseurs permettent de définir des méthodes qui seront appelées lorsque des attributs particuliers seront accédés en lecture ou en modification.
- Le duck typing consiste à s'affranchir de la définition stricte d'une hiérarchie de type en considérant qu'il suffit qu'un objet fournisse la bonne *interface* (les bonnes méthodes) pour qu'il soit utilisable.

**Techniques fonctionnelles**

- Autre *functor*, les fonctions-expressions `lamda`.
- Les opérateurs issus de la programmation fonctionnelle, `map`, `filter` et `reduce`, sont disponibles en Python (mais on leur préfère souvent les expressions en compréhension).
- L'application partielle de fonction (PFA) permet de créer des raccourcis pour des fonctions, fournissant d'office certains paramètres.
- La programmation fonctionnelle pure consiste à définir des fonctions dont le résultat ne dépend que de leurs paramètres, et qui n'ont aucun effet de bord (ne touchent ni les globales, ni leurs paramètres). Cela permet de définir des fonctions facilement vérifiables.

**Persistance et sérialisation**

- La sérialisation est la représentation des données sous forme de flots d'octets interprétables.
- La persistance est l'enregistrement de ces flots d'octets sur un support permettant la relecture ultérieure.
- Pickle et JSON sont deux des formats possibles pour la persistance des données en Python ; Pickle est limité au monde Python mais JSON permet d'échanger des données avec d'autres langages de programmation.
- Les bases de données relationnelles et la librairie légère `sqlite3` sont aussi un moyen de stocker des données d'une façon structurée et lisible par d'autres langages de programmation.

**Tests**

- Tests unitaires pour vérifier qu'une fonction réalise bien le service qui est attendu.
- Tests fonctionnels pour vérifier qu'un programme complet offre les services pour lequel il a été écrit, qu'il respecte bien le *cahier des charges*.
- Python offre des outils pour automatiser ces tests.

**Documentation des sources**

- Les documentations des modules / classes / fonctions / méthodes, directement dans les fichiers sources, peuvent être enrichies avec des fichiers de documentation externe.
- Le format reStructuredText (reST) permet d'écrire la documentation avec une syntaxe textuelle simple, à partir de laquelle différents formats de sortie peuvent être générés.
- Cette documentation peut contenir des exemples d'utilisation qui font partie de tests.

***

### exo10_01

Utiliser une liste en compréhension pour ajouter 3 à chaque élément d’une liste d’entiers impairs inférieurs à 20, mais seulement si l’élément est supérieur ou égal à 8. Afficher la liste.

In [None]:
# exo10_01

### exo10_02

Utiliser une liste en compréhension pour calculer la somme d’une liste d’entiers de 0 à 9. Afficher la liste.

In [None]:
# exo10_02

### exo10_03

Utiliser deux boucles `for` imbriquées dans une liste en compréhension pour obtenir la liste :
```python
['ad', 'ae', 'bd', 'be', 'cd', 'ce']
```
à partir des chaînes `"abc"` et `"de"`.

Afficher la liste.

In [None]:
# exo10_03

### exo10_04

Écrire une fonction `compterMots(nom_fichier)` qui renvoie un dictionnaire contenant la fréquence de tous les mots du fichier texte passé en argument. On utilisera, par exemple, le fichier `bateauivre.txt` (`"../chapitre_05/indata_exo05_bateauivre.txt"`).

In [None]:
# exo10_04

### exo10_05 <font color="red">*</font>

Pour faire des calculs sur les matrices carrées, on peut utiliser la structure de données "liste de listes" et indexer un élément de la 3<sup>e</sup> ligne et 4<sup>e</sup> colonne de la matrice `m` par `m[2][3]` (compte tenu du fait que les indices commencent à 0).

On déclare trois matrices carrées de dimension $N$ : `m1`, `m2` et `m3` contenant des entiers.  
On affecte `m1`, ligne à ligne, par les $N^2$ premiers entiers pairs commençant à 2 ; `m2` est la matrice unité, c’est-à-dire qu’elle contient des 1 sur la diagonale principle (NW-SE) et des 0 partout ailleurs.

Calculer et afficher `m3 = m1 − m2` pour $N = 5$.

In [None]:
# exo10_05

### exo10_06 <font color="red">**</font>

Il s'agit de traduire un brin d'ADN en une chaîne d'acides aminés.
Pour cela, on va découper la séquence en **codons**, c'est-à-dire en triplets de 3 bases (pour nous en chaînes de 3 caractères), puis, à l'aide du dictionnaire fourni (le "code génétique"), nous allons construire la chaîne d'acides aminés correspondante.

Voici le **code génétique**, la correspondance entre un codon et un acide aminé :
```python
lookup_table = {
    'UUU': 'F', 'UCU': 'S', 'UAU': 'Y', 'UGU': 'C',
    'UUC': 'F', 'UCC': 'S', 'UAC': 'Y', 'UGC': 'C',
    'UUA': 'L', 'UCA': 'S', 'UAA': '#', 'UGA': '#',
    'UUG': 'L', 'UCG': 'S', 'UAG': '#', 'UGG': 'W',
    'CUU': 'L', 'CCU': 'P', 'CAU': 'H', 'CGU': 'R',
    'CUC': 'L', 'CCC': 'P', 'CAC': 'H', 'CGC': 'R',
    'CUA': 'L', 'CCA': 'P', 'CAA': 'Q', 'CGA': 'R',
    'CUG': 'L', 'CCG': 'P', 'CAG': 'Q', 'CGG': 'R',
    'AUU': 'I', 'ACU': 'T', 'AAU': 'N', 'AGU': 'S',
    'AUC': 'I', 'ACC': 'T', 'AAC': 'N', 'AGC': 'S',
    'AUA': 'I', 'ACA': 'T', 'AAA': 'K', 'AGA': 'R',
    'AUG': 'M', 'ACG': 'T', 'AAG': 'K', 'AGG': 'R',
    'GUU': 'V', 'GCU': 'A', 'GAU': 'D', 'GGU': 'G',
    'GUC': 'V', 'GCC': 'A', 'GAC': 'D', 'GGC': 'G',
    'GUA': 'V', 'GCA': 'A', 'GAA': 'E', 'GGA': 'G',
    'GUG': 'V', 'GCG': 'A', 'GAG': 'E', 'GGG': 'G',
}
```

La chaîne d'ADN à traduire est dans le fichier texte `"indata_exo10_adn.txt"` dont on lira le contenu.

Écrire une première fonction `translate_dna_to_rna(dna)` qui traduise cette chaîne d'ADN en ARN en remplaçant toutes les bases `'T'` en base `'U'`.

Écrire une seconde fonction `translate_rna_to_amino_acids(rna)` qui effectue la traduction demandée. À l'aide du dictionnaire du code génétique, découper l'ARN en codons et construire la chaîne d'acides aminés résultante. 
Si la chaîne d'ARN en entrée ne comporte pas un nombre de bases multiple de 3, ignorer les lettres superflues en fin de chaîne.

In [None]:
# exo10_06

### exo10_07 <font color="red">**</font>

Il s'agit de produire l'**index** d'une séquence d'ADN (pour nous, d'une chaîne de caractères), c'est-à-dire que l'on veut afficher toutes les positions de tous les triplets issus d'une chaîne.

Par exemple, à partir de la chaîne `"CCTAGTCTAG"`, on peut, par décalage, extraire tous les triplets qu'on stocke de façon  **unique** :
```python
'CCT'
'CTA'
'TAG'
'AGT'
'GTC'
'TCT'
```
Dans notre chaîne d'exemple, ils apparaissent respectivement aux positions :
```python
(1,)
(2, 7)
(3, 8)
(4,)
(5,)
(6,)
```

Écrire une fonction `indexMots(seq)` qui reçoit une séquence d'ADN et retourne un dictionnaire (l'**index**) dont les clés sont les triplets de la séquence et les valeurs un tuple des positions correspondantes.

Afficher l'index de la séquence :
```python
s = 'TTGATCGTATGTCGTCAT'
```

In [None]:
# exo10_07

### exo10_08 <font color="red">*</font>

On se propose d'extraire le premier chiffre significatif de nombres contenus dans un fichier de données (positives) en utilisant une *expression régulière*.

Plus précisément, le fichier `indata_exo10_re.txt` est constitué de lignes, chacune contenant des nombres dont il faut extraire le premier chiffre. S'il s'agit d'un chiffre significatif (donc différent de 0), on va stocker sa fréquence dans un tableau. Le tableau `freq` contient donc 9 clés (`1`, `2`... `9`) et chaque clé est associée à une valeur, sa fréquence, c'est-à-dire, au nombre de fois où ce chiffre significatif aura été extrait.

On demande d'afficher ce tableau

In [None]:
# exo10_08

### exo10_09

La [distance de Hamming](https://fr.wikipedia.org/wiki/Distance_de_Hamming) entre deux séquences nucléotidiques (pour nous, entre deux chaînes de caractères) est simplement le nombres de différences entres les caractères de même indice de deux séquences.

Par exemple : `hamming("AATCGC", "ACTCGG") = 2`, car les 2<sup>e</sup> et 6<sup>e</sup> caractères diffèrent.  
On note $D("AATCGC", "ACTCGG") = 2$.

On donne 3 séquences :
```python
s1 = 'TTGCATTGCTTAGGCATA'
s2 = 'TTGCGTTGCTTAGCCATA'
s3 = 'TTGCAGTCCTTAGGCATT'
```
On demande de calculer les distances de Hamming $D(s1, s2)$, $D(s2, s3)$ et $D(s1, s3)$.

On vérifiera sur l'exemple que $D$ est bien une [distance](https://fr.wikipedia.org/wiki/Distance_de_Hamming#Distance) au sens mathématique, à savoir qu'elle vérifie les propriétés :

- $D(s1, s1) = 0$
- $D(s1, s2) = D(s2, s1)$
- $D(s1, s2) + D(s2, s3) ≥ D(s1, s3)$

In [None]:
# exo10_09

### exo10_10 <font color="red">**</font>

On se propose de calculer **récursivement** la [distance de Hamming](https://fr.wikipedia.org/wiki/Distance_de_Hamming) entre deux chaînes de caractères.

Écrire une fonction récursive `hamming(s, t)` qui reçoit deux chaînes de caractères et retourne leur distance de Hamming.

On donne le pseudo-code de cette fonction :

```text
fonction Hamming(s, t : chaine) retourne entier
    si long(s) = 0
        retourne long(t)
    sinonsi long(t) = 0
        retourne long(s)
    sinon
        distance <- 0
        
    si s[long(s) - 1] != t[long(t) - 1]
        // les deux derniers caractères sont différents
        distance <- 1
        
    d1 <- Hamming(s[long(s) - 1], t) + 1
    d2 <- Hamming(s, t[long(t) - 1]) + 1
    d1 <- Hamming(s[long(s) - 1], t[long(t) - 1]) + distance
    
    retourne min(d1, d2, d3)
```

Calculer la distance de Hamming entre `s = "ramer"` et `t = "cases"`.

In [None]:
# exo10_10

### exo10_11  <font color="red">**</font>

**Note :** Reprise de l'exercice 06_12.

À partir d'un entier *N* de 4 chiffres non nuls pas tous égaux (on peut avoir plusieurs chiffres égaux, mais pas tous les 4 en même temps), on génère par permutation des chiffres le plus grand (*PG*) et le plus petit (*PP*) entier et on calcule le nouvel entier *N = PG* $-$ *PP*.
		
On itère le processus jusqu'à obtenir la constante : 6174 (appelé ["constante de Kaprekar"](https://fr.wikipedia.org/wiki/Dattatreya_Ramachandra_Kaprekar))
		
Par exemple : 
- 7068 => (8760 $-$ 678) = 8082 => (8820 $-$ 288) = 8532 => (8532 $-$ 2358) = **6174**
- 5379 => (9753 $-$ 3579) = ** 6174 **

Dans cet exercice, au lieu d'utiliser la fonction standard Python de permutation donnée à l'exercice 06_12, on demande d'écrire cette fonction de permutation sous forme récursive.

In [None]:
# exo10_11