# TP 2 : Optimisations et corrections
Dans le TP 1, nous avons proposé un petit morceau de code pour calculer un caractère de contrôle. Il marche, il peut même servir tel quel. Mais on peut peaufiner tout cela pour en faire quelque chose de plus performant, plus conforme aux bonnes pratiques de programmation python et d'appelable sous forme de script.

Un très grand merci à [mon cher collègue Thomas Ledoux](https://github.com/tledoux) pour l'accueil encourageant fait à cette petite initiative et ses suggestions constructives. Les évolutions décrites ici découlent pour une bonne partie de ses remarques.
## Le problème
### Appliquer les bonnes pratiques de style
Coder, c'est comme écrire : chacun a son style, lié à sa connaissance du langage et de ses subtilités, à ses préférences, à son expérience. Certains ont un style laconique jusqu'à l'ellipse, d'autres inutilement chargé. Bien entendu, lorsque l'on code à un certain niveau, il est souhaitable d'uniformiser un peu tout cela par des conventions qui aident à trouver un compromis entre concision et limpidité.

Certaines recommandations ont pour but d'éviter des problèmes très concrets, d'autres visent simplement à ce qu'un futur réutilisateur (soi-même, dans la majorité des cas) comprenne rapidement le sens du code et puisse le modifier adéquatement.

Le créateur de python, Guido van Rossum, a proposé un [guide de style](https://www.python.org/dev/peps/pep-0008/) qui traite à la fois de conventions orthographiques (des conventions de nommage) et de syntaxe. A sa lecture, vous devriez être capable de trouver toutes les fois (et elles sont nombreuses) où j'ai violé les règles...
### Corriger les problèmes de syntaxe
L'utilitaire, [PyLint](https://www.pylint.org/) permet d'analyser son code au regard des bonnes pratiques de style et de syntaxe. Si vous le lancez sur mon code, non seulement il relève certaines violations de règles citées ci-dessus, mais il fait aussi remonter quelques problèmes de syntaxe. Saurez-vous les identifier, les comprendre et les régler ?

Et juste pour le plaisir, il m'attribue la note infâmante de 2,9 sur 10. Bonnet d'âne, Bertrand.

En tout cas, je prendrai l'habitude de toujours lancer PyLint sur mon code avant de publier...
### Gérer les exceptions
Dans les fonctions de calcul d'indice d'un caractère de l'alphabet ARK et de calcul du caractère de contrôle, j'utilise une structure conditionnelle 'if' pour vérifier que l'entrée est acceptable. Dans la seconde fonction pa rexemple, il faut que tous les caractères fassent partie de l'alphabet. Cela fonctionne, mais n'est pas très efficace : à chaque appel de la fonction, la structure sera exécutée. Or il est probable que dans la majorité des cas, la chaîne sera conforme. On exécutera donc un 'if' systématiquement pour ne l'utiliser que dans une minorité de cas.

Il est en réalité plus efficace de considérer les cas inacceptables comme l'exception. Je vous propose donc de modifier le code pour utiliser les blocs try... except... comme décrit dans le chapitre [Gérer les exceptions](https://openclassrooms.com/fr/courses/235344-apprenez-a-programmer-en-python/231688-gerez-les-exceptions) du cours OpenClassrooms. 
### Ajouter commentaires et docstrings
Notre code n'est pas commenté du tout. Logique, puisque les notebooks en font office. Mais c'est toujours bien de rajouter des commentaires, voire des docstrings (des commentaires sur des fonctions ou méthodes qui seront renvoyés si l'utilisateur appelle à l'aide avec la fonction 'help(nom_de_ma_fonction)'. Il existe [une proposition](https://www.python.org/dev/peps/pep-0257/) (PEP, pour _Python Enhancement Proposal_) qui suggère une série de bonnes pratiques pour rédiger des docstrings, mais je me suis contenté du [digest](https://openclassrooms.com/fr/courses/235344-apprenez-a-programmer-en-python/235263-de-bonnes-pratiques) fait dans le cours d'OpenClassrooms.
### Utiliser des méthodes adaptées aux séquences 
Si vous consultez la [proposition PEP 20 _The Zen of python_](https://www.python.org/dev/peps/pep-0020/#the-zen-of-python) vous tomberez sur cet aphorisme : "Flat is better than nested". A plat, c'est mieux qu'imbriqué. N'y voyez aucun sous-entendu : c'est un principe d'écriture de code lisible qui rappelle que les boucles et les structures conditionnelles sont moins lisibles que le code "à plat", particulièrement si on les enchâsse les unes dans les autres.

Or certaines fonctions et méthodes dont j'ignorais l'existence quand j'ai écrit mon code permettent d'éviter ces structures, notamment la boucle qui me fournissait l'index d'un élément dans une séquence (une chaîne de caractères, une liste, un tuple). Cette méthode applicable aux séquences est 'index()'. Essayez de réécrire la méthode qui trouve l'indice d'un caractère dans l'alaphabet ARK BnF avec cette méthode.

De même, j'ignorais que la fonction 'enumerate()' s'appliquait à toutes les séquences, donc aux chaînes de caractères autant qu'aux listes. Assez pratique pour parcourir la chaîne de caractères ARK et faire des calculs qui prennent en compte l'index de chaque caractère. Essayez aussi de modifier la méthode de calcul en utilisant cette méthode.
### Utiliser le fichier en ligne de commande
Notre fichier est utilisable en l'état : si on l'ouvre avec IDLE (l'éditeur fourni par défaut avec python) par exemple et qu'on clique sur Run > Run module, on pourra entrer la commande 'chaineArkBnf('cb36251435').calculCaracControle()' et on obtiendra le résultat attendu. On peut aussi imaginer l'importer et appeler ses méthodes depuis un autre module python. Mais ce serait bien de pouvoir l'appeler par un script du type 'python ark.py cb33873627'. Si vous pataugez, les ressources suivantes devraient vous débloquer : [une section du cours OpenClassrooms](https://openclassrooms.com/fr/courses/235344-apprenez-a-programmer-en-python/231571-avancez-pas-a-pas-vers-la-modularite-2-2#/id/r-2231874) et [une de la documentation python](https://docs.python.org/fr/3.8/tutorial/modules.html#executing-modules-as-scripts).
## Solutions
A nouveau, vous trouverez le fichier final dans le même dossier, sous le nom 'ark_2.py'.
### Appliquer les bonnes pratiques de style
Je précise déjà qu'une des recommandations est d'écrire en anglais, et que je vais volontairement la violer, parce que l'objectif de mon code est davantage pédagogique que fonctionnel. Donc, nos noms de variables et de fonctions seront en français, tout comme nos commentaires et docstrings.

Les points problématiques sont les suivants :
* Quand on assigne une valeur à une variable, le signe '=' doit être entouré d'espaces. Il en manque un dans la déclaration de la variable de l'alphabet...
* Il n'y a pas à proprement parler de constantes dans python (des variables qu'on n'a pas vocation à changer). Néanmoins, il existe une convention de nommage pour ces variables globales déclarées au début du module, ce qui est le cas de la variable alphabet : on les écrit en majuscules...

In [38]:
ALPHABET = '0123456789bcdfghjkmnpqrstvwxz'

* La longueur des lignes est soumise à une exigence également : 79 caractères maximum (car la plupart des éditeurs semblent avoir adopté une largeur de fenêtre égale à 80 caractères, ce qui permet d'ouvrir deux fenêtres et de les juxtaposer), et 72 caractères pour les blocs de texte comme les docstrings. Or ma ligne 25 est trop longue ; on peut la raccourcir de plusieurs manières, l'une d'entre elles étant de segmenter le message en deux chaînes de caractères entre parenthèses, qui seront automatiquement concaténées :

In [40]:
msg = ("La chaîne n'est pas valide, "
       "les caractères {} ne figurent pas dans l'alphabet BnF.")

* les conventions de nommage des variables, des fonctions et des classes sont bien définies.
  * Les variables et les fonctions doivent être en snake case (minuscules avec des mots séparées par des underscores) : 'calcul_carac_controle', 'carac_invalides', etc.
  * Les classes en Pascal case (première lettre de chaque mot en majuscule, puis minuscules : 'ChaineArkBnf', ou plutôt 'ChaineARKBnF' puisque les sigles et acronymes doivent avoir des majuscules - quant à la bizarrerie du sigle BnF avec le 'n' minuscule, je ne m'étendrai pas dessus).
  * Les modules (autrement dit, les fichiers) doivent n'avoir que des minuscules et éventuellement des underscores. Je vais donc renommer mon fichier en 'ark_2.py'. 
* Pour séparer les classes, fonctions et variables de plus haut niveau, les règles nous suggèrent d'utiliser deux lignes blanches.
* J'ai utilisé des barres obliques inversées dans les chaînes de caractères pour échapper des apostrophes. C'est vrai que ça nuit un peu à la lisibilité, d'où le fait que l'on nous recommande d'utiliser les _double quotes_ pour encadrer une chaîne qui comporte des apostrophes sous forme de _simple quotes_.
* Dans le cas d'opérations mathématiques, on ne met pas d'espaces autour des opérateurs lorsqu'il s'agit d'une opération prioritaire :

In [41]:
a = 2*4 + 6 - (4+2)

est préférable à

In [42]:
a = 2 * 4 + 6 - (4 + 2)

* Une séquence vide est considérée comme "fausse" par python. Du coup, plutôt que d'écrire

In [43]:
sequence = []
if len(sequence) == 0:
    print('Liste vide')

Liste vide


il est plus concis d'écrire

In [44]:
if not sequence:
    print('Liste vide')

Liste vide


Semblablement, si je compare à un booléen, je n'ai pas besoin d'écrire

In [45]:
valide = True
if valide == True:
    print("C'est vrai")

C'est vrai


je peux me contenter (et c'est tout aussi clair à la lecture) de

In [46]:
valide = True
if valide:
    print("C'est vrai")

C'est vrai


### Corriger les problèmes de syntaxe
Pour illustrer les deux problèmes principaux relevés par PyLint, on va revoir la méthode 'valider()'. PyLint nous renvoie la remarque suivante :

'R: 22, 8: Unnecessary "else" after "return" (no-else-return)'

Il s'agit d'un avertissement assez récent, dont l'utilité est controversée. Il faut savoir que dans une fonction ou une méthode, le mot-clé 'return' coupe court à l'exécution de la fonction ; si vous mettez du code après, il ne sera pas exécuté. Donc dans le morceau de code suivant, le mot-clé 'else' est inutile puisque si la condition est vraie la fonction cesse d'exécuter le code.

In [47]:
test = False

def fonction():
    if test:
        return True
    else:
        return False

Il suffit donc d'écrire

In [48]:
def fonction():
    if test:
        return True
    return False

Mais plus globalement, cela montre un problème de mon code : mes fonctions ont une fâcheuse tendance à renvoyer des choses de nature différente selon la branche de la structure conditionnelle dans laquelle je me trouve. PyLint nous le fait savoir ainsi :

'Either all return statements in a function should return an expression, or none of them should. (inconsistent-return-statements)'

Je vais donc plutôt faire la chose suivante : je place le mot-clé 'return' à la fin de ma fonction et, dans les structures conditionnelles, je ne fais que définir la valeur de variables que je dois renvoyer. Ainsi, pour la méthode 'valider()', je renvoie un tuple avec un booléen et un message.

In [49]:
class ChaineARKBnF():
    def __init__(self, valeur=''):
        self.valeur = valeur

    def valider(self):
        invalides = []
        for carac in self.valeur:
            if carac not in ALPHABET:
                invalides.append(carac)
        if not invalides:
            valide = True
            msg = "La chaîne est valide au regard de l'alphabet BnF."
        else:
            valide = False
            msg = ("La chaîne n'est pas valide, les caractères {} "
            "ne figurent pas dans l'alphabet BnF.").format(set(invalides))
        return (valide, msg)

Au passage, vous remarquerez que j'ai changé ma manière d'insérer des variables dans les chaînes de caractères. J'écrivais, à l'ancienne

In [50]:
invalides = ['i', 'o']

"Les caractères %s ne figurent pas dans l'alphabet BnF." % invalides

"Les caractères ['i', 'o'] ne figurent pas dans l'alphabet BnF."

Selon la nouvelle manière, on utilise la méthode 'format()' qui permet la même chose (mais aussi des opérations de formatage fort utiles sur les chaînes de caractère, par exemple ajouter des zéros de tête à des nombres).

In [51]:
invalides = ['i', 'o']

"Les caractères {} ne figurent pas \
dans l'alphabet BnF.".format(invalides)

"Les caractères ['i', 'o'] ne figurent pas dans l'alphabet BnF."

### Appliquer les méthodes de séquences
La méthode 'index()' rend ma méthode pour trouver l'index d'un caractère ARK BnF obsolète : il suffit d'appliquer 'index()' à une séquence pour obtenir l'indice d'un élément passé en paramètre. 

In [52]:
ALPHABET.index('b')

10

On va pouvoir revoir ainsi la méthode calculCaracControle (renommée en 'calculer_controle') :

In [53]:
class ChaineARKBnF():
    def __init__(self, valeur=''):
        self.valeur = valeur

    def valider(self):
        invalides = []
        for carac in self.valeur:
            if carac not in ALPHABET:
                invalides.append(carac)
        if not invalides:
            valide = True
            msg = "La chaîne est valide au regard de l'alphabet BnF."
        else:
            valide = False
            msg = ("La chaîne n'est pas valide, les caractères {} "
            "ne figurent pas dans l'alphabet BnF.").format(set(invalides))
        return (valide, msg)
        
    def calculer_controle(self):
        valide = self.valider()
        if valide[0]:
            addition = 0
            for indice, carac in enumerate(self.valeur):
                addition += ALPHABET.index(carac) * (indice+1)
            controle = ALPHABET[addition % 29]
            return controle
        return valide[1]

### Gérer les exceptions
On reprend la méthode 'calculer_controle' ci-dessus pour essayer ('try') de calculer notre caractère de contrôle. Si on tombe sur une erreur, on appelle la méthode 'valider()' qui se chargera de renvoyer un message explicite d'erreur.

Le mot-clé 'except' est ici suivi de 'ValueError' qui indique le type d'erreur qu'on s'attend à obtenir si l'utilisateur tente de calculer un caractère de contrôle sur une chaîne dont un des caractères ne fait pas partie de l'alphabet.

In [54]:
import sys

class ChaineARKBnF():
    def __init__(self, valeur=''):
        self.valeur = valeur

    def valider(self):
        invalides = []
        for carac in self.valeur:
            if carac not in ALPHABET:
                invalides.append(carac)
        if not invalides:
            valide = True
            msg = "La chaîne est valide au regard de l'alphabet BnF."
        else:
            valide = False
            msg = ("La chaîne n'est pas valide, le(s) caractère(s) {} "
            "ne figurent pas dans l'alphabet BnF.").format(set(invalides))
        return (valide, msg)
        
    def calculer_controle(self):
        try:
            addition = 0
            for indice, carac in enumerate(self.valeur):
                addition += ALPHABET.index(carac) * (indice+1)
            controle = ALPHABET[addition % 29]
            return controle
        except ValueError:
            valide = self.valider()
            if not valide[0]:
                print(valide[1], file=sys.stderr)
            return ''

Vous remarquerez qu'on importe le module 'sys' pour pouvoir renvoyer les erreurs vers un canal standard. Je ne m'étendrai pas là-dessus parce que je n'ai pas encore bien compris ce mécanisme.

### Utiliser le fichier en ligne de commande
Je vous donne tout de suite le résultat, et je le commente ensuite.

In [57]:
def main(args):
    valeur = args[1] if len(args) > 1 else "t3st"
    chaine = ChaineARKBnF(valeur)
    controle = chaine.calculer_controle()
    msg = "Pour {}, le caractère de contrôle est {}"
    print(msg.format(valeur, controle))

    
if __name__ == '__main__':
    main(sys.argv)

Pour -f, le caractère de contrôle est 


La chaîne n'est pas valide, le(s) caractère(s) {'-'} ne figurent pas dans l'alphabet BnF.


Commençons par la structure conditionnelle finale. Comme indiqué dans la ressource que je vous ai signalée, on définit une structure conditionnelle de haut niveau qui va tester si le fichier est exécuté (à la différence d'un module qui serait simplement importé). Si c'est le cas - et ça l'est si on appelle le fichier en ligne de commande par 'python ark_2.py' -, il exécute un morceau de code.

Regardons ensuite la fonction principale ('main'). 'sys.argv' nous a envoyé en paramètre de la fonction une liste dont le premier élément est le nom du script. Les arguments sont les éléments suivants. On va donc récupérer le premier argument si l'utilisateur a bien spécifié une chaîne, sinon on utilise par défaut la chaîne 't3st'. Puis on instancie la classe 'ChaineARKBnF' avec pour attribut 'valeur' l'argument de la ligne de commande. On appelle la fonction de calcul du caractère de contrôle, on définit un message et on le renvoie en lui intégrant la chaîne et le caractère de contrôle.

Vous remarquerez d'ailleurs que, lorsque ce code est exécuté via le notebook Jupyter, il l'est avec en premier argument '-f', ce qui donne le résultat un peu étrange que vous avez sous les yeux, puisque notre fichier est prévu pour être exécuté avec une chaîne ARK comme paramètre.