S'il y a bien quelque chose que l'on r√©p√®te souvent lorsqu'il s'agit du d√©veloppement de code source, c'est de **coder proprement**. Oui mais, comment faire ? Comment d√©cide-t-on de la ¬´ propret√© d'un code ¬ª ? Existe-il des conventions, des normes et si oui, qu'elles sont-elles ?

Autant de question que nous allons aborder deux concepts de programmation, pas si r√©cents mais toujours aussi important de nos jours : le **linting** et le **refactoring** !

<blockquote><p>üôã <b>Ce que nous allons faire</b></p>
<ul>
    <li>D√©couvrir la norme PEP 8 du langage Python</li>
    <li>Effectuer une analyse statique de code avec <code>flake8</code></li>
    <li>Utiliser un formateur de code avec <code>black</code></li>
</ul>
</blockquote>

<img src="https://media.giphy.com/media/h1zJMhT5XOT927e0aw/giphy.gif" />

## La norme PEP 8

Si tu as d√©j√† recherch√© de l'aide sur Google par rapport √† un probl√®me Python, peut √™tre que l'expression *PEP 8* ne t'es pas √©trang√®re. Et pour cause : il s'agit de la norme Python qui sp√©cifie quelles sont les bonnes pratiques en terme de style de code.

> ‚ùì Pourquoi 8 ? Et d'ailleurs, √ßa veut dire quoi PEP ?

Revenons √† l'origine du langage Python : il a √©t√© initialement construit par une personne, Guido van Rossum, en 1991. Bien √©videmment, au fur et √† mesure que le langage gagne en popularit√©, de plus en plus de d√©veloppeurs exp√©riment√©s viennent pr√™ter main forte √† Guido pour am√©liorer le langage Python et y ajouter de nouvelles fonctionnalit√©s.

Mais voil√†, comment s'organiser correctement lorsque des dizaines, centaines voir milliers de personnes travaillent ensemble ? Dans la plupart du temps, le plus simple est le **commentaire** : un utilisateur souhaite qu'une nouvelle fonctionnalit√© soit pr√©sente, il va donc proposer une am√©lioration, la justifier et la d√©tailler. Habituellement, on appelle cela des **RFC** (*Requests for comments*), et ces demandes sont centralis√©es dans des documents de sp√©cifications techniques.

**PEP** (pour *Python Enhancement Proposals*), c'est justement les propositions d'am√©liorations pour le langage Python. Et <a href="https://www.python.org/dev/peps/pep-0008/" target="_blank">PEP 8</a>, c'est donc la huiti√®me proposition d'am√©lioration (ordre chronologique) qui fut √©mise en juillet 2001. Et PEP 8, dont le nom est **Style Guide for Python Code**, fournit un v√©ritable guide sur diverses bonnes pratiques.

- Structurer efficacement son code (espaces, retours √† la ligne, taille maximum de ligne).
- Adopter les conventions de nommage des variables.
- Commenter correctement son code.
- Utiliser la Docstring pour cr√©er une documentation (extension via <a href="https://www.python.org/dev/peps/pep-0257/" target="_blank">PEP 257</a>).

Suivre la PEP 8, c'est **suivre les recommandations officielles** pour √©crire du code qui respecte un format adopt√© par le plus grand nombre.

<div class="alert alert-block alert-info">
    Cette norme n'est pas rigide dans le sens o√π certains projets peuvent s'affranchir de certaines contraintes (comme la taille maximale d'une ligne, fix√©e √† 79 par d√©faut pour PEP 8).
</div>

Prenons comme exemple les premi√®res sp√©cifications dans <a href="https://www.python.org/dev/peps/pep-0008/#indentation" target="_blank">Code Lay-out</a> pour l'indentation.

<img src="https://blent-learning-user-ressources.s3.eu-west-3.amazonaws.com/training/ml_engineer_facebook/img/pep8_1.jpg" />

Cette premi√®re r√®gle statue que les arguments d'une fonction, lorsqu'il y a un saut de ligne, doivent √™tre align√©s sur la m√™me colonne que celui du premier argument.

In [None]:
def fonction(a, b, c, d):
    return a * b * c * d

Supposons que je saute une ligne entre l'argument `b` et l'argument `c` pour appeler cette fonction.

In [None]:
# Pas bien car les arguments ne sont pas align√©s en colonne
resultat = fonction(1, 2,
                   3, 4)
# Bien
resultat = fonction(1, 2,
                    3, 4)

Dans la premi√®re √©criture, le troisi√®me argument $3$ n'est pas align√© avec le premier argument $1$ alors qu'il y a eu un saut de ligne : elle ne respecte donc pas PEP 8. La deuxi√®me √©criture, en revanche, respecte correctement PEP 8 puisque les deux arguments sont align√©s √† la bonne colonne.

Autre exemple, si cette fois-ci nous effectuons un retour √† la ligne **en premi√®re indentation**.

In [None]:
# Pas bien car les arguments le premier argument n'est pas align√© en colonne du saut de ligne
resultat = fonction(1, 2,
    3, 4)

# Bien
resultat = fonction(
    1, 2,
    3, 4)

Ici, m√™me constat, les arguments ne sont pas align√©s. Si l'on souhaite donc ramener √† une indentation suppl√©mentaire (qui √©tait de base √† 0 car la variable `resultat` est √† la toute premi√®re colonne), il faut donc privil√©gier la deuxi√®me √©criture.

Par ailleurs, PEP 8 est strict concernant l'indentation : **utiliser 4 espaces par niveau d'identation**. M√™me s'il est possible d'utiliser les deux, les espaces constituent la m√©thode d'indentation pr√©f√©r√©e.

<div class="alert alert-block alert-warning">
    Attention √† ne pas m√©langer le caract√®re de tabulation et les 4 espaces dans un seul et m√™me fichier, car le programme ne pourra pas √™tre ex√©cut√©.
</div>

Autre exemple de recommandations : **les espaces dans les expressions**. Pour PEP 8, les r√®gles suivantes doivent √™tre respect√©es.

- Toujours un espace apr√®s et jamais avant une virgule pour s√©parer les arguments ou les cl√©s des valeurs.
- Jamais d'espace entre les crochets d'une liste ou d'un dictionnaire.
- Toujours un espace avant et apr√®s les conditions binaires (op√©rations math√©matiques, conditions).
- Jamais d'espace avant ou apr√®s les parenth√®ses.

Il ne s'agit que de quelques exemples, que l'on retrouve en-dessous.

In [None]:
l = range(10)

# Pas bien
var1,var2 = l[1 ],{ 'var' : 4 }

# Bien
var1, var2 = l[1], {'var': 4}

> ‚ùì Il faut donc toujours relire son code ?

En th√©orie, oui. Mais il y a deux points qui vont nous aider.

- En tant qu'humain, nous avons une capacit√© de mim√©tisme tr√®s d√©velopp√©e. √Ä force de regarder des codes propres sur Internet et de pratique soi-m√™me, on finit par adopter automatiquement les bonnes pratiques.
- Et comme l'erreur est humaine, on s'allie √©galement d'outils qui vont v√©rifier si notre code est propre.

Et cet outil qui va nous aider, c'est le **linting**.

## Linting avec `flake8`

Le concept de linting est d√©riv√© un logiciel UNIX qui s'appelle **lint**. Cette commande est utilis√©e pour le langage C afin d'en faire une **analyse statique**. L'objectif de l'analyse statique, c'est d'obtenir des informations sur le comportement des programmes sans les ex√©cuter. En particulier, cela permet de d√©tecter les erreurs de syntaxe et de style (que l'on retrouve sous plusieurs langages).

Sous Python, il existe notamment deux *linter* : `pylint` et `flake8`. Ces linters vont se baser notamment sur PEP 8 (mais pas que) pour d√©tecter les erreurs dans le code. √Ä noter qu'il est aussi possible de d√©finir ses propres sp√©cifications sur des syntaxes ou styles de code √† √©viter.

Cr√©ons le fichier `/tmp/flake8_1.py` avec le code suivant.

In [None]:
%%writefile /tmp/flake8_1.py
l= range(10 )
var1,var2 = l[1 ],{ 'var' : 4 }

Combien y a-t-il d'erreurs PEP 8 dans ces deux lignes ? Voyons ce que `flake8` en dit.

In [None]:
!flake8 /tmp/flake8_1.py

Il y a beaucoup d'erreurs ! Les erreurs `E2XX` sont li√©es √† des espaces, car elles sont majoritairement pr√©sentes dans ces deux lignes. L'erreur `E741`, stipule que nommer une variable `l` n'est pas assez explicite (car avec une seule lettre, difficile de savoir √† long-terme de quoi il s'agit).

Corrigeons toutes ces erreurs.

In [None]:
%%writefile /tmp/flake8_1.py
liste = range(10)
var1, var2 = l[1], {'var': 4}

Ex√©cutons √† nouveau `flake8`.

In [None]:
!flake8 /tmp/flake8_1.py

Un nouveau type d'erreur appara√Æt : `F821`. F signifie Fatal, indiquant que cette erreur emp√™cherait m√™me l'ex√©cution du programme ! Et pour cause, puisque l'on n'a renomm√© `l` en `liste`, la variable `l` n'existe pas. Pourtant, on y acc√®de √† la deuxi√®me ligne.

In [None]:
%%writefile /tmp/flake8_1.py
liste = range(10)
var1, var2 = liste[1], {'var': 4}

In [None]:
!flake8 /tmp/flake8_1.py

Nous avons maintenant plus aucune erreur. Regardons un autre exemple.

In [None]:
%%writefile /tmp/flake8_2.py
import os, sys

filename = open(os.path.join("/home", "/fichier.txt"))

In [None]:
!flake8 /tmp/flake8_2.py

Ici, il y a deux probl√®mes. Le module `sys` est import√© alors qu'il n'est pas utilis√© √† un seul moment. Ensuite, nous avons effectu√© plusieurs importations de modules diff√©rents sur la m√™me ligne, ce qui n'est pas autoris√© par PEP 8.

In [None]:
%%writefile /tmp/flake8_2.py
import os
import sys

filename = open(os.path.join("/home", "/fichier.txt"))
sys.exit()

In [None]:
!flake8 /tmp/flake8_2.py

L√†-aussi, les erreurs ont √©t√© corrig√©es.

Dans certains cas, il est aussi possible d'exclurer certaines erreurs ou avertissements en invoquant le param√®tre `--ignore`. Par exemple, si nous supposons que des importations sur la m√™me ligne sont autoris√©es, nous pouvons exclurer l'erreur associ√©e, √† savoir `E401`.

In [None]:
%%writefile /tmp/flake8_2.py
import os, sys

filename = open(os.path.join("/home", "/fichier.txt"))

In [None]:
!flake8 --ignore E401 /tmp/flake8_2.py

Ainsi, la pr√©sence ou non de cette erreur ne viendra plus perturber l'analyse statique effectu√©e par `flake8`. La liste d√©taill√©e des codes d'erreurs et d'avertissements <a href="https://pycodestyle.pycqa.org/en/latest/intro.html#error-codes" target="_blank">est accessible ici</a>.

## Refactoring avec `black`

Le **refactoring** (que l'on nomme en fran√ßais r√©usinage de code mais avouons que cela est moins classe) consiste √† modifier le code source sans ajouter de nouvelles fonctionnalit√©s ni corriger des bugs. Concr√®tement, dans le cadre de Python, le refactoring va corriger les erreurs PEP 8 qui peuvent √™tre corrig√©es sans alt√©rer le fonctionnement du code.

Par exemple, placer les bons niveaux d'indentation, ajouter ou supprimer des espaces ou encore respecter une taille maximale de caract√®res par ligne sont des op√©rations qui peuvent √™tre effectu√©s par du refactoring **de mani√®re automatis√©e**. En revanche, d'autres comme le nommage des variables ou les importations de librairies n√©cessitent l'attention du d√©veloppeur, puisque automatiser ces modifications pourraient, au contraire, g√©n√©rer des erreurs.

Sous Python, l'utilitaire `black` permet de refactorer automatiquement un code Python. Par d√©faut, lorsque c'est possible, `black` va reformater le code d'un fichier Python selon PEP 8, sauf s'il d√©tecte une erreur fatale qu'il ne pourra corriger (dans ce cas, nous serons avertis de l'erreur).

Reprenons le code pr√©c√©dent.

In [None]:
%%writefile /tmp/black_1.py
l= range(10 )
var1,var2 = liste[1 ],{ 'var' : 4 }

Pour ex√©cuter `black`, il suffit de renseigner le chemin d'acc√®s au fichier dont on souhaite refactorer le contenu.

In [None]:
!black /tmp/black_1.py
print(open("/tmp/black_1.py", "r").read())

D'apr√®s ce que nous voyons, le refactoring a fonctionn√©.

> ‚ùì Pourquoi <code>black</code> n'a pas d√©tect√© que la variable <code>liste</code> n'est pas d√©finie ?

Tout simplement parce que `black` fait du **refactoring de code** : il ne va pas toucher ou s'int√©resser aux noms des variables, aux importations, etc. Ce qui l'int√©resse, ce sont les indentations, les espaces ou, de mani√®re g√©n√©rale, l'agencement des caract√®res.

En revanche, d'autres recommandations PEP 8, comme le nommage des variables, ne sera pas modifi√© par `black`. C'est donc tout l'int√©r√™t ici d'utiliser `black` pour reformater le code, puis ensuite utiliser `flake8` pour v√©rifier que le code reformat√© respecte bien PEP 8.

Un autre exemple ici, que nous avions utilis√© lors de l'optimisation bay√©sienne pour LightGBM.

In [None]:
%%writefile /tmp/black_2.py
from lightgbm.sklearn import LGBMClassifier
from hyperopt import hp, tpe, fmin
MODEL_SPECS = {
    "name": "LightGBM",
    "class": LGBMClassifier,
    "max_evals": 20,
    "params": {
        "learning_rate": hp.uniform("learning_rate", 0.001, 1),
        "num_iterations": hp.quniform("num_iterations", 100, 1000, 20),
        "max_depth": hp.quniform("max_depth", 4, 12, 6),
        "num_leaves": hp.quniform("num_leaves", 8, 128, 10),
        "colsample_bytree": hp.uniform("colsample_bytree", 0.3, 1),
        "subsample": hp.uniform("subsample", 0.5, 1),
        "min_child_samples": hp.quniform("min_child_samples", 1, 20, 10),
        "reg_alpha": hp.choice("reg_alpha", [0, 1e-1, 1, 2, 5, 10]),
        "reg_lambda": hp.choice("reg_lambda", [0, 1e-1, 1, 2, 5, 10]),
    },
    "override_schemas": {
        "num_leaves": int, "min_child_samples": int, "max_depth": int, "num_iterations": int
    }
}

In [None]:
!black /tmp/black_2.py
print(open("/tmp/black_2.py", "r").read())

Ici, `black` a rajout√© une ligne entre les importations de librairies et la variable `MODEL_SPECS`. De plus, un retour chariot a √©t√© appliqu√© √† chaque cl√©/valeur du champ `override_schemas`, car la ligne des cl√©s/valeurs d√©passait les $79$ caract√®res.

Avec l'argument `-l`, nous avons la possibilit√© d'ignorer la limitation des $79$ caract√®res par ligne pour augmenter √† une plus grande taille.

In [None]:
%%writefile /tmp/black_2.py
from lightgbm.sklearn import LGBMClassifier
from hyperopt import hp, tpe, fmin
MODEL_SPECS = {
    "name": "LightGBM",
    "class": LGBMClassifier,
    "max_evals": 20,
    "params": {
        "learning_rate": hp.uniform("learning_rate", 0.001, 1),
        "num_iterations": hp.quniform("num_iterations", 100, 1000, 20),
        "max_depth": hp.quniform("max_depth", 4, 12, 6),
        "num_leaves": hp.quniform("num_leaves", 8, 128, 10),
        "colsample_bytree": hp.uniform("colsample_bytree", 0.3, 1),
        "subsample": hp.uniform("subsample", 0.5, 1),
        "min_child_samples": hp.quniform("min_child_samples", 1, 20, 10),
        "reg_alpha": hp.choice("reg_alpha", [0, 1e-1, 1, 2, 5, 10]),
        "reg_lambda": hp.choice("reg_lambda", [0, 1e-1, 1, 2, 5, 10]),
    },
    "override_schemas": {
        "num_leaves": int, "min_child_samples": int, "max_depth": int, "num_iterations": int
    }
}

In [None]:
# On augmente la taille des lignes √† 120
!black -l 120 /tmp/black_2.py
print(open("/tmp/black_2.py", "r").read())

En pratique, les projets s'autorisent √† outre-passer la limite des $79$ caract√®res par ligne (`E502`) et ignorent cette erreur.

## ‚úîÔ∏è Conclusion

Maintenant, plus aucune raison de ne pas coder proprement !

- Nous avons vu la norme PEP 8 et pourquoi il est important de la respecter.
- Nous avons vu comment v√©rifier si un code Python v√©rifiait les recommandations PEP 8 avec `flake8`.
- Nous sommes capable de refactoriser automatiquement un code avec `black`.

> ‚û°Ô∏è La prochaine √©tape, c'est de <b>tester son code et son mod√®le</b> pour s'assurer que tout fonctionne, aussi bien le code source que le mod√®le.