## IO de base en Python

Les opérations assemblées sous le nom d'IO, input - output, permettent aux langues de communiquer avec le monde extérieur, comme des dossiers et des fichiers dans notre ordinateur, ainsi que les données en ligne. 

Comme d'habitude, on va continuer à analyser une application pour savoir comment certains opérations d'IO de base s'intègrent à sa demarche.
On souligne les parties concernantes de l'application avec "#" dans le code source de l'application `corpus_statistics.py`.
On les inlcu ici en fonction de sa contribution à l'état de connaissance générale d'IO de base en Python. 
On attend que les lecteurs s'enrichissent ses connaissances avec les exercices qu'on a inclus. 
On vous invite aussi de jeter un coup d'oeil au page concernant du [manuel](https://docs.python.org/3.7/library/io.html)

Voici notre premier exemple:

In [None]:
def read_text(chemin: str, start_line=2):
    """
    Lire le texte par qui se trouve au chemin en commencant par la ligne 
    indiqué
    """
    with open(chemin, "r", encoding="utf-8", newline="\n") as fd:
        txt = fd.readlines()
        txt = txt[start_line:]
        txt = [t.strip() for t in txt]
    return txt

Le résumé de fonction est le suivant:

J'ouvre mon fichier au bout de chemin en mode de lecture.
J'assume que le fichier est encodé `utf-8`. 
Je lis le contenu ligne par ligne.
J'enlève les lignes qui sont avant le `start_line`.
J'efface les caractères spéciaux dans les lignes.
Je retourne la liste qui contient les lignes du contenu de fichier.

Voici l'analyse de la fonction ligne par ligne:

- 1. Je declare une fonction dont le nom est `read_text` et les arguments sont `chemin` et `start_line`. `chemin` est une chaine des caractères. `start_line` est un nombre entier.

- 2. Je declare le début de `doc string`, qui va contenir le sommaire de but de ma fonction.

- 3 - 4. J'écris un sommaire de but de la fonction. J'opte pour que mon sommaire ne dépasse pas un phrase, s'il dépasse un phrase, il faut peut-être mieux de diviser ma fonction en deux.

- 5. Je declare la fin de `doc string`, qui contient mon sommaire.

- 6. Je fais plusieurs choses en même temps:
    
    - D'abord, j'ouvre le chemin en mode lecture. 
    
    Ces deux viennent de `open(chemin, "r")`. Le `r` indique le mode `read`, donc lecture, cela veut dire que je ne peux pas modifier les données de fichier qui se trouve au bout de chemin. Je peux voir/lire son contenu, mais pas le modifier.
     
    - Je declare que l'encodage des caractères dans le fichier est `utf-8`. 
       
    Cela vient de `encoding="utf-8"`. 
    On peut dire que cela donne une idée à la machine pour la représentation employée pour caractère. 
    Par exemple, le caractère `a` est représenté avec le code `&#97;` en html, `U+0061` en utf-8 `97` en ascii, etc etc. 
    On utilise maintenant pour la quasi totalité des cas `utf-8` pour encoder des textes.
    
    - Je declare le caractère de saut de ligne de mon fichier.
    
    Cela vient de `newline="\n"`. 
    L'idée est que la machine ne sait pas la mise en page, parce que le concept de ligne n'a aucune correspondance dans un monde binaire. 
    Par contre, on peut traduire ce concept facilement à une représentation reproductible pour une machine. 
    On peut définir une ligne comme ce qui commence par le caractère `\n`, donc à chaque fois qu'on trouve le caractère `\n` lors de lecture de fichier on peut dire qu'on est dans une nouvelle ligne.
    
    - Je nomme le résultat de mon opération d'ouverture avec des parametres indiqués comme `fd`.
    
    Il concerne la partie `... as fd`. 
    Le nom `fd` est un choix arbitraire. 
    Il aurait pu être `monFichier` etc.
    On aurait pu faire aussi `fd = open(...)` mais on verra l'avantage d'utiliser notre manière dans le prochain étape.
    
    - Je déclare une portée pour le `fd`.
    
    Cela vient de `with`. 
    Le `with` nous permet d'utiliser des objets qui ont un procedure d'entrée et de sortie plus facilement.
    Par exemple, dans notre cas on ouvre un fichier pour lire son contenu.
    Une fois qu'on a lu le contenu, on n'a pas besoin de garder le fichier ouvert, donc il faut le fermer.
    Le problème est le suivant. 
    Qu'est-ce qui se passe si le fichier n'est pas accèssible ou si on n'a voulu modifier le contenu tant dis qu'on n'a pas le droit ?
    Le problème est que l'erreur qui serait généré est indépendant de consommation de ressource de l'objet qui gère l'accèss au fichier.
    C'est donc important de liberer les ressources utilisées quelque soit le cas d'usage lié au contenu. Le `with` appelle les procédures d'entrée et sortie automatiquement lors d'entrée et sortie à son bloc.
    
- 7. Je lis le contenu de fichier, géré par `fd`, ligne par ligne, et affecte la liste resultante au variable `txt`

- 8. Je selectionne les membres de la liste `txt` en commençant par l'élément à l'indice `start_line` créant une nouvelle liste. J'affecte la nouvelle liste au variable `txt`.

- 9. Je crée une nouvelle liste avec les membres de la liste `txt`. 
    Lors de création, j'applique la fonction `strip` à chaque élément, qui
    enlève des caractères spéciaux.

- 10. Je retourne la liste `txt`.  
    

Voici une autre fonction de l'application `corpus_statistics.py` qui ressemble à celle qui est au dessus:

In [None]:
with open(filepath, "r", encoding="utf-8") as fp:
    data = fp.read()  # lecture entier du contenu
    lines = fp.readlines()  # lecture par ligne du contenu

Le nouvel point qu'on voit ici est `data = fp.read()`. 

On a expliqué en haut que `readlines` nous permet de faire un lecture par ligne de contenu, le `read` nous permet de lire le contenu entière. 

Le résultat de `read` est logiquement une chaine de caractère. 

Encore une autre fonction:

In [None]:
tf_idf_terms = self.change_doc_index_to_path()
with open(filepath, "w", encoding="utf-8", newline="\n") as fd:
    json.dump(tf_idf_terms, fd, ensure_ascii=False, indent=4)

Le `json` est un module, sa fonction `dump` nous permet d'enregistrer un objet de python qui est compatible avec son standard. 
Pour savoir plus d'information veuillez consulter au page du [manuel](https://docs.python.org/3.7/library/json.html).

La partie intéressante pour nous est le changement de mode de `fd`, signalé par le paramètre `w`.
Le mode `w` nous permet d'ouvrir le fichier pour écriture. 

Il efface les données existantes si le fichier existe, et s'il n'existe pas, il crée le fichier, si le chemin est valide, c'est à dire le dossier qui va contenir le fichier existe et qu'on a le droit de le modifier. 