# Manipulation de fichiers textuels


## Sommaire

- [Introduction](#Introduction)
- [Utilisation de fichiers dans un programme Python](#Utilisation-de-fichiers-dans-un-programme-Python)
    - [Étapes d'utilisation d'un fichier](#Étapes-d'utilisation-d'un-fichier)
    - [Accès à des fichiers : ouverture et fermeture](#Accès-à-des-fichiers-:-ouverture-et-fermeture)
    - [Rappel : Notion d'encodage](#Rappel-:-Notion-d'encodage)
    - [Lecture d'un fichier](#Lecture-d'un-fichier)
    - [Écriture dans un fichier](#Écriture-dans-un-fichier)
    - [Tests sur les fichiers](#Tests-sur-les-fichiers)
- [✏️ Exercice : copie d'un fichier](#✏️-Exercice-:-copie-d'un-fichier)
- [✏️ Exercice : moyenne](#✏️-Exercice-:-moyenne)
- [✏️ Exercice : ajout dans un fichier](#✏️-Exercice-:-ajout-dans-un-fichier)
- [✏️ Exercice : minimum et maximum](#✏️-Exercice-:-minimum-et-maximum)
- [✏️ Exercice : cumul](#✏️-Exercice-:-cumul)
- [✏️ Exercice : éclatement d'un fichier](#✏️-Exercice-:-éclatement-d'un-fichier)
- [✏️ Exercice : écriture de conjugaisons](#✏️-Exercice-:-écriture-de-conjugaisons)
- [Exemple de manipulation de fichiers tabulés](#Exemple-de-manipulation-de-fichiers-tabulés)
    - [Décompte du nombre de villes par hémisphère](#Décompte-du-nombre-de-villes-par-hémisphère)
    - [Décompte du nombre de villes par latitude](#Décompte-du-nombre-de-villes-par-latitude)

# Manipulation de fichiers textuels


## Introduction
Les fichiers **textuels** sont des fichiers lisibles par un éditeur (comme Notepad++), par opposition aux fichiers **binaires** (images, vidéos, sons, exécutables, etc.), dont la manipulation est plus complexe. Les fichiers textuels ont généralement pour extension `.txt`, mais on trouve également des fichiers tabulés (extension : `.csv`) ou balisés (extension : `.html`, `.xml`, etc.), ainsi que d'autres types de formats (programmes dans divers langages, fichiers CSS, fichiers produits par des logiciels spécifiques, etc.)

<!--<div class="alert alert-success">

Regarder les vidéos suivantes sur YouTube et tester le code Python dans la cellule ci-dessous, prévue à cet effet :

- <a href="https://www.youtube.com/watch?v=VRdp_vaNRoY">INTRODUCTION AU LANGAGE BINAIRE</a> - durée : 7 min 26 (présentation très simplifiée, clairement destinée à des personnes plus jeunes, mais qui a l'avantage d'être très compréhensible)
- <a href="https://www.youtube.com/watch?v=IAbX7eUT2Qc">conversion binaire décimal</a> - durée : 1 min 55
- <a href="https://www.youtube.com/watch?v=q_F4ffWPUzE">2.1 Codage, jeux de caractères et Unicode</a> - durée : 6 min 34
- <a href="https://www.youtube.com/watch?v=WU8wry_x6-A">3.1 Les fichiers 1/2</a> - durée : 10 min 13
    - Pour tester, au lieu du chemin `r'c:\temp\'`, indiquez plutôt le chemin vers un dossier qui existe sur votre machine (le dossier `c:\temp` n'existe peut-être pas sur votre machine). N'oubliez pas d'accoler le nom du fichier à créer, soit `spam.txt`, par exemple `C:\Users\dbernhard\CoursPython\spam.txt` (il s'agit d'un exemple, à remplacer par un chemin existant sur votre machine !). Vous pouvez aussi indiquer uniquement le nom du fichier, sous la forme `f = open(r'spam.txt', 'w', encoding='utf8')`. Dans ce cas, le fichier `spam.txt` sera créé dans le dossier dans lequel se trouve le notebook.
- <a href="https://www.youtube.com/watch?v=hN0R0X70d5w">3.1 Les fichiers 2/2</a> - durée : 5 min 42

</div>-->


## Utilisation de fichiers dans un programme Python

### Étapes d'utilisation d'un fichier

On distingue 3 étapes :
1. Ouverture du fichier
1. Lecture ou écriture
1. Fermeture du fichier pour indiquer que le fichier ne sera plus utilisé par le programme

### Accès à des fichiers : ouverture et fermeture

Les accès aux fichiers s'effectuent par l'intermédiaire de variables particulières. L'ouverture d'un fichier se fait à l'aide de la fonction `open()`. Cette fonction prend trois paramètres :
1. Une chaîne de caractères qui indique où trouver le fichier (chemin d'accès et nom du fichier)
1. Le mode d'ouverture (lecture `r`, écriture `w`, ajout `a` ; l'ajout d'un `b` au mode indique un mode d'ouverture binaire, par exemple `bw` indique mode binaire et écriture)
1. L'encodage des caractères du fichier (à toujours spécifier, pour éviter les problèmes de lecture des caractères non ascii)

L'ouverture d'un fichier se fait avec un gestionnaire de contexte, qui va garantir que le fichier sera bien accessible à l'intérieur du contexte et fermé en sortie. Un contexte est introduit avec le mot clé `with` :

In [None]:
with open("input/doc.txt", "r", encoding="utf8") as f:
    # Traitements utilisant f
    pass

<div class="alert alert-block alert-warning">

La portion de code ci-dessus cherche à ouvrir un fichier nommé `doc.txt` se trouvant dans le dossier `input`. Le dossier `input` est un sous-dossier du dossier dans lequel se trouve le notebook courant.

Il faut donc :

- créer un dossier appelé `input` dans le dossier contenant votre notebook. Vous pouvez aussi en profiter pour créer un dossier `output` qui sera nécessaire pour la suite.
- y placer un fichier appelé `doc.txt` (vous pouvez télécharger le fichier `doc.txt` se trouvant ici : https://git.unistra.fr/dbernhard/pythonm1s1/-/tree/master/input). Vous pourrez procéder de même pour les autres fichiers du dossier `input` dans la suite du notebook.

</div>

Le chemin d'accès peut-être **absolu**, par rapport à la racine de l'arborescence de fichiers, ou **relatif**, par rapport au répertoire courant (*current working directory*). Le répertoire courant peut-être :
- le répertoire qui contient le script Python
- le répertoire utilisé au lancement (lancement via une console)
- un autre répertoire, si le répertoire courant a été modifié dans le programme par exemple.

Sous Windows, les chemins d'accès sont généralement séparés par la barre oblique inverse `\`, qui est également
le caractère d'échappement dans les chaînes de caractères. Il existe plusieurs solutions pour éviter d'éventuels
problèmes :
- doubler tous les \ : `"C:\\Users\\image\\Documents\\Python\\fichier.txt"`
- utiliser des chaînes littérales brutes (raw string) : dans ce cas, `\` n'est pas considéré comme un caractère d'échappement mais tout simplement comme le caractère `\`. Pour cela, il faut préfixer le premier guillemet avec r : `r"C:\Users\image\Documents\Python\fichier.txt"`
- utiliser le séparateur / comme sous Linux : `"C:/Users/image/Documents/Python/fichier.txt"`

<div class="alert alert-block alert-danger">

⛔ D'une manière générale, IL FAUT ABSOLUMENT EVITER LES CHEMINS ABSOLUS DANS LES PROGRAMMES.

</div>

### Rappel : Notion d'encodage
Les données de texte brut sont stockées en attribuant à chaque caractère une valeur numérique spécifique. Ces valeurs dépendent de normes établies ou codes.

Il existe différents codes, souvent incompatibles entre eux :
- ASCII : 128 caractères (aucun caractère accentué)
- ISO-Latin1 ou ISO-8859-15 : codage des langues d'Europe occidentale
- ISO-Latin9 ou ISO-8859-15 : mise à jour de Latin1 (euro, ligatures)
- Cp1252 ou Windows-1252 : défini par Microsoft (caractères supplémentaires : guillemets, apostrophes, etc.)
- UTF-8 (encodage Unicode) : codage universel

### Lecture d'un fichier
La lecture d'un fichier se fait de manière séquentielle, en commençant au début du fichier. Lorsque l'on ouvre un fichier en mode lecture, le curseur de lecture se place en tout début de fichier, avant le premier caractère. Il existe différentes manières de lire le contenu d'un fichier :

In [None]:
# Lecture du fichier dans sa totalité
with open("input/doc.txt", "r", encoding='utf8') as f:
    s = f.read() #La chaîne de caractères s contient la totalité du contenu
    print(s)

In [None]:
# Lecture du fichier dans sa totalité
with open("input/doc.txt", "r", encoding='utf8') as f:
    t = f.readlines() #La liste t contient l'ensemble des lignes du fichier
    print(t)

In [None]:
# Lecture du fichier en partie
with open("input/doc.txt", "r", encoding='utf8') as f:
    s  = f.read(3) #Lit au plus 3 caractères en mode texte
    print(s)
    l = f.readline() #Lit la prochaine ligne disponible (la fin de ligne est lue également)
    print(l)

In [None]:
# Lecture du fichier ligne par ligne 
# (méthode à privilégier dans la majorité des cas, notamment si le fichier est de grande taille)
with open("input/doc.txt", "r", encoding='utf8') as f:
    for ligne in f :
        print(ligne.rstrip()) # rstrip() permet de supprimer le retour chariot

### Écriture dans un fichier

Lors de l'écriture dans un fichier, les chaînes de caractères sont ajoutées les unes à la suite des autres :

In [None]:
with open("output/doc2.txt", "w", encoding='utf8') as f: # Spécifier l'option w
    s = "ligne1\n"
    f.write(s) # écrit la chaîne s dans f
    l = ["ligne2\n", "ligne3\n", "ligne4\n"]
    f.writelines(l) # écrit les chaînes présentes dans la liste l dans f

### Tests sur les fichiers

Avant d'ouvrir un fichier, il peut être utile de vérifier son existence :

In [None]:
from pathlib import Path

chemin = 'C:/Users/image/Python/test.txt'
path = Path(chemin)
if path.exists() and path.is_file() :
    with open(chemin, 'r', encoding='utf8') as f:
        # Traitements sur f
        pass
else:
    print(f'Le fichier {chemin} est introuvable')

## ✏️ Exercice : copie d'un fichier

Écrire un programme Python qui copie un fichier. Afin de vérifier que la copie a bien été effectuée, le programme affichera également le contenu de la copie du fichier à l'écran.

In [None]:
# Exercice : copie d'un fichier

## ✏️ Exercice : moyenne

On considère une séquence d'entiers sauvegardée dans un fichier (un entier par ligne). Écrire un programme qui calcule et affiche la moyenne des entiers positifs contenus dans la séquence.
Pour tester le programme, vous pourrez utiliser le fichier `nombres.txt` qui contient un entier par ligne.

In [None]:
# Exercice : moyenne

## ✏️ Exercice : ajout dans un fichier
Écrire un programme qui réalise les opérations suivantes :
1. Ouvrir un fichier pour y écrire les lignes saisies par l'utilisateur au clavier ;
2. Chaque ligne saisie au clavier est immédiatement écrite dans le fichier. L'utilisateur indique la fin de la saisie avec le caractère 'X' ;
3. Après la sortie de boucle, afficher le contenu du fichier créé.

In [None]:
# Exercice : ajout dans un fichier

## ✏️ Exercice : minimum et maximum

On considère une séquence d'entiers positifs représentée dans un fichier. Écrire un programme qui affiche les valeurs minimum et maximum de la séquence. En cas de séquence vide, un message d'erreur est affiché

In [None]:
# Exercice : minimum et maximum

## ✏️ Exercice : cumul
On considère une séquence d'entiers positifs représentée dans un fichier, avec un entier par ligne. L'objectif est d'écrire un programme qui écrit dans un fichier la somme cumulée des nombres à chaque ligne. 

Exemple de fichier source :
```
5
8
3
20
2
1
```

Exemple de fichier résultat :
```
5
13
16
36
38
39
```

In [None]:
# Exercice : cumul

## ✏️ Exercice : éclatement d'un fichier

On considère une séquence d'entiers représentée dans un fichier. Écrire un programme qui recopie dans un fichier les entiers positifs ou nuls de la séquence, et dans un autre fichier les entiers négatifs.

In [None]:
# Exercice : éclatement d'un fichier

## ✏️ Exercice : écriture de conjugaisons

Reprendre les exercices vus précédemment concernant la conjugaison des verbes du premier et du deuxième groupe :
- Ajouter la conjugaison à l'imparfait de l'indicatif, en plus du présent de l'indicatif.
- Lire les verbes à conjuguer dans un fichier appelé `verbes.txt` qui aura le format suivant (un verbe par ligne) :
    ```
    infinitif-verbe1 <espace> groupe-verbe1
    infinitif-verbe2 <espace> groupe-verbe2`
    ```
    
    Par exemple :
    ```
    cuisiner 1
    finir 2
    chanter 1
    ```
    
- Pour chaque verbe, écrire les conjugaisons obtenues dans deux fichiers différents : `<infinitif>-present.txt` pour la conjugaison au présent et `<infinitif>-imparfait.txt` pour la conjugaison à l'imparfait. (Attention : il faudra remplacer `<infinitif>` par l'infinitif du verbe lu dans le fichier `verbes.txt`. Si le verbe est "chanter", il faudra écrire deux fichiers : `chanter-present.txt` et `chanter-imparfait.txt`)

In [None]:
# Exercice : écriture de conjugaisons

## Exemple de manipulation de fichiers tabulés

*Exemples inspirés de https://docs.google.com/document/d/1tj7dQLjychqBGmxHknbBxL1fA_amSKQy7Q5Xj-nQGQk/edit#!*

### Décompte du nombre de villes par hémisphère

Le fichier tabulé `CityLatitudeHemisphere.tsv` contient une liste de villes mondiales avec leur latitude et leur hémisphère. Observez le contenu de ce fichier.

Étudiez le programme Python ci-dessous et essayez de comprendre son fonctionnement :

In [None]:
count_N = 0
count_S = 0
with open('input/CityLatitudeHemisphere.tsv', 'r', encoding='utf8') as data :
    header = data.readline()

    for line in data:
        line = line.rstrip()
        columns = line.split('\t')
        city = columns[0]
        hemisphere = columns[2]
        if hemisphere == 'N':
            count_N += 1
        elif hemisphere == 'S':
            count_S += 1
        print(city,',',hemisphere)

    print(f"Nombre de villes dans l'hémipshère nord : {count_N}")
    print(f"Nombre de villes dans l'hémipshère sud : {count_S}")

Répondez aux questions suivantes :
1. Quelles lignes de code permettent d'identifier et de compter les villes de l'hémisphère nord ?
1. Que font les instructions `count_N += 1` et `count_S += 1` ?
1. A quoi sert l'instruction de la ligne 4 ?
1. Quel hémisphère a le plus de villes ? (vous pouvez exécuter le programme pour répondre à cette question)

### Décompte du nombre de villes par latitude
Étudiez le programme Python ci-dessous et essayez de comprendre son fonctionnement :

In [None]:
count = 0
with open('input/CityLatitudeHemisphere.tsv', 'r', encoding='utf8') as data :
    header = data.readline()

    for line in data:
        line = line.rstrip()
        columns = line.split('\t')
        city = columns[0]
        latitude = float(columns[1])
        hemisphere = columns[2]
        if latitude >= 20 and latitude <= 25:
            print(city,",", latitude, ",", hemisphere)
            count += 1

    print(f"Nombre de villes entre les latitudes 20 et 25 : {count}")


Répondez aux questions suivantes :
1. Modifiez le programme pour qu'il affiche les villes de l'hémisphère nord ayant une latitude supérieure ou égale à 30. Combien y en a-t-il ?
1. Modifiez le programme pour qu'il compte le nombre de villes situées entre les latitudes 0 à 10 (inclus), 11 à 20, 21 à 30, 31 à 40, 41 à 50, 51 à 60, 61 à 70 et 71 à 76. Dans quel intervalle de latitudes y a-t-il le plus grand nombre de villes ?
