# Manipulation de fichiers


La programmation permet de traiter efficacement des problèmes impliquant une grande quantité de données. Souvent, ces données se trouvent dans des fichiers texte. On peut par exemple parcourir un fichier de log (trace d'événements système) pour compter le nombre d'événements d'un certain type. Il y aura parfois plusieurs fichiers à parcourir, pour réunir l'ensemble des données ou pour faire une modification systématique (ex: renommer tous les fichiers...).

## Accéder aux fichiers: la bibliothèque ```os```

Dans les systèmes informatiques, les fichiers sont habituellement organisés dans une arborescence de répertoires et de sous-répertoires. Les méthodes qui permettent de naviguer cette arborescence et de manipuler les fichiers (les déplacer, les supprimer, etc.) sont fournies par la bibliothèque ```os``` (pour _Operating System_). La bibliothèque ```os``` fournit des fonctionnalités auxquelles on accède normalement à travers une "ligne de commande" (aussi appelée _shell_ ou _terminal_), et pour la plupart des commandes _shell_ il existe une méthode correspondante dans la bibliothèque ```os```: dans la suite ces commandes sont indiquées. On utilise la commande mac/linux, qui est en générale aussi acceptée par le système de commandes Windows Powershell.

Pour pouvoir exécuter les différentes méthodes, on importe d'abord le module ```os```, et le module ```os.path``` qui contient un certain nombre de méthodes pertinentes:

In [30]:
import os, os.path

### Exploration de l'arborescence de fichiers

Pour pouvoir manipuler les fichiers il est nécessaire de pouvoir naviguer l'arborescence de répertoires: changer de répertoire, accéder aux sous-répertoires ou au répertoire parent, et lister les fichiers contenus dans un répertoire. 

On passe ici brièvement en revue ces fonctionnalités, en faisant le lien avec les commandes _shell_ équivalentes. 

#### Obtenir le répertoire de travail
À tout moment, on se place à un point de l'arborescence de fichiers, c'est le "répertoire de travail". Dans un _shell_, on peut obtenir le répertoire de travail à l'aide de la commande ```pwd``` (_print working directory_). En Python, c'est la méthode ```getcwd```, sans paramètres:

In [34]:
os.getcwd()

'/Users/davoal01/Library/CloudStorage/OneDrive-UniversitéduQuébecenOutaouais/enseignement/INF1653'

Les commandes _shell_ sont habituellement utilisées en mode interactif et affichent le résultat à l'écran, exactement comme on vient de le faire ici. Cependant, dans un programme on utiliserait la méthode comme une fonction classique: on stockerait le résultat dans une variable:

In [32]:
repertoire = os.getcwd()

La variable ```répertoire``` contient le résultat de la commande, une chaine de caractères: 

In [33]:
repertoire

'/Users/davoal01/Library/CloudStorage/OneDrive-UniversitéduQuébecenOutaouais/enseignement/INF1653'

Remarquer que les répertoires sont séparés ici par des barres obliques ```/``` (séparateur Mac et linux), alors que sous Windows ce seraient des barres obliques ```\```. Pour pouvoir écrire du code indépendant du système d'exploitation on peut utiliser la constante ```os.sep```, qui donne le séparateur pour le système d'exploitation courant. On peut ensuite utiliser la méthode ```split()``` (pour un string) pour séparer les composantes du chemin:

In [35]:
repertoire.split(os.sep)

['',
 'Users',
 'davoal01',
 'Library',
 'CloudStorage',
 'OneDrive-UniversitéduQuébecenOutaouais',
 'enseignement',
 'INF1653']

#### Changer de répertoire
La commande _shell_ pour changer de répertoire est ```cd```, et ici on a la méthode ```chdir```. On peut lui passer un chemin "absolu" ou "relatif" (relatif au répertoire de travail courant). Voici un chemin absolu (sous mac et linux, un chemin absolu commence par une barre oblique, et sous Windows il commence par la lettre du "disque"):

In [36]:
os.chdir("/Users/davoal01/")

Vérifions que le chemin a bien changé:

In [37]:
os.getcwd()

'/Users/davoal01'

Un chemin relatif peut être un chemin commençant par un sous-répertoire du répertoire courant:

In [39]:
os.chdir("Library/CloudStorage/OneDrive-UniversitéduQuébecenOutaouais/enseignement/INF1653")

In [40]:
os.getcwd()

'/Users/davoal01/Library/CloudStorage/OneDrive-UniversitéduQuébecenOutaouais/enseignement/INF1653'

Popur pouvoir naviguer l'arborescence vers le "haut" (répertoires parents), on utilise la même notation que dans un _shell_, c'est-à-dire qu'un point (```'.'```) se réfère au répertoire courant, et deux points (```'..'```) se réfèrent au répertoire parent. On peut même enchainer les ```'..'``` pour remonter de plusieurs niveaux dans l'arborescence: 

In [50]:
os.chdir("../..")

In [42]:
os.getcwd()

'/Users/davoal01/Library/CloudStorage/OneDrive-UniversitéduQuébecenOutaouais'

Dans ces exemples on a utilisé directement la barre oblique ```/``` dans les chemins, ce qui ne fonctionnerait pas sous Windows, où il faudrait utiliser une barre backslah (```\```). Pour avoir du code indépendant du système d'exploitation, on peut utiliser ```os.sep``` pour le séparateur (comme décrit plus haut), ou encore utiliser les méthodes de la bibliothèque ```os.path``` pour composer le chemin à partir des noms de répertoires:

In [47]:
chemin = os.path.join('.', 'enseignement', 'INF1653')

Ceci nous donne un chemin relatif commençant par le point (répertoire courant), suivis des sous-répertoires ```enseignement``` et ```INF1653```:

In [48]:
chemin

'./enseignement/INF1653'

La méthode ```os.path.join``` peut être utilisée par un nombre quelconques de paramètres. 

Changeons de répertoire en utilisant ce chemin relatif:

In [51]:
os.chdir(chemin)

In [52]:
os.getcwd()

'/Users/davoal01/Library/CloudStorage/OneDrive-UniversitéduQuébecenOutaouais/enseignement/INF1653'

#### Lister le contenu d'un répertoire

Pour lister les fichiers dans un répertoire, on peut utiliser la méthode ```listdir```: on lui passe en argument le chemin du répertoire à lister. 

In [8]:
os.listdir('.')

['Prog Scripts 2022',
 '.DS_Store',
 'test',
 'INF1653_notebooks',
 'Python scripts for cybersecurity.docx',
 'notebooks',
 'log files']

Ici on a utilisé l'argument ```'.'``` pour indiquer qu'on s'intéresse au répertoire courant. Remarquer que les fichiers et sous-répertoires sont donnés sans leur chemin, juste le nom. Ce serait le cas même si on listait les fichiers d'un répertoire autre que le répertoire courant.

Pour chaque élément, on peut vérifier s'il s'agit d'un fichier ou d'un répertoire, en utilisant la fonction ```isfile``` du module ```os.path```:

In [11]:
for f in os.listdir('.'):
    if(os.path.isfile(f)):
        print (f, "(fichier)")
    else:
        print (f, "(repertoire)")

Prog Scripts 2022 (repertoire)
.DS_Store (fichier)
test (repertoire)
INF1653_notebooks (repertoire)
Python scripts for cybersecurity.docx (fichier)
notebooks (repertoire)
log files (repertoire)


Ici, on a utilisé ```isfile``` directement avec le nom de chaque fichier (et non pas leur chemin d'accès), et ça fonctionne parce que les fichiers se trouvent dans le répertoire de travail courant. En général, quand on se réfère à un fichier (que ce soit pour savoir s'il s'agit d'un fichier ou répertoire, comme ici, ou pour l'ouvrir, le déplacer, etc.), il est nécessaire de donner le chemin d'accès au fichier, soit de manière absolue, soit relativement au répertoire courant. S'il n'y a pas de chemin, ça signifie implicitement que le fichier est dans le répertoire de travail courant.

On va maintenant lister le contenu du repertoire ```test```:

In [54]:
os.listdir('test')

['test1.txt', 'test2.txt']

Il y a deux fichiers dans ce répertoire. Comme précédemment, j'ai ici seulement leur noms (et non pas leur chemin complet) et si je veux m'y référer je dois donner leur chemin d'accès. ici, on peut donner le chemin relatif au répertoire courant:

In [19]:
os.path.isfile('./test/test1.txt')

True

Attention: si on fait une erreur dans le chemin, ```isfile``` répondra ```False```. Autrement dit, ```isfile(f)``` peut signifier deux choses: soit ```f``` est un répertoire, soit ```f``` n'existe pas à l'emplacement donné (ce qui sera le cas si le chemin est erroné). 

Si on veut vérifier qu'un nom local se réfère à un répertoire (notamment pour distinguer entre répertoires et fichiers inexistants), on peut utiliser la méthode ```isdir``` (pour _is directory_):

In [72]:
os.path.isdir('test')

True

In [73]:
os.path.isdir('test/test1.txt')

False

#### Créer un répertoire

Il est possible de créer un sous-répertoire à l'intérieur du sous-répertoire courant. Dans un _shell_ la commande serait ```mkdir```, et en Python la méthode pertinente a le même nom:

In [69]:
os.mkdir("nouveau repertoire")

In [70]:
os.listdir('.')

['Prog Scripts 2022',
 '.DS_Store',
 'test',
 'INF1653_notebooks',
 'Python scripts for cybersecurity.docx',
 'nouveau repertoire',
 'notebooks',
 'log files']

Notons qu'on peut aussi créer un sous-répertoire ailleurs, en précisant son chemin complet.

### Manipulation des fichiers

On a vu jusqu'à maintenant comment explorer l'arborescence des fichiers, ce qui nous permet d'obtenir la liste des fichiers présents à un endroit donné. Voyons à présent comment manipuler ces fichiers, c'est à dire copier, déplacer, renommer ou supprimer des fichiers.

#### Renommer ou déplacer un fichier

Dans la ligne de commande, on utilise en général la commande ```mv``` (_move_) pour déplacer un fichier, mais aussi pour le renommer. Conceptuellement, si un fichier est identifié par son chemin complet, alors changer le début du chemin (le répertoire qui contient le fichier) ou changer la dernière partie du chemin (le nom) sont des cas particuliers de "renommage".

Commençons par un renommage simple (sans déplacer le fichier):

In [56]:
nom_actuel = './test/test1.txt'

In [57]:
nouveau_nom = './test/test1_nouveau.txt'

In [58]:
os.rename(nom_actuel, nouveau_nom)

In [59]:
os.listdir('test')

['test2.txt', 'test1_nouveau.txt']

Je peux aussi déplacer le fichier, voire le déplacer et le renommer en une seule opération. Déplaçons ce fichier vers son répertoire parent:

In [60]:
nouvelle_place = './test1_nom2.txt'

In [61]:
os.rename(nouveau_nom, nouvelle_place)

In [62]:
os.listdir('.')

['Prog Scripts 2022',
 '.DS_Store',
 'test',
 'test1_nom2.txt',
 'INF1653_notebooks',
 'Python scripts for cybersecurity.docx',
 'notebooks',
 'log files']

On voit que le fichier a été déplacé depuis le sous-répertoire "test" vers le répertoire courant, et renommé en même temps.

#### Copier un fichier

Pour copier un fichier (commande _shell_ ```cp```), la méthode nécessaire se trouve dans une autre bibliothèque, al bibliothèque ```shutil```: on peut utiliser utiliser la méthode ```shutil.copy``` ou ```shutil.copy2```. La différence entre ces deux méthodes est que ```copy2``` copie non seulement le contenu du fichier mais aussi (si possible) les méta-données des fichiers telles que les permissions (droit d'accès en lecture / écriture / exécution) ou les dates d'accès et de modification. Le résultat (quelles métadonnées exactement sont copiées) dépend du système d'exploitation, et pour certaines applications, il peut être critique de s'assurer que le résultat est conforme aux exigences, notamment en termes de cybersécurité (contrôle d'accès aux données).

Pour plus de détails, voir la documentation en ligne de la bibliothèque ```shutil```.

L'utilisation de base de ces deux méthodes consiste à spécifier le fichier 'source' (par son chemin) et la destination. La destination peut être un chemin terminant par un répertoire (on copie alors le fichier vers ce répertoire, en gardant le même nom), ou bien un chemin complet avec un nom de fichier, éventuellement nouveau.

In [64]:
import shutil

In [65]:
shutil.copy('test1_nom2.txt', 'test')

'test/test1_nom2.txt'

Le fichier a été copié dans le sous-répertoire 'test', et la méthode retourne le chemin complet du nouveau fichier.
Rappelons que c'est une cope, c'est à dire que le fichier original est toujours présent dans le répertoire courant:

In [66]:
os.listdir('.')

['Prog Scripts 2022',
 '.DS_Store',
 'test',
 'test1_nom2.txt',
 'INF1653_notebooks',
 'Python scripts for cybersecurity.docx',
 'notebooks',
 'log files']

#### Supprimer un fichier

Pour supprimer un fichier (commande shell ```rm```(_remove_)), la méthode Python est ```os.remove```:

In [67]:
os.remove('./test1_nom2.txt')

Le fichier a bien disparu:

In [68]:
os.listdir('.')

['Prog Scripts 2022',
 '.DS_Store',
 'test',
 'INF1653_notebooks',
 'Python scripts for cybersecurity.docx',
 'notebooks',
 'log files']

## Résumé et remarques additionnelles

### Liste des principales méthodes pertinentes
On a passé en revue ici les principales méthodes utiles pour explorer l'aborescence de fichiers, et manipuler ces fichiers. Ces méthodes sont principalement dans la bibliothèque ```os```, à l'exception notable des méthodes pour copier des fichiers, qui se trouvent dans la bibliothèque ```shutil```:
* ```os.getcwd``` : obtenir le répertoire de travail courant
* ```os.chdir``` : changer le répertoire de travail
* ```os.listdir```: lister le contenu (fichiers et sous-répertoires) du répertoire courant
* ```os.mkdir```: créer un répertoire
* ```os.path.isfile```: pour vérifier si un chemin se réfère à un fichier existant (i.e. l'objet existe et il s'agit bien d'un fichier, et non pas d'un répertoire)
* ```os.path.isdir```: même chose pour les répertoires: vérifie que le chemin donné se réfère bien à un répertoire existant
* ```os.rename```: renommer ou déplacer un fichier
* ```os.remove```: supprimer un fichier
* ```shutil.copy``` : copier un fichier
* ```shutil.copy2```: copier un fichier avec ses métadonnées (voir documentation pour les limitations)

### Utilisation directe de la ligne de commande

Les méthodes listées ici ont un équivalent dans les différents langages de _shell_ comme Bash et ses variantes, Powershell, ou encore l'ancienne ligne de commande Windows ("cmd").

Python permet aussi d'exécuter directement les commandes système:

In [75]:
os.system('mv test/test2.txt test/test55.txt')

0

La méthode ```os.system``` exécute la commande et retourne le status, mais ne permet pas de voir ou d'obtenir les informations qui sont habituellement affichées quand on exécute une commande. On peut cependant vérifier que la commande a bien été prise en compte:

In [76]:
os.listdir('test')

['test1_nom2.txt', 'test55.txt']

Il existe aussi une bibliothèque appelée ```subprocess```, qui permet de lancer des commande externes (notamment d'exécuter d'autres programmes) sous forme de processus concurrents (i.e. qui s'exécutent en parallèle du processus Python), et d'accéder aux sorties de ces programmes. Les détails de cette bibliothèque dépassent le sujet du présent cours, mais il faut savoir que cette possibilité existe.

### Dépendance avec le système d'exploitation

Selon les systèmes d'exploitation, les chemins dans l'arborescence de fichiers sont écrits avec des barres "slash" (```/```) ou "backslash" (```\```) comme séparateurs. On peut écrire du code portable entre systèmes d'exploitation en évitant d'expliciter le séparateur dans les chemins: on utilise ```os.sep``` pour désigner le caractère séparateur, et on peut utilise ```os.path.join``` pour composer directement un chemin à partir d'un séquence de noms de répertoires.

D'autre part, plusieurs autres détails techniques vont varier selon le système d'exploitation: la gestion des permissions et d'autres métadonnées, la gestion des liens symboliques, etc. Il n'est pas pertinent d'entrer dans ces détails ici, mais il faut avoir conscience de ces différences lorsqu'on écrit du code pour différents systèmes d'exploitation, notamment dans le cas où l'environnement de développement diffère de l'environnement de production où sera utilisé le code après livraison.

Enfin, il est évident que l'interaction avec le système, via ```os.system``` ou ```subprocess``` sera elle-aussi très dépendante du système d'exploitation.


### Utilisation dans des programmes Python

Nous avons présenté ici une "boîte à outils" de méthodes utiles pour manipuler le système de fichiers; il faut bien se rendre compte qu'il n'y a ici aucune nouvelle _technique_, au sens abstrait d'une méthode de résolution de problème.

Il faudra ensuite apprendre à intégrer ces outils dans des programmes Python structurés comme on l'a vu jusqu'à maintenant, avec des fonctions, des structures de contrôle de flux, etc. Des activités de programmation sont proposées séparément pour pratiquer ceci.

Les bibliothèques mentionnées ici sont documentées de manière exhaustive dans la documentation en ligne Python. Le but de ce cours est de donner un point de départ et une référence utile pour quelques fonctionnalités de base, mais ne couvre pas toutes les applications possibles. Il est donc iportant de savoir s'y retrouver dans cette documentation en ligne. Un moteur de recherche (comme Google) vous pointera habituellement rapidement au bon endroit, et vous permettra de découvrir des exemples sur des sites comme _Stack overflow_. Même les programmeurs les plus expérimentés se réfèrent très fréquemment à ces ressources en ligne.