# Python pour biochimistes: Comment lire, créer et gérer des fichiers (ou des flux de données)

La plus grande partie du travail que nous faisons nécessite l'emploi de fichiers: on doit les lire, on doit en écrire, on doit en modifier. Comment faire en Python? Ce n'est pas très compliqué mais avant tout, il faut connaitre quelques rudiments de gestion d'un système de fichiers.

## Qu'est-ce qu'un système de fichiers?

Tous les systèmes en un un et certains (dans l'univers UNIX/Linux) peuvent en avoir plusieurs! C'est essentiellement la portion du système d'opération de l'ordinateur qui gère les éléments d'information contenu sur l'espace de stockage de l'ordinateur. Dans notre cas, le concept le plus important à comprendre est la notion des permissions: qui a le droit de faire quoi sur un ordinateur. Sous Linux, dans sa version la plus simple, chaque usager possède un espace usager (`$HOME`) où il peut faire pas mal tout ce qu'il veut. En plus, chacun fait partie d'un groupe d'usagers pouvant se partager de l'information et tous les usagers de tous les groupes sont aussi regroupés dans la catégorie `other`.

Voici un exemple:

In [1]:
!ls -l

total 104
-rw-r--r--  1 foisys  staff   6920 17 déc 14:52 python_files_1_basics.ipynb
-rw-r--r--  1 foisys  staff   7956 30 mai  2024 python_files_2_local.ipynb
-rw-r--r--  1 foisys  staff   9178 30 mai  2024 python_files_3_internet.ipynb
-rw-r--r--  1 foisys  staff   8949 30 mai  2024 python_files_4_demo_SimpleSeqread1.ipynb
-rw-r--r--  1 foisys  staff  10533 30 mai  2024 python_files_5_demo_SimpleSeqread2.ipynb


Vous voyez le groupe de lettres et de tirets sous `total`? Ce sont les permissions pour les fichiers contenus dans le répertoire présent. Donc:

- Le premier tiret nous dit que le fichier `python_files_1.ipynb` est un fichier (duh!); si on voyait un `d`, ça nous dirait que ce serait un répertoire (un répertoire est un fait un fichier contenant des pointeurs vers un ensemble de fichiers: son contenu), si on voyait un `l`, ça nous dirait que c'est un lien symbolique (AKA un alias, un raccourci).
- Suit ensuite un groupe de 9 symboles, divisé en 3 sous-groupes de 3: ce sont, de la gauche vers la droite, les permissions pour l'usager (groupe 1), le groupe (groupe 2) et tous les autres usagers (groupe 3).
- Le reste qui est important est le nom de l'usager (`foisys`) et son groupe (`staff`, par défaut le groupe de tous les usagers dans Mac OS X; pour les autres saveurs de UNIX, c'est selon la version mais ça peut être n'importe quoi selon les spécifications de l'usager `root`).
- Les lettres dans chaque groupe représente les permissions de lecture (`r`), d'écriture (`w`) ou d'exécution (`x`); en résumé noter fichier peut être lu et modifié par moi et lu par tous. Si un fichier avait un x comme permission, ça voudrait dire qu'il est exécutable: c'est un programme!

In [7]:
!ls -l ../z.misc_files/data_demo/
!echo "Nous sommes ici:"
!pwd
!echo "Créons un fichier vide, juste pour...:"
!touch ../z.misc_files/data_demo/yoda.txt
!echo "Montrons que le fichier existe:"
!ls -l ../z.misc_files/data_demo
!echo "Copions le fichier dans le repertoire racine:"
!cp ../z.misc_files/data_demo/yoda.txt ../z.misc_files/
!ls -l ../z.misc_files/data_demo

total 0
-rw-r--r--  1 foisys  staff  0 12 aoû 10:11 yoda.txt
Nous sommes ici:
/Volumes/foisys/Documents/Cours_UdeM_CVM-Contenu/UdeM/BCM3553_Bio-informatique_pour_BCM/Jupyter-bcm3553/4.python_files
Créons un fichier vide, juste pour...:
Montrons que le fichier existe:
total 0
-rw-r--r--  1 foisys  staff  0 12 aoû 10:11 yoda.txt
Copions le fichier dans le repertoire racine:
total 0
-rw-r--r--  1 foisys  staff  0 12 aoû 10:11 yoda.txt


Quelle conséquence pour nous? Évidemment, il faut s'assurer d'avoir les permissions nécessaires pour lire et écrire là ou nous le voulons :-)

## Qu'est-ce qu'un fichier?

Ça peut paraître tata mais qu'est-ce qu'un fichier? C'est un endroit dans le système de fichier contenant l'information nécessaire à notre travail mais c'est écrit comment? On va avoir deux possibilités:

- Un ensemble de données écrit sous la forme de caractères simples: un fichier texte
- Un ensemble de données écrit sous la forme de données binaires.

Les deux formats sont lisibles en Python mais le 2ème est bien plus difficile: il faut connaitre la structure des données, bit par bit, pour extraire les infos. Par exemple: un fichier MS Word pourrait placé les données de formttage du 4ème paragraphe entre les bit x et x+y. La lecture des fichiers binaires se fait la plupart du temps à l'aide de modules spécialisés (on va revoir ça avec MS Excel et pandas).

Comment savoir le format de notre fichier? Dans la console, on peut utiliser l'utilitaire `file`:

In [1]:
!file ../z.misc_files/data_seq/h.sapiens.cttn.iso.a.aa.fa

../z.misc_files/data_seq/h.sapiens.cttn.iso.a.aa.fa: ASCII text


In [10]:
!file ../z.misc_files/data_bin/output_auto_sequencer.ab1

../z.misc_files/data_bin/output_auto_sequencer.ab1: data
