
# Manipulation de fichiers


# open

Le mode est donné sous la forme d'une chaîne de caractères. Voici les principaux modes :

    'r' : ouverture en lecture (Read).

    'w' : ouverture en écriture (Write). Le contenu du fichier est écrasé. Si le fichier n'existe pas, il est créé.

    'a' : ouverture en écriture en mode ajout (Append). On écrit à la fin du fichier sans écraser l'ancien contenu du fichier. Si le fichier n'existe pas, il est créé.
    

In [5]:
f = open("toto.txt",mode='w')
f.write('yep')

3

# close

Lorsque l'on a fini de manipuler un fichier ouvert, il est normalement necessaire de le fermer, pour liberer les ressources liées à ce fichier

In [6]:
f.close()

# with

La "vraie" maniere "pythonique" de faire consiste a utiliser le mot-clé "with". Ceci evite d'avoir à fermer explicitement le fichier avec close. C'est un gestionnaire de contexte, il encapsule une série d'opération et gère les exceptions.

In [7]:
with open("toto.txt",'r') as f:  # le fichier existe à l'avance sinon error
    print(f.closed) ## closed (et pas 'close') est un marqueur booleen indiquant si le fichier est ouvert ou fermé
print(f.closed)


False
True


# read

Tout le contenu du fichier est lu d'un coup

In [8]:
### je veux voir le contenu de mon fichier
with open("toto.txt",'r') as f:
    val = f.read() 
print('val : ', val)

val :  yep


# readlines

Le contenu du fichier est lu ligne par ligne

In [9]:
# let write a multi line
txt = """yep
yop
yip
"""
with open("toto2.txt",'w') as f:
    f.write(txt)

In [10]:
### je veux voir le contenu de mon fichier ligne par ligne
f = open("toto2.txt",'r')
lines = f.readlines()
f.close()
print(lines)

['yep\n', 'yop\n', 'yip\n']


### Exo tampon

Ecrivez la cellule précédente avec le mot-clef "with"

### Solution Exo tampon

In [11]:
### je veux voir le contenu de mon fichier ligne par ligne
with open("toto2.txt",'r') as f:
    lines = f.readlines()
print(lines)

['yep\n', 'yop\n', 'yip\n']


# Lecture string/bytes et importance de l'encoding (UTF-8)

str = Pour le texte humain (multi-langue, symboles).

bytes = Pour les données binaires (réseau, fichiers, chiffrement).

In [12]:
chaine1 = b"Ceci est une chaine d'octets"

print(chaine1)
print(type(chaine1))
print(chaine1[-1])

chaine2 = "Ceci est une chaine de caractères particuliers 你好 صباح الخير"

print(chaine2)
print(type(chaine2))
print(chaine2[-2])


b"Ceci est une chaine d'octets"
<class 'bytes'>
115
Ceci est une chaine de caractères particuliers 你好 صباح الخير
<class 'str'>
ي


### Exo tampon

Quel est le code binaire de la lettre "c" ?

### Solution Exo tampon

In [13]:
print(chaine1[2])

99


## Fichiers en Python : Texte vs Binaire

Un **fichier** permet de stocker des données de manière persistante. On peut distinguer deux grands types :

- **Fichiers texte** (`.txt`, `.csv`, `.json`) : lisibles par l'humain, pratiques pour l’échange de données, mais plus volumineux et plus lents à lire/écrire.
- **Fichiers binaires** (`.bin`, `.pkl`, `.npy`) : plus compacts et rapides, parfaits pour stocker des objets complexes, mais illisibles sans programme.

### Histoire interaction avec les ordinateurs, en bref
- Au début, tout était binaire : les machines lisaient directement les 0 et 1.
- Avec l’arrivée de normes comme **ASCII** (puis **UTF-8**), on a pu écrire du texte dans des fichiers lisibles.
- Aujourd’hui, les deux formats coexistent selon les besoins : lisibilité humaine ou performance machine.


| Époque        | Interaction humaine               | Remarques                            |
|---------------|------------------------------------|---------------------------------------|
| 1940–1950     | Câblage, interrupteurs             | Programmation physique, très lente   |
| 1950–1960     | Cartes perforées                   | Codage manuel des instructions       |
| 1960+         | Claviers, terminaux, imprimantes   | Apparition du texte, norme ASCII     |


## Comment pensait-on en binaire ?

Au début de l’informatique, les programmeurs ne retenaient pas tout en 0 et 1 par cœur, mais ils apprenaient à **traduire chaque opération en code binaire**, compréhensible par la machine. On appelait ça du **langage machine**.


### Exemple simple : un mini-processeur fictif

Imaginons un processeur avec ces instructions :

| Instruction       | Code binaire | Signification                   |
|-------------------|--------------|----------------------------------|
| `0001`            | Charger      | Charge une valeur en mémoire     |
| `0010`            | Ajouter      | Ajoute une valeur                |
| `0011`            | Sauvegarder  | Sauvegarde le résultat           |
| `1111`            | Fin          | Termine le programme             |

Les valeurs sont aussi codées sur 4 bits.  
Par exemple : `0001` = 1, `0010` = 2, `0100` = 4, etc.


### Objectif : additionner 1 + 2

Voici ce que le programmeur devait écrire :    
0001 0001 # Charger 1  
0010 0010 # Ajouter 2  
0011 0100 # Sauvegarder dans l’adresse 4  
1111 0000 # Fin du programme  

---

####  ASCII ou l'esperanto informatique des années 60

L’ASCII (American Standard Code for Information Interchange) est un format d’encodage historique (1963) qui associe des caractères (lettres, chiffres, symboles) à des nombres.

7 bits par caractère → 128 combinaisons possibles (de 0 à 127).

Exemple :

    A = 65 (en décimal) = 1000001 (en binaire).

    a = 97, 0 = 48, @ = 64.


- Fondement des textes numériques : Fichiers .txt, code source, protocoles réseau.

- Communication entre systèmes : Permet à des machines hétérogènes d’échanger du texte.

- Limitations : Ne gère pas les accents (è, ñ) ni les alphabets non-latins (→ Unicode aujourd’hui).


### UTF-8

- ASCII (7 bits) encode 128 caractères basiques (anglais), de façon unique.
- Unicode étend cela à tous les alphabets (🌍, é, 字).
- UTF-8 est un encodage d’Unicode rétro-compatible avec ASCII (1 byte pour ASCII, 2-4 bytes pour les autres).

In [14]:
# lets put this 2 object in the same file
with open("chaine.txt",'wb') as f:
    f.write(chaine1)

with open("chaine.txt",'a') as f:
    f.write('\n')
    f.write(chaine2)

In [15]:
with open('chaine.txt', mode= 'r', encoding='utf8') as f:
    txt = f.read()
print(txt, type(txt), len(txt))

Ceci est une chaine d'octets
Ceci est une chaine de caractères particuliers 你好 صباح الخير <class 'str'> 89


In [16]:
with open('chaine.txt', mode='rb') as f:
    b = f.read()
print(b, type(b), len(b))

b"Ceci est une chaine d'octets\nCeci est une chaine de caract\xc3\xa8res particuliers \xe4\xbd\xa0\xe5\xa5\xbd \xd8\xb5\xd8\xa8\xd8\xa7\xd8\xad \xd8\xa7\xd9\x84\xd8\xae\xd9\x8a\xd8\xb1" <class 'bytes'> 103


In [17]:
txt2 = b.decode('utf8')
print(txt2, type(txt2))

Ceci est une chaine d'octets
Ceci est une chaine de caractères particuliers 你好 صباح الخير <class 'str'>


# Sauvegarde et lecture avec numpy : format texte


## loadtxt 

In [18]:
import numpy as np

data = np.loadtxt('./data/Coords.txt') 
print (data)


[[-12.  56.   4.]
 [  6.  50.  12.]
 [  8.  36.   2.]
 [ 24.  24. -18.]
 [-12.  22.  28.]
 [-12.  22.  26.]
 [-32.  20. -18.]
 [-28.  16.  32.]
 [-48.  14.   8.]
 [-10.  10.  44.]
 [-34.   8.  38.]
 [  4.   6.  50.]
 [  4.   6.  50.]
 [ 10.   4.  74.]
 [ -2.   4.  44.]
 [ 24.   4. -10.]
 [ 24.   4. -16.]
 [ 40.   2.  62.]
 [-54.   2.  38.]
 [-26.  -4.  70.]]


## savetxt

In [19]:
data = np.zeros(shape = (1000,1000), dtype = "float32")
print(data)

[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]


In [20]:
np.savetxt("data.txt", data, fmt = "%f")

# Sauvegarde et lecture avec numpy : format .npy, load et save

Plus rapide et plus léger.

In [21]:
np.save("data.npy", data)

In [22]:
data2 = np.load("data.npy")
data2

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]], dtype=float32)

# Concept d'Arborescence

![Image](./img/mac_tree.png)     ![Image](./img/win_tree.jpg)    ![Image](./img/linux-tree.png)

## Racine :

    mac et linux : /
    
    windows : C:\

##  Arborescences de fichiers : Linux, macOS et Windows

###  Organisation commune

Tous les systèmes d'exploitation utilisent une **structure hiérarchique** pour organiser les fichiers :
- Les fichiers sont dans des dossiers (répertoires), qui peuvent contenir d'autres fichiers ou dossiers.
- On distingue les **chemins absolus** (depuis la racine) et **relatifs** (depuis le dossier courant).

---

### Linux / macOS (Unix-like)

- L’arborescence commence par la **racine `/`**
- Dossiers principaux :
  - `/home/nom_utilisateur` : dossier personnel
  - `/etc`, `/usr`, `/tmp` : configuration, programmes, fichiers temporaires
- Le **séparateur de chemins** est `/`

Exemple : `/home/alice/Documents/projet.txt`

---

###  Windows

- Organisation basée sur des **lettres de lecteur** : `C:\`, `D:\`, etc.
- Le **séparateur de chemins** est `\` (antislash)
- Dossier utilisateur : `C:\Users\NomUtilisateur`

Exemple : `C:\Users\Alice\Documents\projet.txt`

---

###  Portabilité

Sous Python, le module `pathlib` permet de manipuler les chemins de façon **portable**, c'est-à-dire quel que soit le système (Windows, macOS ou Linux).


### Chemin absolu :
    
    linux : /home/alex/projets/formation_python/
    
    windows : C:\\Users\\alex\\projets\\formation_python\\   (double\ car caractère d'échapement)
    
    mac : /Disque dur/Users/alex/projets/formation_python/

---


### Chemin relatif :

    ./          là ou je suis actuellement
    ../       je remonte d'un dossier par rapport à là ou je suis
    
    idem windows mais avec \
    
    
    exemple : np.loadtxt('./data/Coords.txt') 

---



- Windows utilise \ par héritage de MS-DOS (années 80), tandis qu'Unix/Linux/macOS utilisent / depuis les années 70.

- Compatibilité moderne :
Windows accepte souvent / aussi, mais Linux/macOS rejettent \ (caractère d'échappement : n -> \n retour à la ligne).

- Bonne pratique :
Préférez / pour un code multi-OS (ex: Path("dossier/fichier") en Python).

---
    
    

## Le module os (Operating System)



### 1 - Prendre de l'information sur le sysème de fichiers

+ import os


+ os.uname() : infos système


+ os.getcwd() : pour obtenir le répertoire en cours


+ os.path.abspath(path) : retourne une version absolue du chemin path


+ os.path.relpath(path[, start]) : retourne une version relative du chemin path. Par défaut, par rapport au working dir, sinon : spécifier un argument start qui sera le répertoire de base


### 2 - Faire des actions sur le système de fichiers

+ os.chdir(foldername)  : va dans le répertoire spécifié


+ os.mkdir(’mydir’) : crée le répertoire mydir


+ os.rename(oldname, newname) : renomme oldname en newname


+ os.remove(filename) : efface le fichier filename


### 3 - Utilitaires

+ os.path.join(morceau1, morceau2) : colle deux morceaux de chemin ensemble  en utilisant les caractères adaptés au système


+ os.path.expanduser("~") : retourne le chemin vers le répertoire "Home" de l'utilisateur sur la machine


+ os.path.split(racine/nomfichier_ou_rep) : permet de séparer la dernière branche de la racine, résultat sous forme de tuple
    *ex : (filepath, filename) = os.path.split("/Users/admin/Desktop") 
    *filename: "Desktop"


+ os.path.splitext(nomfichier.extension) : sépare le nom de l'extension. Résultat sous forme de tuple


+ os.listdir(path) :  prend un nom de chemin et retourne une liste du contenu du répertoire.


+ os.path.isfile : pour séparer les fichiers des répertoires. (os.path.isdir existe aussi). isfile prend un nom de chemin et :
     *retourne 1 / True si le chemin représente un fichier
     *0 / False dans le cas contraire. 


+ os.walk(top, topdown=True) : à parir de top (repertoire racine), parcourt l'arborescence en descendant si topdown=True, en montant sinon, et renvoie un tuple : (dirpath, dirnames, filenames) qui contient tous les répertoires dirnames rencontrés avec les fichiers filenames qui s'y trouvent

In [4]:
import os

for dossier, sous_dossiers, fichiers in os.walk('./img/'):
    for fichier in fichiers:
        print(os.path.join(dossier, fichier))

./img/axis.png
./img/dataset-diagram-logo.png
./img/groupby.png
./img/image.jpeg
./img/intro_numpy.png
./img/intro_xarray.png
./img/iris.jpeg
./img/linux-tree.png
./img/mac_tree.png
./img/mixed_viewer_example.png
./img/neologo.png
./img/neo_base_schematic.png
./img/neo_multi_segment_diagram.png
./img/np_3D.png
./img/np_concat_0.png
./img/np_concat_1.png
./img/np_concat_2.png
./img/PES_figure.bmp
./img/PES_figure2.bmp
./img/PES_figure3.bmp
./img/PES_figure4.bmp
./img/scipy-logo-300.png
./img/slice.jpeg
./img/win_tree.jpg


In [None]:
os.listdir('./')

['Base_language.ipynb',
 'chaine.txt',
 'data',
 'data.npy',
 'data.txt',
 'EEG_MNE.ipynb',
 'EEG_MNE_exo.ipynb',
 'ephyviewer.ipynb',
 'file_manipulation.ipynb',
 'formula_statsmodels.ipynb',
 'img',
 'loop_index_slice.ipynb',
 'matplotlib_base.ipynb',
 'networkx.ipynb',
 'numpy_advanced.ipynb',
 'numpy_base.ipynb',
 'numpy_indexing.ipynb',
 'pandas_base.ipynb',
 'pandas_exo.ipynb',
 'plotly.ipynb',
 'python-neo.ipynb',
 'seaborn_pingouin.ipynb',
 'skimage.ipynb',
 'sklearn.ipynb',
 'torch.ipynb',
 'toto.txt',
 'toto2.txt',
 'xarray.ipynb']

## Le module pathlib = nouvelle méthode

In [24]:
from pathlib import Path

home = Path.home()
home


PosixPath('/home/alex')

In [25]:
ici = Path('.').absolute()
ici

PosixPath('/media/alex/Elements/Alex/Trajectoires/Presentation/Formation_2025_Python_data_analyse/notebooks')

In [26]:
doc = home / 'Documents'
doc

PosixPath('/home/alex/Documents')

In [27]:
for item in Path('/').iterdir():
    print(item)

/root
/swapfile
/srv
/libx32
/dev
/boot
/media
/usr
/proc
/opt
/lib64
/lib
/sys
/lost+found
/sbin
/mnt
/snap
/home
/lib32
/bin
/etc
/run
/cdrom
/tmp
/var


In [28]:
file_path = Path('./img/linux-tree.png')

print(file_path.is_file())

print(file_path.stem)
print(file_path.suffix)
print(file_path.parent)
print(file_path.parents[0])
print(file_path.parents[1])
#print(file_path.parents[2])



True
linux-tree
.png
img
img
.


In [29]:
ici = Path('.').absolute()

for file in ici.glob('*.ipynb'):
    print(file)

/media/alex/Elements/Alex/Trajectoires/Presentation/Formation_2025_Python_data_analyse/notebooks/Base_language.ipynb
/media/alex/Elements/Alex/Trajectoires/Presentation/Formation_2025_Python_data_analyse/notebooks/EEG_MNE.ipynb
/media/alex/Elements/Alex/Trajectoires/Presentation/Formation_2025_Python_data_analyse/notebooks/EEG_MNE_exo.ipynb
/media/alex/Elements/Alex/Trajectoires/Presentation/Formation_2025_Python_data_analyse/notebooks/ephyviewer.ipynb
/media/alex/Elements/Alex/Trajectoires/Presentation/Formation_2025_Python_data_analyse/notebooks/file_manipulation.ipynb
/media/alex/Elements/Alex/Trajectoires/Presentation/Formation_2025_Python_data_analyse/notebooks/formula_statsmodels.ipynb
/media/alex/Elements/Alex/Trajectoires/Presentation/Formation_2025_Python_data_analyse/notebooks/loop_index_slice.ipynb
/media/alex/Elements/Alex/Trajectoires/Presentation/Formation_2025_Python_data_analyse/notebooks/matplotlib_base.ipynb
/media/alex/Elements/Alex/Trajectoires/Presentation/Formatio

In [30]:
# recursif
for file in Path('/home/alex/').glob('**/*.ipynb'):
    print(file)


/home/alex/.config/Code/User/History/60317893/RDE4.ipynb
/home/alex/.config/Code/User/History/60317893/XaQe.ipynb
/home/alex/.config/Code/User/History/60317893/r2te.ipynb
/home/alex/.config/Code/User/History/60317893/V5ua.ipynb
/home/alex/.config/Code/User/History/60317893/Dyc3.ipynb
/home/alex/.config/Code/User/History/60317893/LYmv.ipynb
/home/alex/.config/Code/User/History/60317893/cMqZ.ipynb
/home/alex/.config/Code/User/History/60317893/CNjv.ipynb
/home/alex/.config/Code/User/History/60317893/kgOZ.ipynb
/home/alex/.config/Code/User/History/60317893/1rQB.ipynb
/home/alex/.config/Code/User/History/60317893/3wZr.ipynb
/home/alex/.config/Code/User/History/60317893/kiBJ.ipynb
/home/alex/.config/Code/User/History/60317893/ow69.ipynb
/home/alex/.config/Code/User/History/60317893/l0kY.ipynb
/home/alex/.config/Code/User/History/-5fa8ac0/hv8I.ipynb
/home/alex/.config/Code/User/History/-5fa8ac0/L8yv.ipynb
/home/alex/.config/Code/User/History/-1c11a9fb/RsAL.ipynb
/home/alex/.config/Code/User/H

## Exercice 1

a. Faire un script pour explorer le dossier 'data/data_folder'

b. Lire les datas dans une structure hierachique adaptée (dict/list/array)



## Solution 1.a.

In [31]:
path_data = './data/data_folder/'

# recursif
for file in Path(path_data).glob('**/*'):
    print(file)


data/data_folder/HJ02
data/data_folder/LM04
data/data_folder/ST01
data/data_folder/UJ03
data/data_folder/HJ02/session_1.npy
data/data_folder/HJ02/session_2.npy
data/data_folder/HJ02/session_3.npy
data/data_folder/HJ02/session_4.npy
data/data_folder/HJ02/session_5.npy
data/data_folder/LM04/session_1.npy
data/data_folder/LM04/session_2.npy
data/data_folder/LM04/session_3.npy
data/data_folder/LM04/session_4.npy
data/data_folder/LM04/session_5.npy
data/data_folder/ST01/session_1.npy
data/data_folder/ST01/session_2.npy
data/data_folder/ST01/session_3.npy
data/data_folder/ST01/session_4.npy
data/data_folder/ST01/session_5.npy
data/data_folder/UJ03/session_1.npy
data/data_folder/UJ03/session_2.npy
data/data_folder/UJ03/session_3.npy
data/data_folder/UJ03/session_4.npy
data/data_folder/UJ03/session_5.npy


## Solution 1.b.

In [None]:
"""
Charge récursivement les fichiers .npy dans une structure hiérarchique.
Retourne un dictionnaire où les clés sont les noms des dossiers.
"""

data_structure = {}
root_path = Path(path_data)

# Parcours des sous-dossiers
for subdir in root_path.iterdir():
    if subdir.is_dir():
        # Parcours des fichiers .npy dans le sous-dossier
        for npy_file in subdir.glob("*.npy"):
            key_name = f"{subdir.name}/{npy_file.name}"
            data_structure[key_name] = np.load(npy_file)

print(data_structure)


{'HJ02/session_1.npy': array([[ 0.55996076,  1.40188671,  2.00716549],
       [ 0.39095788,  0.77321955, -0.75044337],
       [ 1.00866443, -0.35668001,  0.49793207],
       [-0.86711327,  0.40056226, -0.77971829]]), 'HJ02/session_2.npy': array([[-1.29806685,  0.03022072, -1.37587918],
       [ 0.57163766,  1.03226634,  0.37189735],
       [-0.7952975 , -0.34279625,  0.37093617],
       [ 0.44633999, -0.44482825,  1.13871228]]), 'HJ02/session_3.npy': array([[-1.48598199, -1.45692286,  1.90019572],
       [-1.31145154, -0.11440697, -1.83359649],
       [ 1.27752558,  0.3734068 , -0.55602085],
       [-1.55311024,  0.93572405,  1.326925  ]]), 'HJ02/session_4.npy': array([[-1.56899284,  1.10091972, -1.04331003],
       [-1.20840134, -0.17228726,  1.34375573],
       [ 0.1379342 , -1.13626238,  0.22276613],
       [ 0.42508644,  0.58950312,  0.35705745]]), 'HJ02/session_5.npy': array([[-1.7347265 ,  1.90726086,  0.26651993],
       [ 0.85703526, -0.04849984, -1.05552666],
       [-0.567606