***
# **<center>COURS PYTHON 2IMACS #8</center>**
# ***<center>Fichiers</center>***

***

Comme nous avons commencé à le voir dans de précédents exemples, nous allons avoir besoin de charger des données à analyser depuis differents types de fichiers. De même nous aurons besoin de sauver nos analyses pour les partager ou pour des modifications futures. Nous allons donc avoir besoin de créer, modifier et sauver des fichiers. De nombreux formats et methodes sont à notre disposition pour ces opérations.

Avant  de commencer, précisons qu'il existe 2 manières d'indiquer l'emplacement d'un dossier (ou repertoire) ou d'un fichier.  
**- Le chemin absolu:** spécifie l'emplacement complet d'un fichier ou d'un répertoire à partir de la racine du système de fichiers. Sous Windows, un exemple de chemin absolu serait : "C:\Users\Utilisateur\Documents\mon_fichier.txt". Le chemin absolu fournit l'emplacement précis du fichier indépendamment de l'emplacement courant (en général celui du code python). Attention si on passe sur une autre machine il sera à modifier.  
**- Un chemin relatif:** spécifie l'emplacement d'un fichier ou d'un répertoire par rapport à l'emplacement courant. Sous Windows, un exemple de chemin relatif serait : "mon_dossier\mon_fichier.txt". Le chemin relatif indique que le fichier se trouve dans le répertoire "Documents" situé dans le répertoire courant.

Il faut remarquer que suivant les IDE, les chemins peuvent contenir des '/' (par exemple jupyter) ou des '\\' (par exemple spyder),ou encore des '//'
Signalons également que l'on a la possibilité de remonter dans les dossiers parents avec **../**

# 8-1 Création de fichiers

## 8-1-1 Syntaxe 'open' et 'close'

Créeons notre premier fichier. Nous définissons un chemin , ouvrons le fichier, puis refermons le.

In [None]:
chemin = 'fichiers_cours/fichiers/fichiers_crees/mon_fichier.txt'
# creer le fichier 
fichier = open(chemin, 'w')
# Fermer le fichier
fichier.close()

## 8-1-2 Syntaxe 'with'

Une autre syntaxe permet de ne pas se préocuper de fermer de la fermeture du fichier, ça peut éviter des oublis et des erreurs...

In [None]:
chemin = 'fichiers_cours/fichiers/fichiers_crees/mon_fichier1.txt'

In [None]:
with open(chemin, 'w') as fichier: # creer le fichier
   pass # ne rien faire...

## 8-1-3 Modes d'ouverture des fichiers

Nous avons le choix entre 3 modes d'ouverture des fichiers:   
**- Lecture: 'r' :** permet d'accéder aux données à partir du fichier, mais pas de modifier ou écrire de nouvelles données   
**- Ecriture: 'w' :**  créer un nouveau fichier ou écraser le contenu d'un fichier existant  
**- Ajout: 'a' :** écrire de nouvelles données à la fin du fichier sans supprimer son contenu précédent  

# 8-2 Lecture et écriture dans un fichier texte

## 8-2-1 Méthodes read() et write()

Ecrire:

In [None]:
chemin = 'fichiers_cours/fichiers/fichiers_crees/mon_fichier2.txt'

In [None]:
with open(chemin, 'w') as fichier:
    fichier.write('What... is your favorite color?')

Lire:

In [None]:
with open(chemin, 'r') as fichier:
    contenu = fichier.read()
    print(contenu)

Ajouter:

In [None]:
with open(chemin, 'a') as fichier:
    fichier.write('Ni - The Knights Who Say Ni')

In [None]:
with open(chemin, 'r') as fichier:
    contenu = fichier.read()
    print(contenu)

## 8-2-2 Méthodes readline() et readlines()

On pourrait apporter une amélioration, en effet, les differents ajouts vont se faire les uns à la suite des autres. Des retours à la ligne seraient bienvenus. Utilisons les méthodes apropriées.

Pour l'écriture, on se contentera d'ajouter un retour chariot ('\n) en fin de ligne

In [None]:
with open(chemin, 'a') as fichier:
    for i in range(5):
        fichier.write('\nNi')

La methode read affichera l'ensemble du contenu

In [None]:
with open(chemin, 'r') as fichier:
    contenu = fichier.read()
    print(contenu)

Avec la methode readlines, on peut parcourir le fichier ligne à ligne.  
**fichier.readlines()** va renvoyer une liste dont chaque élément est le contenu d'une ligne.

In [None]:
with open(chemin, 'r') as fichier:
    lignes = fichier.readlines()  # Lecture de toutes les lignes du fichier
    nombre_lignes = len(lignes)  # Nombre de lignes dans le fichier 
    print('le fichier contient ',nombre_lignes,' lignes')
    print(' le contenu du fichier est: ',lignes)

Cette methode est trés efficace avec une boucle for pour afficher les lignes séparemment

In [None]:
with open(chemin, 'r') as fichier:
    lignes = fichier.readlines()  # Lecture de toutes les lignes du fichier
    for ligne in lignes:
        print(ligne)

## 8-3 Lecture et écriture dans d'autres formats de fichiers

## 8-3-1  Fichiers csv

Pandas permet une manipulation très pratiques des fichiers textes et csv. Créons un pandas dataframe

In [None]:
import pandas as pd

# Création d'un DataFrame
data = pd.DataFrame({'Nom': ['Alice', 'Bob', 'Charlie'],
                     'Age': [25, 30, 35]})
data.head()

Sauvegardons dans un fichier texte

In [None]:
data.to_csv('fichiers_cours/fichiers/fichiers_crees/ages.txt')

Si on ouvre le fichier, on voit que le format est bien en 2 colonnes. Elles sont séparées par des ',' on peut choisir d'autres séparateurs comme la tabulation, de même, on peut choisir de ne pas afficher les numéros de ligne:

In [None]:
data.to_csv('fichiers_cours/fichiers/fichiers_crees/ages.txt', sep='\t',index = False)

Le format csv est bien sûr pris en charge

In [None]:
data.to_csv('fichiers_cours/fichiers/fichiers_crees/ages.csv',sep='\t',index = False)

De la même manière ce type de données peut être chargé avec **pd.read_csv** :

- Pour du csv

In [None]:
data_lues_csv = pd.read_csv('fichiers_cours/fichiers/fichiers_crees/ages.csv', sep='\t')
data_lues_csv.head()

- Pour du texte

In [None]:
data_lues_txt = pd.read_csv('fichiers_cours/fichiers/fichiers_crees/ages.txt', sep='\t')
data_lues_txt.head()

Les fonctions **np.savetxt** et **np.loadtxt** de numpy fonctionnent sur le même modéle

In [None]:
import numpy as np
# Création d'un tableau NumPy
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
# Écriture du tableau dans un fichier CSV
np.savetxt('fichiers_cours/fichiers/fichiers_crees/mon_numpy.csv', data, delimiter='\t')

On peut choisir le format:

In [None]:
np.savetxt('fichiers_cours/fichiers/fichiers_crees/mon_numpy.csv', data, delimiter='\t', fmt='%d')

même chose pour le format txt:

In [None]:
np.savetxt('fichiers_cours/fichiers/fichiers_crees/mon_numpy.txt', data, delimiter='\t', fmt='%d')

Et pour charger les données:

In [None]:
data_lues_np_csv = np.loadtxt('fichiers_cours/fichiers/fichiers_crees/mon_numpy.txt')
print(data_lues_np_csv)

On a récupéré les données par lignes, pour les récupérer par colonne, il faut utiliser l'argument unpack = True.

In [None]:
data_lues_np_txt = np.loadtxt('fichiers_cours/fichiers/fichiers_crees/mon_numpy.txt', unpack = True)
print(data_lues_np_txt)

## 8-3-2  Matplotlib

Matplotlib offre la possibilité de sauvegarder des graphiques et des figures dans différents formats de fichiers tels que PNG, JPEG, PDF grace à la methode savefig.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
# Exemple 1 : Sauvegarde d'un tracé simple en PNG
x = np.linspace(0, 10, 100)
y = np.sin(x)
fig, ax = plt.subplots()
ax.plot(x, y)
plt.savefig('fichiers_cours/fichiers/fichiers_crees/plot.jpg')

De même , il est possible de charger un fichier image avec matplotlib

In [None]:
image = plt.imread('fichiers_cours/fichiers/image.jpg')
fig, ax = plt.subplots()
ax.imshow(image);

## 8-3-3  Module pickle pour fichiers binaires

Le module **pickle** permet de sauvegarder dans un fichier binaire n'importe quel objet python. On peut l'utiliser pour des listes, dictionnaires, tablaux numpy, pandas dataframe...
Reprenons l'exemple d'un Pandas Dataframe:

In [None]:
import numpy as np
import pandas as pd
data_array = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
df = pd.DataFrame(data_array)
df.index = ['ligne1', 'ligne2', 'ligne3', 'ligne4']
df.columns = ['colonne1', 'colonne2', 'colonne3']
print(df)

Créons notre fichier pickle

In [None]:
import pickle
chemin = 'fichiers_cours/fichiers/fichiers_crees/mon_fichier_pkl.pkl'
with open(chemin, 'wb') as fichier: #on remarque que ici on est en mode lecture (w) et binaire (b)
    pickle.dump(df, fichier)

Bien sûr, le fichier binaire ne sera pas lisible avec un bloc note. Il faudra le charger à nouveau et le traiter comme un fichier pandas.

In [None]:
with open(chemin, 'rb') as fichier:
    df_load = pickle.load(fichier)
print(df_load)

## 8-3-4 Autres types de fichiers

La methode pickle est quasi universelle pour les objets python, cependant, il existe d'autres types de fichiers qui peuvent avoir des interêts dans certaines situations.

| Format de fichier | Intérêt spécifique                                                | Bibliothèque associée      | Avantages                                                           | Limitations                                                                         |
|-------------------|-------------------------------------------------------------------|----------------------------|----------------------------------------------------------------------|-------------------------------------------------------------------------------------|
| HDF5              | Stockage de données scientifiques complexes et hiérarchiques       | h5py (Python)              | - Prise en charge de structures de données complexes. <br> - Compression des données. <br> - Lecture et écriture efficaces. | - L'apprentissage peut être long... <br> - Certaines fonctionnalités avancées peuvent être complexes. |
| JSON              | Stockage de données structurées lisibles par l'homme              | json (Python)              | - Facilité de lecture et d'écriture. <br> - Compatibilité multi-langages. <br> - Prise en charge des types de données courants. | - Moins efficace en termes d'espace de stockage et de performance. <br> - Limité aux types de données simples. |
| XML               | Stockage de données structurées                                   | xml.etree.ElementTree (Python) | - Structure hiérarchique. <br> - Compatibilité avec de nombreux langages. <br> - Extensibilité. | - Verbeux, nécessitant souvent plus d'espace de stockage que d'autres formats. <br> - Peut être complexe pour les données non structurées. |


- Ouverture de fichier json

In [None]:
import json

# Chemin vers le fichier JSON
chemin = 'fichiers_cours/fichiers/align.json'

# Ouvrir le fichier JSON en mode lecture
with open(chemin, 'r') as fichier:
    # Charger les données JSON dans une variable Python
    donnees = json.load(fichier)

# Afficher les données
print(donnees)

Avec Pandas

In [None]:
# Charger le fichier JSON dans un DataFrame pandas
donnees = pd.read_json(chemin)

# Afficher les premières lignes du DataFrame pour explorer les données
donnees.head()

- Ouverture de fichier xml

In [None]:
import xml.etree.ElementTree as ET
# Chemin vers le fichier XML
chemin = 'fichiers_cours/fichiers/example_file_xml.xml'

In [None]:
# "Analyse" du fichier XML
arbre = ET.parse(chemin)
print(arbre)

In [None]:
# Obtention de la racine de l'arbre XML
racine = arbre.getroot()
print(racine)

In [None]:
# Afficher la balise racine et ses attributs
print(f"Balise racine: {racine.tag}")
print(f"Attributs de la racine: {racine.attrib}")
print("---")

In [None]:
# Parcourir les éléments enfants de la racine (ici, des livres)
for r in racine:
    # Afficher le nom de la balise et ses attributs éventuels
    print(f"Balise: {r.tag}, Attributs: {r.attrib}")
    print('***')
    # Parcourir les sous-éléments de chaque livre
    for element in r:
        # Afficher le nom de la sous-balise et son contenu 
        print(f"  Sous-balise: {element.tag}, Contenu: {element.text}")
        # Vérifier si l'élément possède des attributs et les afficher
        if element.attrib:  # Si l'élément a des attributs, les afficher
            print(f"    Attributs: {element.attrib}")
    
    print("---") 

- Ouverture de fichier h5

In [None]:
import h5py

# Chemin vers le fichier h5 contenant le modèle
chemin = 'fichiers_cours/fichiers/spectroscopy_data.h5'

# Ouvrir le fichier h5 en mode lecture
with h5py.File(chemin, 'r') as fichier:
    # Afficher les clés du fichier
    print("Clés du fichier h5 :", list(fichier.keys()))

In [None]:
with h5py.File(chemin, 'r') as fichier:
    print(fichier["spectroscopy"].keys())

In [None]:
with h5py.File(chemin, 'r') as fichier:
    print(fichier["spectroscopy"]["wavelengths"].keys())

On voit que l'on a un objet Dataset, il ne contient pas de clés, mais des valeurs. Affichons toutes les 20 premieres valeurs avec [:20]

In [None]:
with h5py.File(chemin, 'r') as fichier:
    print(fichier["spectroscopy"]["wavelengths"][:20])

# 8-4 Manipulations avancées de fichier et interaction avec le système d'explotation

## 8-4-1 os : interaction avec le système d'exploitation

Création de répertoire

In [None]:
import os
chemin = 'fichiers_cours/fichiers/fichiers_crees/mon_repertoire'
os.mkdir(chemin)

Si on tente d'éxecuter à nouveau le code, on a une erreur, car le fichier existe déja, mais on peut tester son existence. 

In [None]:
import os
chemin = 'fichiers_cours/fichiers/fichiers_crees/mon_repertoire'
if os.path.exists(chemin):
    print('le dossier existe déja!')
else:
    os.mkdir(chemin)
    print('le dossier a été crée')

De la même manière, on peut effacer des fichiers

In [None]:
chemin = 'fichiers_cours/fichiers/fichiers_crees/mon_fichier.txt'
if os.path.exists(chemin):
    os.remove(chemin)
    print('fichier effacé')
else:
    print('fichier inexistant')

On peut renommer un fichier ou un repertoire

In [None]:
chemin = 'fichiers_cours/fichiers/fichiers_crees/mon_fichier2.txt'
if os.path.exists(chemin):
    os.rename(chemin,chemin+'mon_fichier2_new.txt')
    print('fichier renommé')
else:
    print('fichier inexistant')

On peut obtenir la liste des fichiers contenus dans un dossier

In [None]:
chemin = 'fichiers_cours/fichiers/fichiers_crees'
os.listdir(chemin)

On peut assembler des noms de dossier et de fichier pour faire des chemins

In [None]:
dossier = 'fichiers_cours/fichiers/fichiers_crees/'
fichier = 'mon_fichier1.txt'
chemin = os.path.join(dossier,fichier)
print(chemin)

## 8-4-2 glob : Traitement de fichiers et dossiers en lots

**glob** permet de parcourir facilement les répertoires et de filtrer les fichiers en fonction de leur nom ou de leur extension.

Lister les fichiers d'un repertoire:  pour afficher tous les fichiers.

In [None]:
import glob

# Liste tous les fichiers dans le répertoire "mes_fichiers"
fichiers = glob.glob('fichiers_cours/fichiers/fichiers_crees/*')

# Parcours la liste des fichiers et les affiche
for fichier in fichiers:
    print(fichier)


On peut limiter à un type de fichier, demandons ici uniquement les fichiers pickle

In [None]:
# Liste tous les fichiers texte dans le répertoire "mes_fichiers"
fichiers_texte = glob.glob('fichiers_cours/fichiers/fichiers_crees/*.pkl')

# Parcours la liste des fichiers et les affiche
for fichier in fichiers_texte:
    print(fichier)


On peut réaliser des opérations de tri, par exemple par date avec key=os.path.getmtime:

In [None]:
# Définir le chemin du répertoire
chemin = 'fichiers_cours/fichiers/fichiers_crees/'

# Obtenir la liste des fichiers dans le répertoire
fichiers = glob.glob(os.path.join(chemin, '*'))

# Trier les fichiers par date de modification
fichiers_tries_par_date = sorted(fichiers, key=os.path.getmtime)

# Afficher les fichiers triés par date
for fichier in fichiers_tries_par_date:
    print(fichier)

ou par nom avec key=os.path.basename:

In [None]:
# Obtenir la liste des fichiers dans le répertoire
fichiers = glob.glob(os.path.join(chemin, '*'))

# Trier les fichiers par nom
fichiers_tries_par_nom = sorted(fichiers, key=os.path.basename)

# Afficher les fichiers triés par nom
for fichier in fichiers_tries_par_nom:
    print(fichier)

Il existe bien sûr de nombreuses autres fonctions pour os et glob...

[Exercices 1 et 2](exercices/Exercices8.ipynb)