# ‚ö° Interm√©diaire | ‚è± 45 min | üîë Concepts : os, pathlib, shutil, glob, fsspec

# Manipulation du Syst√®me de Fichiers

## üéØ Objectifs

- Ma√Ætriser le module `os` pour les op√©rations de base
- Utiliser `pathlib` (approche moderne orient√©e objet)
- Manipuler des arborescences avec `shutil`
- Rechercher des fichiers avec `glob`
- D√©couvrir `fsspec` pour l'abstraction du stockage (local, S3, cloud)
- Conna√Ætre les diff√©rences entre syst√®mes (Windows vs Unix)

## üìã Pr√©requis

- Python 3.8+
- Connaissances de base du syst√®me de fichiers
- Concepts de chemins relatifs/absolus

## 1. Module os : Les bases

Le module `os` fournit des fonctions pour interagir avec le syst√®me d'exploitation.

In [None]:
import os

# R√©pertoire courant
print("R√©pertoire de travail actuel :")
print(f"  {os.getcwd()}\n")

# Lister le contenu d'un r√©pertoire
print("Contenu du r√©pertoire courant :")
contenu = os.listdir('.')
for i, item in enumerate(contenu[:5], 1):  # Limiter √† 5 items
    print(f"  {i}. {item}")
if len(contenu) > 5:
    print(f"  ... et {len(contenu) - 5} autres\n")

# Informations syst√®me
print("Informations syst√®me :")
print(f"  OS : {os.name}")  # 'posix' (Unix/Linux/Mac) ou 'nt' (Windows)
print(f"  S√©parateur de chemin : '{os.sep}'")
print(f"  S√©parateur PATH : '{os.pathsep}'")
print(f"  Fin de ligne : {repr(os.linesep)}")

In [None]:
import os
import tempfile

# Cr√©er un r√©pertoire temporaire pour les tests
temp_dir = tempfile.mkdtemp(prefix='python_demo_')
print(f"R√©pertoire temporaire cr√©√© : {temp_dir}\n")

# Cr√©er un r√©pertoire
test_dir = os.path.join(temp_dir, 'mon_projet')
os.mkdir(test_dir)
print(f"‚úÖ R√©pertoire cr√©√© : {test_dir}")

# Cr√©er des sous-r√©pertoires
sous_dirs = ['src', 'tests', 'docs']
for d in sous_dirs:
    path = os.path.join(test_dir, d)
    os.mkdir(path)
    print(f"‚úÖ Sous-r√©pertoire cr√©√© : {d}")

# Cr√©er une arborescence compl√®te en une fois
deep_path = os.path.join(test_dir, 'data', 'raw', 'csv')
os.makedirs(deep_path, exist_ok=True)  # exist_ok=True : pas d'erreur si existe d√©j√†
print(f"\n‚úÖ Arborescence cr√©√©e : data/raw/csv")

# Lister l'arborescence cr√©√©e
print("\nStructure cr√©√©e :")
for root, dirs, files in os.walk(test_dir):
    level = root.replace(test_dir, '').count(os.sep)
    indent = ' ' * 2 * level
    print(f"{indent}{os.path.basename(root)}/")
    subindent = ' ' * 2 * (level + 1)
    for file in files:
        print(f"{subindent}{file}")

## 2. os.path : Manipulation de chemins

`os.path` fournit des fonctions pour manipuler les chemins de fichiers de mani√®re portable.

In [None]:
import os

# Construction de chemins
chemin = os.path.join('data', 'raw', 'fichier.csv')
print(f"Chemin construit : {chemin}")
print(f"  ‚Üí Portable Windows/Unix gr√¢ce √† os.path.join()\n")

# D√©composition de chemins
exemple = '/home/user/projet/data/fichier.txt'
print(f"Chemin : {exemple}")
print(f"  dirname  : {os.path.dirname(exemple)}")
print(f"  basename : {os.path.basename(exemple)}")
print(f"  split    : {os.path.split(exemple)}")
print(f"  splitext : {os.path.splitext(exemple)}\n")

# Informations sur le chemin
print("Informations sur le chemin :")
print(f"  exists     : {os.path.exists(exemple)}")
print(f"  isfile     : {os.path.isfile(exemple)}")
print(f"  isdir      : {os.path.isdir(exemple)}")
print(f"  isabs      : {os.path.isabs(exemple)}")

# Chemin absolu
relatif = './fichier.txt'
absolu = os.path.abspath(relatif)
print(f"\nChemin relatif : {relatif}")
print(f"Chemin absolu  : {absolu}")

# Normaliser un chemin
chemin_bizarre = './data/../data/./fichier.txt'
normalise = os.path.normpath(chemin_bizarre)
print(f"\nChemin bizarre : {chemin_bizarre}")
print(f"Normalis√©      : {normalise}")

## 3. pathlib : L'approche moderne (Python 3.4+)

`pathlib` offre une interface orient√©e objet pour manipuler les chemins. **C'est l'approche recommand√©e aujourd'hui.**

**Avantages** :
- Syntaxe plus intuitive avec `/`
- M√©thodes chainables
- Type-safe
- Plus lisible

In [None]:
from pathlib import Path

# Cr√©ation de chemins avec l'op√©rateur /
chemin = Path('data') / 'raw' / 'fichier.csv'
print(f"Chemin (pathlib) : {chemin}")
print(f"  Type : {type(chemin)}\n")

# R√©pertoire courant
cwd = Path.cwd()
print(f"R√©pertoire courant : {cwd}")

# Home directory
home = Path.home()
print(f"R√©pertoire home : {home}\n")

# Propri√©t√©s du chemin
fichier = Path('/home/user/projet/data/fichier.csv')
print(f"Chemin : {fichier}")
print(f"  parent    : {fichier.parent}")
print(f"  name      : {fichier.name}")
print(f"  stem      : {fichier.stem}")      # nom sans extension
print(f"  suffix    : {fichier.suffix}")    # extension
print(f"  suffixes  : {fichier.suffixes}")  # toutes les extensions
print(f"  parts     : {fichier.parts}\n")

# Exemple avec plusieurs extensions
archive = Path('backup.tar.gz')
print(f"Archive : {archive}")
print(f"  stem     : {archive.stem}")      # 'backup.tar'
print(f"  suffix   : {archive.suffix}")    # '.gz'
print(f"  suffixes : {archive.suffixes}")  # ['.tar', '.gz']

In [None]:
from pathlib import Path
import tempfile

# Cr√©er un r√©pertoire de test
temp = Path(tempfile.mkdtemp(prefix='pathlib_demo_'))
print(f"R√©pertoire de test : {temp}\n")

# Cr√©er une arborescence
projet = temp / 'mon_projet'
projet.mkdir()

(projet / 'src').mkdir()
(projet / 'tests').mkdir()
(projet / 'data' / 'raw').mkdir(parents=True)  # parents=True comme makedirs

# Cr√©er des fichiers
(projet / 'README.md').touch()
(projet / 'src' / 'main.py').touch()
(projet / 'tests' / 'test_main.py').touch()

# √âcrire dans un fichier
(projet / 'README.md').write_text('# Mon Projet\n\nDescription du projet.')

# Lire depuis un fichier
contenu = (projet / 'README.md').read_text()
print("Contenu de README.md :")
print(contenu)

# V√©rifications
readme = projet / 'README.md'
print(f"\nV√©rifications sur {readme.name} :")
print(f"  exists    : {readme.exists()}")
print(f"  is_file   : {readme.is_file()}")
print(f"  is_dir    : {readme.is_dir()}")
print(f"  is_absolute : {readme.is_absolute()}")

# Statistiques
stat = readme.stat()
print(f"\nStatistiques :")
print(f"  Taille : {stat.st_size} octets")
print(f"  Modifi√© : {stat.st_mtime}")

### 3.1 Parcourir des fichiers avec pathlib

In [None]:
from pathlib import Path

# Utilisons le projet cr√©√© pr√©c√©demment
# projet est d√©fini dans la cellule pr√©c√©dente

# Lister tous les fichiers et dossiers
print("Tous les √©l√©ments (iterdir) :")
for item in projet.iterdir():
    type_item = 'üìÅ' if item.is_dir() else 'üìÑ'
    print(f"  {type_item} {item.name}")

# Glob : recherche avec pattern
print("\nFichiers Python (glob) :")
for py_file in projet.glob('**/*.py'):  # ** = r√©cursif
    print(f"  üìÑ {py_file.relative_to(projet)}")

# rglob : glob r√©cursif (√©quivalent √† glob('**/<pattern>'))
print("\nFichiers Markdown (rglob) :")
for md_file in projet.rglob('*.md'):
    print(f"  üìÑ {md_file.relative_to(projet)}")

# Filtrer avec conditions
print("\nFichiers > 0 octets :")
for fichier in projet.rglob('*'):
    if fichier.is_file() and fichier.stat().st_size > 0:
        print(f"  üìÑ {fichier.name} ({fichier.stat().st_size} octets)")

## 4. Comparaison os.path vs pathlib

| Op√©ration | os.path | pathlib |
|-----------|---------|----------|
| Joindre chemins | `os.path.join(a, b, c)` | `Path(a) / b / c` |
| R√©pertoire courant | `os.getcwd()` | `Path.cwd()` |
| Home | `os.path.expanduser('~')` | `Path.home()` |
| Tester existence | `os.path.exists(p)` | `Path(p).exists()` |
| Est un fichier | `os.path.isfile(p)` | `Path(p).is_file()` |
| Est un dossier | `os.path.isdir(p)` | `Path(p).is_dir()` |
| Basename | `os.path.basename(p)` | `Path(p).name` |
| Extension | `os.path.splitext(p)[1]` | `Path(p).suffix` |
| Lire fichier | `open(p).read()` | `Path(p).read_text()` |
| Cr√©er dossier | `os.makedirs(p)` | `Path(p).mkdir(parents=True)` |

**Recommandation** : Pr√©f√©rez `pathlib` pour du nouveau code Python 3.6+.

In [None]:
import os
from pathlib import Path

# Exemple : lire tous les fichiers .txt d'un dossier

# ANCIEN : avec os.path
def lire_fichiers_os(dossier):
    fichiers = []
    for nom in os.listdir(dossier):
        chemin = os.path.join(dossier, nom)
        if os.path.isfile(chemin) and nom.endswith('.txt'):
            with open(chemin, 'r') as f:
                fichiers.append((nom, f.read()))
    return fichiers

# MODERNE : avec pathlib
def lire_fichiers_pathlib(dossier):
    dossier_path = Path(dossier)
    return [
        (f.name, f.read_text())
        for f in dossier_path.glob('*.txt')
        if f.is_file()
    ]

print("Comparaison de lisibilit√© :")
print("\n--- os.path (verbeux) ---")
print("""
def lire_fichiers_os(dossier):
    fichiers = []
    for nom in os.listdir(dossier):
        chemin = os.path.join(dossier, nom)
        if os.path.isfile(chemin) and nom.endswith('.txt'):
            with open(chemin, 'r') as f:
                fichiers.append((nom, f.read()))
    return fichiers
""")

print("--- pathlib (concis) ---")
print("""
def lire_fichiers_pathlib(dossier):
    dossier_path = Path(dossier)
    return [
        (f.name, f.read_text())
        for f in dossier_path.glob('*.txt')
        if f.is_file()
    ]
""")

print("\n‚Üí pathlib : plus concis, plus lisible, plus pythonic !")

## 5. shutil : Op√©rations de haut niveau

`shutil` (shell utilities) fournit des op√©rations de copie, d√©placement, suppression d'arborescences.

In [None]:
import shutil
from pathlib import Path
import tempfile

# Cr√©er un environnement de test
temp = Path(tempfile.mkdtemp(prefix='shutil_demo_'))
source = temp / 'source'
source.mkdir()

# Cr√©er des fichiers de test
(source / 'fichier1.txt').write_text('Contenu 1')
(source / 'fichier2.txt').write_text('Contenu 2')
(source / 'sous_dossier').mkdir()
(source / 'sous_dossier' / 'fichier3.txt').write_text('Contenu 3')

print("Structure source cr√©√©e :")
for item in source.rglob('*'):
    print(f"  {item.relative_to(temp)}")

# Copier un fichier
print("\n1. Copier un fichier :")
shutil.copy2(source / 'fichier1.txt', temp / 'copie1.txt')
print(f"  ‚úÖ {source / 'fichier1.txt'} ‚Üí {temp / 'copie1.txt'}")

# Copier une arborescence compl√®te
print("\n2. Copier une arborescence :")
destination = temp / 'destination'
shutil.copytree(source, destination)
print(f"  ‚úÖ {source} ‚Üí {destination}")
print("  Contenu copi√© :")
for item in destination.rglob('*'):
    print(f"    {item.relative_to(temp)}")

# D√©placer un fichier
print("\n3. D√©placer un fichier :")
shutil.move(temp / 'copie1.txt', destination / 'moved.txt')
print(f"  ‚úÖ copie1.txt ‚Üí destination/moved.txt")

# Supprimer une arborescence
print("\n4. Supprimer une arborescence :")
shutil.rmtree(source)
print(f"  ‚úÖ {source} supprim√©")
print(f"  Existe encore ? {source.exists()}")

In [None]:
import shutil
from pathlib import Path

# Informations sur l'espace disque
usage = shutil.disk_usage('/')
print("Utilisation du disque (/) :")
print(f"  Total : {usage.total / (1024**3):.2f} GB")
print(f"  Utilis√© : {usage.used / (1024**3):.2f} GB")
print(f"  Libre : {usage.free / (1024**3):.2f} GB")
print(f"  Pourcentage : {(usage.used / usage.total) * 100:.1f}%")

# Cr√©er une archive
print("\nCr√©ation d'archive :")
temp = Path(tempfile.mkdtemp(prefix='archive_demo_'))
projet = temp / 'projet'
projet.mkdir()
(projet / 'README.md').write_text('# Projet')
(projet / 'src').mkdir()
(projet / 'src' / 'main.py').write_text('print("Hello")')

# Cr√©er une archive .zip
archive_path = shutil.make_archive(
    temp / 'projet_backup',  # nom de base (sans extension)
    'zip',                    # format : 'zip', 'tar', 'gztar', 'bztar', 'xztar'
    projet                    # dossier √† archiver
)
print(f"  ‚úÖ Archive cr√©√©e : {archive_path}")
print(f"  Taille : {Path(archive_path).stat().st_size} octets")

# Extraire une archive
extract_dir = temp / 'extracted'
shutil.unpack_archive(archive_path, extract_dir)
print(f"\n  ‚úÖ Archive extraite dans : {extract_dir}")
print("  Contenu :")
for item in extract_dir.rglob('*'):
    print(f"    {item.relative_to(extract_dir)}")

## 6. glob : Pattern matching de fichiers

Le module `glob` permet de rechercher des fichiers avec des patterns (wildcards).

In [None]:
import glob
from pathlib import Path
import tempfile

# Cr√©er une structure de test
temp = Path(tempfile.mkdtemp(prefix='glob_demo_'))
files = [
    'data1.csv',
    'data2.csv',
    'data3.json',
    'report.pdf',
    'backup/data_old.csv',
    'backup/logs/app.log',
    'backup/logs/error.log',
]

for f in files:
    path = temp / f
    path.parent.mkdir(parents=True, exist_ok=True)
    path.touch()

print("Structure cr√©√©e :")
for f in files:
    print(f"  {f}")

# Patterns glob
print("\nRecherches avec glob :")

# * : n'importe quelle s√©quence de caract√®res
print("\n1. Tous les fichiers CSV (*.csv) :")
for f in glob.glob(str(temp / '*.csv')):
    print(f"  {Path(f).name}")

# ** : r√©cursif (n√©cessite recursive=True)
print("\n2. Tous les CSV r√©cursivement (**/*.csv) :")
for f in glob.glob(str(temp / '**' / '*.csv'), recursive=True):
    print(f"  {Path(f).relative_to(temp)}")

# ? : un caract√®re quelconque
print("\n3. data?.csv :")
for f in glob.glob(str(temp / 'data?.csv')):
    print(f"  {Path(f).name}")

# [] : classe de caract√®res
print("\n4. data[12].csv :")
for f in glob.glob(str(temp / 'data[12].csv')):
    print(f"  {Path(f).name}")

# Tous les fichiers .log
print("\n5. Tous les logs (**/*.log) :")
for f in glob.glob(str(temp / '**' / '*.log'), recursive=True):
    print(f"  {Path(f).relative_to(temp)}")

## 7. fsspec : Abstraction du stockage

`fsspec` est une biblioth√®que qui fournit une interface unifi√©e pour acc√©der √† diff√©rents syst√®mes de fichiers (local, S3, Azure Blob, GCS, etc.).

**Tr√®s utile pour les data engineers** : m√™me code pour lire depuis local ou cloud !

Installation : `pip install fsspec s3fs gcsfs adlfs`

In [None]:
# Introduction √† fsspec (sans installation requise pour la d√©mo)

print("fsspec : Abstraction du syst√®me de fichiers\n")
print("="*60)

# Exemple de code (ne n√©cessite pas d'installation pour la lecture)
code_example = '''
import fsspec

# 1. Syst√®me de fichiers local
fs = fsspec.filesystem('file')
with fs.open('/path/to/file.txt', 'r') as f:
    content = f.read()

# 2. Amazon S3
fs = fsspec.filesystem('s3', anon=False)  # avec credentials AWS
with fs.open('s3://bucket/path/file.txt', 'r') as f:
    content = f.read()

# 3. Google Cloud Storage
fs = fsspec.filesystem('gcs', token='credentials.json')
with fs.open('gs://bucket/path/file.txt', 'r') as f:
    content = f.read()

# 4. Azure Blob Storage
fs = fsspec.filesystem('az', account_name='...', account_key='...')
with fs.open('az://container/path/file.txt', 'r') as f:
    content = f.read()

# 5. API g√©n√©rique (d√©tection automatique du protocole)
with fsspec.open('s3://bucket/file.txt', 'r') as f:
    content = f.read()
'''

print(code_example)

print("\n" + "="*60)
print("Avantages pour Data Engineering :")
print("="*60)
print("‚úÖ M√™me API pour tous les stockages")
print("‚úÖ Facile de migrer de local vers cloud")
print("‚úÖ Compatible avec pandas, dask, etc.")
print("‚úÖ Gestion automatique de la compression")
print("\nExemple avec pandas :")
print("  df = pd.read_csv('s3://bucket/data.csv')  # fsspec g√®re tout !")

In [None]:
# D√©mo locale avec fsspec (si install√©)
try:
    import fsspec
    from pathlib import Path
    import tempfile
    
    # Cr√©er un fichier de test
    temp_dir = Path(tempfile.mkdtemp(prefix='fsspec_demo_'))
    test_file = temp_dir / 'test.txt'
    test_file.write_text('Contenu du fichier test')
    
    # Utiliser fsspec en local
    fs = fsspec.filesystem('file')
    
    # Lire avec fsspec
    with fs.open(str(test_file), 'r') as f:
        content = f.read()
    
    print("‚úÖ fsspec install√© !")
    print(f"\nContenu lu avec fsspec : {content}")
    
    # Lister des fichiers
    files = fs.ls(str(temp_dir))
    print(f"\nFichiers dans {temp_dir} :")
    for f in files:
        print(f"  {Path(f).name}")
    
    # API g√©n√©rique fsspec.open()
    with fsspec.open(str(test_file), 'r') as f:
        content2 = f.read()
    print(f"\nLu avec fsspec.open() : {content2}")
    
except ImportError:
    print("‚ö†Ô∏è  fsspec n'est pas install√©")
    print("\nInstallation :")
    print("  pip install fsspec")
    print("  pip install s3fs      # pour S3")
    print("  pip install gcsfs     # pour Google Cloud")
    print("  pip install adlfs     # pour Azure")

## 8. Permissions et m√©tadonn√©es

In [None]:
from pathlib import Path
import tempfile
import os
import stat
from datetime import datetime

# Cr√©er un fichier de test
temp_file = Path(tempfile.mktemp(suffix='.txt'))
temp_file.write_text('Test de permissions')

# Obtenir les statistiques
file_stat = temp_file.stat()

print(f"Fichier : {temp_file.name}\n")
print("M√©tadonn√©es :")
print(f"  Taille : {file_stat.st_size} octets")
print(f"  Cr√©√© : {datetime.fromtimestamp(file_stat.st_ctime)}")
print(f"  Modifi√© : {datetime.fromtimestamp(file_stat.st_mtime)}")
print(f"  Acc√©d√© : {datetime.fromtimestamp(file_stat.st_atime)}")

# Permissions (Unix/Linux/Mac)
if os.name != 'nt':  # Pas Windows
    print(f"\nPermissions (oct) : {oct(file_stat.st_mode)}")
    
    # V√©rifier les permissions
    mode = file_stat.st_mode
    print("\nPermissions d√©taill√©es :")
    print(f"  Lecture (owner) : {bool(mode & stat.S_IRUSR)}")
    print(f"  √âcriture (owner) : {bool(mode & stat.S_IWUSR)}")
    print(f"  Ex√©cution (owner) : {bool(mode & stat.S_IXUSR)}")
    
    # Modifier les permissions (chmod)
    temp_file.chmod(0o644)  # rw-r--r--
    print(f"\n‚úÖ Permissions modifi√©es : 644 (rw-r--r--)")
    
    # Rendre ex√©cutable
    temp_file.chmod(temp_file.stat().st_mode | stat.S_IXUSR)
    print(f"‚úÖ Fichier rendu ex√©cutable")
else:
    print("\n‚ö†Ô∏è  Sous Windows, les permissions sont g√©r√©es diff√©remment (ACL)")

# Nettoyer
temp_file.unlink()
print(f"\n‚úÖ Fichier de test supprim√©")

## üö® Pi√®ges courants

### 1. Chemins Windows vs Unix

In [None]:
import os
from pathlib import Path

# ‚ùå MAUVAIS : hardcoder les s√©parateurs
# chemin_windows = "C:\\Users\\Documents\\file.txt"  # Probl√®me sur Unix
# chemin_unix = "/home/user/file.txt"  # Probl√®me sur Windows

# ‚úÖ BON : utiliser os.path.join ou pathlib
chemin_portable = os.path.join('Users', 'Documents', 'file.txt')
chemin_pathlib = Path('Users') / 'Documents' / 'file.txt'

print("Chemins portables :")
print(f"  os.path.join : {chemin_portable}")
print(f"  pathlib      : {chemin_pathlib}")
print(f"\n‚Üí S'adapte automatiquement √† l'OS ({os.name})")

# Conversion Windows ‚Üî Unix
chemin_windows = "C:\\Users\\file.txt"
chemin_converti = Path(chemin_windows)
print(f"\nConversion : {chemin_windows}")
print(f"  ‚Üí pathlib g√®re automatiquement : {chemin_converti}")

### 2. Permissions et suppression

In [None]:
from pathlib import Path
import tempfile
import shutil

# ‚ùå PROBL√àME : supprimer un dossier non vide avec rmdir
temp = Path(tempfile.mkdtemp(prefix='rm_demo_'))
sous_dossier = temp / 'dossier'
sous_dossier.mkdir()
(sous_dossier / 'fichier.txt').touch()

try:
    sous_dossier.rmdir()  # Erreur : dossier non vide
except OSError as e:
    print(f"‚ùå Erreur avec rmdir() : {e}")
    print("   ‚Üí rmdir() ne fonctionne que sur les dossiers VIDES\n")

# ‚úÖ SOLUTION : utiliser shutil.rmtree
shutil.rmtree(sous_dossier)
print("‚úÖ Dossier supprim√© avec shutil.rmtree()")
print("   ‚Üí Supprime r√©cursivement tout le contenu\n")

# √âquivalent shell
print("√âquivalents shell :")
print("  rmdir()       ‚âà rmdir (dossier vide seulement)")
print("  rmtree()      ‚âà rm -rf (r√©cursif, forc√©)")
print("  unlink()      ‚âà rm (fichier)")

# Nettoyer
shutil.rmtree(temp)

### 3. Chemins relatifs vs absolus

In [None]:
from pathlib import Path
import os

# Probl√®me avec les chemins relatifs
print("R√©pertoire de travail actuel :")
print(f"  {Path.cwd()}\n")

# Chemin relatif
relatif = Path('data/file.txt')
print(f"Chemin relatif : {relatif}")
print(f"  Est absolu ? {relatif.is_absolute()}")

# Convertir en absolu
absolu = relatif.resolve()
print(f"\nChemin absolu : {absolu}")
print(f"  Est absolu ? {absolu.is_absolute()}")

# ‚ö†Ô∏è ATTENTION : les chemins relatifs d√©pendent du CWD
print("\n‚ö†Ô∏è  Les chemins relatifs changent si vous changez de r√©pertoire !")
print("\nRecommandation :")
print("  - Utilisez des chemins absolus dans votre code")
print("  - Ou d√©finissez une racine de projet :")
print("    PROJECT_ROOT = Path(__file__).parent.parent")
print("    data_file = PROJECT_ROOT / 'data' / 'file.txt'")

### 4. Encodage des noms de fichiers

In [None]:
from pathlib import Path
import tempfile

# Python 3 g√®re bien l'Unicode dans les noms de fichiers
temp = Path(tempfile.mkdtemp(prefix='unicode_demo_'))

# Cr√©er des fichiers avec caract√®res sp√©ciaux
fichiers_speciaux = [
    'donn√©es.csv',
    'caf√©.txt',
    'r√©sum√©_fran√ßais.pdf',
    'Êó•Êú¨Ë™û.txt',  # japonais
    '—Ñ–∞–π–ª.txt',   # russe
]

print("Cr√©ation de fichiers avec caract√®res sp√©ciaux :\n")
for nom in fichiers_speciaux:
    fichier = temp / nom
    try:
        fichier.touch()
        print(f"  ‚úÖ {nom}")
    except Exception as e:
        print(f"  ‚ùå {nom} : {e}")

# Lister
print("\nFichiers cr√©√©s :")
for f in temp.iterdir():
    print(f"  üìÑ {f.name}")

# Nettoyer
import shutil
shutil.rmtree(temp)

print("\n‚Üí Python 3 g√®re nativement l'Unicode dans les noms de fichiers !")

## üí™ Mini-exercices

### Exercice 1 : Organiser des fichiers par extension

Cr√©er une fonction qui organise des fichiers dans des sous-dossiers selon leur extension.

In [None]:
from pathlib import Path
import shutil

def organiser_par_extension(dossier: Path) -> None:
    """
    Organise les fichiers d'un dossier dans des sous-dossiers par extension.
    
    Exemple:
        avant/
          file1.txt
          file2.pdf
          file3.txt
        
        apr√®s/
          txt/
            file1.txt
            file3.txt
          pdf/
            file2.pdf
    """
    # TODO: impl√©menter
    pass

# Test
# import tempfile
# temp = Path(tempfile.mkdtemp())
# (temp / 'file1.txt').touch()
# (temp / 'file2.pdf').touch()
# (temp / 'file3.txt').touch()
# (temp / 'image.jpg').touch()
# organiser_par_extension(temp)

### Solution Exercice 1

In [None]:
from pathlib import Path
import shutil
import tempfile

def organiser_par_extension(dossier: Path) -> None:
    """
    Organise les fichiers d'un dossier dans des sous-dossiers par extension.
    """
    dossier = Path(dossier)
    
    # Parcourir tous les fichiers (pas les dossiers)
    for fichier in dossier.iterdir():
        if fichier.is_file():
            # Obtenir l'extension (sans le point)
            extension = fichier.suffix.lstrip('.')
            
            # Si pas d'extension, utiliser 'autres'
            if not extension:
                extension = 'autres'
            
            # Cr√©er le dossier de destination
            dossier_dest = dossier / extension
            dossier_dest.mkdir(exist_ok=True)
            
            # D√©placer le fichier
            nouveau_chemin = dossier_dest / fichier.name
            shutil.move(str(fichier), str(nouveau_chemin))
            print(f"  ‚úÖ {fichier.name} ‚Üí {extension}/")

# Test
temp = Path(tempfile.mkdtemp(prefix='organise_demo_'))
print(f"Dossier de test : {temp}\n")

# Cr√©er des fichiers de test
fichiers_test = [
    'document1.txt',
    'document2.txt',
    'rapport.pdf',
    'presentation.pptx',
    'image1.jpg',
    'image2.png',
    'data.csv',
    'sans_extension',
]

for nom in fichiers_test:
    (temp / nom).touch()

print("Fichiers cr√©√©s :")
for f in fichiers_test:
    print(f"  üìÑ {f}")

print("\nOrganisation par extension...")
organiser_par_extension(temp)

print("\nStructure apr√®s organisation :")
for item in sorted(temp.rglob('*')):
    if item.is_file():
        print(f"  üìÑ {item.relative_to(temp)}")
    elif item != temp:
        print(f"  üìÅ {item.relative_to(temp)}/")

# Nettoyer
shutil.rmtree(temp)

### Exercice 2 : Cr√©er une arborescence de projet

Cr√©er une fonction qui g√©n√®re une structure de projet Python standard.

In [None]:
from pathlib import Path

def creer_projet_python(nom: str, chemin: Path) -> None:
    """
    Cr√©e une structure de projet Python standard.
    
    Structure:
        mon_projet/
          README.md
          requirements.txt
          setup.py
          .gitignore
          mon_projet/
            __init__.py
            main.py
          tests/
            __init__.py
            test_main.py
          docs/
            index.md
    """
    # TODO: impl√©menter
    pass

# Test
# import tempfile
# temp = Path(tempfile.mkdtemp())
# creer_projet_python('mon_projet', temp)

### Solution Exercice 2

In [None]:
from pathlib import Path
import tempfile
import shutil

def creer_projet_python(nom: str, chemin: Path) -> None:
    """
    Cr√©e une structure de projet Python standard.
    """
    chemin = Path(chemin)
    projet = chemin / nom
    
    # Cr√©er la structure de dossiers
    (projet / nom).mkdir(parents=True)
    (projet / 'tests').mkdir()
    (projet / 'docs').mkdir()
    
    # Cr√©er README.md
    (projet / 'README.md').write_text(f"""# {nom}

Description du projet {nom}.

## Installation

```bash
pip install -r requirements.txt
```

## Usage

```python
from {nom} import main
main()
```
""")
    
    # Cr√©er requirements.txt
    (projet / 'requirements.txt').write_text("""# D√©pendances du projet
pytest>=7.0.0
""")
    
    # Cr√©er setup.py
    (projet / 'setup.py').write_text(f"""from setuptools import setup, find_packages

setup(
    name="{nom}",
    version="0.1.0",
    packages=find_packages(),
    install_requires=[],
)
""")
    
    # Cr√©er .gitignore
    (projet / '.gitignore').write_text("""__pycache__/
*.py[cod]
*$py.class
*.so
.Python
env/
venv/
.venv/
dist/
build/
*.egg-info/
.pytest_cache/
.coverage
""")
    
    # Cr√©er le module principal
    (projet / nom / '__init__.py').write_text(f'"""Package {nom}."""\n__version__ = "0.1.0"\n')
    (projet / nom / 'main.py').write_text("""def main():
    \"\"\"Fonction principale.\"\"\" 
    print("Hello from main!")

if __name__ == "__main__":
    main()
""")
    
    # Cr√©er les tests
    (projet / 'tests' / '__init__.py').touch()
    (projet / 'tests' / 'test_main.py').write_text(f"""from {nom}.main import main

def test_main():
    \"\"\"Test de la fonction main.\"\"\" 
    # TODO: impl√©menter le test
    assert True
""")
    
    # Cr√©er la documentation
    (projet / 'docs' / 'index.md').write_text(f"""# Documentation de {nom}

Bienvenue dans la documentation du projet {nom}.
""")
    
    print(f"‚úÖ Projet '{nom}' cr√©√© dans {projet}")

def afficher_arborescence(dossier: Path, prefix: str = "", is_last: bool = True):
    """Affiche l'arborescence d'un dossier."""
    items = sorted(dossier.iterdir(), key=lambda x: (not x.is_dir(), x.name))
    
    for i, item in enumerate(items):
        is_last_item = i == len(items) - 1
        connector = "‚îî‚îÄ‚îÄ " if is_last_item else "‚îú‚îÄ‚îÄ "
        print(f"{prefix}{connector}{item.name}{'/' if item.is_dir() else ''}")
        
        if item.is_dir():
            extension = "    " if is_last_item else "‚îÇ   "
            afficher_arborescence(item, prefix + extension, is_last_item)

# Test
temp = Path(tempfile.mkdtemp(prefix='projet_demo_'))
creer_projet_python('mon_super_projet', temp)

print("\nStructure cr√©√©e :\n")
afficher_arborescence(temp / 'mon_super_projet')

# Nettoyer
shutil.rmtree(temp)

### Exercice 3 : Mock fsspec pour lire depuis S3

Simuler la lecture depuis S3 avec un syst√®me local.

In [None]:
from pathlib import Path
import tempfile

class MockS3FileSystem:
    """
    Mock simple de fsspec pour S3.
    Simule S3 avec un dossier local.
    """
    
    def __init__(self, local_root: Path):
        self.root = Path(local_root)
    
    def _s3_to_local(self, s3_path: str) -> Path:
        """Convertit s3://bucket/path en chemin local."""
        # TODO: impl√©menter
        pass
    
    def read_text(self, s3_path: str) -> str:
        """Lit un fichier depuis S3 (mock)."""
        # TODO: impl√©menter
        pass
    
    def write_text(self, s3_path: str, content: str) -> None:
        """√âcrit un fichier vers S3 (mock)."""
        # TODO: impl√©menter
        pass

# Test
# temp = Path(tempfile.mkdtemp())
# fs = MockS3FileSystem(temp)
# fs.write_text('s3://my-bucket/data/file.txt', 'Hello S3!')
# content = fs.read_text('s3://my-bucket/data/file.txt')
# print(f"Contenu : {content}")

### Solution Exercice 3

In [None]:
from pathlib import Path
import tempfile
import shutil

class MockS3FileSystem:
    """
    Mock simple de fsspec pour S3.
    Simule S3 avec un dossier local.
    """
    
    def __init__(self, local_root: Path):
        self.root = Path(local_root)
        print(f"üì¶ MockS3FileSystem initialis√©")
        print(f"   Racine locale : {self.root}")
    
    def _s3_to_local(self, s3_path: str) -> Path:
        """Convertit s3://bucket/path en chemin local."""
        # Enlever le pr√©fixe s3://
        if s3_path.startswith('s3://'):
            s3_path = s3_path[5:]
        
        # Enlever le slash initial si pr√©sent
        s3_path = s3_path.lstrip('/')
        
        # Construire le chemin local
        return self.root / s3_path
    
    def read_text(self, s3_path: str) -> str:
        """Lit un fichier depuis S3 (mock)."""
        local_path = self._s3_to_local(s3_path)
        print(f"üìñ Lecture depuis {s3_path}")
        print(f"   ‚Üí {local_path}")
        
        if not local_path.exists():
            raise FileNotFoundError(f"S3 object not found: {s3_path}")
        
        return local_path.read_text()
    
    def write_text(self, s3_path: str, content: str) -> None:
        """√âcrit un fichier vers S3 (mock)."""
        local_path = self._s3_to_local(s3_path)
        print(f"‚úçÔ∏è  √âcriture vers {s3_path}")
        print(f"   ‚Üí {local_path}")
        
        # Cr√©er les dossiers parents si n√©cessaire
        local_path.parent.mkdir(parents=True, exist_ok=True)
        
        local_path.write_text(content)
    
    def ls(self, s3_path: str) -> list:
        """Liste les objets dans un pr√©fixe S3 (mock)."""
        local_path = self._s3_to_local(s3_path)
        print(f"üìã Liste de {s3_path}")
        
        if not local_path.exists():
            return []
        
        if local_path.is_file():
            return [s3_path]
        
        # Lister les fichiers
        results = []
        for item in local_path.rglob('*'):
            if item.is_file():
                relative = item.relative_to(self.root)
                results.append(f"s3://{relative}")
        
        return results

# Test complet
print("=" * 60)
print("D√©monstration MockS3FileSystem")
print("=" * 60 + "\n")

# Cr√©er le mock S3
temp = Path(tempfile.mkdtemp(prefix='mock_s3_'))
fs = MockS3FileSystem(temp)

print("\n" + "=" * 60)
print("1. √âcriture de fichiers")
print("=" * 60 + "\n")

# √âcrire des fichiers
fs.write_text('s3://my-bucket/data/raw/file1.txt', 'Donn√©es brutes 1')
fs.write_text('s3://my-bucket/data/raw/file2.txt', 'Donn√©es brutes 2')
fs.write_text('s3://my-bucket/data/processed/result.csv', 'col1,col2\n1,2\n3,4')
fs.write_text('s3://other-bucket/config.json', '{"key": "value"}')

print("\n" + "=" * 60)
print("2. Lecture de fichiers")
print("=" * 60 + "\n")

# Lire des fichiers
content1 = fs.read_text('s3://my-bucket/data/raw/file1.txt')
print(f"\nContenu : {content1}\n")

content2 = fs.read_text('s3://my-bucket/data/processed/result.csv')
print(f"\nContenu CSV :\n{content2}\n")

print("=" * 60)
print("3. Listing des objets")
print("=" * 60 + "\n")

# Lister les objets
objects = fs.ls('s3://my-bucket/data/raw')
print("\nObjets trouv√©s :")
for obj in objects:
    print(f"  üìÑ {obj}")

print("\n" + "=" * 60)
print("4. Structure locale (simulation S3)")
print("=" * 60 + "\n")

# Afficher la structure
print("Structure locale (√©quivalent S3) :")
for item in sorted(temp.rglob('*')):
    if item.is_file():
        rel = item.relative_to(temp)
        print(f"  üìÑ s3://{rel}")

# Nettoyer
shutil.rmtree(temp)
print("\n‚úÖ Test termin√© et nettoy√©")

print("\n" + "=" * 60)
print("Avantage : m√™me code pour local et S3 !")
print("=" * 60)
print("""
# En d√©veloppement (local)
fs = MockS3FileSystem('/tmp/mock_s3')
data = fs.read_text('s3://bucket/data.csv')

# En production (vraie S3)
fs = fsspec.filesystem('s3')
data = fs.read_text('s3://bucket/data.csv')

‚Üí M√™me interface, facile √† tester !
""")

## üìö Ressources compl√©mentaires

- [Documentation os](https://docs.python.org/3/library/os.html)
- [Documentation pathlib](https://docs.python.org/3/library/pathlib.html)
- [Documentation shutil](https://docs.python.org/3/library/shutil.html)
- [Documentation glob](https://docs.python.org/3/library/glob.html)
- [fsspec Documentation](https://filesystem-spec.readthedocs.io/)
- [Real Python - pathlib](https://realpython.com/python-pathlib/)

## üí° Conseils

1. **Pr√©f√©rez pathlib** : Plus moderne, plus lisible, orient√© objet
2. **Soyez portable** : Utilisez `/` ou `os.path.join`, jamais de hardcode `\` ou `/`
3. **Testez les permissions** : Avant de supprimer/modifier, v√©rifiez les droits
4. **Utilisez context managers** : `with` pour les op√©rations sur fichiers
5. **fsspec pour le cloud** : Abstraire le stockage d√®s le d√©but facilite la migration
6. **Attention aux chemins relatifs** : Pr√©f√©rez les chemins absolus ou relatifs √† la racine du projet