In [16]:
import pandas as pd
from pathlib import Path

# ============================================================================
# 1. CHARGER LES CSV
# ============================================================================

# Chemin vers les fichiers CSV
CSV_PATH = Path('./csv')

print("\n" + "="*80)
print("üìö CHARGEMENT DES FICHIERS CSV")
print("="*80)

# V√©rifier que le dossier existe
if not CSV_PATH.exists():
    print(f"\n‚ùå ERREUR: Le dossier '{CSV_PATH}' n'existe pas!")
    print(f"   Cr√©e le dossier ou v√©rifie le chemin")
    exit(1)

print(f"\n‚úì Dossier trouv√©: {CSV_PATH.absolute()}")

# ============================================================================
# 2. LISTER LES FICHIERS CSV
# ============================================================================

csv_files = list(CSV_PATH.glob('*.csv'))
print(f"\nüìÑ Fichiers CSV trouv√©s: {len(csv_files)}")

for file in sorted(csv_files):
    size_kb = file.stat().st_size / 1024
    print(f"   ‚Ä¢ {file.name:20} ({size_kb:8.1f} KB)")

# ============================================================================
# 3. CHARGER TOUS LES CSV DANS UN DICTIONNAIRE
# ============================================================================

print("\n" + "="*80)
print("‚è≥ Chargement en cours...")
print("="*80)

dfs = {}  # Dictionnaire pour stocker les DataFrames

for filepath in sorted(CSV_PATH.glob('*.csv')):
    filename = filepath.name
    table_name = filename.replace('.csv', '')  # Enlever '.csv'

    try:
        df = pd.read_csv(filepath)
        dfs[table_name] = df

        # Afficher les info
        print(f"\n‚úì {table_name.upper()}")
        print(f"  Lignes: {len(df):,}")
        print(f"  Colonnes: {len(df.columns)}")
        print(f"  Colonnes: {list(df.columns)}")

    except Exception as e:
        print(f"\n‚ùå Erreur lors du chargement de {filename}: {e}")

# ============================================================================
# 4. R√âSUM√â
# ============================================================================

print("\n" + "="*80)
print("üìä R√âSUM√â")
print("="*80)

print(f"\n‚úì Nombre total de fichiers charg√©s: {len(dfs)}")
print(f"\nTableau r√©capitulatif:")
print("-" * 80)
print(f"{'Fichier':20} | {'Lignes':>12} | {'Colonnes':>9} | {'M√©moire':>10}")
print("-" * 80)

for name, df in sorted(dfs.items()):
    memory_mb = df.memory_usage(deep=True).sum() / 1024**2
    print(f"{name:20} | {len(df):>12,} | {len(df.columns):>9} | {memory_mb:>9.2f} MB")

print("-" * 80)




üìö CHARGEMENT DES FICHIERS CSV

‚úì Dossier trouv√©: /home/omar/Bureau/4A/Bases_de_Donn√©es_Avanc√©es/cineexplorer/data/csv

üìÑ Fichiers CSV trouv√©s: 12
   ‚Ä¢ characters.csv       ( 45845.5 KB)
   ‚Ä¢ directors.csv        (  8645.0 KB)
   ‚Ä¢ episodes.csv         (  2896.5 KB)
   ‚Ä¢ genres.csv           ( 11762.8 KB)
   ‚Ä¢ knownformovies.csv   ( 27371.3 KB)
   ‚Ä¢ movies.csv           ( 19232.2 KB)
   ‚Ä¢ persons.csv          ( 18046.1 KB)
   ‚Ä¢ principals.csv       ( 94617.9 KB)
   ‚Ä¢ professions.csv      ( 25019.2 KB)
   ‚Ä¢ ratings.csv          (  5514.5 KB)
   ‚Ä¢ titles.csv           ( 94833.1 KB)
   ‚Ä¢ writers.csv          ( 18558.6 KB)

‚è≥ Chargement en cours...

‚úì CHARACTERS
  Lignes: 1,405,274
  Colonnes: 3
  Colonnes: ["('mid',)", "('pid',)", "('name',)"]

‚úì DIRECTORS
  Lignes: 419,861
  Colonnes: 2
  Colonnes: ["('mid',)", "('pid',)"]

‚úì EPISODES
  Lignes: 115,576
  Colonnes: 4
  Colonnes: ["('mid',)", "('parentMid',)", "('seasonNumber',)", "('episodeNumbe