In [16]:
import pandas as pd
from pathlib import Path

# ============================================================================
# 1. CHARGER LES CSV
# ============================================================================

# Chemin vers les fichiers CSV
CSV_PATH = Path('./csv')

print("\n" + "="*80)
print("üìö CHARGEMENT DES FICHIERS CSV")
print("="*80)

# V√©rifier que le dossier existe
if not CSV_PATH.exists():
    print(f"\n‚ùå ERREUR: Le dossier '{CSV_PATH}' n'existe pas!")
    print(f"   Cr√©e le dossier ou v√©rifie le chemin")
    exit(1)

print(f"\n‚úì Dossier trouv√©: {CSV_PATH.absolute()}")

# ============================================================================
# 2. LISTER LES FICHIERS CSV
# ============================================================================

csv_files = list(CSV_PATH.glob('*.csv'))
print(f"\nüìÑ Fichiers CSV trouv√©s: {len(csv_files)}")

for file in sorted(csv_files):
    size_kb = file.stat().st_size / 1024
    print(f"   ‚Ä¢ {file.name:20} ({size_kb:8.1f} KB)")

# ============================================================================
# 3. CHARGER TOUS LES CSV DANS UN DICTIONNAIRE
# ============================================================================

print("\n" + "="*80)
print("‚è≥ Chargement en cours...")
print("="*80)

dfs = {}  # Dictionnaire pour stocker les DataFrames

for filepath in sorted(CSV_PATH.glob('*.csv')):
    filename = filepath.name
    table_name = filename.replace('.csv', '')  # Enlever '.csv'

    try:
        df = pd.read_csv(filepath)
        dfs[table_name] = df

        # Afficher les info
        print(f"\n‚úì {table_name.upper()}")
        print(f"  Lignes: {len(df):,}")
        print(f"  Colonnes: {len(df.columns)}")
        print(f"  Colonnes: {list(df.columns)}")

    except Exception as e:
        print(f"\n‚ùå Erreur lors du chargement de {filename}: {e}")

# ============================================================================
# 4. R√âSUM√â
# ============================================================================

print("\n" + "="*80)
print("üìä R√âSUM√â")
print("="*80)

print(f"\n‚úì Nombre total de fichiers charg√©s: {len(dfs)}")
print(f"\nTableau r√©capitulatif:")
print("-" * 80)
print(f"{'Fichier':20} | {'Lignes':>12} | {'Colonnes':>9} | {'M√©moire':>10}")
print("-" * 80)

for name, df in sorted(dfs.items()):
    memory_mb = df.memory_usage(deep=True).sum() / 1024**2
    print(f"{name:20} | {len(df):>12,} | {len(df.columns):>9} | {memory_mb:>9.2f} MB")

print("-" * 80)




üìö CHARGEMENT DES FICHIERS CSV

‚úì Dossier trouv√©: /home/omar/Bureau/4A/Bases_de_Donn√©es_Avanc√©es/cineexplorer/data/csv

üìÑ Fichiers CSV trouv√©s: 12
   ‚Ä¢ characters.csv       ( 45845.5 KB)
   ‚Ä¢ directors.csv        (  8645.0 KB)
   ‚Ä¢ episodes.csv         (  2896.5 KB)
   ‚Ä¢ genres.csv           ( 11762.8 KB)
   ‚Ä¢ knownformovies.csv   ( 27371.3 KB)
   ‚Ä¢ movies.csv           ( 19232.2 KB)
   ‚Ä¢ persons.csv          ( 18046.1 KB)
   ‚Ä¢ principals.csv       ( 94617.9 KB)
   ‚Ä¢ professions.csv      ( 25019.2 KB)
   ‚Ä¢ ratings.csv          (  5514.5 KB)
   ‚Ä¢ titles.csv           ( 94833.1 KB)
   ‚Ä¢ writers.csv          ( 18558.6 KB)

‚è≥ Chargement en cours...

‚úì CHARACTERS
  Lignes: 1,405,274
  Colonnes: 3
  Colonnes: ["('mid',)", "('pid',)", "('name',)"]

‚úì DIRECTORS
  Lignes: 419,861
  Colonnes: 2
  Colonnes: ["('mid',)", "('pid',)"]

‚úì EPISODES
  Lignes: 115,576
  Colonnes: 4
  Colonnes: ["('mid',)", "('parentMid',)", "('seasonNumber',)", "('episodeNumbe

In [17]:
import pandas as pd
from pathlib import Path
import numpy as np

# ============================================================================
# 1. CHARGER LES CSV
# ============================================================================

# Chemin vers les fichiers CSV
CSV_PATH = Path('./csv')

print("\n" + "="*80)
print("üìö CHARGEMENT DES FICHIERS CSV")
print("="*80)

# V√©rifier que le dossier existe
if not CSV_PATH.exists():
    print(f"\n‚ùå ERREUR: Le dossier '{CSV_PATH}' n'existe pas!")
    print(f"   Cr√©e le dossier ou v√©rifie le chemin")
    exit(1)

print(f"\n‚úì Dossier trouv√©: {CSV_PATH.absolute()}")

# ============================================================================
# 2. LISTER LES FICHIERS CSV
# ============================================================================

csv_files = list(CSV_PATH.glob('*.csv'))
print(f"\nüìÑ Fichiers CSV trouv√©s: {len(csv_files)}")

for file in sorted(csv_files):
    size_kb = file.stat().st_size / 1024
    print(f"   ‚Ä¢ {file.name:20} ({size_kb:8.1f} KB)")

# ============================================================================
# 3. CHARGER TOUS LES CSV DANS UN DICTIONNAIRE
# ============================================================================

print("\n" + "="*80)
print("‚è≥ Chargement en cours...")
print("="*80)

dfs = {}  # Dictionnaire pour stocker les DataFrames

for filepath in sorted(CSV_PATH.glob('*.csv')):
    filename = filepath.name
    table_name = filename.replace('.csv', '')  # Enlever '.csv'

    try:
        df = pd.read_csv(filepath)
        dfs[table_name] = df

        # Afficher les info
        print(f"\n‚úì {table_name.upper()}")
        print(f"  Lignes: {len(df):,}")
        print(f"  Colonnes: {len(df.columns)}")
        print(f"  Colonnes: {list(df.columns)}")

    except Exception as e:
        print(f"\n‚ùå Erreur lors du chargement de {filename}: {e}")

# ============================================================================
# 4. R√âSUM√â DU CHARGEMENT
# ============================================================================

print("\n" + "="*80)
print("üìä R√âSUM√â DU CHARGEMENT")
print("="*80)

print(f"\n‚úì Nombre total de fichiers charg√©s: {len(dfs)}")
print(f"\nTableau r√©capitulatif:")
print("-" * 80)
print(f"{'Fichier':20} | {'Lignes':>12} | {'Colonnes':>9} | {'M√©moire':>10}")
print("-" * 80)

for name, df in sorted(dfs.items()):
    memory_mb = df.memory_usage(deep=True).sum() / 1024**2
    print(f"{name:20} | {len(df):>12,} | {len(df.columns):>9} | {memory_mb:>9.2f} MB")

print("-" * 80)

# ============================================================================
# 5. STATISTIQUES DESCRIPTIVES POUR CHAQUE FICHIER
# ============================================================================

print("\n" + "="*80)
print("üìä STATISTIQUES DESCRIPTIVES D√âTAILL√âES")
print("="*80)

for table_name, df in sorted(dfs.items()):
    print(f"\n\n{'='*80}")
    print(f"üìã TABLE: {table_name.upper()}")
    print(f"{'='*80}")

    # ========================
    # 1. DIMENSIONS
    # ========================
    print(f"\n1Ô∏è‚É£  DIMENSIONS:")
    print(f"   ‚Ä¢ Nombre de lignes: {len(df):,}")
    print(f"   ‚Ä¢ Nombre de colonnes: {len(df.columns)}")
    print(f"   ‚Ä¢ M√©moire utilis√©e: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

    # ========================
    # 2. TYPES DE DONN√âES
    # ========================
    print(f"\n2Ô∏è‚É£  TYPES DE DONN√âES:")
    for col in df.columns:
        dtype = df[col].dtype
        print(f"   ‚Ä¢ {col:25} : {dtype}")

    # ========================
    # 3. VALEURS MANQUANTES (NaN)
    # ========================
    print(f"\n3Ô∏è‚É£  VALEURS MANQUANTES (NaN):")
    missing = df.isnull().sum()
    has_missing = missing.sum() > 0

    if not has_missing:
        print(f"   ‚úì Aucune valeur manquante d√©tect√©e")
    else:
        for col in df.columns:
            if missing[col] > 0:
                pct = (missing[col] / len(df) * 100)
                print(f"   ‚Ä¢ {col:25} : {missing[col]:>8,} valeurs manquantes ({pct:>6.2f}%)")

    # ========================
    # 4. CHA√éNES VIDES
    # ========================
    print(f"\n4Ô∏è‚É£  CHA√éNES VIDES (pour colonnes texte):")
    has_empty = False
    for col in df.columns:
        if df[col].dtype == 'object':  # Colonne texte
            empty_count = (df[col] == '').sum()
            if empty_count > 0:
                pct = (empty_count / len(df) * 100)
                print(f"   ‚Ä¢ {col:25} : {empty_count:>8,} cha√Ænes vides ({pct:>6.2f}%)")
                has_empty = True

    if not has_empty:
        print(f"   ‚úì Aucune cha√Æne vide d√©tect√©e")

    # ========================
    # 5. VALEURS UNIQUES (CARDINALIT√â)
    # ========================
    print(f"\n5Ô∏è‚É£  VALEURS UNIQUES (CARDINALIT√â):")
    for col in df.columns:
        unique_count = df[col].nunique()
        pct = (unique_count / len(df) * 100)
        print(f"   ‚Ä¢ {col:25} : {unique_count:>8,} uniques ({pct:>6.2f}%)")

    # ========================
    # 6. APER√áU DES DONN√âES
    # ========================
    print(f"\n6Ô∏è‚É£  PREMI√àRES LIGNES:")
    print(df.head(3).to_string())

    # ========================
    # 7. STATISTIQUES POUR COLONNES NUM√âRIQUES
    # ========================
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    if len(numeric_cols) > 0:
        print(f"\n7Ô∏è‚É£  STATISTIQUES NUM√âRIQUES:")
        print(df[numeric_cols].describe().to_string())
    else:
        print(f"\n7Ô∏è‚É£  STATISTIQUES NUM√âRIQUES:")
        print(f"   (Aucune colonne num√©rique)")

# ============================================================================
# 6. R√âSUM√â GLOBAL
# ============================================================================

print(f"\n\n{'='*80}")
print(f"üìä R√âSUM√â GLOBAL DE L'EXPLORATION")
print(f"{'='*80}")

total_rows = sum(len(df) for df in dfs.values())
total_cols = sum(len(df.columns) for df in dfs.values())
total_memory = sum(df.memory_usage(deep=True).sum() / 1024**2 for df in dfs.values())

print(f"\n‚úì Total des lignes: {total_rows:,}")
print(f"‚úì Total des colonnes: {total_cols}")
print(f"‚úì M√©moire totale: {total_memory:.2f} MB")

print(f"\n‚úÖ Exploration des donn√©es termin√©e!")


üìö CHARGEMENT DES FICHIERS CSV

‚úì Dossier trouv√©: /home/omar/Bureau/4A/Bases_de_Donn√©es_Avanc√©es/cineexplorer/data/csv

üìÑ Fichiers CSV trouv√©s: 12
   ‚Ä¢ characters.csv       ( 45845.5 KB)
   ‚Ä¢ directors.csv        (  8645.0 KB)
   ‚Ä¢ episodes.csv         (  2896.5 KB)
   ‚Ä¢ genres.csv           ( 11762.8 KB)
   ‚Ä¢ knownformovies.csv   ( 27371.3 KB)
   ‚Ä¢ movies.csv           ( 19232.2 KB)
   ‚Ä¢ persons.csv          ( 18046.1 KB)
   ‚Ä¢ principals.csv       ( 94617.9 KB)
   ‚Ä¢ professions.csv      ( 25019.2 KB)
   ‚Ä¢ ratings.csv          (  5514.5 KB)
   ‚Ä¢ titles.csv           ( 94833.1 KB)
   ‚Ä¢ writers.csv          ( 18558.6 KB)

‚è≥ Chargement en cours...

‚úì CHARACTERS
  Lignes: 1,405,274
  Colonnes: 3
  Colonnes: ["('mid',)", "('pid',)", "('name',)"]

‚úì DIRECTORS
  Lignes: 419,861
  Colonnes: 2
  Colonnes: ["('mid',)", "('pid',)"]

‚úì EPISODES
  Lignes: 115,576
  Colonnes: 4
  Colonnes: ["('mid',)", "('parentMid',)", "('seasonNumber',)", "('episodeNumbe