In [19]:
import pandas as pd
from pathlib import Path

# ============================================================================
# 1. CHARGER LES CSV
# ============================================================================

# Chemin vers les fichiers CSV
CSV_PATH = Path('./csv')

print("\n" + "="*80)
print("üìö CHARGEMENT DES FICHIERS CSV")
print("="*80)

# V√©rifier que le dossier existe
if not CSV_PATH.exists():
    print(f"\n‚ùå ERREUR: Le dossier '{CSV_PATH}' n'existe pas!")
    print(f"   Cr√©e le dossier ou v√©rifie le chemin")
    exit(1)

print(f"\n‚úì Dossier trouv√©: {CSV_PATH.absolute()}")

# ============================================================================
# 2. LISTER LES FICHIERS CSV
# ============================================================================

csv_files = list(CSV_PATH.glob('*.csv'))
print(f"\nüìÑ Fichiers CSV trouv√©s: {len(csv_files)}")

for file in sorted(csv_files):
    size_kb = file.stat().st_size / 1024
    print(f"   ‚Ä¢ {file.name:20} ({size_kb:8.1f} KB)")

# ============================================================================
# 3. CHARGER TOUS LES CSV DANS UN DICTIONNAIRE
# ============================================================================

print("\n" + "="*80)
print("‚è≥ Chargement en cours...")
print("="*80)

dfs = {}  # Dictionnaire pour stocker les DataFrames

for filepath in sorted(CSV_PATH.glob('*.csv')):
    filename = filepath.name
    table_name = filename.replace('.csv', '')  # Enlever '.csv'

    try:
        df = pd.read_csv(filepath)
        dfs[table_name] = df

        # Afficher les info
        print(f"\n‚úì {table_name.upper()}")
        print(f"  Lignes: {len(df):,}")
        print(f"  Colonnes: {len(df.columns)}")
        print(f"  Colonnes: {list(df.columns)}")

    except Exception as e:
        print(f"\n‚ùå Erreur lors du chargement de {filename}: {e}")

# ============================================================================
# 4. R√âSUM√â
# ============================================================================

print("\n" + "="*80)
print("üìä R√âSUM√â")
print("="*80)

print(f"\n‚úì Nombre total de fichiers charg√©s: {len(dfs)}")
print(f"\nTableau r√©capitulatif:")
print("-" * 80)
print(f"{'Fichier':20} | {'Lignes':>12} | {'Colonnes':>9} | {'M√©moire':>10}")
print("-" * 80)

for name, df in sorted(dfs.items()):
    memory_mb = df.memory_usage(deep=True).sum() / 1024**2
    print(f"{name:20} | {len(df):>12,} | {len(df.columns):>9} | {memory_mb:>9.2f} MB")

print("-" * 80)




üìö CHARGEMENT DES FICHIERS CSV

‚úì Dossier trouv√©: /home/omar/Bureau/4A/Bases_de_Donn√©es_Avanc√©es/cineexplorer/data/csv

üìÑ Fichiers CSV trouv√©s: 12
   ‚Ä¢ characters.csv       ( 45845.5 KB)
   ‚Ä¢ directors.csv        (  8645.0 KB)
   ‚Ä¢ episodes.csv         (  2896.5 KB)
   ‚Ä¢ genres.csv           ( 11762.8 KB)
   ‚Ä¢ knownformovies.csv   ( 27371.3 KB)
   ‚Ä¢ movies.csv           ( 19232.2 KB)
   ‚Ä¢ persons.csv          ( 18046.1 KB)
   ‚Ä¢ principals.csv       ( 94617.9 KB)
   ‚Ä¢ professions.csv      ( 25019.2 KB)
   ‚Ä¢ ratings.csv          (  5514.5 KB)
   ‚Ä¢ titles.csv           ( 94833.1 KB)
   ‚Ä¢ writers.csv          ( 18558.6 KB)

‚è≥ Chargement en cours...

‚úì CHARACTERS
  Lignes: 1,405,274
  Colonnes: 3
  Colonnes: ["('mid',)", "('pid',)", "('name',)"]

‚úì DIRECTORS
  Lignes: 419,861
  Colonnes: 2
  Colonnes: ["('mid',)", "('pid',)"]

‚úì EPISODES
  Lignes: 115,576
  Colonnes: 4
  Colonnes: ["('mid',)", "('parentMid',)", "('seasonNumber',)", "('episodeNumbe

In [17]:
import pandas as pd
from pathlib import Path
import numpy as np

# ============================================================================
# 1. CHARGER LES CSV
# ============================================================================

# Chemin vers les fichiers CSV
CSV_PATH = Path('./csv')

print("\n" + "="*80)
print("üìö CHARGEMENT DES FICHIERS CSV")
print("="*80)

# V√©rifier que le dossier existe
if not CSV_PATH.exists():
    print(f"\n‚ùå ERREUR: Le dossier '{CSV_PATH}' n'existe pas!")
    print(f"   Cr√©e le dossier ou v√©rifie le chemin")
    exit(1)

print(f"\n‚úì Dossier trouv√©: {CSV_PATH.absolute()}")

# ============================================================================
# 2. LISTER LES FICHIERS CSV
# ============================================================================

csv_files = list(CSV_PATH.glob('*.csv'))
print(f"\nüìÑ Fichiers CSV trouv√©s: {len(csv_files)}")

for file in sorted(csv_files):
    size_kb = file.stat().st_size / 1024
    print(f"   ‚Ä¢ {file.name:20} ({size_kb:8.1f} KB)")

# ============================================================================
# 3. CHARGER TOUS LES CSV DANS UN DICTIONNAIRE
# ============================================================================

print("\n" + "="*80)
print("‚è≥ Chargement en cours...")
print("="*80)

dfs = {}  # Dictionnaire pour stocker les DataFrames

for filepath in sorted(CSV_PATH.glob('*.csv')):
    filename = filepath.name
    table_name = filename.replace('.csv', '')  # Enlever '.csv'

    try:
        df = pd.read_csv(filepath)
        dfs[table_name] = df

        # Afficher les info
        print(f"\n‚úì {table_name.upper()}")
        print(f"  Lignes: {len(df):,}")
        print(f"  Colonnes: {len(df.columns)}")
        print(f"  Colonnes: {list(df.columns)}")

    except Exception as e:
        print(f"\n‚ùå Erreur lors du chargement de {filename}: {e}")

# ============================================================================
# 4. R√âSUM√â DU CHARGEMENT
# ============================================================================

print("\n" + "="*80)
print("üìä R√âSUM√â DU CHARGEMENT")
print("="*80)

print(f"\n‚úì Nombre total de fichiers charg√©s: {len(dfs)}")
print(f"\nTableau r√©capitulatif:")
print("-" * 80)
print(f"{'Fichier':20} | {'Lignes':>12} | {'Colonnes':>9} | {'M√©moire':>10}")
print("-" * 80)

for name, df in sorted(dfs.items()):
    memory_mb = df.memory_usage(deep=True).sum() / 1024**2
    print(f"{name:20} | {len(df):>12,} | {len(df.columns):>9} | {memory_mb:>9.2f} MB")

print("-" * 80)

# ============================================================================
# 5. STATISTIQUES DESCRIPTIVES POUR CHAQUE FICHIER
# ============================================================================

print("\n" + "="*80)
print("üìä STATISTIQUES DESCRIPTIVES D√âTAILL√âES")
print("="*80)

for table_name, df in sorted(dfs.items()):
    print(f"\n\n{'='*80}")
    print(f"üìã TABLE: {table_name.upper()}")
    print(f"{'='*80}")

    # ========================
    # 1. DIMENSIONS
    # ========================
    print(f"\n1Ô∏è‚É£  DIMENSIONS:")
    print(f"   ‚Ä¢ Nombre de lignes: {len(df):,}")
    print(f"   ‚Ä¢ Nombre de colonnes: {len(df.columns)}")
    print(f"   ‚Ä¢ M√©moire utilis√©e: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

    # ========================
    # 2. TYPES DE DONN√âES
    # ========================
    print(f"\n2Ô∏è‚É£  TYPES DE DONN√âES:")
    for col in df.columns:
        dtype = df[col].dtype
        print(f"   ‚Ä¢ {col:25} : {dtype}")

    # ========================
    # 3. VALEURS MANQUANTES (NaN)
    # ========================
    print(f"\n3Ô∏è‚É£  VALEURS MANQUANTES (NaN):")
    missing = df.isnull().sum()
    has_missing = missing.sum() > 0

    if not has_missing:
        print(f"   ‚úì Aucune valeur manquante d√©tect√©e")
    else:
        for col in df.columns:
            if missing[col] > 0:
                pct = (missing[col] / len(df) * 100)
                print(f"   ‚Ä¢ {col:25} : {missing[col]:>8,} valeurs manquantes ({pct:>6.2f}%)")

    # ========================
    # 4. CHA√éNES VIDES
    # ========================
    print(f"\n4Ô∏è‚É£  CHA√éNES VIDES (pour colonnes texte):")
    has_empty = False
    for col in df.columns:
        if df[col].dtype == 'object':  # Colonne texte
            empty_count = (df[col] == '').sum()
            if empty_count > 0:
                pct = (empty_count / len(df) * 100)
                print(f"   ‚Ä¢ {col:25} : {empty_count:>8,} cha√Ænes vides ({pct:>6.2f}%)")
                has_empty = True

    if not has_empty:
        print(f"   ‚úì Aucune cha√Æne vide d√©tect√©e")

    # ========================
    # 5. VALEURS UNIQUES (CARDINALIT√â)
    # ========================
    print(f"\n5Ô∏è‚É£  VALEURS UNIQUES (CARDINALIT√â):")
    for col in df.columns:
        unique_count = df[col].nunique()
        pct = (unique_count / len(df) * 100)
        print(f"   ‚Ä¢ {col:25} : {unique_count:>8,} uniques ({pct:>6.2f}%)")

    # ========================
    # 6. APER√áU DES DONN√âES
    # ========================
    print(f"\n6Ô∏è‚É£  PREMI√àRES LIGNES:")
    print(df.head(3).to_string())

    # ========================
    # 7. STATISTIQUES POUR COLONNES NUM√âRIQUES
    # ========================
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    if len(numeric_cols) > 0:
        print(f"\n7Ô∏è‚É£  STATISTIQUES NUM√âRIQUES:")
        print(df[numeric_cols].describe().to_string())
    else:
        print(f"\n7Ô∏è‚É£  STATISTIQUES NUM√âRIQUES:")
        print(f"   (Aucune colonne num√©rique)")

# ============================================================================
# 6. R√âSUM√â GLOBAL
# ============================================================================

print(f"\n\n{'='*80}")
print(f"üìä R√âSUM√â GLOBAL DE L'EXPLORATION")
print(f"{'='*80}")

total_rows = sum(len(df) for df in dfs.values())
total_cols = sum(len(df.columns) for df in dfs.values())
total_memory = sum(df.memory_usage(deep=True).sum() / 1024**2 for df in dfs.values())

print(f"\n‚úì Total des lignes: {total_rows:,}")
print(f"‚úì Total des colonnes: {total_cols}")
print(f"‚úì M√©moire totale: {total_memory:.2f} MB")

print(f"\n‚úÖ Exploration des donn√©es termin√©e!")


üìö CHARGEMENT DES FICHIERS CSV

‚úì Dossier trouv√©: /home/omar/Bureau/4A/Bases_de_Donn√©es_Avanc√©es/cineexplorer/data/csv

üìÑ Fichiers CSV trouv√©s: 12
   ‚Ä¢ characters.csv       ( 45845.5 KB)
   ‚Ä¢ directors.csv        (  8645.0 KB)
   ‚Ä¢ episodes.csv         (  2896.5 KB)
   ‚Ä¢ genres.csv           ( 11762.8 KB)
   ‚Ä¢ knownformovies.csv   ( 27371.3 KB)
   ‚Ä¢ movies.csv           ( 19232.2 KB)
   ‚Ä¢ persons.csv          ( 18046.1 KB)
   ‚Ä¢ principals.csv       ( 94617.9 KB)
   ‚Ä¢ professions.csv      ( 25019.2 KB)
   ‚Ä¢ ratings.csv          (  5514.5 KB)
   ‚Ä¢ titles.csv           ( 94833.1 KB)
   ‚Ä¢ writers.csv          ( 18558.6 KB)

‚è≥ Chargement en cours...

‚úì CHARACTERS
  Lignes: 1,405,274
  Colonnes: 3
  Colonnes: ["('mid',)", "('pid',)", "('name',)"]

‚úì DIRECTORS
  Lignes: 419,861
  Colonnes: 2
  Colonnes: ["('mid',)", "('pid',)"]

‚úì EPISODES
  Lignes: 115,576
  Colonnes: 4
  Colonnes: ["('mid',)", "('parentMid',)", "('seasonNumber',)", "('episodeNumbe

In [28]:
import pandas as pd
from pathlib import Path
import numpy as np
import matplotlib
matplotlib.use('Agg')  # ‚Üê SOLUTION : Utiliser le backend Agg (pas d'affichage interactif)
import matplotlib.pyplot as plt
import re

# ============================================================================
# 1. CHARGER LES CSV
# ============================================================================

CSV_PATH = Path('./csv')

print("\n" + "="*80)
print("üìö CHARGEMENT DES FICHIERS CSV")
print("="*80)

if not CSV_PATH.exists():
    print(f"\n‚ùå ERREUR: Le dossier '{CSV_PATH}' n'existe pas!")
    exit(1)

print(f"‚úì Dossier trouv√©: {CSV_PATH.absolute()}")

# ============================================================================
# 2. FONCTION POUR NETTOYER LES NOMS DE COLONNES
# ============================================================================

def clean_column_names(df):
    """
    Nettoie les noms de colonnes en supprimant les caract√®res inutiles.
    Transforme "('mid',)" en "mid"
    """
    new_columns = []
    for col in df.columns:
        # Supprimer les guillemets, parenth√®ses et caract√®res sp√©ciaux
        cleaned = re.sub(r"[\"'(),]", "", col)
        cleaned = cleaned.strip()
        new_columns.append(cleaned)

    df.columns = new_columns
    return df

# ============================================================================
# 3. CHARGER ET NETTOYER LES CSV
# ============================================================================

dfs = {}

for filepath in sorted(CSV_PATH.glob('*.csv')):
    filename = filepath.name
    table_name = filename.replace('.csv', '').lower()  # MINUSCULES !
    try:
        df = pd.read_csv(filepath)
        # Nettoyer les noms des colonnes
        df = clean_column_names(df)
        dfs[table_name] = df
        print(f"‚úì {table_name.upper():20} ({len(df):>8,} lignes, {len(df.columns)} colonnes)")
    except Exception as e:
        print(f"‚ùå Erreur: {filename}: {e}")

print(f"\n‚úì Total charg√©: {len(dfs)} fichiers")

# ============================================================================
# 4. AFFICHER LES NOMS DE COLONNES NETTOY√âS (pour v√©rification)
# ============================================================================

print("\n" + "="*80)
print("üìù NOMS DES COLONNES (NETTOY√âS)")
print("="*80)

for table_name, df in sorted(dfs.items()):
    print(f"\n{table_name.upper()}:")
    print(f"  {df.columns.tolist()}")

# ============================================================================
# 5. ANALYSES EXPLORATOIRES
# ============================================================================

print("\n\n" + "="*80)
print("üìä ANALYSES EXPLORATOIRES")
print("="*80)

# ========================
# 5.1 DISTRIBUTION DES FILMS PAR ANN√âE
# ========================

print("\n\n" + "="*80)
print("üìÖ 1Ô∏è‚É£  DISTRIBUTION DES FILMS PAR ANN√âE")
print("="*80)

if 'movies' in dfs:  # minuscules !
    df_movies = dfs['movies']

    print(f"\n‚úì Table 'movies' trouv√©e")

    if 'startYear' in df_movies.columns:
        print(f"‚úì Colonne 'startYear' trouv√©e")

        # Nettoyer les donn√©es (supprimer les NaN)
        df_year = df_movies[['startYear']].copy()
        df_year['startYear'] = pd.to_numeric(df_year['startYear'], errors='coerce')
        df_year = df_year.dropna()

        print(f"\nStatistiques de base:")
        print(f"   ‚Ä¢ Ann√©e minimale: {df_year['startYear'].min():.0f}")
        print(f"   ‚Ä¢ Ann√©e maximale: {df_year['startYear'].max():.0f}")
        print(f"   ‚Ä¢ Ann√©e m√©diane: {df_year['startYear'].median():.0f}")
        print(f"   ‚Ä¢ Ann√©e moyenne: {df_year['startYear'].mean():.0f}")

        # Films par d√©cennie
        df_year['decade'] = (df_year['startYear'] // 10 * 10).astype(int)
        decade_counts = df_year['decade'].value_counts().sort_index()

        print(f"\nFilms par d√©cennie:")
        for decade, count in decade_counts.items():
            pct = (count / len(df_year) * 100)
            print(f"   {int(decade)}s: {count:>8,} films ({pct:>6.2f}%)")

        # Cr√©er l'histogramme
        fig, ax = plt.subplots(figsize=(14, 6))
        decade_counts.plot(kind='bar', ax=ax, color='steelblue', edgecolor='black')
        ax.set_title('Distribution des films par d√©cennie', fontsize=14, fontweight='bold')
        ax.set_xlabel('D√©cennie')
        ax.set_ylabel('Nombre de films')
        ax.grid(axis='y', alpha=0.3)
        plt.xticks(rotation=45)
        plt.tight_layout()
        plt.savefig('analyse_films_par_annee.png', dpi=100, bbox_inches='tight')
        print(f"\n‚úì Graphique sauvegard√©: analyse_films_par_annee.png")
        plt.close()
    else:
        print(f"‚ö†Ô∏è  Colonne 'startYear' non trouv√©e")
else:
    print(f"‚ö†Ô∏è  Table 'movies' non trouv√©e")

# ========================
# 5.2 TOP 10 DES GENRES LES PLUS FR√âQUENTS
# ========================

print("\n\n" + "="*80)
print("üé≠ 2Ô∏è‚É£  TOP 10 DES GENRES LES PLUS FR√âQUENTS")
print("="*80)

if 'genres' in dfs:  # minuscules !
    df_genres = dfs['genres']

    print(f"\n‚úì Table 'genres' trouv√©e")

    if 'genre' in df_genres.columns:
        print(f"‚úì Colonne 'genre' trouv√©e")

        genre_counts = df_genres['genre'].value_counts().head(10)

        print(f"\nTop 10 des genres:")
        for i, (genre, count) in enumerate(genre_counts.items(), 1):
            pct = (count / len(df_genres) * 100)
            print(f"   {i:2}. {genre:25} : {count:>8,} ({pct:>6.2f}%)")

        # Cr√©er le graphique (barres horizontales)
        fig, ax = plt.subplots(figsize=(12, 6))
        genre_counts.plot(kind='barh', ax=ax, color='coral', edgecolor='black')
        ax.set_title('Top 10 des genres les plus fr√©quents', fontsize=14, fontweight='bold')
        ax.set_xlabel('Nombre d\'associations film-genre')
        ax.invert_yaxis()
        ax.grid(axis='x', alpha=0.3)
        plt.tight_layout()
        plt.savefig('top10_genres.png', dpi=100, bbox_inches='tight')
        print(f"\n‚úì Graphique sauvegard√©: top10_genres.png")
        plt.close()
    else:
        print(f"‚ö†Ô∏è  Colonne 'genre' non trouv√©e")
else:
    print(f"‚ö†Ô∏è  Table 'genres' non trouv√©e")

# ========================
# 5.3 DISTRIBUTION DES NOTES (RATINGS)
# ========================

print("\n\n" + "="*80)
print("‚≠ê 3Ô∏è‚É£  DISTRIBUTION DES NOTES (RATINGS)")
print("="*80)

if 'ratings' in dfs:  # minuscules !
    df_ratings = dfs['ratings']

    print(f"\n‚úì Table 'ratings' trouv√©e")

    if 'averageRating' in df_ratings.columns:
        print(f"‚úì Colonne 'averageRating' trouv√©e")

        # Nettoyer les donn√©es
        df_rating = df_ratings[['averageRating']].copy()
        df_rating['averageRating'] = pd.to_numeric(df_rating['averageRating'], errors='coerce')
        df_rating = df_rating.dropna()

        rating_stats = df_rating['averageRating'].describe()

        print(f"\nStatistiques des notes:")
        print(f"   ‚Ä¢ Note minimale: {rating_stats['min']:.1f}")
        print(f"   ‚Ä¢ Note maximale: {rating_stats['max']:.1f}")
        print(f"   ‚Ä¢ Note moyenne: {rating_stats['mean']:.2f}")
        print(f"   ‚Ä¢ Note m√©diane: {rating_stats['50%']:.1f}")
        print(f"   ‚Ä¢ √âcart-type: {rating_stats['std']:.2f}")

        # Distribution par plages
        print(f"\nDistribution par plages:")
        bins = [0, 2, 4, 6, 8, 10]
        hist, _ = np.histogram(df_rating['averageRating'], bins=bins)
        for i in range(len(bins)-1):
            pct = (hist[i] / len(df_rating) * 100)
            print(f"   {bins[i]:.1f} - {bins[i+1]:.1f}: {hist[i]:>8,} ({pct:>6.2f}%)")

        # Cr√©er les graphiques
        fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

        # Histogramme
        ax1.hist(df_rating['averageRating'], bins=50, color='skyblue', edgecolor='black')
        ax1.set_title('Distribution des notes (histogramme)', fontsize=12, fontweight='bold')
        ax1.set_xlabel('Note moyenne')
        ax1.set_ylabel('Fr√©quence')
        ax1.axvline(df_rating['averageRating'].mean(), color='red', linestyle='--',
                    label=f'Moyenne: {df_rating["averageRating"].mean():.2f}')
        ax1.legend()
        ax1.grid(axis='y', alpha=0.3)

        # Box plot
        ax2.boxplot(df_rating['averageRating'], vert=True)
        ax2.set_title('Box plot des notes', fontsize=12, fontweight='bold')
        ax2.set_ylabel('Note moyenne')
        ax2.grid(axis='y', alpha=0.3)

        plt.tight_layout()
        plt.savefig('distribution_notes.png', dpi=100, bbox_inches='tight')
        print(f"\n‚úì Graphique sauvegard√©: distribution_notes.png")
        plt.close()
    else:
        print(f"‚ö†Ô∏è  Colonne 'averageRating' non trouv√©e")
else:
    print(f"‚ö†Ô∏è  Table 'ratings' non trouv√©e")

# ========================
# 5.4 NOMBRE MOYEN D'ACTEURS PAR FILM
# ========================

print("\n\n" + "="*80)
print("üé¨ 4Ô∏è‚É£  NOMBRE MOYEN D'ACTEURS PAR FILM")
print("="*80)

if 'principals' in dfs:  # minuscules !
    df_principals = dfs['principals']

    print(f"\n‚úì Table 'principals' trouv√©e")

    if 'mid' in df_principals.columns:
        print(f"‚úì Colonne 'mid' (movie_id) trouv√©e")

        # Compter les acteurs par film
        actors_per_film = df_principals.groupby('mid').size()

        print(f"\nStatistiques:")
        print(f"   ‚Ä¢ Nombre moyen d'acteurs/personnages: {actors_per_film.mean():.2f}")
        print(f"   ‚Ä¢ M√©diane: {actors_per_film.median():.0f}")
        print(f"   ‚Ä¢ Minimum: {actors_per_film.min()}")
        print(f"   ‚Ä¢ Maximum: {actors_per_film.max()}")
        print(f"   ‚Ä¢ √âcart-type: {actors_per_film.std():.2f}")

        # Distribution par plages
        print(f"\nDistribution par nombre d'acteurs:")
        bins_actors = [0, 5, 10, 15, 20, 50, 100, 1000]
        hist, _ = np.histogram(actors_per_film, bins=bins_actors)
        for i in range(len(bins_actors)-1):
            pct = (hist[i] / len(actors_per_film) * 100)
            print(f"   {bins_actors[i]:>3} - {bins_actors[i+1]:>3}: {hist[i]:>8,} films ({pct:>6.2f}%)")

        # Cr√©er le graphique
        fig, ax = plt.subplots(figsize=(12, 6))
        ax.hist(actors_per_film, bins=50, color='lightgreen', edgecolor='black')
        ax.set_title('Distribution du nombre d\'acteurs/personnages par film',
                     fontsize=12, fontweight='bold')
        ax.set_xlabel('Nombre de principaux par film')
        ax.set_ylabel('Nombre de films')
        ax.axvline(actors_per_film.mean(), color='red', linestyle='--',
                   label=f'Moyenne: {actors_per_film.mean():.2f}')
        ax.axvline(actors_per_film.median(), color='orange', linestyle='--',
                   label=f'M√©diane: {actors_per_film.median():.0f}')
        ax.legend()
        ax.grid(axis='y', alpha=0.3)
        plt.tight_layout()
        plt.savefig('acteurs_par_film.png', dpi=100, bbox_inches='tight')
        print(f"\n‚úì Graphique sauvegard√©: acteurs_par_film.png")
        plt.close()
    else:
        print(f"‚ö†Ô∏è  Colonne 'mid' non trouv√©e")
else:
    print(f"‚ö†Ô∏è  Table 'principals' non trouv√©e")

# ============================================================================
# 6. R√âSUM√â FINAL
# ============================================================================

print("\n\n" + "="*80)
print("‚úÖ ANALYSES EXPLORATOIRES TERMIN√âES")
print("="*80)

print(f"\nüìä Graphiques g√©n√©r√©s:")
print(f"   1. analyse_films_par_annee.png")
print(f"   2. top10_genres.png")
print(f"   3. distribution_notes.png")
print(f"   4. acteurs_par_film.png")

print(f"\nüí° Les graphiques sont sauvegard√©s dans le r√©pertoire courant")
print(f"   Vous pouvez les ouvrir avec un lecteur d'images")

print(f"\n{'='*80}\n")


üìö CHARGEMENT DES FICHIERS CSV
‚úì Dossier trouv√©: /home/omar/Bureau/4A/Bases_de_Donn√©es_Avanc√©es/cineexplorer/data/csv
‚úì CHARACTERS           (1,405,274 lignes, 3 colonnes)
‚úì DIRECTORS            ( 419,861 lignes, 2 colonnes)
‚úì EPISODES             ( 115,576 lignes, 4 colonnes)
‚úì GENRES               ( 649,379 lignes, 2 colonnes)
‚úì KNOWNFORMOVIES       (1,328,773 lignes, 2 colonnes)
‚úì MOVIES               ( 291,238 lignes, 8 colonnes)
‚úì PERSONS              ( 632,324 lignes, 4 colonnes)
‚úì PRINCIPALS           (2,745,688 lignes, 5 colonnes)
‚úì PROFESSIONS          (1,231,760 lignes, 2 colonnes)
‚úì RATINGS              ( 291,238 lignes, 3 colonnes)
‚úì TITLES               (1,908,072 lignes, 8 colonnes)
‚úì WRITERS              ( 900,485 lignes, 2 colonnes)

‚úì Total charg√©: 12 fichiers

üìù NOMS DES COLONNES (NETTOY√âS)

CHARACTERS:
  ['mid', 'pid', 'name']

DIRECTORS:
  ['mid', 'pid']

EPISODES:
  ['mid', 'parentMid', 'seasonNumber', 'episodeNumber']

GENRES

In [33]:
import pandas as pd
from pathlib import Path
import re

# ============================================================================
# 1. CHARGER ET NETTOYER LES CSV
# ============================================================================

CSV_PATH = Path('./csv')

print("\n" + "="*80)
print("üìö CHARGEMENT DES FICHIERS CSV")
print("="*80)

if not CSV_PATH.exists():
    print(f"\n‚ùå ERREUR: Le dossier '{CSV_PATH}' n'existe pas!")
    exit(1)

print(f"‚úì Dossier trouv√©: {CSV_PATH.absolute()}")

def clean_column_names(df):
    """Nettoie les noms de colonnes"""
    new_columns = []
    for col in df.columns:
        cleaned = re.sub(r"[\"'(),]", "", col)
        cleaned = cleaned.strip()
        new_columns.append(cleaned)
    df.columns = new_columns
    return df

dfs = {}

for filepath in sorted(CSV_PATH.glob('*.csv')):
    filename = filepath.name
    table_name = filename.replace('.csv', '').lower()
    try:
        df = pd.read_csv(filepath)
        df = clean_column_names(df)
        dfs[table_name] = df
        print(f"‚úì {table_name.upper():20} ({len(df):>8,} lignes)")
    except Exception as e:
        print(f"‚ùå Erreur: {filename}: {e}")

print(f"\n‚úì Total charg√©: {len(dfs)} fichiers")

# ============================================================================
# 2. V√âRIFICATION COMPL√àTE DE L'INT√âGRIT√â
# ============================================================================

print("\n\n" + "="*80)
print("üîó V√âRIFICATION COMPL√àTE : CL√âS √âTRANG√àRES ET DONN√âES ORPHELINES")
print("="*80)

integrity_results = {}

# ========================
# PARTIE 1: V√âRIFICATION DES MOVIE_ID (bidirectionnel)
# ========================

print("\n\n" + "="*80)
print("PARTIE 1Ô∏è‚É£  : V√âRIFICATION DES MOVIE_ID")
print("="*80)

if 'movies' in dfs:
    df_movies = dfs['movies']
    movies_ids = set(df_movies['mid'].unique())

    print(f"\nüìä FILMS DANS MOVIES:")
    print(f"   Total de films: {len(df_movies):,}")
    print(f"   Films uniques (mid): {len(movies_ids):,}")

    # Doublons
    duplicates = len(df_movies) - len(movies_ids)
    if duplicates > 0:
        print(f"\n‚ö†Ô∏è  DOUBLONS DANS MOVIES: {duplicates:,}")
    else:
        print(f"\n‚úÖ Pas de doublons dans MOVIES")

    # ========================
    # 1.A : Les movie_id des autres tables existent-ils dans MOVIES ?
    # ========================

    print("\n\n" + "-"*80)
    print("1Ô∏è‚É£ .A : V√âRIFICATION DESCENDANTE")
    print("      (Les movie_id des autres tables existent-ils dans MOVIES ?)")
    print("-"*80)

    total_orphaned_in_other_tables = 0
    tables_with_mid = ['principals', 'genres', 'ratings', 'directors', 'writers', 'characters']

    for table_name in tables_with_mid:
        if table_name in dfs:
            df_table = dfs[table_name]

            if 'mid' in df_table.columns:
                referenced_ids = set(df_table['mid'].unique())
                orphaned = referenced_ids - movies_ids

                print(f"\n‚úì {table_name.upper()}:")
                print(f"   Lignes totales: {len(df_table):,}")
                print(f"   Films r√©f√©renc√©s: {len(referenced_ids):,}")
                print(f"   Films ORPHELINS: {len(orphaned)}")

                if len(orphaned) > 0:
                    orphaned_rows = df_table[df_table['mid'].isin(orphaned)]
                    print(f"   ‚ö†Ô∏è  Lignes concern√©es: {len(orphaned_rows):,}")
                    print(f"   Exemples d'orphelins: {list(orphaned)[:3]}")
                    total_orphaned_in_other_tables += len(orphaned)
                    integrity_results[f"{table_name}_orphaned_movies"] = {
                        'orphaned_count': len(orphaned),
                        'orphaned_rows': len(orphaned_rows),
                        'status': '‚ùå PROBL√àME'
                    }
                else:
                    print(f"   ‚úÖ Tous les films existent")
                    integrity_results[f"{table_name}_orphaned_movies"] = {
                        'orphaned_count': 0,
                        'orphaned_rows': 0,
                        'status': '‚úÖ OK'
                    }

    # ========================
    # 1.B : Quels films n'ont RIEN associ√© ? (films orphelins)
    # ========================

    print("\n\n" + "-"*80)
    print("1Ô∏è‚É£ .B : V√âRIFICATION ASCENDANTE")
    print("      (Quels films n'ont RIEN associ√© ?)")
    print("-"*80)

    films_with_principals = set(dfs['principals']['mid'].unique()) if 'principals' in dfs else set()
    films_with_genres = set(dfs['genres']['mid'].unique()) if 'genres' in dfs else set()
    films_with_ratings = set(dfs['ratings']['mid'].unique()) if 'ratings' in dfs else set()
    films_with_directors = set(dfs['directors']['mid'].unique()) if 'directors' in dfs else set()
    films_with_writers = set(dfs['writers']['mid'].unique()) if 'writers' in dfs else set()
    films_with_characters = set(dfs['characters']['mid'].unique()) if 'characters' in dfs else set()

    films_with_at_least_one = (films_with_principals | films_with_genres | films_with_ratings |
                                films_with_directors | films_with_writers | films_with_characters)

    films_with_nothing = movies_ids - films_with_at_least_one

    print(f"\n‚úì Films avec au moins une donn√©e: {len(films_with_at_least_one):,}")
    print(f"‚úì Films SANS aucune donn√©e: {len(films_with_nothing):,}")

    if len(films_with_nothing) > 0:
        print(f"\n‚ö†Ô∏è  FILMS ORPHELINS D√âTECT√âS:")
        orphan_movies = df_movies[df_movies['mid'].isin(films_with_nothing)]
        print(f"   Exemples:")
        for idx, row in orphan_movies.head(5).iterrows():
            print(f"   - {row['mid']} : {row['primaryTitle']} ({row['startYear']})")
    else:
        print(f"\n‚úÖ Tous les films ont au moins une donn√©e associ√©e")

    integrity_results['films_without_data'] = {
        'count': len(films_with_nothing),
        'status': '‚úÖ OK' if len(films_with_nothing) == 0 else '‚ö†Ô∏è  PROBL√àME'
    }

    print(f"\n‚úì Distribution des films par table:")
    print(f"   PRINCIPALS: {len(films_with_principals):>8,} films")
    print(f"   GENRES: {len(films_with_genres):>8,} films")
    print(f"   RATINGS: {len(films_with_ratings):>8,} films")
    print(f"   DIRECTORS: {len(films_with_directors):>8,} films")
    print(f"   WRITERS: {len(films_with_writers):>8,} films")
    print(f"   CHARACTERS: {len(films_with_characters):>8,} films")

# ========================
# PARTIE 2: V√âRIFICATION DES CL√âS √âTRANG√àRES (PERSONS)
# ========================

print("\n\n" + "="*80)
print("PARTIE 2Ô∏è‚É£  : V√âRIFICATION DES CL√âS √âTRANG√àRES (PERSONS)")
print("="*80)

if 'persons' in dfs:
    df_persons = dfs['persons']
    person_ids = set(df_persons['pid'].unique())

    print(f"\nüìä PERSONNES DANS PERSONS:")
    print(f"   Total de personnes: {len(df_persons):,}")
    print(f"   Personnes uniques (pid): {len(person_ids):,}")

    # ========================
    # 2.A : Les person_id des autres tables existent-ils dans PERSONS ?
    # ========================

    print("\n\n" + "-"*80)
    print("2Ô∏è‚É£ .A : V√âRIFICATION DES PERSON_ID")
    print("      (Les person_id des autres tables existent-ils dans PERSONS ?)")
    print("-"*80)

    tables_with_pid = ['principals', 'directors', 'writers', 'characters']
    total_orphaned_persons = 0

    for table_name in tables_with_pid:
        if table_name in dfs:
            df_table = dfs[table_name]

            if 'pid' in df_table.columns:
                referenced_ids = set(df_table['pid'].unique())
                orphaned = referenced_ids - person_ids

                print(f"\n‚úì {table_name.upper()}:")
                print(f"   Personnes r√©f√©renc√©es: {len(referenced_ids):,}")
                print(f"   Personnes ORPHELINES: {len(orphaned)}")

                if len(orphaned) > 0:
                    orphaned_rows = df_table[df_table['pid'].isin(orphaned)]
                    print(f"   ‚ö†Ô∏è  Lignes concern√©es: {len(orphaned_rows):,}")
                    print(f"   Exemples: {list(orphaned)[:3]}")
                    total_orphaned_persons += len(orphaned)
                    integrity_results[f"{table_name}_orphaned_persons"] = {
                        'orphaned_count': len(orphaned),
                        'orphaned_rows': len(orphaned_rows),
                        'status': '‚ùå PROBL√àME'
                    }
                else:
                    print(f"   ‚úÖ Toutes les personnes existent")
                    integrity_results[f"{table_name}_orphaned_persons"] = {
                        'orphaned_count': 0,
                        'orphaned_rows': 0,
                        'status': '‚úÖ OK'
                    }

# ========================
# PARTIE 3: V√âRIFICATION DES RELATIONS N:M
# ========================

print("\n\n" + "="*80)
print("PARTIE 3Ô∏è‚É£  : V√âRIFICATION DES RELATIONS N:M")
print("="*80)

# CHARACTERS ‚Üí PRINCIPALS
print("\n\n" + "-"*80)
print("3Ô∏è‚É£ .A : CHARACTERS ‚Üí PRINCIPALS")
print("      (Les personnages ont-ils leurs acteurs ?)")
print("-"*80)

if 'characters' in dfs and 'principals' in dfs:
    df_characters = dfs['characters']
    df_principals = dfs['principals']

    principals_keys = set(zip(df_principals['mid'], df_principals['pid']))
    characters_keys = set(zip(df_characters['mid'], df_characters['pid']))

    orphaned_characters = characters_keys - principals_keys

    print(f"\n‚úì V√©rification:")
    print(f"   Couples (mid, pid) dans PRINCIPALS: {len(principals_keys):,}")
    print(f"   Couples (mid, pid) dans CHARACTERS: {len(characters_keys):,}")
    print(f"   Couples ORPHELINS: {len(orphaned_characters)}")

    if len(orphaned_characters) == 0:
        print(f"\n‚úÖ Tous les personnages ont leurs acteurs")
        integrity_results['characters_orphaned'] = {
            'orphaned_count': 0,
            'status': '‚úÖ OK'
        }
    else:
        print(f"\n‚ö†Ô∏è  PERSONNAGES ORPHELINS D√âTECT√âS:")
        print(f"   Exemples: {list(orphaned_characters)[:3]}")
        integrity_results['characters_orphaned'] = {
            'orphaned_count': len(orphaned_characters),
            'status': '‚ùå PROBL√àME'
        }

# ============================================================================
# 4. R√âSUM√â FINAL
# ============================================================================

print("\n\n" + "="*80)
print("üìä R√âSUM√â FINAL DE L'INT√âGRIT√â")
print("="*80)

print(f"\n{'V√©rification':45} | {'Orphelins':>12} | {'Statut':>10}")
print("-" * 75)

total_orphaned = 0
total_checks = 0

for check_name, result in sorted(integrity_results.items()):
    orphaned = result.get('orphaned_count', 0)
    status = result.get('status', 'UNKNOWN')
    total_orphaned += orphaned
    total_checks += 1

    # Formater le nom pour qu'il soit lisible
    display_name = check_name.replace('_', ' ').title()[:45]
    print(f"{display_name:45} | {orphaned:>12,} | {status:>10}")

print("-" * 75)

# ========================
# CONCLUSION
# ========================

print("\n\n" + "="*80)
print("‚úÖ CONCLUSION")
print("="*80)

if total_orphaned == 0:
    print(f"""
‚úÖ EXCELLENTE INT√âGRIT√â R√âF√âRENTIELLE

   ‚úì Tous les movie_id des autres tables existent dans MOVIES
   ‚úì Tous les person_id des autres tables existent dans PERSONS
   ‚úì Tous les films ont au moins une donn√©e associ√©e
   ‚úì Tous les personnages ont leurs acteurs

   ‚Üí Les cl√©s √©trang√®res sont toutes VALIDES
   ‚Üí Aucune donn√©e orpheline d√©tect√©e
   ‚Üí Pr√™t pour l'import en base de donn√©es
""")
else:
    print(f"""
‚ö†Ô∏è  DONN√âES ORPHELINES D√âTECT√âES

   Total d'√©l√©ments orphelins: {total_orphaned:,}

   √Ä g√©rer lors de l'import:
   a) Les supprimer (perte de donn√©es)
   b) Les cr√©er comme films/personnes par d√©faut
   c) Les ignorer avec un flag "unknown"
   d) Les analyser manuellement
""")


print("="*80 + "\n")


üìö CHARGEMENT DES FICHIERS CSV
‚úì Dossier trouv√©: /home/omar/Bureau/4A/Bases_de_Donn√©es_Avanc√©es/cineexplorer/data/csv
‚úì CHARACTERS           (1,405,274 lignes)
‚úì DIRECTORS            ( 419,861 lignes)
‚úì EPISODES             ( 115,576 lignes)
‚úì GENRES               ( 649,379 lignes)
‚úì KNOWNFORMOVIES       (1,328,773 lignes)
‚úì MOVIES               ( 291,238 lignes)
‚úì PERSONS              ( 632,324 lignes)
‚úì PRINCIPALS           (2,745,688 lignes)
‚úì PROFESSIONS          (1,231,760 lignes)
‚úì RATINGS              ( 291,238 lignes)
‚úì TITLES               (1,908,072 lignes)
‚úì WRITERS              ( 900,485 lignes)

‚úì Total charg√©: 12 fichiers


üîó V√âRIFICATION COMPL√àTE : CL√âS √âTRANG√àRES ET DONN√âES ORPHELINES


PARTIE 1Ô∏è‚É£  : V√âRIFICATION DES MOVIE_ID

üìä FILMS DANS MOVIES:
   Total de films: 291,238
   Films uniques (mid): 291,238

‚úÖ Pas de doublons dans MOVIES


--------------------------------------------------------------------------------