# üîç Exploration du Dataset MNIST

Bienvenue dans ce deuxi√®me notebook ! Aujourd'hui, nous allons d√©couvrir le dataset MNIST.

## üìö Qu'est-ce que MNIST ?

**MNIST** (Modified National Institute of Standards and Technology) est :
- üìä Un dataset de **70,000 images** de chiffres manuscrits (0-9)
- ‚úçÔ∏è Des chiffres √©crits √† la main par des personnes r√©elles
- üéØ Le "Hello World" du deep learning
- üèÜ Un benchmark classique pour tester les algorithmes

### Structure du dataset :
- **60,000 images** pour l'entra√Ænement (train set)
- **10,000 images** pour le test (test set)
- Chaque image : **28√ó28 pixels** en niveaux de gris
- Valeurs des pixels : **0 (noir) √† 255 (blanc)**

---

In [None]:
# Imports n√©cessaires
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import sys

# Ajouter le dossier parent au path pour importer nos modules
sys.path.append(str(Path.cwd().parent))

# Configuration pour de beaux graphiques
plt.style.use('seaborn-v0_8-darkgrid')
plt.rcParams['figure.figsize'] = (14, 8)
plt.rcParams['font.size'] = 11
sns.set_palette("husl")

print("‚úÖ Imports r√©ussis !")

## 1Ô∏è‚É£ Chargement des Donn√©es

Commen√ßons par charger les donn√©es MNIST. Nous allons utiliser le module utilitaire que nous avons pr√©par√©.

In [None]:
# Importer notre fonction de chargement
from src.utils import load_mnist_data

# Charger les donn√©es
print("‚è≥ Chargement des donn√©es MNIST...")
X_train, y_train, X_test, y_test = load_mnist_data()

print("\n‚úÖ Donn√©es charg√©es avec succ√®s !\n")
print("=" * 50)
print("üìä INFORMATIONS SUR LE DATASET")
print("=" * 50)
print(f"\nüîπ Training set:")
print(f"   - Images (X_train): {X_train.shape}")
print(f"   - Labels (y_train): {y_train.shape}")
print(f"\nüîπ Test set:")
print(f"   - Images (X_test): {X_test.shape}")
print(f"   - Labels (y_test): {y_test.shape}")
print(f"\nüîπ D√©tails:")
print(f"   - Chaque image: 28√ó28 = {28*28} pixels")
print(f"   - Valeurs des pixels: {X_train.min():.2f} (noir) √† {X_train.max():.2f} (blanc)")
print(f"   - Type de donn√©es: {X_train.dtype}")

### üí° Comprendre les dimensions

- **X_train.shape = (60000, 784)** signifie :
  - 60,000 exemples d'entra√Ænement
  - Chaque exemple a 784 features (28√ó28 pixels aplatis)

- **y_train.shape = (60000,)** signifie :
  - 60,000 labels correspondants (les vrais chiffres)
  
Chaque image 28√ó28 est "aplatie" en un vecteur de 784 valeurs pour faciliter le calcul.

## 2Ô∏è‚É£ Visualisons Quelques Exemples

Regardons √† quoi ressemblent ces chiffres manuscrits !

In [None]:
def visualize_samples(X, y, n_samples=25):
    """
    Affiche un √©chantillon d'images du dataset
    """
    # S√©lectionner des √©chantillons al√©atoires
    indices = np.random.choice(len(X), n_samples, replace=False)
    
    # Cr√©er une grille
    n_rows = 5
    n_cols = 5
    
    fig, axes = plt.subplots(n_rows, n_cols, figsize=(12, 12))
    fig.suptitle('üñºÔ∏è √âchantillons du Dataset MNIST', fontsize=18, fontweight='bold', y=0.995)
    
    for idx, ax in enumerate(axes.flat):
        # R√©cup√©rer l'image et la reformater en 28x28
        image = X[indices[idx]].reshape(28, 28)
        label = y[indices[idx]]
        
        # Afficher l'image
        ax.imshow(image, cmap='gray_r')  # gray_r = inverse (noir sur blanc)
        ax.set_title(f'Label: {label}', fontsize=14, fontweight='bold', pad=10)
        ax.axis('off')
        
        # Ajouter une bordure color√©e selon le chiffre
        colors = plt.cm.tab10(label)
        for spine in ax.spines.values():
            spine.set_edgecolor(colors)
            spine.set_linewidth(3)
            spine.set_visible(True)
    
    plt.tight_layout()
    plt.show()

# Afficher des exemples
visualize_samples(X_train, y_train)

### üé® Observation

On peut voir que :
- ‚úçÔ∏è Les √©critures sont **tr√®s vari√©es** (chacun √©crit diff√©remment)
- üìè Certains chiffres sont **pench√©s**
- üìê Les **tailles** varient
- üé≠ Certains sont plus **√©pais** ou **fins**

C'est justement cette variabilit√© qui rend le probl√®me int√©ressant !

## 3Ô∏è‚É£ Distribution des Classes

V√©rifions si le dataset est **√©quilibr√©** (m√™me nombre d'exemples pour chaque chiffre).

In [None]:
def plot_class_distribution(y_train, y_test):
    """
    Affiche la distribution des classes dans les datasets train et test
    """
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))
    
    # Distribution du train set
    unique_train, counts_train = np.unique(y_train, return_counts=True)
    bars1 = ax1.bar(unique_train, counts_train, color=plt.cm.Spectral(np.linspace(0, 1, 10)), 
                    edgecolor='black', linewidth=2, alpha=0.8)
    ax1.set_xlabel('Chiffre', fontsize=14, fontweight='bold')
    ax1.set_ylabel('Nombre d\'exemples', fontsize=14, fontweight='bold')
    ax1.set_title('üìä Distribution - Training Set', fontsize=16, fontweight='bold')
    ax1.set_xticks(unique_train)
    ax1.grid(axis='y', alpha=0.3)
    
    # Ajouter les valeurs au-dessus des barres
    for bar, count in zip(bars1, counts_train):
        height = bar.get_height()
        ax1.text(bar.get_x() + bar.get_width()/2., height,
                f'{int(count)}',
                ha='center', va='bottom', fontsize=11, fontweight='bold')
    
    # Distribution du test set
    unique_test, counts_test = np.unique(y_test, return_counts=True)
    bars2 = ax2.bar(unique_test, counts_test, color=plt.cm.Spectral(np.linspace(0, 1, 10)),
                    edgecolor='black', linewidth=2, alpha=0.8)
    ax2.set_xlabel('Chiffre', fontsize=14, fontweight='bold')
    ax2.set_ylabel('Nombre d\'exemples', fontsize=14, fontweight='bold')
    ax2.set_title('üìä Distribution - Test Set', fontsize=16, fontweight='bold')
    ax2.set_xticks(unique_test)
    ax2.grid(axis='y', alpha=0.3)
    
    # Ajouter les valeurs au-dessus des barres
    for bar, count in zip(bars2, counts_test):
        height = bar.get_height()
        ax2.text(bar.get_x() + bar.get_width()/2., height,
                f'{int(count)}',
                ha='center', va='bottom', fontsize=11, fontweight='bold')
    
    plt.tight_layout()
    plt.show()
    
    # Statistiques
    print("\n" + "="*60)
    print("üìà STATISTIQUES DE DISTRIBUTION")
    print("="*60)
    print(f"\nüîπ Training Set:")
    print(f"   - Min: {counts_train.min()} exemples (chiffre {unique_train[counts_train.argmin()]})")
    print(f"   - Max: {counts_train.max()} exemples (chiffre {unique_train[counts_train.argmax()]})")
    print(f"   - Moyenne: {counts_train.mean():.0f} exemples par classe")
    print(f"   - √âcart-type: {counts_train.std():.2f}")
    
    print(f"\nüîπ Test Set:")
    print(f"   - Min: {counts_test.min()} exemples (chiffre {unique_test[counts_test.argmin()]})")
    print(f"   - Max: {counts_test.max()} exemples (chiffre {unique_test[counts_test.argmax()]})")
    print(f"   - Moyenne: {counts_test.mean():.0f} exemples par classe")
    print(f"   - √âcart-type: {counts_test.std():.2f}")
    
    # √âvaluation de l'√©quilibre
    balance_train = (counts_train.max() - counts_train.min()) / counts_train.mean() * 100
    balance_test = (counts_test.max() - counts_test.min()) / counts_test.mean() * 100
    
    print(f"\nüîπ √âquilibre du dataset:")
    print(f"   - Train: {balance_train:.2f}% de variation")
    print(f"   - Test: {balance_test:.2f}% de variation")
    
    if balance_train < 10 and balance_test < 10:
        print(f"   ‚úÖ Dataset bien √©quilibr√© !")
    else:
        print(f"   ‚ö†Ô∏è Dataset l√©g√®rement d√©s√©quilibr√©")

plot_class_distribution(y_train, y_test)

## 4Ô∏è‚É£ Analyse d'une Image en D√©tail

Regardons de plus pr√®s comment une image est repr√©sent√©e num√©riquement.

In [None]:
def analyze_single_image(X, y, index=0):
    """
    Analyse d√©taill√©e d'une seule image
    """
    # S√©lectionner une image
    image_flat = X[index]
    image_2d = image_flat.reshape(28, 28)
    label = y[index]
    
    fig = plt.figure(figsize=(16, 10))
    gs = fig.add_gridspec(3, 3, hspace=0.3, wspace=0.3)
    
    # 1. Image originale (grande)
    ax1 = fig.add_subplot(gs[0:2, 0:2])
    im1 = ax1.imshow(image_2d, cmap='gray_r', interpolation='nearest')
    ax1.set_title(f'üñºÔ∏è Image du chiffre: {label}', fontsize=16, fontweight='bold', pad=15)
    ax1.axis('off')
    plt.colorbar(im1, ax=ax1, fraction=0.046, pad=0.04, label='Intensit√© du pixel')
    
    # 2. Zoom sur une partie (coin sup√©rieur gauche)
    ax2 = fig.add_subplot(gs[0, 2])
    zoom_size = 8
    zoom_region = image_2d[:zoom_size, :zoom_size]
    im2 = ax2.imshow(zoom_region, cmap='gray_r', interpolation='nearest')
    ax2.set_title('üîç Zoom (8√ó8 pixels)', fontsize=12, fontweight='bold')
    
    # Afficher les valeurs des pixels
    for i in range(zoom_size):
        for j in range(zoom_size):
            text = ax2.text(j, i, f'{zoom_region[i, j]:.2f}',
                          ha="center", va="center", color="red", fontsize=7, fontweight='bold')
    ax2.set_xticks(range(zoom_size))
    ax2.set_yticks(range(zoom_size))
    ax2.grid(True, color='blue', linewidth=1)
    
    # 3. Histogramme des valeurs de pixels
    ax3 = fig.add_subplot(gs[1, 2])
    ax3.hist(image_flat, bins=50, color='steelblue', edgecolor='black', alpha=0.7)
    ax3.set_xlabel('Valeur du pixel', fontsize=11, fontweight='bold')
    ax3.set_ylabel('Fr√©quence', fontsize=11, fontweight='bold')
    ax3.set_title('üìä Distribution des pixels', fontsize=12, fontweight='bold')
    ax3.grid(axis='y', alpha=0.3)
    
    # 4. Statistiques de l'image
    ax4 = fig.add_subplot(gs[2, :])
    ax4.axis('off')
    
    stats_text = f"""
    üìà STATISTIQUES DE L'IMAGE
    {'='*80}
    
    üîπ Dimensions:
       ‚Ä¢ Forme originale: 28√ó28 pixels
       ‚Ä¢ Forme aplatie: {image_flat.shape[0]} valeurs (28√ó28 = 784)
    
    üîπ Valeurs des pixels:
       ‚Ä¢ Minimum: {image_flat.min():.4f}  (noir complet)
       ‚Ä¢ Maximum: {image_flat.max():.4f}  (blanc complet)
       ‚Ä¢ Moyenne: {image_flat.mean():.4f}
       ‚Ä¢ √âcart-type: {image_flat.std():.4f}
       ‚Ä¢ M√©diane: {np.median(image_flat):.4f}
    
    üîπ Composition:
       ‚Ä¢ Pixels noirs (= 0): {np.sum(image_flat == 0)} pixels ({np.sum(image_flat == 0)/784*100:.1f}%)
       ‚Ä¢ Pixels non-noirs (> 0): {np.sum(image_flat > 0)} pixels ({np.sum(image_flat > 0)/784*100:.1f}%)
       ‚Ä¢ Pixels tr√®s clairs (> 0.5): {np.sum(image_flat > 0.5)} pixels ({np.sum(image_flat > 0.5)/784*100:.1f}%)
    
    üí° Note: Les valeurs sont normalis√©es entre 0 (noir) et 1 (blanc)
    """
    
    ax4.text(0.05, 0.5, stats_text, transform=ax4.transAxes,
            fontsize=11, verticalalignment='center', family='monospace',
            bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.8, pad=1))
    
    plt.suptitle('üî¨ Analyse D√©taill√©e d\'une Image MNIST', 
                fontsize=18, fontweight='bold', y=0.98)
    
    plt.show()

# Analyser une image al√©atoire
random_index = np.random.randint(0, len(X_train))
analyze_single_image(X_train, y_train, random_index)

## 5Ô∏è‚É£ Moyenne de Chaque Chiffre

Calculons l'image "moyenne" de chaque chiffre pour voir les patterns typiques.

In [None]:
def plot_mean_images(X, y):
    """
    Affiche l'image moyenne pour chaque classe
    """
    fig, axes = plt.subplots(2, 5, figsize=(15, 6))
    fig.suptitle('üìä Image Moyenne de Chaque Chiffre', fontsize=18, fontweight='bold')
    
    for digit in range(10):
        # S√©lectionner toutes les images de ce chiffre
        digit_images = X[y == digit]
        
        # Calculer la moyenne
        mean_image = digit_images.mean(axis=0).reshape(28, 28)
        
        # Afficher
        ax = axes[digit // 5, digit % 5]
        im = ax.imshow(mean_image, cmap='gray_r')
        ax.set_title(f'Chiffre {digit}\n({len(digit_images)} exemples)', 
                    fontsize=13, fontweight='bold')
        ax.axis('off')
        
        # Ajouter une bordure color√©e
        for spine in ax.spines.values():
            spine.set_edgecolor(plt.cm.tab10(digit))
            spine.set_linewidth(4)
            spine.set_visible(True)
    
    plt.tight_layout()
    plt.show()
    
    print("\nüí° Observation:")
    print("   Les images moyennes montrent le 'prototype' de chaque chiffre.")
    print("   On peut voir les formes typiques et les zones communes √† tous les exemples.")

plot_mean_images(X_train, y_train)

## 6Ô∏è‚É£ Variabilit√© Intra-Classe

Regardons √† quel point les √©critures d'un m√™me chiffre peuvent varier.

In [None]:
def plot_digit_variations(X, y, digit, n_samples=20):
    """
    Affiche plusieurs exemples d'un m√™me chiffre pour montrer la variabilit√©
    """
    # S√©lectionner des exemples de ce chiffre
    digit_indices = np.where(y == digit)[0]
    selected_indices = np.random.choice(digit_indices, n_samples, replace=False)
    
    # Cr√©er la grille
    fig, axes = plt.subplots(4, 5, figsize=(14, 11))
    fig.suptitle(f'‚úçÔ∏è Variabilit√© du Chiffre "{digit}" - {n_samples} Exemples Diff√©rents', 
                fontsize=18, fontweight='bold')
    
    for idx, ax in enumerate(axes.flat):
        image = X[selected_indices[idx]].reshape(28, 28)
        ax.imshow(image, cmap='gray_r')
        ax.axis('off')
        ax.set_title(f'Exemple {idx+1}', fontsize=10)
    
    plt.tight_layout()
    plt.show()
    
    print(f"\nüé≠ Observations sur le chiffre {digit}:")
    print("   ‚Ä¢ Les √©critures varient √©norm√©ment d'une personne √† l'autre")
    print("   ‚Ä¢ Certains sont pench√©s, d'autres droits")
    print("   ‚Ä¢ L'√©paisseur du trait varie")
    print("   ‚Ä¢ La position dans l'image change l√©g√®rement")
    print("   \n   ‚û°Ô∏è C'est cette variabilit√© que le r√©seau doit apprendre √† g√©rer !")

# Choisir un chiffre al√©atoire
random_digit = np.random.randint(0, 10)
plot_digit_variations(X_train, y_train, random_digit)

## 7Ô∏è‚É£ Cas Difficiles : Chiffres Ambigus

Certains chiffres sont difficiles √† distinguer, m√™me pour un humain !

In [None]:
def find_confusing_pairs(X, y):
    """
    Trouve des exemples de chiffres qui pourraient √™tre confondus
    """
    # Paires de chiffres souvent confondus
    confusing_pairs = [
        (3, 8),  # 3 et 8 peuvent se ressembler
        (4, 9),  # 4 et 9 peuvent √™tre similaires
        (1, 7),  # 1 et 7 selon l'√©criture
        (5, 6),  # 5 et 6 peuvent √™tre proches
    ]
    
    fig, axes = plt.subplots(len(confusing_pairs), 6, figsize=(14, 10))
    fig.suptitle('ü§î Paires de Chiffres Potentiellement Confondables', 
                fontsize=18, fontweight='bold')
    
    for pair_idx, (digit1, digit2) in enumerate(confusing_pairs):
        # Trouver des exemples de chaque chiffre
        indices1 = np.where(y == digit1)[0]
        indices2 = np.where(y == digit2)[0]
        
        # S√©lectionner 3 exemples de chaque
        samples1 = np.random.choice(indices1, 3, replace=False)
        samples2 = np.random.choice(indices2, 3, replace=False)
        
        # Afficher les exemples du premier chiffre
        for i in range(3):
            ax = axes[pair_idx, i]
            image = X[samples1[i]].reshape(28, 28)
            ax.imshow(image, cmap='gray_r')
            ax.axis('off')
            if i == 1:
                ax.set_title(f'Chiffre {digit1}', fontsize=12, fontweight='bold', color='blue')
        
        # Afficher les exemples du second chiffre
        for i in range(3):
            ax = axes[pair_idx, i+3]
            image = X[samples2[i]].reshape(28, 28)
            ax.imshow(image, cmap='gray_r')
            ax.axis('off')
            if i == 1:
                ax.set_title(f'Chiffre {digit2}', fontsize=12, fontweight='bold', color='red')
    
    plt.tight_layout()
    plt.show()
    
    print("\nüí≠ Ces paires peuvent √™tre difficiles √† distinguer car:")
    print("   ‚Ä¢ 3 et 8: Formes arrondies similaires")
    print("   ‚Ä¢ 4 et 9: Partie sup√©rieure peut √™tre similaire")
    print("   ‚Ä¢ 1 et 7: Selon le style d'√©criture")
    print("   ‚Ä¢ 5 et 6: Courbes du bas similaires")
    print("   \n   ‚û°Ô∏è Un bon r√©seau doit apprendre les diff√©rences subtiles !")

find_confusing_pairs(X_train, y_train)

## 8Ô∏è‚É£ Analyse de la Corr√©lation entre Pixels

Regardons quels pixels ont tendance √† √™tre activ√©s ensemble.

In [None]:
def analyze_pixel_statistics(X, y, digit):
    """
    Analyse les statistiques des pixels pour un chiffre donn√©
    """
    # S√©lectionner toutes les images de ce chiffre
    digit_images = X[y == digit]
    
    # Calculer moyenne et √©cart-type
    mean_image = digit_images.mean(axis=0).reshape(28, 28)
    std_image = digit_images.std(axis=0).reshape(28, 28)
    
    # Visualiser
    fig, axes = plt.subplots(1, 3, figsize=(16, 5))
    fig.suptitle(f'üìä Analyse Statistique du Chiffre "{digit}"', 
                fontsize=18, fontweight='bold')
    
    # Moyenne
    im1 = axes[0].imshow(mean_image, cmap='gray_r')
    axes[0].set_title('Valeur Moyenne\npar Pixel', fontsize=14, fontweight='bold')
    axes[0].axis('off')
    plt.colorbar(im1, ax=axes[0], fraction=0.046, label='Intensit√© moyenne')
    
    # √âcart-type
    im2 = axes[1].imshow(std_image, cmap='hot')
    axes[1].set_title('√âcart-type\npar Pixel', fontsize=14, fontweight='bold')
    axes[1].axis('off')
    plt.colorbar(im2, ax=axes[1], fraction=0.046, label='Variabilit√©')
    
    # Variance (√©cart-type au carr√©)
    variance_image = std_image ** 2
    im3 = axes[2].imshow(variance_image, cmap='viridis')
    axes[2].set_title('Variance\npar Pixel', fontsize=14, fontweight='bold')
    axes[2].axis('off')
    plt.colorbar(im3, ax=axes[2], fraction=0.046, label='Variance')
    
    plt.tight_layout()
    plt.show()
    
    print(f"\nüîç Interpr√©tation pour le chiffre {digit}:")
    print("\n   üìä Valeur Moyenne:")
    print("      ‚Ä¢ Montre o√π le trait est g√©n√©ralement pr√©sent")
    print("      ‚Ä¢ Les zones claires = pr√©sence constante du chiffre")
    print("\n   üé≠ √âcart-type:")
    print("      ‚Ä¢ Zones color√©es = grande variabilit√© entre les exemples")
    print("      ‚Ä¢ Zones sombres = tous les exemples sont similaires ici")
    print("\n   üí° Variance:")
    print("      ‚Ä¢ Mesure alternative de la variabilit√©")
    print("      ‚Ä¢ Utile pour identifier les pixels les plus 'informatifs'")

# Analyser un chiffre al√©atoire
random_digit = np.random.randint(0, 10)
analyze_pixel_statistics(X_train, y_train, random_digit)

## 9Ô∏è‚É£ Pr√©paration pour l'Entra√Ænement

Avant d'entra√Æner un r√©seau, v√©rifions que nos donn√©es sont bien format√©es.

In [None]:
def check_data_quality(X_train, y_train, X_test, y_test):
    """
    V√©rifie la qualit√© et le format des donn√©es
    """
    print("\n" + "="*70)
    print("‚úÖ V√âRIFICATION DE LA QUALIT√â DES DONN√âES")
    print("="*70)
    
    checks = []
    
    # V√©rification 1: Pas de valeurs manquantes
    no_nan_train = not np.any(np.isnan(X_train))
    no_nan_test = not np.any(np.isnan(X_test))
    checks.append(("Pas de valeurs manquantes (NaN)", no_nan_train and no_nan_test))
    
    # V√©rification 2: Valeurs normalis√©es entre 0 et 1
    normalized_train = (X_train.min() >= 0) and (X_train.max() <= 1)
    normalized_test = (X_test.min() >= 0) and (X_test.max() <= 1)
    checks.append(("Valeurs normalis√©es [0, 1]", normalized_train and normalized_test))
    
    # V√©rification 3: Bonnes dimensions
    correct_shape_train = X_train.shape == (60000, 784)
    correct_shape_test = X_test.shape == (10000, 784)
    checks.append(("Dimensions correctes", correct_shape_train and correct_shape_test))
    
    # V√©rification 4: Labels valides (0-9)
    valid_labels_train = np.all((y_train >= 0) & (y_train <= 9))
    valid_labels_test = np.all((y_test >= 0) & (y_test <= 9))
    checks.append(("Labels valides (0-9)", valid_labels_train and valid_labels_test))
    
    # V√©rification 5: Toutes les classes pr√©sentes
    all_classes_train = len(np.unique(y_train)) == 10
    all_classes_test = len(np.unique(y_test)) == 10
    checks.append(("Toutes les classes pr√©sentes (0-9)", all_classes_train and all_classes_test))
    
    # V√©rification 6: Pas d'images totalement noires
    no_empty_train = not np.any(X_train.sum(axis=1) == 0)
    no_empty_test = not np.any(X_test.sum(axis=1) == 0)
    checks.append(("Pas d'images vides", no_empty_train and no_empty_test))
    
    # Afficher les r√©sultats
    print("\nüîç R√©sultats des v√©rifications:\n")
    for check_name, passed in checks:
        status = "‚úÖ" if passed else "‚ùå"
        print(f"   {status} {check_name}")
    
    # R√©sum√©
    all_passed = all([passed for _, passed in checks])
    
    print("\n" + "="*70)
    if all_passed:
        print("\nüéâ F√âLICITATIONS ! Toutes les v√©rifications sont pass√©es.")
        print("   Les donn√©es sont pr√™tes pour l'entra√Ænement !")
    else:
        print("\n‚ö†Ô∏è ATTENTION ! Certaines v√©rifications ont √©chou√©.")
        print("   V√©rifiez les donn√©es avant de continuer.")
    print("\n" + "="*70)
    
    # Informations suppl√©mentaires
    print("\nüìã Informations suppl√©mentaires:\n")
    print(f"   ‚Ä¢ Type de donn√©es: {X_train.dtype}")
    print(f"   ‚Ä¢ M√©moire utilis√©e (train): {X_train.nbytes / 1024**2:.2f} MB")
    print(f"   ‚Ä¢ M√©moire utilis√©e (test): {X_test.nbytes / 1024**2:.2f} MB")
    print(f"   ‚Ä¢ Total: {(X_train.nbytes + X_test.nbytes) / 1024**2:.2f} MB")
    
    return all_passed

# Effectuer les v√©rifications
data_ready = check_data_quality(X_train, y_train, X_test, y_test)

## üéØ R√©capitulatif

Dans ce notebook, nous avons explor√© en profondeur le dataset MNIST :

### ‚úÖ Ce que nous avons appris

1. **Structure du dataset** :
   - 60,000 images d'entra√Ænement + 10,000 images de test
   - Images 28√ó28 pixels normalis√©es entre 0 et 1
   - 10 classes (chiffres 0-9)

2. **Visualisations importantes** :
   - √âchantillons al√©atoires du dataset
   - Distribution √©quilibr√©e des classes
   - Analyse d√©taill√©e d'une image
   - Images moyennes par classe

3. **D√©fis du dataset** :
   - Grande variabilit√© intra-classe (m√™me chiffre, √©critures diff√©rentes)
   - Certains chiffres peuvent √™tre ambigus
   - Le r√©seau doit apprendre des features robustes

4. **Qualit√© des donn√©es** :
   - V√©rifications de coh√©rence
   - Donn√©es pr√™tes pour l'entra√Ænement

### üéì Points cl√©s √† retenir

- üìä **Toujours explorer ses donn√©es** avant de commencer l'entra√Ænement
- üëÄ **Comprendre la variabilit√©** aide √† concevoir le bon r√©seau
- ‚öñÔ∏è **V√©rifier l'√©quilibre** des classes pour √©viter les biais
- üîç **Identifier les cas difficiles** pour mieux √©valuer le mod√®le

---

### üöÄ Prochaines √âtapes

Maintenant que nous connaissons bien nos donn√©es, passons au notebook suivant :

**`02_forward_propagation.ipynb`** - Comprendre comment un r√©seau fait des pr√©dictions !

---

### üí™ Exercices sugg√©r√©s

Avant de passer au suivant, essaie ces exercices :

1. Trouve les 5 images du chiffre "1" les plus diff√©rentes
2. Calcule le chiffre qui a la plus grande variance moyenne de pixels
3. Cr√©e une visualisation montrant les 10 images les plus "typiques" de chaque classe
4. Identifie des exemples qui pourraient √™tre mal √©tiquet√©s (ambigus m√™me pour un humain)

Bonne exploration ! üéâ