# ü´Å Analyse Compl√®te du Dataset Chest X-Ray Pneumonia

## üìä Cr√©dits et Source des Donn√©es

**Dataset :** [Chest X-Ray Images (Pneumonia)](https://www.kaggle.com/datasets/paultimothymooney/chest-xray-pneumonia)
**Source :** Kaggle
**Cr√©ateur :** Paul Mooney
**Auteur de l'analyse :** Dady Akrou Cyrille

---

## üéØ Objectif du Projet

Ce notebook pr√©sente une analyse compl√®te du dataset de radiographies thoraciques pour la d√©tection automatique de pneumonie. L'objectif est de d√©velopper un mod√®le de deep learning capable de classifier les radiographies en deux cat√©gories :

- **NORMAL** : Radiographies sans pneumonie
- **PNEUMONIA** : Radiographies avec pneumonie

## üìã Table des Mati√®res

1. [Configuration et Imports](#1-configuration-et-imports)
2. [Exploration du Dataset](#2-exploration-du-dataset)
3. [Analyse Statistique](#3-analyse-statistique)
4. [Visualisations Avanc√©es](#4-visualisations-avanc√©es)
5. [Analyse des Images](#5-analyse-des-images)
6. [Recommandations ML](#6-recommandations-ml)
7. [Conclusions](#7-conclusions)

## 1. Configuration et Imports

### Installation des d√©pendances

Si vous ex√©cutez ce notebook pour la premi√®re fois, d√©commentez et ex√©cutez la cellule suivante :

In [None]:
# !pip install -r requirements.txt

### Imports et configuration

In [None]:
# Imports standards
import os
import sys
import json
import warnings
from pathlib import Path

# Imports pour l'analyse de donn√©es
import pandas as pd
import numpy as np

# Imports pour la visualisation
import matplotlib.pyplot as plt
import seaborn as sns
from PIL import Image

# Imports pour le traitement d'images
import cv2

# Configuration
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

# Configuration matplotlib pour l'affichage en fran√ßais
plt.rcParams['font.size'] = 12
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['axes.grid'] = True
plt.rcParams['grid.alpha'] = 0.3

print("‚úÖ Configuration termin√©e avec succ√®s !")

### Chargement des modules du projet

In [None]:
# Chargement des modules personnalis√©s
from config import *
from utils import *

# Affichage de l'en-t√™te du projet
afficher_entete_projet()

print(f"üìÅ R√©pertoire de travail : {os.getcwd()}")
print(f"üìä Dataset configur√© : {DATASET_PATH}")

## 2. Exploration du Dataset

### Validation de la structure du dataset

In [None]:
# Validation de la structure
print("üîç Validation de la structure du dataset...")

structure_valide = valider_structure_dataset(DATASET_PATH)

if structure_valide:
    print("‚úÖ Structure du dataset valid√©e avec succ√®s !")
else:
    print("‚ùå Probl√®me d√©tect√© dans la structure du dataset")
    print("Veuillez v√©rifier que le dataset est correctement organis√©.")

In [None]:
# Exploration de la structure des dossiers
print("üìÇ Structure du dataset :")
print("=" * 50)

for subset in SUBSETS:
    subset_path = os.path.join(DATASET_PATH, subset)
    if os.path.exists(subset_path):
        print(f"\nüìÅ {subset.upper()}/")
        for classe in CLASSES:
            classe_path = os.path.join(subset_path, classe)
            if os.path.exists(classe_path):
                nb_images = compter_images(classe_path)
                print(f"  ‚îî‚îÄ‚îÄ {classe}: {nb_images:,} images")
            else:
                print(f"  ‚îî‚îÄ‚îÄ {classe}: ‚ùå Dossier manquant")
    else:
        print(f"\n‚ùå {subset.upper()}/: Dossier manquant")

## 3. Analyse Statistique

### Statistiques g√©n√©rales du dataset

In [None]:
# Obtention des statistiques compl√®tes
print("üìä Calcul des statistiques du dataset...")

stats = obtenir_statistiques_dataset(DATASET_PATH)

# Affichage des statistiques g√©n√©rales
print("\nüî¢ STATISTIQUES G√âN√âRALES")
print("=" * 50)
print(f"üìä Total d'images : {stats['total_images']:,}")
print(f"üìÅ Nombre de classes : {len(CLASSES)}")
print(f"üìÇ Nombre de sous-ensembles : {len(SUBSETS)}")

# Statistiques par sous-ensemble
print("\nüìÇ R√âPARTITION PAR SOUS-ENSEMBLE")
print("=" * 50)

for subset in SUBSETS:
    if subset in stats['par_subset']:
        subset_stats = stats['par_subset'][subset]
        total_subset = sum(subset_stats.values())
        pourcentage = (total_subset / stats['total_images']) * 100
        
        print(f"\nüìÅ {subset.upper()}:")
        print(f"   Total: {total_subset:,} images ({pourcentage:.1f}%)")
        
        for classe in CLASSES:
            if classe in subset_stats:
                nb_images = subset_stats[classe]
                pourcentage_classe = (nb_images / total_subset) * 100 if total_subset > 0 else 0
                print(f"   ‚îî‚îÄ‚îÄ {classe}: {nb_images:,} ({pourcentage_classe:.1f}%)")
            else:
                print(f"   ‚îî‚îÄ‚îÄ {classe}: 0 (0.0%)")
    else:
        print(f"\n‚ùå {subset.upper()}: Aucune donn√©e trouv√©e")

### Analyse du d√©s√©quilibre des classes

In [None]:
# Calcul des poids de classes
print("‚öñÔ∏è ANALYSE DU D√âS√âQUILIBRE DES CLASSES")
print("=" * 50)

poids_classes = calculer_poids_classes(stats)

# Statistiques globales par classe
total_par_classe = {}
for classe in CLASSES:
    total = 0
    for subset in SUBSETS:
        if subset in stats['par_subset'] and classe in stats['par_subset'][subset]:
            total += stats['par_subset'][subset][classe]
    total_par_classe[classe] = total

print("üìä R√©partition globale par classe :")
for classe in CLASSES:
    total = total_par_classe[classe]
    pourcentage = (total / stats['total_images']) * 100
    print(f"   {classe}: {total:,} images ({pourcentage:.1f}%)")

# Calcul du ratio de d√©s√©quilibre
if len(total_par_classe) == 2:
    classes_list = list(total_par_classe.keys())
    ratio = max(total_par_classe.values()) / min(total_par_classe.values())
    classe_majoritaire = max(total_par_classe, key=total_par_classe.get)
    classe_minoritaire = min(total_par_classe, key=total_par_classe.get)
    
    print(f"\n‚öñÔ∏è Ratio de d√©s√©quilibre : {ratio:.2f}:1")
    print(f"   Classe majoritaire : {classe_majoritaire}")
    print(f"   Classe minoritaire : {classe_minoritaire}")

print("\nüéØ Poids recommand√©s pour l'entra√Ænement :")
for classe, poids in poids_classes.items():
    print(f"   {classe}: {poids:.4f}")

## 4. Visualisations Avanc√©es

### Graphiques de distribution

In [None]:
# Cr√©ation des visualisations
print("üìà G√©n√©ration des visualisations...")

# Pr√©paration des donn√©es pour les graphiques
data_viz = []

for subset in SUBSETS:
    if subset in stats['par_subset']:
        for classe, count in stats['par_subset'][subset].items():
            data_viz.append({
                'Sous-ensemble': subset.capitalize(),
                'Classe': classe,
                'Nombre': count
            })

df_viz = pd.DataFrame(data_viz)

# Graphique 1: Distribution par sous-ensemble et classe
fig, axes = plt.subplots(2, 2, figsize=(16, 12))
fig.suptitle('üìä Analyse Compl√®te du Dataset Chest X-Ray Pneumonia', fontsize=16, fontweight='bold')

# Graphique en barres group√©es
ax1 = axes[0, 0]
df_pivot = df_viz.pivot(index='Sous-ensemble', columns='Classe', values='Nombre')
df_pivot.plot(kind='bar', ax=ax1, color=['skyblue', 'lightcoral'])
ax1.set_title('Distribution par Sous-ensemble et Classe')
ax1.set_xlabel('Sous-ensemble')
ax1.set_ylabel('Nombre d\'images')
ax1.legend(title='Classe')
ax1.tick_params(axis='x', rotation=45)

# Graphique en secteurs pour la distribution globale
ax2 = axes[0, 1]
total_par_classe_list = [total_par_classe[classe] for classe in CLASSES]
colors = ['lightblue', 'lightcoral']
wedges, texts, autotexts = ax2.pie(total_par_classe_list, labels=CLASSES, autopct='%1.1f%%', 
                                   colors=colors, startangle=90)
ax2.set_title('R√©partition Globale des Classes')

# Graphique en barres horizontales pour les sous-ensembles
ax3 = axes[1, 0]
subset_totals = [sum(stats['par_subset'][subset].values()) if subset in stats['par_subset'] else 0 
                 for subset in SUBSETS]
bars = ax3.barh(SUBSETS, subset_totals, color=['lightgreen', 'orange', 'lightpink'])
ax3.set_title('Nombre d\'Images par Sous-ensemble')
ax3.set_xlabel('Nombre d\'images')

# Ajout des valeurs sur les barres
for i, bar in enumerate(bars):
    width = bar.get_width()
    ax3.text(width + 50, bar.get_y() + bar.get_height()/2, 
             f'{int(width):,}', ha='left', va='center')

# Graphique de comparaison des ratios
ax4 = axes[1, 1]
ratios_data = []
for subset in SUBSETS:
    if subset in stats['par_subset']:
        subset_stats = stats['par_subset'][subset]
        if len(subset_stats) == 2:
            ratio = max(subset_stats.values()) / min(subset_stats.values())
            ratios_data.append(ratio)
        else:
            ratios_data.append(0)
    else:
        ratios_data.append(0)

bars = ax4.bar(SUBSETS, ratios_data, color=['lightblue', 'lightgreen', 'lightcoral'])
ax4.set_title('Ratio de D√©s√©quilibre par Sous-ensemble')
ax4.set_ylabel('Ratio (Majoritaire:Minoritaire)')
ax4.tick_params(axis='x', rotation=45)

# Ajout d'une ligne de r√©f√©rence pour un ratio √©quilibr√©
ax4.axhline(y=1, color='red', linestyle='--', alpha=0.7, label='√âquilibre parfait')
ax4.legend()

# Ajout des valeurs sur les barres
for i, bar in enumerate(bars):
    height = bar.get_height()
    if height > 0:
        ax4.text(bar.get_x() + bar.get_width()/2, height + 0.1, 
                 f'{height:.2f}:1', ha='center', va='bottom')

plt.tight_layout()
plt.show()

print("‚úÖ Visualisations g√©n√©r√©es avec succ√®s !")

## 5. Analyse des Images

### Propri√©t√©s des images (dimensions, formats, tailles)

In [None]:
# Analyse des propri√©t√©s des images
print("üñºÔ∏è Analyse des propri√©t√©s des images...")
print("‚è≥ Cette op√©ration peut prendre quelques minutes...\n")

proprietes = analyser_proprietes_images(DATASET_PATH)

print("üìä PROPRI√âT√âS DES IMAGES")
print("=" * 50)

# Formats d'images
print("üé® Formats d√©tect√©s :")
for format_img, count in proprietes['formats'].items():
    pourcentage = (count / proprietes['total_analysees']) * 100
    print(f"   {format_img}: {count:,} images ({pourcentage:.1f}%)")

# Dimensions
print("\nüìê Dimensions des images :")
print(f"   Largeur moyenne : {proprietes['largeur_moyenne']:.0f} pixels")
print(f"   Hauteur moyenne : {proprietes['hauteur_moyenne']:.0f} pixels")
print(f"   Dimension la plus fr√©quente : {proprietes['dimension_plus_frequente']}")

# Tailles de fichiers
print("\nüíæ Tailles des fichiers :")
print(f"   Taille moyenne : {proprietes['taille_moyenne_mb']:.2f} MB")
print(f"   Taille m√©diane : {proprietes['taille_mediane_mb']:.2f} MB")
print(f"   Taille minimale : {proprietes['taille_min_mb']:.3f} MB")
print(f"   Taille maximale : {proprietes['taille_max_mb']:.2f} MB")

print(f"\nüîç Images analys√©es : {proprietes['total_analysees']:,} / {stats['total_images']:,}")

### Visualisation des propri√©t√©s des images

In [None]:
# Visualisation des propri√©t√©s des images
fig, axes = plt.subplots(2, 2, figsize=(16, 12))
fig.suptitle('üñºÔ∏è Analyse des Propri√©t√©s des Images', fontsize=16, fontweight='bold')

# Graphique 1: Distribution des largeurs
ax1 = axes[0, 0]
largeurs = [dim[0] for dim in proprietes['dimensions']]
ax1.hist(largeurs, bins=30, color='skyblue', alpha=0.7, edgecolor='black')
ax1.set_title('Distribution des Largeurs')
ax1.set_xlabel('Largeur (pixels)')
ax1.set_ylabel('Fr√©quence')
ax1.axvline(proprietes['largeur_moyenne'], color='red', linestyle='--', 
           label=f'Moyenne: {proprietes["largeur_moyenne"]:.0f}px')
ax1.legend()

# Graphique 2: Distribution des hauteurs
ax2 = axes[0, 1]
hauteurs = [dim[1] for dim in proprietes['dimensions']]
ax2.hist(hauteurs, bins=30, color='lightcoral', alpha=0.7, edgecolor='black')
ax2.set_title('Distribution des Hauteurs')
ax2.set_xlabel('Hauteur (pixels)')
ax2.set_ylabel('Fr√©quence')
ax2.axvline(proprietes['hauteur_moyenne'], color='red', linestyle='--', 
           label=f'Moyenne: {proprietes["hauteur_moyenne"]:.0f}px')
ax2.legend()

# Graphique 3: Distribution des tailles de fichiers
ax3 = axes[1, 0]
tailles_mb = [taille / (1024*1024) for taille in proprietes['tailles']]
ax3.hist(tailles_mb, bins=30, color='lightgreen', alpha=0.7, edgecolor='black')
ax3.set_title('Distribution des Tailles de Fichiers')
ax3.set_xlabel('Taille (MB)')
ax3.set_ylabel('Fr√©quence')
ax3.axvline(proprietes['taille_moyenne_mb'], color='red', linestyle='--', 
           label=f'Moyenne: {proprietes["taille_moyenne_mb"]:.2f}MB')
ax3.legend()

# Graphique 4: Scatter plot largeur vs hauteur
ax4 = axes[1, 1]
ax4.scatter(largeurs, hauteurs, alpha=0.6, color='purple', s=10)
ax4.set_title('Relation Largeur vs Hauteur')
ax4.set_xlabel('Largeur (pixels)')
ax4.set_ylabel('Hauteur (pixels)')

# Ajout de la ligne de ratio 1:1
max_dim = max(max(largeurs), max(hauteurs))
ax4.plot([0, max_dim], [0, max_dim], 'r--', alpha=0.5, label='Ratio 1:1')
ax4.legend()

plt.tight_layout()
plt.show()

print("‚úÖ Visualisations des propri√©t√©s g√©n√©r√©es avec succ√®s !")

### √âchantillons d'images par classe

In [None]:
# Affichage d'√©chantillons d'images
print("üñºÔ∏è Affichage d'√©chantillons d'images par classe...")

def afficher_echantillons(dataset_path, nb_echantillons=3):
    """Affiche des √©chantillons d'images pour chaque classe"""
    
    fig, axes = plt.subplots(len(CLASSES), nb_echantillons, 
                            figsize=(nb_echantillons * 4, len(CLASSES) * 4))
    
    if len(CLASSES) == 1:
        axes = [axes]
    
    fig.suptitle('üñºÔ∏è √âchantillons d\'Images par Classe', fontsize=16, fontweight='bold')
    
    for i, classe in enumerate(CLASSES):
        # Chercher des images dans le dossier train en priorit√©
        classe_path = os.path.join(dataset_path, 'train', classe)
        
        if not os.path.exists(classe_path):
            # Si pas de dossier train, chercher dans test
            classe_path = os.path.join(dataset_path, 'test', classe)
        
        if os.path.exists(classe_path):
            images = [f for f in os.listdir(classe_path) 
                     if f.lower().endswith(('.png', '.jpg', '.jpeg'))]
            
            # S√©lectionner des √©chantillons al√©atoires
            echantillons = np.random.choice(images, 
                                          min(nb_echantillons, len(images)), 
                                          replace=False)
            
            for j, image_name in enumerate(echantillons):
                image_path = os.path.join(classe_path, image_name)
                
                try:
                    # Charger et afficher l'image
                    img = Image.open(image_path)
                    
                    if len(CLASSES) == 1:
                        ax = axes[j]
                    else:
                        ax = axes[i, j]
                    
                    ax.imshow(img, cmap='gray' if img.mode == 'L' else None)
                    ax.set_title(f'{classe}\n{img.size[0]}x{img.size[1]}px')
                    ax.axis('off')
                    
                except Exception as e:
                    if len(CLASSES) == 1:
                        ax = axes[j]
                    else:
                        ax = axes[i, j]
                    
                    ax.text(0.5, 0.5, f'Erreur\nchargement\n{str(e)[:20]}...', 
                           ha='center', va='center', transform=ax.transAxes)
                    ax.axis('off')
        else:
            # Si le dossier n'existe pas
            for j in range(nb_echantillons):
                if len(CLASSES) == 1:
                    ax = axes[j]
                else:
                    ax = axes[i, j]
                
                ax.text(0.5, 0.5, f'Dossier\n{classe}\nintrouvable', 
                       ha='center', va='center', transform=ax.transAxes)
                ax.axis('off')
    
    plt.tight_layout()
    plt.show()

# Affichage des √©chantillons
afficher_echantillons(DATASET_PATH, nb_echantillons=4)

print("‚úÖ √âchantillons d'images affich√©s avec succ√®s !")

## 6. Recommandations ML

### Strat√©gies recommand√©es pour ce dataset

In [None]:
# G√©n√©ration des recommandations ML
print("üéØ RECOMMANDATIONS MACHINE LEARNING")
print("=" * 60)

# Analyse du d√©s√©quilibre
ratio_desequilibre = max(total_par_classe.values()) / min(total_par_classe.values())

print("‚öñÔ∏è GESTION DU D√âS√âQUILIBRE DES CLASSES")
print(f"   Ratio actuel : {ratio_desequilibre:.2f}:1")

if ratio_desequilibre > 2.0:
    print("   üö® D√âS√âQUILIBRE SIGNIFICATIF D√âTECT√â")
    print("   
   Strat√©gies recommand√©es :")
    print("   ‚Ä¢ Utiliser les poids de classes calcul√©s")
    print("   ‚Ä¢ Appliquer des techniques de sur-√©chantillonnage (SMOTE)")
    print("   ‚Ä¢ Augmentation de donn√©es cibl√©e sur la classe minoritaire")
    print("   ‚Ä¢ Utiliser des m√©triques √©quilibr√©es (F1-score, AUC-ROC)")
elif ratio_desequilibre > 1.5:
    print("   ‚ö†Ô∏è D√©s√©quilibre mod√©r√©")
    print("   Strat√©gies recommand√©es :")
    print("   ‚Ä¢ Utiliser les poids de classes")
    print("   ‚Ä¢ Surveiller les m√©triques par classe")
else:
    print("   ‚úÖ Dataset relativement √©quilibr√©")

print("\nüèóÔ∏è ARCHITECTURE DE MOD√àLE RECOMMAND√âE")
print("   Pour la classification d'images m√©dicales :")
print("   ‚Ä¢ Transfer Learning avec des mod√®les pr√©-entra√Æn√©s")
print("   ‚Ä¢ ResNet50/101 ou EfficientNet (recommand√©s pour l'imagerie m√©dicale)")
print("   ‚Ä¢ Fine-tuning des derni√®res couches")
print("   ‚Ä¢ Dropout et r√©gularisation pour √©viter le surapprentissage")

print("\nüìä M√âTRIQUES D'√âVALUATION RECOMMAND√âES")
print("   Pour un contexte m√©dical :")
print("   ‚Ä¢ Sensibilit√© (Recall) - Crucial pour d√©tecter la pneumonie")
print("   ‚Ä¢ Sp√©cificit√© - Important pour √©viter les faux positifs")
print("   ‚Ä¢ F1-Score - √âquilibre entre pr√©cision et rappel")
print("   ‚Ä¢ AUC-ROC - Performance globale du mod√®le")
print("   ‚Ä¢ Matrice de confusion d√©taill√©e")

print("\nüîÑ AUGMENTATION DE DONN√âES RECOMMAND√âE")
print("   Techniques adapt√©es aux radiographies :")
print("   ‚Ä¢ Rotation l√©g√®re (¬±10-15¬∞)")
print("   ‚Ä¢ Translation horizontale/verticale")
print("   ‚Ä¢ Zoom l√©ger")
print("   ‚Ä¢ Ajustement de contraste et luminosit√©")
print("   ‚Ä¢ ‚ö†Ô∏è √âviter : flip horizontal (anatomie)")

print("\n‚öôÔ∏è CONFIGURATION D'ENTRA√éNEMENT")
print(f"   ‚Ä¢ Taille d'image recommand√©e : {IMAGE_SIZE}x{IMAGE_SIZE}")
print(f"   ‚Ä¢ Batch size : {BATCH_SIZE}")
print(f"   ‚Ä¢ Learning rate initial : {LEARNING_RATE}")
print(f"   ‚Ä¢ Nombre d'√©poques max : {EPOCHS}")
print(f"   ‚Ä¢ Early stopping patience : {PATIENCE}")

print("\nüìã VALIDATION ET TEST")

# Analyse de la r√©partition train/val/test
train_total = sum(stats['par_subset']['train'].values()) if 'train' in stats['par_subset'] else 0
val_total = sum(stats['par_subset']['val'].values()) if 'val' in stats['par_subset'] else 0
test_total = sum(stats['par_subset']['test'].values()) if 'test' in stats['par_subset'] else 0

total_images = train_total + val_total + test_total

if total_images > 0:
    train_pct = (train_total / total_images) * 100
    val_pct = (val_total / total_images) * 100
    test_pct = (test_total / total_images) * 100
    
    print(f"   R√©partition actuelle :")
    print(f"   ‚Ä¢ Train : {train_total:,} ({train_pct:.1f}%)")
    print(f"   ‚Ä¢ Validation : {val_total:,} ({val_pct:.1f}%)")
    print(f"   ‚Ä¢ Test : {test_total:,} ({test_pct:.1f}%)")
    
    if val_pct < 10:
        print("   ‚ö†Ô∏è ATTENTION : Ensemble de validation tr√®s petit !")
        print("   Recommandation : Redistribuer les donn√©es (70/15/15)")
    
    if test_pct < 10:
        print("   ‚ö†Ô∏è ATTENTION : Ensemble de test petit !")
        print("   Recommandation : Augmenter la taille du test set")

print("\nüéØ OBJECTIFS DE PERFORMANCE")
print("   Pour un mod√®le de d√©tection de pneumonie :")
print("   ‚Ä¢ Sensibilit√© cible : > 90% (d√©tecter la pneumonie)")
print("   ‚Ä¢ Sp√©cificit√© cible : > 85% (√©viter faux positifs)")
print("   ‚Ä¢ F1-Score cible : > 0.87")
print("   ‚Ä¢ AUC-ROC cible : > 0.90")

## 7. Conclusions

### R√©sum√© de l'analyse

In [None]:
# G√©n√©ration du r√©sum√© final
print("üìã R√âSUM√â DE L'ANALYSE")
print("=" * 50)

print("üîç DATASET ANALYS√â :")
print(f"   ‚Ä¢ Source : Kaggle - Paul Mooney")
print(f"   ‚Ä¢ Total d'images : {stats['total_images']:,}")
print(f"   ‚Ä¢ Classes : {', '.join(CLASSES)}")
print(f"   ‚Ä¢ Sous-ensembles : {', '.join(SUBSETS)}")

print("‚öñÔ∏è D√âS√âQUILIBRE DES CLASSES :")
print(f"   ‚Ä¢ Ratio : {ratio_desequilibre:.2f}:1")
print(f"   ‚Ä¢ Classe majoritaire : {max(total_par_classe, key=total_par_classe.get)}")
print(f"   ‚Ä¢ Classe minoritaire : {min(total_par_classe, key=total_par_classe.get)}")

print("üñºÔ∏è PROPRI√âT√âS DES IMAGES :")
print(f"   ‚Ä¢ Dimensions moyennes : {proprietes['largeur_moyenne']:.0f}x{proprietes['hauteur_moyenne']:.0f}px")
print(f"   ‚Ä¢ Taille moyenne : {proprietes['taille_moyenne_mb']:.2f} MB")
print(f"   ‚Ä¢ Format principal : {max(proprietes['formats'], key=proprietes['formats'].get)}")

print("üö® PROBL√àMES IDENTIFI√âS :")
if val_pct < 10:
    print("   ‚Ä¢ Ensemble de validation tr√®s petit")
if ratio_desequilibre > 2.0:
    print("   ‚Ä¢ D√©s√©quilibre significatif des classes")
if len(set(proprietes['dimensions'])) > 10:
    print("   ‚Ä¢ Dimensions d'images variables")

print("‚úÖ RECOMMANDATIONS CL√âS :")
print("   ‚Ä¢ Utiliser Transfer Learning (ResNet50/EfficientNet)")
print("   ‚Ä¢ Appliquer les poids de classes calcul√©s")
print("   ‚Ä¢ Augmentation de donn√©es cibl√©e")
print("   ‚Ä¢ M√©triques m√©dicales (Sensibilit√©, Sp√©cificit√©)")
print("   ‚Ä¢ Redistribution train/val/test si n√©cessaire")

print("üéØ PROCHAINES √âTAPES :")
print("   1. Preprocessing et normalisation des images")
print("   2. Impl√©mentation du mod√®le avec Transfer Learning")
print("   3. Entra√Ænement avec validation crois√©e")
print("   4. √âvaluation avec m√©triques m√©dicales")
print("   5. Optimisation et d√©ploiement")

print("\nüéâ Analyse termin√©e avec succ√®s !")
print("üìä Rapport d√©taill√© sauvegard√© dans outputs/")
print("üìà Visualisations g√©n√©r√©es et affich√©es")

### Sauvegarde du rapport d'analyse

In [None]:
# Sauvegarde du rapport complet
print("üíæ Sauvegarde du rapport d'analyse...")

# Cr√©ation du rapport complet
rapport_complet = {
    'metadata': {
        'dataset_source': 'Kaggle - Paul Mooney',
        'dataset_url': 'https://www.kaggle.com/datasets/paultimothymooney/chest-xray-pneumonia',
        'analyse_date': pd.Timestamp.now().strftime('%Y-%m-%d %H:%M:%S'),
        'auteur': 'Dady Akrou Cyrille'
    },
    'statistiques_dataset': stats,
    'proprietes_images': proprietes,
    'poids_classes': poids_classes,
    'analyse_desequilibre': {
        'ratio': ratio_desequilibre,
        'classe_majoritaire': max(total_par_classe, key=total_par_classe.get),
        'classe_minoritaire': min(total_par_classe, key=total_par_classe.get)
    },
    'recommandations': {
        'architecture': 'Transfer Learning avec ResNet50/EfficientNet',
        'gestion_desequilibre': 'Poids de classes + SMOTE',
        'metriques': ['Sensibilit√©', 'Sp√©cificit√©', 'F1-Score', 'AUC-ROC'],
        'augmentation_donnees': ['Rotation', 'Translation', 'Zoom', 'Contraste']
    }
}

# Sauvegarde en JSON
os.makedirs('outputs', exist_ok=True)
with open('outputs/rapport_analyse_notebook.json', 'w', encoding='utf-8') as f:
    json.dump(rapport_complet, f, indent=2, ensure_ascii=False)

print("‚úÖ Rapport sauvegard√© : outputs/rapport_analyse_notebook.json")
print("\nüéØ Analyse compl√®te termin√©e !")
print("üìö Ce notebook peut √™tre utilis√© comme r√©f√©rence pour le d√©veloppement du mod√®le.")

---

## üìö R√©f√©rences et Cr√©dits

- **Dataset :** [Chest X-Ray Images (Pneumonia)](https://www.kaggle.com/datasets/paultimothymooney/chest-xray-pneumonia)
- **Cr√©ateur du dataset :** Paul Mooney
- **Plateforme :** Kaggle
- **Auteur de l'analyse :** Dady Akrou Cyrille
- **Date :** 2024

---

*Ce notebook pr√©sente une analyse compl√®te du dataset de radiographies thoraciques pour la d√©tection de pneumonie. Toutes les visualisations et recommandations sont bas√©es sur l'analyse statistique des donn√©es.*