# Exploration du Dataset VinDr-Mammo

Ce notebook explore les données mammographiques du dataset VinDr-Mammo pour comprendre leur structure, distribution et caractéristiques avant l'entraînement du modèle d'IA.

## Objectifs:
1. Analyser la structure des données
2. Examiner la distribution des classes BI-RADS
3. Visualiser des exemples d'images
4. Identifier les défis techniques
5. Préparer le preprocessing


In [None]:
# Import des bibliothèques nécessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from PIL import Image
import cv2
import os
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Configuration des graphiques
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10


## 1. Exploration des Fichiers de Données


In [None]:
# Chemins vers les données
data_root = Path('../')
images_path = data_root / 'Extract' / 'images_png'
extracted_path = data_root / 'extracted_data' / 'images_png'

# Fichiers CSV disponibles
csv_files = {
    'metadata': data_root / 'metadata.csv',
    'breast_annotations': data_root / 'breast-level_annotations (1).csv',
    'finding_annotations': data_root / 'finding_annotations (1).csv'
}

print("Fichiers disponibles:")
for name, path in csv_files.items():
    if path.exists():
        print(f"✓ {name}: {path}")
    else:
        print(f"✗ {name}: {path} - Fichier non trouvé")

print(f"\nDossier d'images Extract: {images_path.exists()}")
print(f"Dossier d'images extracted_data: {extracted_path.exists()}")


## 2. Analyse des Métadonnées


In [None]:
# Chargement des métadonnées
if csv_files['metadata'].exists():
    metadata_df = pd.read_csv(csv_files['metadata'])
    print("=== MÉTADONNÉES ===")
    print(f"Nombre total d'images: {len(metadata_df)}")
    print(f"Colonnes disponibles: {list(metadata_df.columns)}")
    print("\nPremières lignes:")
    print(metadata_df.head())
    print("\nInformations sur les colonnes:")
    print(metadata_df.info())
    print("\nStatistiques descriptives:")
    print(metadata_df.describe())
else:
    print("Fichier metadata.csv non trouvé")
