# Exploration du Dataset GTSRB

Ce notebook explore le dataset German Traffic Sign Recognition Benchmark (GTSRB).

## Objectifs
- Charger et visualiser les données
- Analyser la distribution des classes
- Examiner quelques exemples d'images


In [10]:
import sys
import os
from pathlib import Path

# Ajouter le dossier src au path Python
# Les notebooks sont dans notebooks/, donc on remonte d'un niveau pour accéder à src/
project_root = Path().absolute().parent
sys.path.append(str(project_root / "src"))

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Importer vos modules
from src.data_loader import GTSRBDataLoader
from src.utils import display_sample_images, download_gtsrb_dataset

print("✅ Modules chargés avec succès")

# Configuration
DATA_PATH = "../data"  # Chemin relatif depuis notebooks/ vers data/

# Style matplotlib
try:
    plt.style.use('seaborn-v0_8')
except OSError:
    try:
        plt.style.use('seaborn')
    except OSError:
        plt.style.use('default')
        print("⚠️  Style seaborn non disponible, utilisation du style par défaut")


ModuleNotFoundError: No module named 'pandas'

## 1. Vérification du Dataset


In [11]:
# Vérifier si le dataset existe
data_path = Path(DATA_PATH)
if not data_path.exists():
    print("Le dataset n'existe pas ")
    print("Instructions pour télécharger:")
    download_gtsrb_dataset(DATA_PATH)
else:
    print(f"✅ Dataset trouvé dans: {data_path}")
    print(f"   Train: {data_path / 'Train'}")
    print(f"   Test: {data_path / 'Test'}")


NameError: name 'DATA_PATH' is not defined

## 2. Chargement des Données


In [3]:
# Charger les données d'entraînement
loader = GTSRBDataLoader(DATA_PATH)
X_train, y_train = loader.load_train_data(img_size=(64, 64))

print(f"Nombre d'images: {len(X_train)}")
print(f"Forme des images: {X_train[0].shape}")
print(f"Nombre de classes: {len(set(y_train))}")
print(f"Type de données: {X_train.dtype}")


NameError: name 'GTSRBDataLoader' is not defined

## 3. Distribution des Classes


In [None]:
# Analyser la distribution des classes
unique, counts = np.unique(y_train, return_counts=True)
class_dist = dict(zip(unique, counts))

plt.figure(figsize=(15, 6))
plt.bar(unique, counts)
plt.xlabel('Classe')
plt.ylabel('Nombre d\'images')
plt.title('Distribution des Classes dans le Dataset d\'Entraînement')
plt.xticks(rotation=45)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

print(f"Classe avec le plus d'images: {max(class_dist, key=class_dist.get)} ({max(counts)} images)")
print(f"Classe avec le moins d'images: {min(class_dist, key=class_dist.get)} ({min(counts)} images)")
print(f"Moyenne d'images par classe: {np.mean(counts):.1f}")


## 4. Visualisation d'Exemples


In [None]:
# Obtenir les noms de classes
class_names = loader.get_class_names()

# Afficher quelques exemples
display_sample_images(X_train, y_train, class_names, num_samples=9)


## 5. Statistiques des Images


In [None]:
# Analyser les statistiques des images
print("Statistiques des images:")
print(f"  Min: {X_train.min()}")
print(f"  Max: {X_train.max()}")
print(f"  Moyenne: {X_train.mean():.2f}")
print(f"  Écart-type: {X_train.std():.2f}")

# Histogramme des valeurs de pixels
plt.figure(figsize=(10, 6))
plt.hist(X_train.flatten(), bins=50, alpha=0.7, edgecolor='black')
plt.xlabel('Valeur de Pixel')
plt.ylabel('Fréquence')
plt.title('Distribution des Valeurs de Pixels')
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()
