# Exploration initiale des images Microcoleus

Ce notebook a pour objectif de :
- Lister et afficher les images présentes dans le dossier de données.
- Vérifier la distribution des classes.
- Afficher quelques statistiques et exemples visuels.


In [None]:
import os
import matplotlib.pyplot as plt
import numpy as np
from PIL import Image

In [None]:
data_dir = "../data/raw"
classes = [d for d in os.listdir(data_dir) if not d.startswith('.') and os.path.isdir(os.path.join(data_dir, d))]
print("Classes détectées :", classes)

In [None]:
image_count = {}
for cls in classes:
    folder = os.path.join(data_dir, cls)
    image_count[cls] = len([f for f in os.listdir(folder) if f.lower().endswith(('.png', '.jpg', '.jpeg', '.tif', '.tiff'))])
print("Nombre d'images par classe :", image_count)

In [None]:
plt.bar(image_count.keys(), image_count.values())
plt.title("Répartition du nombre d'images par classe")
plt.xlabel("Classe")
plt.ylabel("Nombre d'images")
plt.show()

In [None]:
fig, axes = plt.subplots(1, min(5, len(classes)), figsize=(15, 5))
for i, cls in enumerate(classes[:5]):
    folder = os.path.join(data_dir, cls)
    img_files = [f for f in os.listdir(folder) if f.lower().endswith(('.png', '.jpg', '.jpeg', '.tif', '.tiff'))]
    if img_files:
        img = Image.open(os.path.join(folder, img_files[0]))
        axes[i].imshow(img)
        axes[i].set_title(cls)
        axes[i].axis("off")
plt.suptitle("Exemple d'image par classe")
plt.show()

In [None]:
widths, heights = [], []
for cls in classes:
    folder = os.path.join(data_dir, cls)
    img_files = [f for f in os.listdir(folder) if f.lower().endswith(('.png', '.jpg', '.jpeg', '.tif', '.tiff'))]
    for img_file in img_files:
        try:
            img = Image.open(os.path.join(folder, img_file))
            widths.append(img.width)
            heights.append(img.height)
        except Exception as e:
            print(f"Erreur lors de l'ouverture de {img_file} :", e)

print("Taille moyenne :", np.mean(widths), "x", np.mean(heights))
plt.hist(widths, bins=20, alpha=0.5, label='Largeur')
plt.hist(heights, bins=20, alpha=0.5, label='Hauteur')
plt.legend()
plt.title("Distribution des tailles d'images")
plt.show()
