### Import

In [7]:
import os
import urllib.request
from pathlib import Path
from scipy.io import loadmat
from collections import defaultdict

# Dossier de données
DATA_DIR = Path("../data/raw")
DATA_DIR.mkdir(parents=True, exist_ok=True)

# URLs officielles
URL_IMAGES = "http://vision.stanford.edu/aditya86/ImageNetDogs/images.tar"
URL_LISTS = "http://vision.stanford.edu/aditya86/ImageNetDogs/lists.tar"

# Fichiers locaux
IMAGES_TAR = DATA_DIR / "images.tar"
LISTS_TAR = DATA_DIR / "lists.tar"


In [8]:
if not IMAGES_TAR.exists():
    print("📥 Téléchargement des images...")
    urllib.request.urlretrieve(URL_IMAGES, IMAGES_TAR)
    print("✅ Images téléchargées")
else:
    print("✅ Images déjà présentes")

if not LISTS_TAR.exists():
    print("📥 Téléchargement des listes...")
    urllib.request.urlretrieve(URL_LISTS, LISTS_TAR)
    print("✅ Lists téléchargées")
else:
    print("✅ Lists déjà présentes")


✅ Images déjà présentes
✅ Lists déjà présentes


In [9]:
if not (DATA_DIR / "Images").exists():
    print("📦 Extraction des images...")
    os.system(f"tar -xf {IMAGES_TAR} -C {DATA_DIR}")
    print("✅ Extraction images OK")
else:
    print("✅ Dossier Images déjà extrait")

if not (DATA_DIR / "train_list.mat").exists():
    print("📦 Extraction des listes...")
    os.system(f"tar -xf {LISTS_TAR} -C {DATA_DIR}")
    print("✅ Extraction list OK")
else:
    print("✅ Lists déjà extraites")


✅ Dossier Images déjà extrait
✅ Lists déjà extraites


In [10]:
# Chargement .mat
train_mat = loadmat(DATA_DIR / "train_list.mat")
test_mat = loadmat(DATA_DIR / "test_list.mat")

# Extraire les chemins d’image (format .mat un peu bizarre)
train_list = [item[0][0] for item in train_mat["file_list"]]
test_list = [item[0][0] for item in test_mat["file_list"]]

# Exemple de chemin
print("📂 Exemple image train:", train_list[0])


📂 Exemple image train: n02085620-Chihuahua/n02085620_5927.jpg


In [11]:
print(f"📈 Nombre d'images d'entraînement : {len(train_list)}")
print(f"📈 Nombre d'images de validation : {len(test_list)}")
print(f"📁 Dossier d’images : {DATA_DIR / 'Images'}")
IMAGES = DATA_DIR / "Images"
# Dossier racine avec les races
breed_dirs = [d for d in IMAGES.iterdir() if d.is_dir()]
image_counts = defaultdict(int)
total_images = 0

# Parcours et comptage
for breed in breed_dirs:
    num_images = len([f for f in breed.glob("*.jpg")])
    image_counts[breed.name] = num_images
    total_images += num_images
    
# Affichage des infos
print(f"🐕 Nombre total de races : {len(image_counts)}")
print(f"🖼️ Nombre total d’images : {total_images}\n")

# Nombre d'images par race
for breed, count in image_counts.items():
    print(f"{breed}: {count} images")

📈 Nombre d'images d'entraînement : 12000
📈 Nombre d'images de validation : 8580
📁 Dossier d’images : ..\data\raw\Images
🐕 Nombre total de races : 120
🖼️ Nombre total d’images : 20580

n02085620-Chihuahua: 152 images
n02085782-Japanese_spaniel: 185 images
n02085936-Maltese_dog: 252 images
n02086079-Pekinese: 149 images
n02086240-Shih-Tzu: 214 images
n02086646-Blenheim_spaniel: 188 images
n02086910-papillon: 196 images
n02087046-toy_terrier: 172 images
n02087394-Rhodesian_ridgeback: 172 images
n02088094-Afghan_hound: 239 images
n02088238-basset: 175 images
n02088364-beagle: 195 images
n02088466-bloodhound: 187 images
n02088632-bluetick: 171 images
n02089078-black-and-tan_coonhound: 159 images
n02089867-Walker_hound: 153 images
n02089973-English_foxhound: 157 images
n02090379-redbone: 148 images
n02090622-borzoi: 151 images
n02090721-Irish_wolfhound: 218 images
n02091032-Italian_greyhound: 182 images
n02091134-whippet: 187 images
n02091244-Ibizan_hound: 188 images
n02091467-Norwegian_elkh