üß† √âTAPE 0 ‚Äî Initialisation du Bloc 2

‚û§ Objectif : Charger le dataset final dataset_index.csv g√©n√©r√© au Bloc 1.
‚û§ Objectif : V√©rifier qu‚Äôil est exploitable et pr√™t pour le Machine Learning.

In [None]:
import pandas as pd
from pathlib import Path

# Charger le dataset final du Bloc 1
df = pd.read_csv("../data/processed/dataset_index.csv", sep=";")
print(f"{len(df)} fichiers charg√©s")
print(f"{df['espece'].nunique()} esp√®ces d√©tect√©es")
df.head()

üìä √âTAPE 1 ‚Äî Analyse de la distribution par esp√®ce

‚û§ Objectif : V√©rifier l‚Äô√©quilibrage du dataset.
‚û§ Objectif : Identifier les classes sous-repr√©sent√©es et pr√©parer la suite du ML.
	‚Ä¢	Compter le nombre d‚Äôimages par esp√®ce
	‚Ä¢	Visualiser la distribution avec un barplot
	‚Ä¢	D√©tecter si certaines esp√®ces sont sous-repr√©sent√©es
	‚Ä¢	Optionnel : undersampling/oversampling pour √©quilibrer le dataset

In [None]:
import matplotlib.pyplot as plt

# Comptage par esp√®ce
counts = df['espece'].value_counts()
print(counts)

# Visualisation
plt.figure(figsize=(12,5))
counts.plot(kind='bar', title="Nombre d'images par esp√®ce")
plt.xticks(rotation=45)
plt.ylabel("Nombre d'images")
plt.show()

üñºÔ∏è √âTAPE 2 ‚Äî Pr√©traitement des images
	‚Ä¢	Charger quelques images pour v√©rifier leur lisibilit√©
	‚Ä¢	Redimensionner toutes les images √† une taille fixe (ex : 128√ó128)
	‚Ä¢	Convertir les images en niveaux de gris ou RGB normalis√© [0,1]
	‚Ä¢	Associer chaque image √† son label (l‚Äôesp√®ce)
	‚Ä¢	Pr√©parer une structure numpy (X, y) exploitable par l‚ÄôIA

In [None]:
import numpy as np
import cv2
from tqdm import tqdm

# Param√®tres du pr√©traitement
IMG_SIZE = 128  # Taille cible des images (128x128)
X = []
y = []

# It√©ration sur le dataset
for _, row in tqdm(df.iterrows(), total=len(df)):
    img_path = row['fichier']
    label = row['espece']

    # Lecture de l'image
    img = cv2.imread(img_path)
    if img is None:
        continue  # Si une image est corrompue ou manquante

    # Redimensionnement
    img = cv2.resize(img, (IMG_SIZE, IMG_SIZE))

    # Normalisation [0,1]
    img = img.astype('float32') / 255.0

    X.append(img)
    y.append(label)

# Conversion en numpy arrays
X = np.array(X)
y = np.array(y)

print(f"Dataset images : {X.shape}")
print(f"Labels : {y.shape}, classes uniques : {np.unique(y)}")

‚ö° Patch M√©moire ‚Äî Optimisation Mac M2

‚û§ Objectif : R√©duire la consommation m√©moire pour √©viter les erreurs PyCharm sur Mac M2.
‚û§ Actions :
‚Ä¢ Conversion des images en float16 (2√ó moins de m√©moire)
‚Ä¢ Lib√©ration des variables temporaires inutiles
‚Ä¢ Option : sauvegarde des splits sur disque pour rechargement rapide

In [None]:
import gc

# Conversion en float16 pour r√©duire la m√©moire
X = X.astype('float16')

# Lib√©ration m√©moire non utilis√©e
gc.collect()

# Optionnel : sauvegarde des donn√©es pr√©trait√©es
np.savez_compressed("../data/processed/dataset_float16.npz", X=X, y=y)
print("Patch m√©moire appliqu√© : X en float16 et dataset sauvegard√©.")

üìä √âtape suivante : √âTAPE 3 ‚Äî Split du dataset (check-up)

Objectifs :
	‚Ä¢	Cr√©er les jeux train / validation / test
	‚Ä¢	S‚Äôassurer que la r√©partition est stratifi√©e par esp√®ce
	‚Ä¢	Pr√©parer √† l‚Äôentra√Ænement du mod√®le pr√©dictif IA

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from tensorflow.keras.utils import to_categorical

# Encodage des labels en entiers
le = LabelEncoder()
y_encoded = le.fit_transform(y)

# Encodage one-hot pour le mod√®le IA
y_onehot = to_categorical(y_encoded)
print(f"y_onehot shape : {y_onehot.shape}")

# Split Train (70%) / Temp (30%)
X_train, X_temp, y_train, y_temp = train_test_split(
    X, y_onehot, test_size=0.30, stratify=y_onehot, random_state=42
)

# Split Temp en Validation (15%) / Test (15%)
X_val, X_test, y_val, y_test = train_test_split(
    X_temp, y_temp, test_size=0.50, stratify=y_temp, random_state=42
)

print(f"Train : {X_train.shape}, {y_train.shape}")
print(f"Validation : {X_val.shape}, {y_val.shape}")
print(f"Test : {X_test.shape}, {y_test.shape}")

üìä √âTAPE 4 ‚Äî Split du dataset (Train / Validation / Test)

Objectifs :
	‚Ä¢	S√©parer le dataset en train / validation / test (70% / 15% / 15%)
	‚Ä¢	Stratifier par esp√®ce pour respecter les proportions
	‚Ä¢	V√©rifier la r√©partition des classes visuellement avant l‚Äôentra√Ænement du mod√®le

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from tensorflow.keras.utils import to_categorical
import numpy as np
import matplotlib.pyplot as plt

# 1Ô∏è‚É£ Encodage des labels en entiers
le = LabelEncoder()
y_encoded = le.fit_transform(y)

# 2Ô∏è‚É£ Encodage one-hot pour le mod√®le IA
y_onehot = to_categorical(y_encoded)
print(f"y_onehot shape : {y_onehot.shape}")

# 3Ô∏è‚É£ Split Train (70%) / Temp (30%) avec stratification
X_train, X_temp, y_train, y_temp, y_train_enc, y_temp_enc = train_test_split(
    X, y_onehot, y_encoded,
    test_size=0.30,
    stratify=y_encoded,
    random_state=42
)

# 4Ô∏è‚É£ Split Temp (30%) en Validation (15%) / Test (15%)
X_val, X_test, y_val, y_test = train_test_split(
    X_temp, y_temp,
    test_size=0.50,
    stratify=y_temp_enc,
    random_state=42
)

# 5Ô∏è‚É£ V√©rification des dimensions
print(f"Train : {X_train.shape}, {y_train.shape}")
print(f"Validation : {X_val.shape}, {y_val.shape}")
print(f"Test : {X_test.shape}, {y_test.shape}")

# 6Ô∏è‚É£ V√©rification de la r√©partition
train_counts = np.sum(y_train, axis=0)
val_counts   = np.sum(y_val, axis=0)
test_counts  = np.sum(y_test, axis=0)

print("R√©partition des classes (train) :", train_counts)
print("R√©partition des classes (val)   :", val_counts)
print("R√©partition des classes (test)  :", test_counts)

# 7Ô∏è‚É£ Visualisation de la r√©partition
fig, ax = plt.subplots(1, 3, figsize=(18, 4), sharey=True)
classes = le.classes_

ax[0].bar(classes, train_counts)
ax[0].set_title("Train")
ax[0].tick_params(axis='x', rotation=90)

ax[1].bar(classes, val_counts, color='orange')
ax[1].set_title("Validation")
ax[1].tick_params(axis='x', rotation=90)

ax[2].bar(classes, test_counts, color='green')
ax[2].set_title("Test")
ax[2].tick_params(axis='x', rotation=90)

fig.suptitle("R√©partition des classes par split", fontsize=16)
plt.tight_layout()
plt.show()

üìå √âTAPE 4 bis ‚Äî Cr√©ation du mod√®le pr√©dictif avec MobileNetV2

Objectifs :
	‚Ä¢	Charger MobileNetV2 pr√©-entra√Æn√© sur ImageNet sans sa derni√®re couche
	‚Ä¢	Ajouter des couches personnalis√©es pour classer 13 esp√®ces
	‚Ä¢	Geler une partie du r√©seau pour √©viter l‚Äôoverfitting
	‚Ä¢	Compiler le mod√®le pr√™t √† l‚Äôentra√Ænement


In [None]:
from tensorflow.keras.applications import MobileNetV2
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Dense, GlobalAveragePooling2D, Dropout
from tensorflow.keras.optimizers import Adam

num_classes = len(le.classes_)

# 1Ô∏è‚É£ Charger MobileNetV2 sans la derni√®re couche
base_model = MobileNetV2(
    weights='imagenet',
    include_top=False,          # On enl√®ve la classification ImageNet
    input_shape=(128, 128, 3)   # M√™me taille que nos images
)

# 2Ô∏è‚É£ Freeze des premi√®res couches pour √©viter l'overfitting
for layer in base_model.layers[:100]:  # On g√®le ~100 couches
    layer.trainable = False

# 3Ô∏è‚É£ Ajouter des couches personnalis√©es
x = base_model.output
x = GlobalAveragePooling2D()(x)        # R√©duction dimensionnelle
x = Dropout(0.3)(x)                    # Dropout pour r√©gularisation
predictions = Dense(num_classes, activation='softmax')(x)

# 4Ô∏è‚É£ Cr√©er le mod√®le final
model = Model(inputs=base_model.input, outputs=predictions)

# 5Ô∏è‚É£ Compiler le mod√®le
model.compile(
    optimizer=Adam(learning_rate=1e-4),
    loss='categorical_crossentropy',
    metrics=['accuracy']
)

model.summary()

üìä √âTAPE 5 ‚Äî Entra√Ænement du mod√®le MobileNetV2

Objectifs :
	‚Ä¢	Entra√Æner le mod√®le sur le jeu d‚Äôentra√Ænement
	‚Ä¢	Suivre la loss et l‚Äôaccuracy sur validation
	‚Ä¢	Ajouter :
	‚Ä¢	Data Augmentation (rotation, flip horizontal‚Ä¶)
	‚Ä¢	EarlyStopping (arr√™t si la val_loss stagne)
	‚Ä¢	ModelCheckpoint (sauvegarde du meilleur mod√®le)
	‚Ä¢	Visualiser les courbes d‚Äôapprentissage √† la fin


In [None]:
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint
import matplotlib.pyplot as plt

# 1Ô∏è‚É£ Data Augmentation pour enrichir artificiellement le dataset
datagen = ImageDataGenerator(
    rotation_range=20,
    width_shift_range=0.1,
    height_shift_range=0.1,
    horizontal_flip=True,
    zoom_range=0.2
)
datagen.fit(X_train)

# 2Ô∏è‚É£ Callbacks : EarlyStopping + ModelCheckpoint
early_stop = EarlyStopping(
    monitor='val_loss',
    patience=5,
    restore_best_weights=True
)

checkpoint = ModelCheckpoint(
    '../models/mobilenetv2_best.h5',
    monitor='val_loss',
    save_best_only=True
)

# 3Ô∏è‚É£ Entra√Ænement du mod√®le
history = model.fit(
    datagen.flow(X_train, y_train, batch_size=16),
    validation_data=(X_val, y_val),
    epochs=30,
    callbacks=[early_stop, checkpoint]
)

# 4Ô∏è‚É£ Visualisation des courbes d'apprentissage
plt.figure(figsize=(12,5))

# Accuracy
plt.subplot(1,2,1)
plt.plot(history.history['accuracy'], label='Train Acc')
plt.plot(history.history['val_accuracy'], label='Val Acc')
plt.title("√âvolution de l'accuracy")
plt.xlabel("Epochs")
plt.ylabel("Accuracy")
plt.legend()

# Loss
plt.subplot(1,2,2)
plt.plot(history.history['loss'], label='Train Loss')
plt.plot(history.history['val_loss'], label='Val Loss')
plt.title("√âvolution de la loss")
plt.xlabel("Epochs")
plt.ylabel("Loss")
plt.legend()

plt.show()

üìå √âTAPE 5 bis ‚Äî Optimisation de l‚Äôentra√Ænement

Objectifs :
	‚Ä¢	Appliquer Data Augmentation pour enrichir le dataset
	‚Ä¢	Ajouter des callbacks intelligents :
	‚Ä¢	EarlyStopping pour arr√™ter si la validation ne progresse plus
	‚Ä¢	ModelCheckpoint pour sauvegarder le meilleur mod√®le
	‚Ä¢	ReduceLROnPlateau pour ajuster le learning rate si stagnation
	‚Ä¢	Relancer l‚Äôentra√Ænement avec ces am√©liorations


In [None]:
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint, ReduceLROnPlateau

# 1Ô∏è‚É£ Data Augmentation
datagen = ImageDataGenerator(
    rotation_range=15,
    width_shift_range=0.1,
    height_shift_range=0.1,
    zoom_range=0.2,
    horizontal_flip=True,
    vertical_flip=False,  # On √©vite pour empreintes si sens important
    fill_mode='nearest'
)

# G√©n√©ration sur le dataset d'entra√Ænement uniquement
train_gen = datagen.flow(X_train, y_train, batch_size=16)

# 2Ô∏è‚É£ Callbacks
callbacks = [
    EarlyStopping(
        monitor='val_loss',
        patience=5,
        restore_best_weights=True
    ),
    ModelCheckpoint(
        filepath='../models/best_model.keras',   # format moderne conseill√©
        save_best_only=True,
        monitor='val_loss'
    ),
    ReduceLROnPlateau(
        monitor='val_loss',
        factor=0.5,
        patience=3,
        verbose=1
    )
]

# 3Ô∏è‚É£ R√©-entra√Ænement avec augmentation
history_aug = model.fit(
    train_gen,
    validation_data=(X_val, y_val),
    epochs=40,            # On peut se permettre plus gr√¢ce √† EarlyStopping
    batch_size=16,
    callbacks=callbacks,
    verbose=1
)

# 4Ô∏è‚É£ Visualisation des courbes
plt.figure(figsize=(12,5))

# Accuracy
plt.subplot(1,2,1)
plt.plot(history_aug.history['accuracy'], label='Train Acc')
plt.plot(history_aug.history['val_accuracy'], label='Val Acc')
plt.title("√âvolution de l'accuracy avec Data Augmentation")
plt.legend()

# Loss
plt.subplot(1,2,2)
plt.plot(history_aug.history['loss'], label='Train Loss')
plt.plot(history_aug.history['val_loss'], label='Val Loss')
plt.title("√âvolution de la loss avec Data Augmentation")
plt.legend()

plt.show()

üîé Analyse rapide des courbes et m√©triques
	1.	Accuracy
	‚Ä¢	Train Accuracy : monte √† ~0.78 (78%)
	‚Ä¢	Val Accuracy : reste bloqu√©e √† ~0.13 (13%)
‚ûú Gros √©cart ‚Üí Overfitting s√©v√®re malgr√© Data Augmentation et EarlyStopping.
	2.	Loss
	‚Ä¢	Train Loss : diminue fortement (~0.73) ‚Üí le mod√®le apprend bien sur train.
	‚Ä¢	Val Loss : reste haute (~3.26) et ne suit pas ‚Üí le mod√®le ne g√©n√©ralise pas.
	3.	Conclusion
	‚Ä¢	M√™me avec Data Augmentation et ReduceLROnPlateau, le mod√®le ne g√©n√©ralise pas.
	‚Ä¢	La faible Val Accuracy (~13%) correspond √† un hasard complet sur 13 classes ‚Üí il ne parvient pas √† extraire les bonnes features pour la validation.

‚∏ª

üí° Causes probables
	1.	Dataset trop petit et d√©s√©quilibr√©
	‚Ä¢	252 images pour 13 classes ‚Üí ~19 images/classe en moyenne.
	‚Ä¢	Deep Learning sur MobileNetV2 a besoin de plus de donn√©es.
	2.	Variabilit√© intra-classe faible
	‚Ä¢	Les empreintes d‚Äôune m√™me esp√®ce sont trop similaires ‚Üí surapprentissage rapide.
	3.	Classes difficiles √† distinguer visuellement
	‚Ä¢	Empreintes de rat / lapin / √©cureuil tr√®s proches.
	‚Ä¢	M√™me un MobileNet pr√©-entra√Æn√© sur ImageNet peut avoir du mal.

‚∏ª

‚úÖ Plan d‚Äôaction pour am√©liorer la Val Accuracy
	1.	Augmenter artificiellement le dataset
	‚Ä¢	Scraping : r√©cup√©rer 50‚Äì100 images suppl√©mentaires par classe.
	‚Ä¢	Rotation / Zoom / Flip / Brightness plus agressifs.
	2.	Freeze plus de couches MobileNet
	‚Ä¢	Actuellement, tu as gel√© 100 couches ‚Üí peut-√™tre geler tout sauf le head pour r√©duire l‚Äôoverfitting.
	‚Ä¢	Puis d√©gel progressif (Fine-Tuning) apr√®s quelques epochs.
	3.	R√©duction de la complexit√© du mod√®le
	‚Ä¢	Essayer EfficientNetB0 ou MobileNetV2 avec alpha=0.35 ‚Üí moins de param√®tres, donc moins d‚Äôoverfit sur petit dataset.
	4.	Validation crois√©e (K-Fold)
	‚Ä¢	Avec si peu de donn√©es, un split classique 70/15/15 est tr√®s sensible.
	‚Ä¢	K-Fold Cross Validation pourrait mieux refl√©ter la perf r√©elle.


üÜï √âTAPE 5 ter ‚Äî Scraping d‚Äôimages pour augmenter le dataset

üéØ Objectifs :
	‚Ä¢	R√©cup√©rer de nouvelles images d‚Äôempreintes pour chaque esp√®ce
	‚Ä¢	Augmenter la diversit√© du dataset pour am√©liorer la val_accuracy
	‚Ä¢	Automatiser le t√©l√©chargement, le tri et l‚Äôint√©gration au pipeline
# Nouveau
üì• √âTAPE 5‚ÄØter ‚Äî Scraping d‚Äôimages compl√©mentaires + Nettoyage

Objectifs :
	‚Ä¢	Scraper automatiquement de nouvelles images pour les esp√®ces sous-repr√©sent√©es.
	‚Ä¢	Simuler un vrai navigateur pour √©viter les erreurs 400/403.
	‚Ä¢	Filtrer les images valides et nettoyer les fichiers corrompus.
	‚Ä¢	Pr√©parer le dataset pour la Data Augmentation et le r√©entra√Ænement.

In [None]:
import os
import shutil
import pandas as pd
import numpy as np
from pathlib import Path
from tensorflow.keras.applications import MobileNetV2
from tensorflow.keras.applications.mobilenet_v2 import preprocess_input
from tensorflow.keras.preprocessing import image
from tensorflow.keras.models import Model
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# 1Ô∏è‚É£ Dossiers de travail
base_raw = Path("../data/raw_scraped")              # images brutes scrap√©es
base_clean = Path("../data/Mammif√®res_scraped_clean")
base_trash = Path("../data/Mammif√®res_scraped_trash")
base_clean.mkdir(parents=True, exist_ok=True)
base_trash.mkdir(parents=True, exist_ok=True)

# 2Ô∏è‚É£ Charger MobileNetV2 pour extraction de features
feature_model = MobileNetV2(weights="imagenet", include_top=False, pooling='avg')

def extract_features(img_path, target_size=(128,128)):
    """Retourne un vecteur de features pour une image"""
    img = image.load_img(img_path, target_size=target_size)
    x = image.img_to_array(img)
    x = np.expand_dims(x, axis=0)
    x = preprocess_input(x)
    features = feature_model.predict(x, verbose=0)
    return features.flatten()

# 3Ô∏è‚É£ Pr√©paration des datasets pour entra√Æner un classifieur binaire rapide
#    -> On cr√©e manuellement un petit set d'exemples valid√©s
valid_examples = []
labels = []

# Dossier temporaire avec quelques images valid√©es et rejet√©es √† la main
manual_valid = Path("../data/manual_binary_training")
if not manual_valid.exists():
    print("‚ö†Ô∏è Pr√©pare quelques images manuelles pour initialiser le classifieur binaire.")
else:
    for cls in ["valid", "trash"]:  # sous-dossiers
        for img_file in (manual_valid/cls).glob("*"):
            feat = extract_features(img_file)
            valid_examples.append(feat)
            labels.append(0 if cls=="valid" else 1)

X = np.array(valid_examples)
y = np.array(labels)

# 4Ô∏è‚É£ Entra√Ænement d'un classifieur binaire simple
clf = LogisticRegression(max_iter=500)
clf.fit(X, y)
print("‚úÖ Classifieur binaire entra√Æn√©.")

# 5Ô∏è‚É£ Filtrage automatique des images scrap√©es
index_data = []

for specie_dir in base_raw.iterdir():
    if not specie_dir.is_dir():
        continue
    specie = specie_dir.name.lower()

    files = sorted(specie_dir.glob("*"))
    counter = 1

    for img_path in files:
        try:
            feat = extract_features(img_path)
            pred = clf.predict([feat])[0]  # 0=empreinte valide, 1=trash
            target_dir = base_clean if pred==0 else base_trash
            target_species_dir = target_dir / specie
            target_species_dir.mkdir(parents=True, exist_ok=True)

            # Renommage
            new_name = f"{specie}_{counter:05d}.jpg"
            counter += 1

            shutil.copy(img_path, target_species_dir / new_name)

            if pred==0:
                index_data.append({
                    "fichier": str(target_species_dir / new_name),
                    "espece": specie
                })
        except Exception as e:
            print(f"Erreur avec {img_path}: {e}")

# 6Ô∏è‚É£ G√©n√©ration de l‚Äôindex CSV
df_index = pd.DataFrame(index_data)
csv_path = "../data/metadata/dataset_scraped_index.csv"
df_index.to_csv(csv_path, index=False, sep=";")
print(f"‚úÖ Filtrage termin√© : {len(df_index)} images clean")
print(f"üìÑ Index CSV g√©n√©r√© : {csv_path}")