# Projet MLA
## EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES

!!!!!!!!!! utiliser le gpu !! et si on utilise pas en semaine ça ns déconnecte

### MNIST

#### Entrainement de 2 modèles simples
- Modèle normal, entrainé sur MNIST clean
- Modèle *adversarial*, adv. training --> génère adv. examples, mix clean+adv, modèle robuste

![](clean_adv_diff.png)

#### Analyse des résultats
- "Base" model
    - Clean accuracy = 98%
    - Adv accuracy = 5-20% (perf détruites par FGSM)
- "adv" model
    - Clean accuracy = 96-98% (légère baisse)
    - Adv accuracy = 90-93% (robuste ++)
![](comparaison_performances.png)

## Optimisation

## Paramètres à faire varier pour étudier la robustesse et la fiabilité
|**Paramètre |Effet attendu  / Ce que ça teste** |
|----------|----------------------------------|
|**Epsilon (FGSM / adversarial attack)**|Intensité de perturbation → robustesse du modèle aux attaques|
|**Alpha dans adversarial training**|Poids entre loss clean et loss adversarial → impact sur trade-off clean vs robust accuracy|
|**Batch size**|Influence la convergence et stabilité de l’entraînement|
|**Learning rate**|Trop grand → modèle instable, trop petit → apprentissage lent|
|**Nombre d’époques**|Vérifier si le modèle sur-entraîne ou sous-entraîne|
|**Architecture du modèle (nombres de filtres, couches, FC)**|	Teste si plus complexe = meilleure robustesse ou sur-apprentissage
|**Type d’attaque (FGSM, PGD, DeepFool, etc.)**|Teste la robustesse face à différentes perturbations|
|**Ajout de bruit aléatoire / transformations**|Data augmentation pour tester généralisation et fiabilité sur images légèrement modifiées|

## Évaluation du modèle sur d'autres base de données

### Pourquoi?
Dans la 1ère partie on a pu réimplémenter les étapes de constructions du modèle décrit dans l'article. À partir de la base de donnée MNIST de PyTorch, le modèle a pu être entraîné pour établir la méthode d'entraînement adversarial la plus adaptée au traitement de ces données. 
Toutefois, nous sommes en doit de nous demander :
- Que vaut notre modèle sur une base de donnée alternative?
- De quelle manière pourroins nous améliorer les performances de notre modèle en l'entrainant sur d'autres bases de données ?

### Bases de données accessibles avec PyTorch
- MNIST, sur laquelle est entraîné le modèle
- Fashion-MNIST, 28×28 - grayscale	10 (vêtements)	Test de généralisation sur données visuelles plus variées que MNIST 
- CIFAR-10	32×32, RGB	10	Images naturelles, animaux et véhicules
- CIFAR-100	32×32, RGB	100	Classification plus fine, test de capacité à gérer plus de classes
- SVHN (Street View House Numbers)	32×32, RGB	10	Reconnaissance de chiffres dans des contextes réels
- MNIST-M	28×28, RGB	10	MNIST modifié avec bruit / background → test de robustesse

#### Mention spéciale pour les datasets Kaggle
- Custom datasets	Variable	Variable	Images médicales, industrielles, etc.

### Critère de choix
- **MNIST / Fashion-MNIST**
    - Simple, rapide, parfait pour tester un modèle de base
- **CIFAR / SVHN**
    - Images colorées plus complexes → test de capacité à extraire des features plus fines
- **MNIST-M / datasets bruités** 
    - Tester la robustesse aux perturbations et aux adversarial examples
- **Datasets custom**
    - Tester la fiabilité dans un contexte réel ou industriel

### Adaptation du modèle en fonction des **objectifs** :
- Généralisation vs robustesse
- Tâche simple vs tâche complexe
- Grayscale vs RGB

### Quel serait le protocole le plus pertinent pour étudier les limites de notre modèle et améliorer ses performances en l'entrainant sur différentes bases de données?

#### Définir les objectifs

Avant tout, ce que tu veux mesurer :

- Robustesse : comment le modèle résiste aux attaques adversariales ou aux perturbations.
- Généralisation : performance sur des données nouvelles / différentes de l’entraînement.
- Fiabilité : stabilité des prédictions en présence de bruit, transformations ou variations dans les données.
- Performance pure : précision (accuracy), F1-score, etc. sur différentes bases

#### Choisir les datasets

Sélectionner plusieurs bases de données, avec des caractéristiques variées :

- Simples et proches de MNIST : MNIST, Fashion-MNIST → test de base et débogage rapide.
- Images colorées / plus complexes : CIFAR-10/100, SVHN → test de généralisation et capacité du modèle à extraire des features complexes.
- Variantes bruitées / perturbées : MNIST-M, datasets augmentés → tester robustesse.
- Custom / réelles : images médicales, industrielles → tester fiabilité et applicabilité réelle.

#### Adapter le modèle

- Ajuster entrée et sortie : nombre de canaux (grayscale → RGB), taille d’image, nombre de classes.

- Éventuellement modifier l’architecture si le dataset est plus complexe : plus de filtres, couches, dropout, batch normalization.

#### Définir les protocoles d’entraînement

Pour chaque dataset :
1. Mode standard (clean)
    - Entraîner le modèle sur données clean.
    - Tester sur données clean et adversariales.
2. Mode adversarial training
    - Générer adversarial examples (FGSM, PGD, etc.)
    - Combiner loss clean et loss adversarial (alpha * clean + (1-alpha) * adv)
    - Tester sur clean, adversarial, et éventuellement sur bruit/noise.
3. Data augmentation / bruit
    - Rotation, translation, scaling, bruit gaussien
    - Vérifier si la performance et la robustesse s’améliorent.

#### Faire varier les bons paramètres
Pour chaque dataset, expérimenter avec :

|Paramètre|	Objectif|
|-------------|--------------------------------|
|Learning rate|Tester stabilité et vitesse d’apprentissage|
|Batch size	|Impact sur convergence et régularisation|
|Epsilon (FGSM/PGD)	|Mesurer robustesse face à perturbations|
|Alpha adversarial	|Trade-off clean vs robust accuracy|
|Architecture	|Nombre de filtres, couches → capacité du modèle|
|Nombre d’époques	|Sur- ou sous-entraînement|
|Augmentation / bruit	|Généralisation et fiabilité|

#### Évaluation systématique

Pour chaque expérience, mesurer :
- Accuracy / Loss sur clean et adversarial
- Courbes d’apprentissage (train/test loss vs epochs)
- Comparaison graphique des modèles (clean vs adversarial)
- Visualisation des adversarial examples et des perturbations
- Analyse des erreurs : quelles classes sont les plus fragiles ?

#### Comparaison inter-datasets

- Observer comment le modèle réagit à différents types de données.
- Identifier les datasets ou les conditions qui réduisent les performances.
- Tester transfert de connaissances : entraîner sur dataset A, tester sur dataset B → mesure de la généralisation.

#### Amélioration itérative

À partir des observations :
- Ajouter des couches, dropout, batch normalization pour plus de robustesse.
- Ajuster alpha, epsilon pour adversarial training optimal.
- Ajouter augmentation ou régularisation pour mieux généraliser.
- Répéter le protocole sur plusieurs datasets pour confirmer la robustesse et fiabilité.

### Adaptation du code MNIST à un entrainement multidatasets

- Adaptation de fgsm_attack : 
    - Détacher le tenseur et en créer un nouveau avec grad

### Fashion-MNIST
##### Entrainement de 2 modèles simples
- Modèle normal, entrainé sur Fashion-MNIST clean
- Modèle *adversarial*, adv. training --> génère adv. examples, mix clean+adv, modèle robuste

![](clean_adv_diff-Fashion-MNIST.png)

#### Analyse des résultats
- "Base" model
    - Clean accuracy = 88%
    - Adv accuracy = 0.09-0.26% (perf détruites par FGSM)
- "adv" model
    - Clean accuracy = 85-86% (légère baisse)
    - Adv accuracy = 78-85% (robuste ++)
![](comparaison_performances-Fashion-MNIST.png)

### CIFAR-10
##### Entrainement de 2 modèles simples
- Modèle normal, entrainé sur CIFAR-10 clean
- Modèle *adversarial*, adv. training --> génère adv. examples, mix clean+adv, modèle robuste

![](clean_adv_diff_CIFAR-10.png)

#### Analyse des résultats
- "Base" model
    - Clean accuracy = 56-58%
    - Adv accuracy = 0.23-44% (perf détruites par FGSM)
- "adv" model
    - Clean accuracy = 45% (légère baisse)
    - Adv accuracy = 54% (robuste ++)
![](comparaison_performances_CIFAR-10.png)

![](clean_adv_diff.png)

![](pgd_attack_MNIST.png)

Code couleur pour la différence, directions d’amélioration données par le gradient
- rouge : gradient positif (augmenter le pixel)
- bleu : gradient négatif (diminuer le pixel)
- blanc : gradient nul

La visualisation du gradient met en évidence les régions de l’image les plus sensibles pour le modèle ainsi que les directions dans lesquelles les pixels doivent être modifiés pour augmenter la perte.
Les zones rouges et bleues, concentrées sur les traits du chiffre, montrent que le réseau repose sur des motifs locaux précis, tandis que les zones blanches indiquent des pixels peu informatifs.
Ces cartes de gradient fournissent une interprétation directe du fonctionnement des attaques adversariales comme FGSM et PGD.

FGSM applique une perturbation uniforme à partir du signe du gradient alors que PGD affiine la perturbation étape par étape