# Projet MLA
## EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES

In [5]:
%run multiDataEval.py

ModuleNotFoundError: No module named 'torch'

### MNIST

#### Entrainement de 2 mod√®les simples
- Mod√®le normal, entrain√© sur MNIST clean
- Mod√®le *adversarial*, adv. training --> g√©n√®re adv. examples, mix clean+adv, mod√®le robuste

![](clean_adv_diff.png)

#### Analyse des r√©sultats
- "Base" model
    - Clean accuracy = 98%
    - Adv accuracy = 5-20% (perf d√©truites par FGSM)
- "adv" model
    - Clean accuracy = 96-98% (l√©g√®re baisse)
    - Adv accuracy = 90-93% (robuste ++)
![](comparaison_performances.png)

## Attaque PGD sur MNIST

![](clean_adv_diff.png)

![](pgd_attack_MNIST.png)

Code couleur pour la diff√©rence, directions d‚Äôam√©lioration donn√©es par le gradient
- rouge : gradient positif (augmenter le pixel)
- bleu : gradient n√©gatif (diminuer le pixel)
- blanc : gradient nul

La visualisation du gradient met en √©vidence les r√©gions de l‚Äôimage les plus sensibles pour le mod√®le ainsi que les directions dans lesquelles les pixels doivent √™tre modifi√©s pour augmenter la perte.
Les zones rouges et bleues, concentr√©es sur les traits du chiffre, montrent que le r√©seau repose sur des motifs locaux pr√©cis, tandis que les zones blanches indiquent des pixels peu informatifs.
Ces cartes de gradient fournissent une interpr√©tation directe du fonctionnement des attaques adversariales comme FGSM et PGD.

FGSM applique une perturbation uniforme √† partir du signe du gradient alors que PGD affiine la perturbation √©tape par √©tape --> ins√©rer formules

## Optimisation
#### Objectifs
1. Performance pure
    - Quelle est la capacit√© brute du mod√®le √† bien classifier chaque dataset ?
2. Robustesse, r√©sistance aux attaques adversariales
    - Dans quelle mesure une petite perturbation suffit-elle √† tromper le mod√®le ?
3. G√©n√©ralisation, capacit√© √† fonctionner hors distribution)
    - Ce que le mod√®le apprend sur un dataset est-il transf√©rable ?
4. Fiabilit√©, stabilit√© des pr√©dictions
    - Le mod√®le est-il stable face √† de petites variations non malveillantes ?

## 1. Performance pure
La performance pure est mesur√©e par :
- Accuracy (taux de classification correcte)
- F1-score macro (robuste aux d√©s√©quilibres de classes)


In [3]:
clean_acc, clean_f1 = test_model_clean(
    model, test_loader, device, return_f1=True
)

print(f"Accuracy (clean): {clean_acc:.4f}")
print(f"F1-score (macro): {clean_f1:.4f}")

# Une forte accuracy combin√©e √† un F1-score √©lev√© indique :
# - une bonne capacit√© d‚Äôapprentissage
# - une performance homog√®ne entre classes


NameError: name 'test_model_clean' is not defined

## 2. Robustesse adversariale
Nous √©valuons la robustesse face √† :
- FGSM (attaque rapide)
- PGD (attaque it√©rative plus forte)

In [None]:
# √âvaluation FGSM
fgsm_acc = test_model_adversarial(
    model, test_loader, epsilon, device
)

print(f"FGSM accuracy (Œµ={epsilon}): {fgsm_acc:.4f}")


In [None]:
# √âvaluation PGD
pgd_acc = test_model_adversarial_pgd(
    model, test_loader,
    epsilon=epsilon,
    alpha=epsilon/10,
    num_iter=10,
    device=device
)

print(f"PGD accuracy: {pgd_acc:.4f}")

- La chute de performance sous FGSM montre la sensibilit√© locale du mod√®le
- PGD repr√©sente une attaque plus r√©aliste et plus dangereuse
- Un mod√®le robuste conserve une accuracy significative sous PGD

### 3. Fiabilit√©
#### Prod√©dure
1. Ajout de bruit al√©atoire
2. Transformations avec torchvision.transforms
3. Analyse de stabilit√©
    - combien de pr√©dictions changent ?
    - confidence du softmax


In [None]:
noise_acc = test_model_noise(
    model, test_loader, sigma=0.1, device=device
)

print(f"Accuracy under Gaussian noise: {noise_acc:.4f}")


Une faible d√©gradation sous bruit indique :
- une bonne stabilit√© des repr√©sentations internes
- une meilleure fiabilit√© en conditions r√©elles


## G√©n√©ralisation multi-datasets
Le m√™me protocole est appliqu√© √† :
- MNIST
- Fashion-MNIST
- CIFAR-10


In [None]:
results = overall_results
results

In [None]:
plot_comparison(results)

In [None]:
# Comparaison clean vs adv training
for dataset, res in results.items():
    print(f"\n{dataset}")
    print(f" Clean ‚Üí FGSM: {res['fgsm']:.3f}, PGD: {res['pgd']:.3f}")
    print(f" Adv   ‚Üí FGSM: {res['adv_fgsm']:.3f}, PGD: {res['adv_pgd']:.3f}")

L‚Äôadversarial training :
- am√©liore fortement la robustesse
- d√©grade parfois l√©g√®rement la performance clean
‚Üí compromis robustesse / performance


## Conclusion
- La performance pure ne garantit pas la robustesse
- PGD est un test critique indispensable
- L‚Äôadversarial training am√©liore la robustesse au prix d‚Äôune l√©g√®re perte clean
- La g√©n√©ralisation multi-datasets est essentielle pour valider la fiabilit√©

# Brouillon
## Param√®tres √† faire varier pour √©tudier la robustesse et la fiabilit√©
|**Param√®tre |Effet attendu  / Ce que √ßa teste** |
|----------|----------------------------------|
|**Epsilon (FGSM / adversarial attack)**|Intensit√© de perturbation ‚Üí robustesse du mod√®le aux attaques|
|**Alpha dans adversarial training**|Poids entre loss clean et loss adversarial ‚Üí impact sur trade-off clean vs robust accuracy|
|**Batch size**|Influence la convergence et stabilit√© de l‚Äôentra√Ænement|
|**Learning rate**|Trop grand ‚Üí mod√®le instable, trop petit ‚Üí apprentissage lent|
|**Nombre d‚Äô√©poques**|V√©rifier si le mod√®le sur-entra√Æne ou sous-entra√Æne|
|**Architecture du mod√®le (nombres de filtres, couches, FC)**|	Teste si plus complexe = meilleure robustesse ou sur-apprentissage
|**Type d‚Äôattaque (FGSM, PGD, DeepFool, etc.)**|Teste la robustesse face √† diff√©rentes perturbations|
|**Ajout de bruit al√©atoire / transformations**|Data augmentation pour tester g√©n√©ralisation et fiabilit√© sur images l√©g√®rement modifi√©es|

## √âvaluation du mod√®le sur d'autres base de donn√©es

### Pourquoi?
Dans la 1√®re partie on a pu r√©impl√©menter les √©tapes de constructions du mod√®le d√©crit dans l'article. √Ä partir de la base de donn√©e MNIST de PyTorch, le mod√®le a pu √™tre entra√Æn√© pour √©tablir la m√©thode d'entra√Ænement adversarial la plus adapt√©e au traitement de ces donn√©es. 
Toutefois, nous sommes en doit de nous demander :
- Que vaut notre mod√®le sur une base de donn√©e alternative?
- De quelle mani√®re pourroins nous am√©liorer les performances de notre mod√®le en l'entrainant sur d'autres bases de donn√©es ?

### Bases de donn√©es accessibles avec PyTorch
- MNIST, sur laquelle est entra√Æn√© le mod√®le
- Fashion-MNIST, 28√ó28 - grayscale	10 (v√™tements)	Test de g√©n√©ralisation sur donn√©es visuelles plus vari√©es que MNIST 
- CIFAR-10	32√ó32, RGB	10	Images naturelles, animaux et v√©hicules
- CIFAR-100	32√ó32, RGB	100	Classification plus fine, test de capacit√© √† g√©rer plus de classes
- SVHN (Street View House Numbers)	32√ó32, RGB	10	Reconnaissance de chiffres dans des contextes r√©els
- MNIST-M	28√ó28, RGB	10	MNIST modifi√© avec bruit / background ‚Üí test de robustesse

#### Mention sp√©ciale pour les datasets Kaggle
- Custom datasets	Variable	Variable	Images m√©dicales, industrielles, etc.

### Crit√®re de choix
- **MNIST / Fashion-MNIST**
    - Simple, rapide, parfait pour tester un mod√®le de base
- **CIFAR / SVHN**
    - Images color√©es plus complexes ‚Üí test de capacit√© √† extraire des features plus fines
- **MNIST-M / datasets bruit√©s** 
    - Tester la robustesse aux perturbations et aux adversarial examples
- **Datasets custom**
    - Tester la fiabilit√© dans un contexte r√©el ou industriel

### Adaptation du mod√®le en fonction des **objectifs** :
- G√©n√©ralisation vs robustesse
- T√¢che simple vs t√¢che complexe
- Grayscale vs RGB

### Quel serait le protocole le plus pertinent pour √©tudier les limites de notre mod√®le et am√©liorer ses performances en l'entrainant sur diff√©rentes bases de donn√©es?

#### D√©finir les objectifs

Avant tout, ce que tu veux mesurer :

- Robustesse : comment le mod√®le r√©siste aux attaques adversariales ou aux perturbations.
- G√©n√©ralisation : performance sur des donn√©es nouvelles / diff√©rentes de l‚Äôentra√Ænement.
- Fiabilit√© : stabilit√© des pr√©dictions en pr√©sence de bruit, transformations ou variations dans les donn√©es.
- Performance pure : pr√©cision (accuracy), F1-score, etc. sur diff√©rentes bases

#### Choisir les datasets

S√©lectionner plusieurs bases de donn√©es, avec des caract√©ristiques vari√©es :

- Simples et proches de MNIST : MNIST, Fashion-MNIST ‚Üí test de base et d√©bogage rapide.
- Images color√©es / plus complexes : CIFAR-10/100, SVHN ‚Üí test de g√©n√©ralisation et capacit√© du mod√®le √† extraire des features complexes.
- Variantes bruit√©es / perturb√©es : MNIST-M, datasets augment√©s ‚Üí tester robustesse.
- Custom / r√©elles : images m√©dicales, industrielles ‚Üí tester fiabilit√© et applicabilit√© r√©elle.

#### Adapter le mod√®le

- Ajuster entr√©e et sortie : nombre de canaux (grayscale ‚Üí RGB), taille d‚Äôimage, nombre de classes.

- √âventuellement modifier l‚Äôarchitecture si le dataset est plus complexe : plus de filtres, couches, dropout, batch normalization.

#### D√©finir les protocoles d‚Äôentra√Ænement

Pour chaque dataset :
1. Mode standard (clean)
    - Entra√Æner le mod√®le sur donn√©es clean.
    - Tester sur donn√©es clean et adversariales.
2. Mode adversarial training
    - G√©n√©rer adversarial examples (FGSM, PGD, etc.)
    - Combiner loss clean et loss adversarial (alpha * clean + (1-alpha) * adv)
    - Tester sur clean, adversarial, et √©ventuellement sur bruit/noise.
3. Data augmentation / bruit
    - Rotation, translation, scaling, bruit gaussien
    - V√©rifier si la performance et la robustesse s‚Äôam√©liorent.

#### Faire varier les bons param√®tres
Pour chaque dataset, exp√©rimenter avec :

|Param√®tre|	Objectif|
|-------------|--------------------------------|
|Learning rate|Tester stabilit√© et vitesse d‚Äôapprentissage|
|Batch size	|Impact sur convergence et r√©gularisation|
|Epsilon (FGSM/PGD)	|Mesurer robustesse face √† perturbations|
|Alpha adversarial	|Trade-off clean vs robust accuracy|
|Architecture	|Nombre de filtres, couches ‚Üí capacit√© du mod√®le|
|Nombre d‚Äô√©poques	|Sur- ou sous-entra√Ænement|
|Augmentation / bruit	|G√©n√©ralisation et fiabilit√©|

#### √âvaluation syst√©matique

Pour chaque exp√©rience, mesurer :
- Accuracy / Loss sur clean et adversarial
- Courbes d‚Äôapprentissage (train/test loss vs epochs)
- Comparaison graphique des mod√®les (clean vs adversarial)
- Visualisation des adversarial examples et des perturbations
- Analyse des erreurs : quelles classes sont les plus fragiles ?

#### Comparaison inter-datasets

- Observer comment le mod√®le r√©agit √† diff√©rents types de donn√©es.
- Identifier les datasets ou les conditions qui r√©duisent les performances.
- Tester transfert de connaissances : entra√Æner sur dataset A, tester sur dataset B ‚Üí mesure de la g√©n√©ralisation.

#### Am√©lioration it√©rative

√Ä partir des observations :
- Ajouter des couches, dropout, batch normalization pour plus de robustesse.
- Ajuster alpha, epsilon pour adversarial training optimal.
- Ajouter augmentation ou r√©gularisation pour mieux g√©n√©raliser.
- R√©p√©ter le protocole sur plusieurs datasets pour confirmer la robustesse et fiabilit√©.

### Adaptation du code MNIST √† un entrainement multidatasets

- Adaptation de fgsm_attack : 
    - D√©tacher le tenseur et en cr√©er un nouveau avec grad

### Fashion-MNIST
##### Entrainement de 2 mod√®les simples
- Mod√®le normal, entrain√© sur Fashion-MNIST clean
- Mod√®le *adversarial*, adv. training --> g√©n√®re adv. examples, mix clean+adv, mod√®le robuste

![](clean_adv_diff-Fashion-MNIST.png)

#### Analyse des r√©sultats
- "Base" model
    - Clean accuracy = 88%
    - Adv accuracy = 0.09-0.26% (perf d√©truites par FGSM)
- "adv" model
    - Clean accuracy = 85-86% (l√©g√®re baisse)
    - Adv accuracy = 78-85% (robuste ++)
![](comparaison_performances-Fashion-MNIST.png)

### CIFAR-10
##### Entrainement de 2 mod√®les simples
- Mod√®le normal, entrain√© sur CIFAR-10 clean
- Mod√®le *adversarial*, adv. training --> g√©n√®re adv. examples, mix clean+adv, mod√®le robuste

![](clean_adv_diff_CIFAR-10.png)

#### Analyse des r√©sultats
- "Base" model
    - Clean accuracy = 56-58%
    - Adv accuracy = 0.23-44% (perf d√©truites par FGSM)
- "adv" model
    - Clean accuracy = 45% (l√©g√®re baisse)
    - Adv accuracy = 54% (robuste ++)
![](comparaison_performances_CIFAR-10.png)

# Lien avec le cours
On travail avec CNN => class SimpleCNN(nn.Module)
- exploite la localit√© (bords, formes)
- partage des poids
- champ r√©ceptif progressif

### Notre mod√®le est une version simplifi√©e de LeNet-5
        Convolution	nn.Conv2d
    Activation tanh	ReLU
    Average pooling	MaxPool2d
    Fully connected	nn.Linear
              MNIST	MNIST
mm principe architectural

### Padding pour pr√©server l‚Äôinformation des bords
- Padding = 1 ‚Üí "same convolution"
- La taille reste 28√ó28

### Augmentation du champ r√©ceptif effectif
- Pooling = stride indirect
- Fen√™tre 2√ó2
- Stride = 2
- Taille divis√©e par 2 ‚Üí 14√ó14
Un neurone profond ne regarde plus un pixel, mais une zone √©tendue de l‚Äôimage.

### MLP en fin de r√©seau
"self.fc1 = nn.Linear(64 * 14 * 14, 128)"
"self.fc2 = nn.Linear(128, 10)"
- Le CNN extrait des features visuelles
- Le MLP :
    - combine ces features
    - fait la d√©cision finale

CNN = extracteur
MLP = classifieur

### Pourquoi le CNN est vuln√©rable ?

Parce que :
- il agr√®ge beaucoup d‚Äôinformations locales
- une petite perturbation pixel par pixel
- se propage dans tout le r√©seau
PGD est plus fort que FGSM car :
- il exploite progressivement le gradient
- il reste dans la boule Œµ
- il cible les zones sensibles du champ r√©ceptif

### Pourquoi l‚Äôadversarial training am√©liore la robustesse ?
loss = alpha * loss_clean + (1 - alpha) * loss_adv

On force le CNN √† :
- apprendre des features plus stables
- r√©duire la sensibilit√© aux micro-variations
- lisser la fonction de d√©cision
Conceptuellement, on modifie la g√©om√©trie de l‚Äôespace des features

### R√©sum√© conceptuel 
       Concept th√©orique  O√π il appara√Æt dans ton code
                    CNN	Conv2d, MaxPool2d
                LeNet-5	Architecture globale
                    MLP	Linear
         Champ r√©ceptif	Empilement conv + pooling
    Stride / Padding       Param√®tres des conv / pool
        Backpropagation	loss.backward()
               Gradient    FGSM / PGD
            Robustesse     Adversarial training

## Am√©lioration du code et lien avec le cours

### Auto-encodeurs : d√©fense et interpr√©tation adversariale
#### Id√©e cl√©
Utiliser un auto-encodeur comme filtre de reconstruction avant le classifieur.

#### Hypoth√®se :
Les perturbations adversariales sont souvent haute fr√©quence et non naturelles.
Un auto-encodeur entra√Æn√© sur des images propres peut les att√©nuer.

- pas besoin de changer le CNN, seulement de pr√©traiter l‚Äôentr√©e

#### √âtude
- Accuracy clean vs FGSM vs PGD avec et sans auto-encodeur
- Impact de Œµ avant / apr√®s reconstruction
- Visualisation :
    - image originale
    - image adversariale
    - image reconstruite
    - diff√©rence



In [1]:
# entra√Æner uniquement sur images clean
class AutoEncoder(nn.Module):
    def __init__(self):
        super().__init__()
        self.encoder = nn.Sequential(
            nn.Conv2d(1, 16, 3, stride=2, padding=1),  # 16x14x14
            nn.ReLU(),
            nn.Conv2d(16, 32, 3, stride=2, padding=1), # 32x7x7
            nn.ReLU()
        )
        self.decoder = nn.Sequential(
            nn.ConvTranspose2d(32, 16, 3, stride=2, padding=1, output_padding=1),
            nn.ReLU(),
            nn.ConvTranspose2d(16, 1, 3, stride=2, padding=1, output_padding=1),
            nn.Sigmoid()
        )

    def forward(self, x):
        return self.decoder(self.encoder(x))


NameError: name 'nn' is not defined

In [None]:
# √©valuation, dans test FGSM / PGD
with torch.no_grad():
    x_recon = autoencoder(x_adv)
    output = model(x_recon)


#### MNIST / Fashion-MNIST
- Tr√®s pertinent
- Reconstruction facile
- Perturbations adversariales bien visibles
L‚Äôauto-encodeur agit comme un filtre basse fr√©quence efficace

Conclusion : am√©lioration claire de la robustesse FGSM, parfois PGD l√©ger.

#### CIFAR-10
- pruning mod√©r√© utile
- trop de pruning ‚Üí chute clean + robuste
int√©ressant pour montrer un compromis capacit√© / robustesse

Les mod√®les surparam√©tr√©s sont souvent plus vuln√©rables aux attaques locales.

    D√©fense	MNIST	CIFAR-10
    FGSM training	‚úî	‚úî
    AE preprocessing	‚úî‚úî	‚ö†Ô∏è
    Pruning	‚úî	‚úî
    PGD robustness	‚ùå	‚ùå
Aucune d√©fense simple ne g√©n√©ralise parfaitement. La robustesse d√©pend √† la fois du mod√®le, de la d√©fense et de la structure du dataset.

### Auto-encodeur = compression de l‚Äôinformation

Tu peux aussi pr√©senter l‚ÄôAE comme une compression non lin√©aire de l‚Äôimage

üîç Lien direct avec la robustesse
- Compression ‚áí perte d‚Äôinformation fine
- Les perturbations adversariales sont souvent tr√®s fines
- Donc elles sont √©cras√©es par la compression

üëâ Tu peux faire varier :
- taille du latent space
- taux de compression
Et mesurer :
- accuracy clean
- accuracy FGSM / PGD

### Compression du r√©seau (pruning & quantization)
üí° Pourquoi c‚Äôest pertinent ici ?
Il existe un lien fort entre :
- complexit√© du mod√®le
- sensibilit√© aux perturbations

In [2]:
# Pruning
import torch.nn.utils.prune as prune

prune.l1_unstructured(
    model.fc1,
    name="weight",
    amount=0.3
)

ModuleNotFoundError: No module named 'torch'

comparer :
- mod√®le dense
- mod√®le prun√©
- robustesse FGSM / PGD

#### Hypoth√®se int√©ressante

Un mod√®le plus simple peut parfois √™tre moins sensible aux perturbations locales

(ce n‚Äôest pas toujours vrai ‚Üí tr√®s bon point de discussion)