# Benchmarking de mod√®les pour la reconnaissance de tumeurs c√©r√©brales üß†

## Objectif

Dans ce notebook, nous allons comparer diff√©rents mod√®les de reconnaissance de tumeurs c√©r√©brales √† l'aide des donn√©es de test. Les objectifs sont :

1. **√âvaluer les mod√®les** avec des matrices de confusion et des courbes ROC.
2. **D√©finir et utiliser des m√©triques agr√©g√©es** (e.g., precision, recall et $F_1$-score globaux) pour r√©sumer les performances de chaque mod√®le sur toutes les classes.
3. **Analyser l'effet de l'√©quilibrage des classes** sur les performances des mod√®les.
4. **Comparer les performances globales** pour identifier le mod√®le le plus adapt√©.

---

## M√©thodologie

### 1. Calcul des m√©triques pour les 4 classes

#### **Precision** :
La **precision** mesure la proportion des pr√©dictions positives correctes pour une classe donn√©e par rapport √† toutes les pr√©dictions positives faites pour cette classe :

$$
\text{Precision}_i = \frac{\text{VP}_i}{\text{VP}_i + \text{FP}_i}
$$

- $\text{VP}_i$ (Vrais Positifs) : Nombre d'√©chantillons de la classe $i$ correctement pr√©dits.
- $\text{FP}_i$ (Faux Positifs) : Nombre d'√©chantillons appartenant √† d'autres classes mais incorrectement pr√©dits comme appartenant √† $i$.

---

#### **Recall** :
Le **recall** mesure la proportion des √©chantillons r√©ellement appartenant √† une classe qui ont √©t√© correctement identifi√©s :

$$
\text{Recall}_i = \frac{\text{VP}_i}{\text{VP}_i + \text{FN}_i}
$$

- $\text{FN}_i$ (Faux N√©gatifs) : Nombre d'√©chantillons de la classe $i$ mal pr√©dits comme appartenant √† d'autres classes.

---

#### **$F_1$-score** :
Le **$F_1$-score** combine precision et recall dans une moyenne harmonique. Il √©quilibre les deux m√©triques, particuli√®rement utile en cas de donn√©es d√©s√©quilibr√©es :

$$
F_{1,i} = 2 \cdot \frac{\text{Precision}_i \cdot \text{Recall}_i}{\text{Precision}_i + \text{Recall}_i}
$$

---

### 2. M√©trique globale pour les 4 classes

Pour comparer les mod√®les de mani√®re globale, nous d√©finissons une **m√©trique agr√©g√©e** qui combine les scores de precision, recall et $F_1$ pour toutes les classes. Cela est r√©alis√© via une **moyenne pond√©r√©e**, tenant compte du nombre d'√©chantillons dans chaque classe.

#### Formules des m√©triques globales :

- **Precision globale** (moyenne pond√©r√©e) :
$$
\text{Precision Global} = \frac{\sum_{i=1}^{4} n_i \cdot \text{Precision}_i}{\sum_{i=1}^{4} n_i}
$$

- **Recall global** (moyenne pond√©r√©e) :
$$
\text{Recall Global} = \frac{\sum_{i=1}^{4} n_i \cdot \text{Recall}_i}{\sum_{i=1}^{4} n_i}
$$

- **$F_1$-score global** (bas√© sur les totals agr√©g√©s pour toutes les classes) :
$$
F_1\text{-score Global} = 2 \cdot \frac{\text{Precision Global} \cdot \text{Recall Global}}{\text{Precision Global} + \text{Recall Global}}
$$

o√π :
- $n_i$ : Nombre d'√©chantillons dans la classe $i$.
- $\text{Precision}_i$, $\text{Recall}_i$ : Metrics pour la classe $i$.

---

### 3. Analyse et comparaison des mod√®les

1. **√âvaluation des mod√®les individuellement pour chaque classe** :
   - Calculer precision, recall et $F_1$-score pour chaque classe (Classe 0, Classe 1, Classe 2, Classe 3).
   - G√©n√©rer les matrices de confusion pour visualiser les erreurs de pr√©diction par classe.

2. **Calcul des m√©triques globales** :
   - Moyenne pond√©r√©e des metrics pour les 4 classes.
   - Comparer les valeurs de precision globale, recall global et $F_1$-score global entre les mod√®les.

3. **Visualisation des performances** :
   - Tracer des courbes ROC pour chaque classe.
   - Pr√©senter les scores globaux sous forme de tableaux ou de diagrammes.

---

### 4. Impact de l'√©quilibrage des classes

Tester diff√©rentes approches pour g√©rer les d√©s√©quilibres dans les donn√©es, telles que :
- **Sur-√©chantillonnage** des classes minoritaires.
- **Sous-√©chantillonnage** des classes majoritaires.
- **Pond√©ration des classes** dans les fonctions de co√ªt.

Analyser l'effet de ces approches sur les metrics globales et individuelles.


---

## Conclusion

√Ä la fin de ce notebook, nous serons en mesure de :
1. Identifier le mod√®le offrant les meilleures performances globales.
2. Comprendre comment chaque mod√®le g√®re les d√©s√©quilibres entre les classes.
3. Fournir des recommandations pour l'utilisation des mod√®les dans des sc√©narios r√©els.

In [1]:
import os
import yaml
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
import plotly.io as pio
from sklearn.metrics import (
    confusion_matrix, classification_report, roc_curve, auc
)
from sklearn.preprocessing import label_binarize

from module_for_preprocessing_metrics import *  

with open('../config.yml', 'r') as file:
    config = yaml.safe_load(file)


size = config['donn√©es']['image']['size']


## Acc√®s aux donn√©es de test et aux historiques des mod√®les üîç

Dans cette section, nous allons charger et explorer nos donn√©es de test. Ces donn√©es seront utilis√©es pour √©valuer les performances des mod√®les entra√Æn√©s.

De plus, nous acc√©dons √©galement aux historiques des mod√®les (*history*), qui contiennent des informations sur l'√©volution des m√©triques telles que la pr√©cision (*accuracy*) et la perte (*loss*) pendant l'entra√Ænement. Ces historiques seront utilis√©s pour visualiser les performances des mod√®les au fil des √©poques.


In [4]:
testing = os.path.join(os.path.abspath(os.path.join(os.getcwd(), "..")), "data", "Testing")
x_test, y_test = load_images_with_preprocessing(testing, size)

models_history = os.path.join(os.path.join("..", "src", "models", "sauvegardes_modeles"), 'models_history.json')

# Glossaire des mod√®les utilis√©s dans le benchmark üß†

Ce glossaire d√©crit les mod√®les √©valu√©s dans le cadre de notre benchmark. Chaque mod√®le pr√©sente une architecture ou une strat√©gie d'entra√Ænement diff√©rente pour comparer leurs performances sur la reconnaissance de tumeurs c√©r√©brales.

---

## **Baseline** ü§ñ
- **Description** : Mod√®le pr√©entra√Æn√© bas√© sur **Inception** et optimis√© pour le domaine m√©dical.
- **Objectif** : Fournir un point de r√©f√©rence pour comparer les mod√®les personnalis√©s.  
üìí *Appara√Æt dans un notebook dedi√©.*

---

## **Model 1** ü§ñ
- **Architecture** :
  - 4 couches de convolution avec activation **ReLU**.
  - 2 couches de **max pooling** pour la r√©duction dimensionnelle.
  - 1 couche fully connected avec 64 neurones et activation **ReLU**.
  - 1 couche de **Dropout** (20% de neurones d√©sactiv√©s pour √©viter le surapprentissage).
  - 1 couche de sortie avec activation **softmax** pour classer en 4 cat√©gories.
- **Particularit√©** : 
  - üö´ **Sans augmentation de donn√©es** : Les donn√©es d'entra√Ænement sont utilis√©es telles quelles, sans modification ni √©quilibrage.

---

## **Model 2** ü§ñ
- **Architecture** :
  - Identique au **Model 1** :
    - 4 couches de convolution avec activation **ReLU**.
    - 2 couches de **max pooling**.
    - 1 couche fully connected avec 64 neurones et activation **ReLU**.
    - 1 couche de **Dropout** (20%).
    - 1 couche de sortie avec activation **softmax**.
- **Particularit√©** :
  - ‚úÖ **Avec augmentation de donn√©es** :
    - √âquilibrage des classes : Ajout d'images synth√©tiques pour √©galiser le nombre d'images dans chaque classe.
    - Transformations appliqu√©es : **Zoom**, **d√©calage** et autres op√©rations pour enrichir les donn√©es et am√©liorer la robustesse du mod√®le.

---

## **Model 3** ü§ñ
- **Architecture** :
  - 4 couches de convolution avec activation **sigmoid**.
  - 2 couches de **max pooling**.
  - 1 couche fully connected avec 64 neurones et activation **ReLU**.
  - 1 couche de **Dropout** (20%).
  - 1 couche de sortie avec activation **softmax** pour classer en 4 cat√©gories.
- **Particularit√©** :
  - ‚ú® Utilisation de l'activation **sigmoid** dans les couches de convolution, contrairement aux mod√®les pr√©c√©dents qui utilisent **ReLU**.

---

## **R√©sum√© des diff√©rences** üìä
| Mod√®le       | Architecture                                                                                      | Augmentation de donn√©es                 | Activation des convolutions |
|--------------|--------------------------------------------------------------------------------------------------|-----------------------------------------|-----------------------------|
| **Baseline** | Mod√®le pr√©entra√Æn√© Inception optimis√© pour le domaine m√©dical                                     | Non                                     | N/A                         |
| **Model 1**  | Sequential avec 4 convolutions (ReLU), 2 max pooling, 1 fully connected (ReLU), Dropout (20%)     | Non                                     | **ReLU**                    |
| **Model 2**  | Sequential identique au Model 1                                                                  | Oui (√©quilibrage, zoom, d√©calage)       | **ReLU**                    |
| **Model 3**  | Sequential avec 4 convolutions (sigmoid), 2 max pooling, 1 fully connected (ReLU), Dropout (20%) | Non                                     | **Sigmoid**                 |


In [2]:
#baseline = load_saved_model('inception1.h5')
model_1 = load_saved_model('modele_brain_tumor_20241117_205951.h5')
model_2 = load_saved_model('modele_brain_tumor_20241125_002219.h5')
model_3 = load_saved_model('modele_brain_tumor_20241210_123938.h5')

# Analyse du Mod√®le 1

In [8]:
plot_confusion_matrix(model_1,x_test,y_test)



Classification Report:
              precision    recall  f1-score   support

      Glioma       0.81      0.17      0.28       100
  Meningioma       0.68      0.88      0.77       115
    No Tumor       0.58      0.96      0.73       105
   Pituitary       0.88      0.61      0.72        74

    accuracy                           0.67       394
   macro avg       0.74      0.65      0.62       394
weighted avg       0.72      0.67      0.62       394



In [9]:
courbe_ROC(model_1,x_test,y_test)



# Analyse du Mod√®le 1

## 1. Matrice de confusion

La matrice de confusion r√©v√®le les performances du mod√®le sur chaque classe :

- **Glioma** :
  - Vrais positifs (VP) : 17
  - Faux positifs (FP) : 1 + 1 + 2 = 4
  - Faux n√©gatifs (FN) : 24 + 56 + 3 = 83

- **Meningioma** :
  - Vrais positifs (VP) : 101
  - Faux positifs (FP) : 24 + 3 + 21 = 48
  - Faux n√©gatifs (FN) : 1 + 10 + 3 = 14

- **No Tumor** :
  - Vrais positifs (VP) : 101
  - Faux positifs (FP) : 56 + 10 + 6 = 72
  - Faux n√©gatifs (FN) : 1 + 3 + 0 = 4

- **Pituitary** :
  - Vrais positifs (VP) : 45
  - Faux positifs (FP) : 3 + 3 + 0 = 6
  - Faux n√©gatifs (FN) : 2 + 21 + 6 = 29

### Observations :
- Le mod√®le est performant pour **Meningioma**, **No Tumor**, et dans une moindre mesure pour **Pituitary**.
- La classe **Glioma** reste probl√©matique avec un nombre important de faux n√©gatifs.
- Les confusions entre **Pituitary** et les autres classes demeurent un point √† am√©liorer.

---

## 2. Courbes ROC et AUC
Les courbes ROC et les scores AUC permettent de visualiser les performances globales du mod√®le pour chaque classe.

- **Glioma** : AUC = 0.57
  - La performance est faible, indiquant que le mod√®le a des difficult√©s √† diff√©rencier cette classe des autres.

- **Meningioma** : AUC = 0.91
  - La performance est excellente, montrant une bonne diff√©renciation entre cette classe et les autres.

- **No Tumor** : AUC = 0.94
  - Le mod√®le distingue tr√®s bien cette classe des autres.

- **Pituitary** : AUC = 0.94
  - La performance est excellente pour cette classe.

### Observations :
- Les classes **No Tumor** et **Pituitary** sont bien diff√©renci√©es des autres, comme l'indiquent leurs scores AUC √©lev√©s.
- La classe **Glioma** montre des performances faibles, n√©cessitant une am√©lioration.
- Les scores AUC de **Meningioma**, **No Tumor**, et **Pituitary** montrent que le mod√®le est efficace pour ces classes, malgr√© quelques confusions.



# Analyse du Mod√®le 2

In [10]:
plot_confusion_matrix(model_2,x_test,y_test)



Classification Report:
              precision    recall  f1-score   support

      Glioma       0.77      0.17      0.28       100
  Meningioma       0.69      0.84      0.76       115
    No Tumor       0.56      0.92      0.70       105
   Pituitary       0.88      0.69      0.77        74

    accuracy                           0.66       394
   macro avg       0.73      0.66      0.63       394
weighted avg       0.71      0.66      0.62       394



In [11]:
courbe_ROC(model_2,x_test,y_test)



# Analyse du Mod√®le 2

## 1. Matrice de confusion

La matrice de confusion r√©v√®le les performances du mod√®le sur chaque classe :

- **Glioma** :
  - Vrais positifs (VP) : 17
  - Faux positifs (FP) : 1 + 3 + 1 = 5
  - Faux n√©gatifs (FN) : 27 + 52 + 4 = 83

- **Meningioma** :
  - Vrais positifs (VP) : 97
  - Faux positifs (FP) : 27 + 4 + 12 = 43
  - Faux n√©gatifs (FN) : 1 + 15 + 2 = 18

- **No Tumor** :
  - Vrais positifs (VP) : 97
  - Faux positifs (FP) : 52 + 15 + 10 = 77
  - Faux n√©gatifs (FN) : 3 + 4 + 1 = 8

- **Pituitary** :
  - Vrais positifs (VP) : 51
  - Faux positifs (FP) : 4 + 2 + 1 = 7
  - Faux n√©gatifs (FN) : 1 + 12 + 10 = 23

### Observations :
- Le mod√®le est performant pour **Meningioma**, **No Tumor**, et dans une moindre mesure pour **Pituitary**.
- La classe **Glioma** est mal d√©tect√©e, avec un faible nombre de vrais positifs et de nombreux faux n√©gatifs.
- Les confusions entre **Pituitary** et les autres classes demeurent un point √† am√©liorer.

---

## 2. Courbes ROC et AUC
Les courbes ROC et les scores AUC permettent de visualiser les performances globales du mod√®le pour chaque classe.

- **Glioma** : AUC = 0.53
  - La performance est faible, indiquant que le mod√®le a des difficult√©s √† diff√©rencier cette classe des autres.

- **Meningioma** : AUC = 0.89
  - La performance est bonne, montrant une diff√©renciation correcte entre cette classe et les autres.

- **No Tumor** : AUC = 0.90
  - Le mod√®le distingue bien cette classe des autres.

- **Pituitary** : AUC = 0.93
  - La performance est excellente pour cette classe.

### Observations :
- Les classes **No Tumor** et **Pituitary** sont bien diff√©renci√©es des autres, comme l'indiquent leurs scores AUC √©lev√©s.
- La classe **Glioma** montre des performances faibles, n√©cessitant une am√©lioration pour mieux capturer ses caract√©ristiques distinctives.
- Les scores AUC de **Meningioma**, **No Tumor**, et **Pituitary** montrent que le mod√®le est efficace pour ces classes, malgr√© quelques confusions.


# Analyse du Mod√®le 3

In [12]:
plot_confusion_matrix(model_3,x_test,y_test)



Classification Report:
              precision    recall  f1-score   support

      Glioma       0.25      1.00      0.40       100
  Meningioma       0.00      0.00      0.00       115
    No Tumor       0.00      0.00      0.00       105
   Pituitary       0.00      0.00      0.00        74

    accuracy                           0.25       394
   macro avg       0.06      0.25      0.10       394
weighted avg       0.06      0.25      0.10       394




Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.


Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.


Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.



In [13]:
courbe_ROC(model_3,x_test,y_test)



# Analyse du Mod√®le 3

## 1. Matrice de confusion

La matrice de confusion r√©v√®le les performances du mod√®le sur chaque classe :

- **Glioma** :
  - Vrais positifs (VP) : 100
  - Faux positifs (FP) : 115 + 105 + 74 = 294
  - Faux n√©gatifs (FN) : 0
  
- **Meningioma** :
  - Vrais positifs (VP) : 0
  - Faux positifs (FP) : 0
  - Faux n√©gatifs (FN) : 115

- **No Tumor** :
  - Vrais positifs (VP) : 0
  - Faux positifs (FP) : 0
  - Faux n√©gatifs (FN) : 105

- **Pituitary** :
  - Vrais positifs (VP) : 0
  - Faux positifs (FP) : 0
  - Faux n√©gatifs (FN) : 74

### Observations :
- Le mod√®le pr√©dit exclusivement la classe **Glioma**, ignorant compl√®tement les autres classes.
- Cela indique un probl√®me grave dans l'entra√Ænement du mod√®le, tel qu'un fort d√©s√©quilibre des donn√©es ou une erreur dans la configuration de la sortie des pr√©dictions.
Nous verrons plus tard l'effet de la fonction sigmoid qui est √† l'origine de ce desequilibre.
---

## 2. Courbes ROC et AUC
Les courbes ROC et les scores AUC permettent de visualiser les performances globales du mod√®le pour chaque classe.

- **Glioma** : AUC = 0.57
  - La performance est faible, indiquant que le mod√®le a des difficult√©s √† diff√©rencier cette classe des autres.

- **Meningioma** : AUC = 0.51
  - La performance est moyenne, montrant une diff√©renciation limit√©e entre cette classe et les autres.

- **No Tumor** : AUC = 0.35
  - La performance est faible, le mod√®le ne distingue pas bien cette classe des autres.

- **Pituitary** : AUC = 0.23
  - La performance est tr√®s faible, montrant une incapacit√© √† diff√©rencier cette classe des autres.

### Observations

Les r√©sultats obtenus sont tr√®s mauvais, √† tel point qu'une pr√©diction al√©atoire serait plus efficace.  
Cela peut s'expliquer par une saturation de la fonction **sigmoid**, qui limite la capacit√© du mod√®le √† apprendre des donn√©es de mani√®re efficace.


# √âquilibre des Classes : Data Augmentation avec ImageDataGenerator

## Qu'est-ce que l'ImageDataGenerator ?
L'`ImageDataGenerator` est une classe de la biblioth√®que **Keras** utilis√©e pour g√©n√©rer de nouvelles images √† partir des donn√©es existantes. Elle applique des transformations comme des rotations, des zooms ou des d√©calages afin d'augmenter artificiellement la taille et la diversit√© du jeu de donn√©es.

## Transformations Appliqu√©es
Pour **√©quilibrer les classes et am√©liorer la robustesse du mod√®le**, nous avons utilis√© les transformations suivantes :
 
- **Rotations** : Pour varier les orientations des images.  
- **Zooms** : Pour simuler des variations de taille ou d'√©chelle.  
- **D√©calages horizontaux et verticaux** : Pour introduire des variations dans les positions.

## Objectifs
1. **√âquilibrer les classes** : G√©n√©rer plus d'exemples pour les classes sous-repr√©sent√©es.  
2. **Am√©liorer la robustesse du mod√®le** : Le rendre plus r√©silient aux variations des donn√©es du monde r√©el.

Ces techniques permettent d'augmenter la diversit√© des donn√©es et de r√©duire le surapprentissage, contribuant ainsi √† des performances globales am√©lior√©es.


# Modele 1 VS Modele 2

In [14]:
plot_model_curves(models_history, 'modele_brain_tumor_20241117_205951')

In [15]:
plot_model_curves(models_history, 'modele_brain_tumor_20241125_002219')

## Analyse des performances : Loss et Accuracy

Les courbes de **loss** et d'**accuracy** semblent similaires pour les deux mod√®les √©tudi√©s. Afin d'approfondir notre comparaison, analysons leurs performances sur le jeu de test.


In [16]:
print('Test Accuracy du modele 1')
print('')
print(get_test_accuracy(models_history, 'modele_brain_tumor_20241117_205951'))
print('')
print('Test Accuracy du modele 2')
print('')
print(get_test_accuracy(models_history, 'modele_brain_tumor_20241125_002219'))

Test Accuracy du modele 1

0.6701

Test Accuracy du modele 2

0.6649746298789978


Nous observons que les **test accuracy** sont √©quivalents. Cela indique que l'√©quilibre des classes et l'augmentation des donn√©es n'apportent pas d'am√©lioration *significative*.



# Comparaison de Fonctions d'activation 

### Fonctions d'activation utilis√©es
- **ReLU** (Rectified Linear Unit) : pour introduire de la non-lin√©arit√© et √©viter les probl√®mes de gradient nul.
- **Sigmoid** : pour normaliser les sorties entre 0 et 1, souvent utilis√©e pour des t√¢ches de classification binaire.

# Modele 1 VS Modele 3

In [17]:
plot_model_curves(models_history, 'modele_brain_tumor_20241117_205951')

In [18]:
plot_model_curves(models_history, 'modele_brain_tumor_20241210_123938')

In [19]:
print('Test Accuracy du modele 1')
print('')
print(get_test_accuracy(models_history, 'modele_brain_tumor_20241117_205951'))
print('')
print('Test Accuracy du modele 3')
print('')
print(get_test_accuracy(models_history, 'modele_brain_tumor_20241210_123938'))

Test Accuracy du modele 1

0.6701

Test Accuracy du modele 3

0.2538


# Analyse des Performances des Mod√®les

Nous constatons que les **test accuracy** varient consid√©rablement, avec le mod√®le 3 affichant des performances nettement inf√©rieures. Une explication d√©taill√©e sera fournie dans le rapport pour analyser cette diff√©rence.

# Benchmarking G√©n√©ral üìä

En utilisant les m√©triques d√©finies au d√©but ‚úÖ


In [8]:
#--accuracy--
accuracy_1 = get_test_accuracy(models_history, 'modele_brain_tumor_20241117_205951')
accuracy_2 = get_test_accuracy(models_history, 'modele_brain_tumor_20241125_002219')
accuracy_3 = get_test_accuracy(models_history, 'modele_brain_tumor_20241210_123938')

#--loss--
loss_1 = get_test_loss(models_history, 'modele_brain_tumor_20241117_205951')
loss_2 = get_test_loss(models_history, 'modele_brain_tumor_20241125_002219')
loss_3 = get_test_loss(models_history, 'modele_brain_tumor_20241210_123938')


In [10]:
accuracy = [accuracy_1,accuracy_2,accuracy_3]

labels = [
    'Model 1',
    'Model 2',
    'Model 3'
]

plot_accuracy_histogram(accuracy, labels)

In [None]:
model_1_metric = classification_report_aggregated(model_1, x_test, y_test)
model_2_metric = classification_report_aggregated(model_2, x_test, y_test)
model_3_metric = classification_report_aggregated(model_3, x_test, y_test)




Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.


Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.


Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.



In [None]:
df= pd.DataFrame()
df['Models'] = [f'model_{i}' for i in range(1,4)]
df['Precision'] = [model_1_metric['precision_avg'],model_2_metric['precision_avg'],model_3_metric['precision_avg']]
df['F1-score'] = [model_1_metric['f1_score_avg'],model_2_metric['f1_score_avg'],model_3_metric['f1_score_avg']]
df['Recall'] = [model_1_metric['recall_avg'],model_2_metric['recall_avg'],model_3_metric['recall_avg']]
df['Accuracy'] = [accuracy_1,accuracy_2,accuracy_3]
df['Loss'] = [loss_1,loss_2,loss_3]
df

Unnamed: 0,Models,Precision,F1-score,Recall,Accuracy,Loss
0,model_1,0.72462,0.623519,0.670051,0.6701,4.1591
1,model_2,0.712068,0.623227,0.664975,0.664975,4.787893
2,model_3,0.064418,0.102756,0.253807,0.2538,1.4299


In [None]:

df_melted = df.melt(id_vars='Models', var_name='Metrics', value_name='Values')

fig = px.bar(
    df_melted,
    x='Metrics',
    y='Values',
    color='Models',
    barmode='group',
    title="Performance Metrics by Model",
    labels={"Values": "Scores"}
)

fig.show()

# Analyse des Performances des Mod√®les

Le graphique pr√©sente une comparaison des performances de trois mod√®les (`model_1`, `model_2`, `model_3`) √† l‚Äôaide des m√©triques suivantes : **Pr√©cision (Precision)**, **F1-score**, **Rappel (Recall)**, **Exactitude (Accuracy)**, et **Perte (Loss)**.

## Interpr√©tation des R√©sultats

1. **Pr√©cision, F1-score, Rappel et Exactitude** :
   - Les mod√®les `model_1` et `model_2` montrent des performances similaires et √©lev√©es sur ces m√©triques. Cela indique une bonne capacit√© √† pr√©dire correctement les classes cibles, bien qu'elles s soient pas excellente. 
   - Le mod√®le `model_3`, en revanche, affiche des scores nettement plus faibles, tr√©s mauvais.

2. **Perte (Loss)** :
   - Le mod√®le `model_2` a une perte (loss) nettement plus √©lev√©e que les autres, ce qui pourrait indiquer un probl√®me d‚Äôoptimisation ou un surapprentissage (**overfitting** , peut-√™tre d√ª au fait que l'augmentation de donn√©es n'a √©t√© faite que dans le but d'√©quilibrer les classes et donc de montrer de nombreuses fois la m√™me image l√©g√®rement modifi√©e dans les classes sous-repr√©sent√©es.)
   - Bien que le mod√®le `model_3` ait la plus faible perte, ses faibles performances sur les autres m√©triques montrent qu‚Äôune faible perte ne garantit pas une bonne g√©n√©ralisation.

## Conclusion
- **Mod√®le recommand√©** : Le mod√®le `model_1` est le plus √©quilibr√©, combinant de bonnes performances sur toutes les m√©triques. Il est donc pr√©f√©rable.
- **Points d‚Äôam√©lioration** :
  - Le mod√®le `model_2` n√©cessite une attention particuli√®re pour r√©soudre son probl√®me de perte √©lev√©e, l'augmentation de donn√©es n'√©tant pas plus efficace.
  - Le mod√®le `model_3` n'est pas meilleurs que de choisir au hasard une classe pour une image donn√©e.



Ce notebook est √† mi-chemin entre la pr√©sentation des r√©sultats et une √©tude de quelques param√®tres.

## Limitations

En raison d'un manque de ressources, nous nous sommes limit√©s √† **6 epochs** et avons √©vit√© d'utiliser des architectures trop lourdes. 

## Perspectives

Dans le rapport final, nous d√©taillerons comment, id√©alement, nous aurions calibr√© notre mod√®le pour obtenir une **meilleure accuracy**, selon nos recherches et analyses.
