# Notes

## Workflow
https://docs.google.com/document/d/1kIbxaqzdPZqHEJRxwuFCAar-G8W78VFRgDUEF5Mesjw/edit?invite=CI_q4swC&tab=t.0


## To-Do

- Analyse pr√©-exploratoire et pr√©paration des donn√©es
    - Regarder l'√©quilibre des cat√©gories avant le train-test-split ? Possible avec np.unique_counts(img_array) sur chaque image (se servir du multiprocessing)
    - Bien formaliser le code du train test split, l'inclure dans utils and constants

- Modele
    - Ajouter une visualisation entre courbe de loss train vs loss val + nom de la fonction de perte + dump
    - Finaliser les callbacks (EarlyStopping, ModelCheckpoint, ReduceLROnPlateau)
    - fonction de visualisation sur la pr√©diction √† affiner
    - plot des m√©triques √† affiner + dump
    - En fonction des d√©s√©quilibres ajouter du sample_weight dans le mod√®le : https://www.tensorflow.org/tutorials/images/segmentation



# Future comms

##  **Les diff√©rents types de segmentation**
---

Un mod√®le de segmentation d'image g√©n√®re en sortie une carte de segmentation o√π chaque pixel est classifi√© dans une cat√©gorie sp√©cifique. La structure de la couche de sortie d√©pend du type de segmentation :


### **1. Segmentation s√©mantique (ex : UNet, DeepLabV3)**
Chaque pixel appartient √† une classe parmi un nombre fixe de classes.

- **Couche de sortie** : une convolution 2D avec autant de canaux que de classes (`Conv2D(num_classes, kernel_size=1)`).  
- **Tenseur de sortie** : `[batch_size, height, width, num_classes]`.  
- **Post-traitement** : on applique une fonction **softmax** (multiclasses) ou **sigmo√Øde** (binaire) pour obtenir des probabilit√©s.  
- **Pr√©diction finale** : l'index du canal ayant la probabilit√© la plus √©lev√©e pour chaque pixel.
- **M√©trique** : l'accuracy n'est pas une bonne m√©trique pour la segmentation, on utilise plut√¥t l'**Intersection over Union (IoU)** ou le **Dice Score**.
  - Pour les m√©triques, y_true est de forme sparse (ex : [batch_size, height, width]) et y_pred est de forme dense (ex : [batch_size, height, width, num_classes]).
- **Loss** : on utilise souvent la **cross-entropy** pour la segmentation multiclasse.
  - Pour des raisons computationnelles, on va pr√©f√©rer la fonction de perte `sparse_categorical_crossentropy` (attends y_true sous forme sparse (batch_size, height, width)) √† `categorical_crossentropy` (attend y_true sous forme dense (batch_size, height, width, num_classes)) pour les probl√®mes de segmentation multiclasse.
  - Si on a des probl√®mes de d√©s√©quilibre de classes, il faut ajouter des samples weights dans la loss. (voir guide tensorflow)
  - L'argument from_logits=True dans la fonction de perte indique que la sorte `y_pred` est un vecteur de logits de size `num_classes` sans fonction d'activation.
  - L'agument from_logits=False indique que la sortie `y_pred` est un vecteur de probabilit√©s de size `num_classes` avec une fonction d'activation (softmax).
  - L'argument class_weights permet de donner plus de poids √† certaines classes pour compenser un d√©s√©quilibre de classes.


üí° **Exemple en segmentation binaire (ex : fond vs objet)**  
- Derni√®re couche : `Conv2D(1, kernel_size=1, activation="sigmoid")`  
- La sortie est de forme `[batch_size, height, width, 1]` avec des valeurs entre 0 et 1 (probabilit√© d'appartenir √† la classe positive).

üí° **Exemple en segmentation multiclasse (ex : route, voiture, ciel, etc.)**  
- Derni√®re couche : `Conv2D(num_classes, kernel_size=1, activation="softmax")`  
- La sortie est `[batch_size, height, width, num_classes]`, et on prend `argmax` sur l'axe des classes.


### **2. Segmentation instance (ex : Mask R-CNN)**
Chaque instance d'un objet a un identifiant unique.

- **Sortie plus complexe** :  
  - Une **carte de segmentation** par objet d√©tect√© (`[batch_size, num_objects, height, width]`).  
  - Une **carte des scores** (`[batch_size, num_objects]`) pour indiquer la confiance de chaque masque.  
  - Une **bo√Æte englobante** pour chaque instance.  

Ici, chaque pixel peut appartenir √† plusieurs objets en m√™me temps, contrairement √† la segmentation s√©mantique.


### **R√©sum√©**
| Type de segmentation | Forme de sortie | Activation | Post-traitement |
|----------------------|----------------|------------|-----------------|
| **Binaire** | `[batch, h, w, 1]` | Sigmo√Øde | Seuil (0.5) |
| **Multiclasse** | `[batch, h, w, num_classes]` | Softmax | `argmax` sur classes |
| **Instance** | `[batch, num_objects, h, w]` + scores | Variable | Seuil + NMS |

## **Pr√©sentation de UNET**

---

**UNet**, un mod√®le bien connu pour la segmentation s√©mantique. Ce mod√®le prend une image RGB de **256x512x3** et renvoie une carte de segmentation de **256x512x8** avec 8 classes.

U-Net is a CNN architecture used for most of the segmentation tasks. It consists of a contraction and expansion path which gives it the name UNet. The contraction path consists of a convolution layer, followed by ReLu followed by max-pooling layers. Along the contraction path, the features get extracted and the spatial information is reduced. Along the expansion path, a series of up convolutions along with concatenation of nigh resolution features are done from the contraction path. The final layer is a 1x1 convolution layer which gives the output of the same size as the input image. The output is a mask of the same size as the input image with each pixel having a value between 0 and 1. The final output is obtained by applying a threshold of 0.5 to the output mask.

### **Architecture du mod√®le :**
- Encodeur (feature extractor) bas√© sur **convolutions** + **max pooling** pour extraire les features.
- D√©codeur avec **upsampling** (**upconv**) + **concatenation encodeur+decodeur** pour revenir √† la r√©solution d'origine.
- Derni√®re couche avec **8 canaux** et activation **softmax** pour obtenir une distribution de probabilit√© sur les classes.

![image.png](attachment:image.png)


### **Explication de la sortie :**
- La derni√®re couche `Conv2D(8, (1,1), activation="softmax")` g√©n√®re un tenseur **(256, 512, 8)**.
- Chaque pixel contient un vecteur de **8 probabilit√©s** (une par classe).
- Pour obtenir l‚Äôimage segment√©e finale, on prend `argmax` sur l‚Äôaxe des classes pour assigner chaque pixel √† la classe la plus probable.


### **R√©sum√© :**
‚úÖ **Entr√©e** : Image `(256,512,3)`  
‚úÖ **Sortie** : Carte de segmentation `(256,512,8)`  
‚úÖ **Activation finale** : `softmax` pour classification pixel par pixel  
‚úÖ **Post-traitement** : `argmax` pour obtenir la classe de chaque pixel  

## **Format des labels de sortie pour la segmentation**

---

Le format des labels d√©pend de la **fonction de perte** utilis√©e. Comme ta couche de sortie utilise une activation **softmax** et g√©n√®re une sortie `(num_batches, 256, 512, 8)`, voici les deux options possibles :  


### **1Ô∏è‚É£ Labels sous forme d‚Äôindex : `(num_batches, 256, 512)`**  
üëâ **Format :** Chaque pixel est repr√©sent√© par un entier correspondant √† l'index de sa classe (0 √† 7).  
üëâ **Fonction de perte :** `SparseCategoricalCrossentropy(from_logits=False)`  

**Exemple d'un batch de labels :**  
```python
y_true.shape  # (num_batches, 256, 512), dtype=int
y_true[0, 100, 200]  # Exemple : 3 (classe 3 assign√©e au pixel (100,200))
```

‚úÖ **Avantages** :
- Plus l√©ger en m√©moire.  
- Pas besoin de conversion avant l‚Äôentra√Ænement.  

üöÄ **Comment charger les labels ?**  
```python
loss_fn = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False)
model.compile(optimizer="adam", loss=loss_fn, metrics=["accuracy"])
```


### **2Ô∏è‚É£ Labels en one-hot : `(num_batches, 256, 512, 8)`**  
üëâ **Format :** Chaque pixel est repr√©sent√© par un vecteur de probabilit√© o√π une seule position est √† 1 (one-hot encoding).  
üëâ **Fonction de perte :** `CategoricalCrossentropy(from_logits=False)`  

**Exemple d'un pixel encod√© en one-hot (classe 3)** :  
```python
[0, 0, 0, 1, 0, 0, 0, 0]  # Classe 3 activ√©e
```

‚úÖ **Avantages** :
- Permet de travailler avec des **poids de classes** si les classes sont d√©s√©quilibr√©es.  
- Peut √™tre plus stable pour certaines architectures.  

üöÄ **Comment charger les labels ?**  
```python
loss_fn = tf.keras.losses.CategoricalCrossentropy(from_logits=False)
model.compile(optimizer="adam", loss=loss_fn, metrics=["accuracy"])
```
üí° Si tes labels sont sous forme `(num_batches, 256, 512)`, il faut les **convertir en one-hot** avant l‚Äôentra√Ænement :  
```python
y_true_onehot = tf.one_hot(y_true, depth=8)  # Convertit (batch, 256, 512) ‚Üí (batch, 256, 512, 8)
```



### **üìå Quelle approche choisir ?**  
‚úÖ **Si tes labels sont stock√©s comme une image avec une seule valeur par pixel** ‚Üí **`SparseCategoricalCrossentropy`** (option 1, plus simple).  
‚úÖ **Si tu veux manipuler les probabilit√©s ou ajuster les poids des classes** ‚Üí **`CategoricalCrossentropy`** (option 2, one-hot).  

üöÄ **Recommandation :** Utilise la premi√®re approche `(num_batches, 256, 512)` car elle est plus efficace en m√©moire et plus simple √† g√©rer.  


## Les m√©triques pour la segmentation d'images
---


Voici un tableau r√©capitulatif des applications des m√©triques d'√©valuation en segmentation d'images :  

| **Applications**         | **Metrics Used**                | **Explanation**  |
|--------------------------|--------------------------------|-----------------|
| **Medical Imaging**      | Dice Coefficient, Hausdorff Distance | Assure une segmentation pr√©cise pour la d√©tection de tumeurs, la d√©limitation des organes et l'identification d'anomalies, essentielle pour le diagnostic et le traitement. |
| **Autonomous Driving**   | IoU, Pixel Accuracy           | √âvalue la capacit√© du mod√®le √† identifier et localiser des objets (pi√©tons, v√©hicules, panneaux) pour garantir une navigation s√©curis√©e des v√©hicules autonomes. |
| **Satellite and Aerial Imaging** | IoU, Boundary F1 Score | Analyse la classification du couvert terrestre, la planification urbaine et la surveillance environnementale, en √©valuant la pr√©cision des r√©gions segment√©es et des contours. |
| **Agriculture**          | Dice Coefficient, Precision   | Mesure la segmentation des zones de culture saines et malades, facilitant la gestion des cultures et l‚Äôoptimisation des rendements. |
| **Augmented Reality (AR)** | IoU, Pixel Accuracy         | Garantit un alignement pr√©cis des objets virtuels sur les surfaces du monde r√©el pour am√©liorer l‚Äôexp√©rience utilisateur. |

Ce tableau synth√©tise les principales m√©triques utilis√©es selon les applications et leur importance.

## Formulas


Voici un tableau r√©capitulatif des formules des principales m√©triques d'√©valuation en segmentation d'images :  

| **M√©trique**           | **Formule**  |
|------------------------|-------------|
| **Dice Coefficient**   | \( \frac{2TP}{2TP + FP + FN} \) |
| **IoU (Intersection over Union)** | \( \frac{TP}{TP + FP + FN} \) |
| **Pixel Accuracy**     | \( \frac{TP + TN}{TP + TN + FP + FN} \) |
| **Precision**         | \( \frac{TP}{TP + FP} \) |
| **Recall (Sensitivity)** | \( \frac{TP}{TP + FN} \) |
| **F1 Score**          | \( \frac{2 \times Precision \times Recall}{Precision + Recall} \) |
| **Boundary F1 Score** | Bas√© sur la F1 Score mais appliqu√© aux contours segment√©s (requiert un calcul spatial des fronti√®res) |
| **Hausdorff Distance** | \( \max \{ \sup_{a \in A} \inf_{b \in B} d(a,b), \sup_{b \in B} \inf_{a \in A} d(a,b) \} \) (distance maximale entre les fronti√®res de la segmentation et de la v√©rit√© terrain) |

Ces formules utilisent les termes :
- **TP (True Positives)** : pixels correctement class√©s comme appartenant √† la classe cible.
- **TN (True Negatives)** : pixels correctement class√©s comme n'appartenant pas √† la classe cible.
- **FP (False Positives)** : pixels incorrectement class√©s comme appartenant √† la classe cible.
- **FN (False Negatives)** : pixels incorrectement class√©s comme n'appartenant pas √† la classe cible.

## Critiques des m√©triques
Pour √©valuer la qualit√© de la segmentation d'images, on utilise des m√©triques sp√©cifiques qui comparent les pr√©dictions du mod√®le aux vrais labels en mesurant la qualit√© de l'overlapping entre le y_pred et y_true. Voici les principales m√©triques utilis√©es pour √©valuer la segmentation d'images :
- Pixel accuracy pas recommande lorsquil a une  classe dominante comme le background. prends en compte tp et tn
    - (tn+tp)/(tn+fp+fn+fp)


- precision, recall & dice (f1 S√∏rensen‚ÄìDice index) ok (tp dans le num√©rateur)
    - p (tp)/(tp+fp) : Precision measures the proportion of true positive pixels among all pixels classified as positive by the model
    - r (tp)/(tp+fn) : Recall, on the other hand, measures the proportion of true positive pixels that were correctly identified out of all actual positive pixels
    - d (tp+tp)/(tp+tp+fn+fp) : Dice is the harmonic mean of precision and recall. It is a common metric for segmentation tasks because it is more sensitive to small objects than accuracy.
    - High precision indicates that the model has a low false positive rate, while high recall indicates a low false negative rate.

- IoU, Jaccard Index : best > tp (intersect) dans le numerateur et union dans le diviseur (diviseur tout sauf tn)
    - (tp)/(tp+fn+fp)
    - dice harmonic mean
    - iou > penalize more fp and add a SMOOTH factor to avoid division by 0 and compute IoU for each class absent in the image

- Soft (on probabilities without argmax) / hard (with argmax as ohe)


## Focus on Jackard Index & Dice Coefficient

![image-3.png](attachment:image-3.png)

![image.png](attachment:image.png)


- A gauche, Interesection / Union : IoU = TP / (TP + FP + FN)
- A droite, Dice : Dice (Harmonic mean between recall and precision) = 2 * TP / (2 * TP + FP + FN)

## JACCARD CALCULATION

Let‚Äôs calculate the ship IoU first. We assume the total area of the image is 100 (100 pixels). First, let‚Äôs think about the ships‚Äô overlap. We can pretend that we move the predicted segmentation (left) directly above the ground truth (right), and see if there are any ship pixels that overlap. Since there are no pixels that are classified as ships by the model, there are 0 overlapping ship pixels.

Union consists of all of the pixels classified as ships from both images, minus the overlap/intersection. In this case, there are 5 pixels (this is an arbitrary number choice) that are classified as ships total. Subtract the overlap/intersection which is 0 to get 5 as the area of union. After doing the calculations, we learn that the IoU is merely 47.5%! See the calculation below.

Here is the detailed calculation:

Ships: Area of Overlap = 0, Area of Union = (5+0)-0 =5

Area of Overlap/Area of Union = 0%

Now for the black background, we do the same thing.

Background: Area of Overlap = 95, Area of Union = (95+100)‚Äì95 = 100

Area of Overlap/Area of Union =95%

Mean IoU = (Ships + Background)/2 = (0%+95%)/2 = 47.5%

## DICE CALCULATION

Total Number of Pixels for both images combined = 200

Ships: Area of Overlap = 0

(2 * Area of Overlap)/(total pixels combined) = 0/200 = 0

Background: Area of Overlap = 95

(2 * Area of Overlap)/(total pixels combined) = 95*2/200 = 0.95

Dice = (Ships + Background)/2 = (0%+95%)/2 = 47.5%

## Others metrics

![image.png](attachment:image.png)

## **ConvNet Architectures**
We have seen that Convolutional Networks are commonly made up of only three layer types: CONV, POOL (we assume Max pool unless stated otherwise) and FC (short for fully-connected). We will also explicitly write the RELU activation function as a layer, which applies elementwise non-linearity. In this section we discuss how these are commonly stacked together to form entire ConvNets.

- Converting FC layers to CONV layers
    - It is worth noting that the only difference between FC and CONV layers is that the neurons in the CONV layer are connected only to a local region in the input, and that many of the neurons in a CONV volume share parameters. However, the neurons in both layers still compute dot products, so their functional form is identical. Therefore, it turns out that it‚Äôs possible to convert between FC and CONV layers:


### üìå **1. Composants d'un CNN**
Un CNN est constitu√© de plusieurs types de couches :

#### **üîπ Couches Convolutives (Conv Layer)**
- Appliquent des filtres (kernels) pour extraire des **caract√©ristiques locales**.
- G√©n√®rent des **cartes de caract√©ristiques (feature maps)**.
- Hyperparam√®tres : **taille du kernel, stride, padding**.

#### **üîπ Couches d'Activation**
- Introduisent la **non-lin√©arit√©**.
- Fonction la plus courante : **ReLU** (Rectified Linear Unit).

#### **üîπ Couches de Pooling (Sous-√©chantillonnage)**
- R√©duisent la **dimensionnalit√©** et la **sensibilit√© au bruit**.
- Types :
  - **Max Pooling** : prend la valeur maximale d‚Äôune r√©gion.
  - **Average Pooling** : prend la moyenne.

#### **üîπ Couches Fully Connected (Dense)**
- Transforme les cartes de caract√©ristiques en un **vecteur** pour la classification.
- Derni√®re couche : souvent **Softmax** pour la classification multi-classes.

---

### üî• **2. Architectures Populaires de CNN**
Voici quelques architectures CNN c√©l√®bres :

#### **1Ô∏è‚É£ LeNet-5 (1998)**
- Premier CNN utilis√© pour la reconnaissance de chiffres manuscrits.
- **Structure** :
  - Conv ‚Üí Pool ‚Üí Conv ‚Üí Pool ‚Üí Dense ‚Üí Output
- Tr√®s simple mais efficace pour de petites images (comme MNIST).

#### **2Ô∏è‚É£ AlexNet (2012)**
- A r√©volutionn√© la vision par ordinateur en gagnant ImageNet.
- **Structure** :
  - 5 Convolution + Pooling ‚Üí 3 Fully Connected
- Introduit **ReLU**, **Dropout** et **GPU training**.

#### **3Ô∏è‚É£ VGG (2014)**
- Approche modulaire avec des **kernels 3x3** pour toutes les convolutions.
- **Variantes : VGG-16, VGG-19**.
- Tr√®s profond mais lourd en calcul.

#### **4Ô∏è‚É£ GoogLeNet (Inception) (2014)**
- Introduit les **Inception Blocks** : diff√©rentes tailles de filtres en parall√®le.
- **Moins de param√®tres** qu‚ÄôAlexNet ou VGG gr√¢ce √† l‚Äôutilisation de convolutions 1x1.

#### **5Ô∏è‚É£ ResNet (2015)**
- Introduit les **skip connections (r√©siduals)**.
- R√©sout le probl√®me du **gradient vanishing** dans les r√©seaux profonds.
- Variantes : **ResNet-18, ResNet-34, ResNet-50, ResNet-101**.

#### **6Ô∏è‚É£ EfficientNet (2019)**
- Bas√© sur une optimisation du **scaling** (taille des filtres, profondeur, r√©solution).
- Tr√®s performant avec moins de calculs que ResNet.

---

### üöÄ **3. Conception d‚Äôun CNN en TensorFlow/Keras**
Un exemple de CNN simple avec **Keras** :

```python
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

model = keras.Sequential([
    layers.Conv2D(32, (3,3), activation='relu', input_shape=(64, 64, 3)),
    layers.MaxPooling2D(2,2),
    layers.Conv2D(64, (3,3), activation='relu'),
    layers.MaxPooling2D(2,2),
    layers.Conv2D(128, (3,3), activation='relu'),
    layers.MaxPooling2D(2,2),
    layers.Flatten(),
    layers.Dense(128, activation='relu'),
    layers.Dense(10, activation='softmax')  # 10 classes pour classification
])

model.summary()
```

---

### üéØ **4. Choisir une Architecture CNN**
| **Mod√®le**   | **Avantages** | **Inconv√©nients** |
|-------------|--------------|----------------|
| **LeNet-5**  | Simple et rapide | Mauvaise g√©n√©ralisation sur images complexes |
| **AlexNet**  | Performant sur grands datasets | Tr√®s lourd en calcul |
| **VGG**      | Facile √† impl√©menter | Nombre de param√®tres √©norme |
| **GoogLeNet** | Moins de param√®tres | Complexe √† impl√©menter |
| **ResNet**   | Permet des r√©seaux tr√®s profonds | Plus gourmand en m√©moire |
| **EfficientNet** | Performant et l√©ger | Architecture optimis√©e difficile √† ajuster |


## Conversion des couches FC et CONV

---

### üîπ **1. Passage de l'extraction de caract√©ristiques √† la classification**
- **Les couches convolutives** apprennent des **descripteurs locaux** (bords, textures, motifs).
- **Les couches fully connected** interpr√®tent ces descripteurs pour faire une **pr√©diction globale**.
- Convertir une couche conv en dense permet de **transformer les cartes de caract√©ristiques en un vecteur de d√©cision**.


### üîπ **2. Compatibilit√© avec un classifieur classique**
- **Les couches convolutives g√©n√®rent des matrices 3D** (hauteur, largeur, canaux).
- **Les couches fully connected prennent des vecteurs en entr√©e**.
- La conversion (via un `Flatten()`) permet d'utiliser un **classifieur dense** comme Softmax ou une MLP.

üîπ **Exemple en TensorFlow/Keras** :
```python
model = keras.Sequential([
    layers.Conv2D(32, (3,3), activation='relu', input_shape=(64, 64, 3)),
    layers.MaxPooling2D(2,2),
    layers.Conv2D(64, (3,3), activation='relu'),
    layers.MaxPooling2D(2,2),
    layers.Flatten(),  # Conversion de la sortie convolutive en vecteur
    layers.Dense(128, activation='relu'),
    layers.Dense(10, activation='softmax')  # Classification sur 10 classes
])
```
- La couche `Flatten()` convertit la sortie des convolutions en **un vecteur 1D** utilisable par les couches `Dense`.

---

### üîπ **3. R√©duction de la dimensionnalit√© et adaptation aux t√¢ches**
- Dans certains cas, une conversion en fully connected permet de **r√©duire la taille des param√®tres** et d'ajuster l'architecture.
- Exemple : en **transformant les cartes de caract√©ristiques en un vecteur plus petit**, on peut mieux g√©n√©raliser et √©viter le surajustement.

---

### üîπ **4. Simulation d‚Äôune convolution avec une couche Dense**
- Une **couche convolutionnelle peut √™tre r√©√©crite comme une couche dense** si l'on ignore le partage de poids.
- Exemple : une **convolution 1x1 avec autant de filtres que d'entr√©es** est **√©quivalente √† une couche dense**.

---

### üîπ **5. R√©duction du besoin en m√©moire et calcul**
- **Transformer une convolution en fully connected** peut parfois r√©duire la m√©moire et acc√©l√©rer l‚Äôinf√©rence.
- Exemple : Dans certains mod√®les mobiles (**MobileNet, SqueezeNet**), une **derni√®re convolution 1x1 remplace les couches fully connected** pour r√©duire le nombre de param√®tres.

---

### üéØ **Conclusion**
‚úÖ **Transformer une couche convolutive en fully connected** permet :
- D‚Äôadapter les sorties convolutives pour une t√¢che de classification.
- D‚Äôobtenir un vecteur compatible avec des classifieurs denses.
- De modifier l‚Äôarchitecture pour r√©duire la complexit√©.

üëâ **Alternatives modernes** : Au lieu de `Flatten()`, certains mod√®les utilisent **Global Average Pooling (GAP)** pour obtenir une sortie plus robuste et compacte :

```python
layers.GlobalAveragePooling2D()
```

## Pooling vs Convolution avec Stride

---

### üîπ **1. Diff√©rences entre Pooling et Convolution avec Stride**
| **Crit√®re** | **Pooling (Max/Average)** | **Convolution avec Stride** |
|------------|--------------------------|----------------------------|
| **Principe** | Sous-√©chantillonne l‚Äôimage en prenant un maximum (max pooling) ou une moyenne (average pooling). | Utilise des filtres qui glissent sur l‚Äôimage avec un pas (`stride > 1`), supprimant ainsi des pixels. |
| **Perte d‚Äôinformation** | Peut perdre des d√©tails importants (surtout avec max pooling). | Garde plus d‚Äôinformations car la convolution apprend des poids adapt√©s. |
| **Param√®tres appris** | Aucun (op√©ration fixe). | Oui (les poids du filtre sont optimis√©s pendant l‚Äôentra√Ænement). |
| **Consommation m√©moire** | Moins co√ªteux (aucun param√®tre √† apprendre). | Plus gourmand en calculs (param√®tres √† optimiser). |
| **Effet sur le gradient** | Peut causer des pertes d‚Äôinformations abruptes et un gradient moins stable. | Lisse mieux la propagation du gradient gr√¢ce aux poids appris. |

---

### üî• **2. Pourquoi utiliser une convolution avec stride √† la place du pooling ?**
#### ‚úÖ **Avantages de la convolution avec stride :**
1. **Meilleure optimisation** :  
   - Les **poids du filtre** sont appris, contrairement au pooling qui est une op√©ration fixe.
   - Permet au mod√®le d‚Äôoptimiser l‚Äôextraction de caract√©ristiques sans perdre trop d‚Äôinformations.
   
2. **Propagation du gradient am√©lior√©e** :  
   - Moins de perte d‚Äôinformation abrupte que le max pooling.
   - R√©duit le risque de disparition du gradient dans les r√©seaux tr√®s profonds.

3. **Moins d‚Äôop√©rations distinctes** :  
   - √âvite d‚Äôavoir une couche suppl√©mentaire pour le pooling ‚Üí simplifie l‚Äôarchitecture.

4. **Utilis√© dans les architectures modernes** :  
   - **ResNet, MobileNet, DenseNet** pr√©f√®rent **les convolutions avec stride** au lieu des **poolings classiques**.

---

### ‚ö†Ô∏è **3. Mais faut-il compl√®tement √©viter le pooling ?**
Pas forc√©ment ! Il existe des cas o√π le **pooling reste utile** :

1. **Max pooling pour une meilleure invariance aux translations**  
   - Le max pooling **r√©duit la sensibilit√© aux petits d√©placements** dans l‚Äôimage.
   - Utile pour **des t√¢ches de reconnaissance d‚Äôobjets** o√π la position exacte n‚Äôest pas importante.

2. **Average pooling dans les architectures r√©centes**  
   - Le **Global Average Pooling (GAP)** est souvent utilis√© pour r√©duire les dimensions tout en gardant une bonne g√©n√©ralisation :
   ```python
   layers.GlobalAveragePooling2D()
   ```
   - Utilis√© dans **ResNet, MobileNet** pour √©viter des couches fully connected trop grandes.

---

### üéØ **4. Recommandation selon les cas**
| **Cas d‚Äôusage** | **Pooling classique** | **Convolution avec stride** |
|----------------|----------------------|----------------------------|
| **T√¢ches classiques (classification d‚Äôimages)** | ‚úÖ Max Pooling souvent efficace. | üö´ Pas toujours n√©cessaire. |
| **Mod√®les modernes (MobileNet, ResNet, EfficientNet)** | üö´ Souvent remplac√© par GAP. | ‚úÖ Strided Convolution pr√©f√©rable. |
| **Besoin d‚Äôinvariance aux translations** | ‚úÖ Max Pooling utile. | üö´ Moins efficace. |
| **Optimisation des calculs sur GPU** | üö´ Pooling moins flexible. | ‚úÖ Strided Convolution plus efficace sur certains hardware. |

---

### üéØ **Conclusion**
üëâ **Remplacer le pooling par une convolution avec stride est souvent b√©n√©fique**, mais pas toujours obligatoire.  
üëâ Les architectures modernes tendent √† privil√©gier **les convolutions avec stride ou le Global Average Pooling (GAP)** au lieu du max pooling.  
üëâ **Si tu veux un r√©seau plus optimis√© et entra√Ænable, √©vite le pooling et favorise les convolutions avec stride.** üöÄ  

Tu travailles sur quel type de CNN ? üòä

## CONV LAYER & POOL LAYER Input to Output

### CONV LAYER FILTERS (K) AND STRIDE (S) AND PADDING (P) AND SPATIAL EXTENT (F) vs W x H x D (input) 
![image.png](attachment:image.png)

### POOL LAYER FILTERS (K) AND STRIDE (S) AND SPATIAL EXTENT (F) vs W x H x D (input)
![image-2.png](attachment:image-2.png)

## **Loss & Optimizer**
---

Optimizer that implements the AdamW algorithm.

AdamW optimization is a stochastic gradient descent method that is based on adaptive estimation of first-order and second-order moments with an added method to decay weights per the techniques discussed in the paper, 'Decoupled Weight Decay Regularization' by Loshchilov, Hutter et al., 2019.

According to Kingma et al., 2014, the underlying Adam method is "computationally efficient, has little memory requirement, invariant to diagonal rescaling of gradients, and is well suited for problems that are large in terms of data/parameters".

https://arxiv.org/pdf/1711.05101

Oui, **l'accumulation de gradients** peut indirectement am√©liorer la g√©n√©ralisation, mais ce n'est pas automatique. Voici pourquoi :  

‚úÖ **Moins de bruit dans les gradients** : Un petit batch produit des gradients plus bruyants, ce qui peut rendre l'optimisation instable. L'accumulation de gradients lisse ces variations et rend l'entra√Ænement plus stable.  

‚úÖ **Effet similaire √† un plus grand batch** : En accumulant les gradients sur plusieurs mini-batchs, on se rapproche du comportement d‚Äôun entra√Ænement avec un grand batch effectif, qui peut am√©liorer la convergence et la stabilit√©.  

üö® **Mais attention** :  
- Une g√©n√©ralisation optimale d√©pend aussi d'autres facteurs comme **le taux d‚Äôapprentissage, la r√©gularisation (dropout, weight decay), et la diversit√© des donn√©es**.  
- Accumuler trop de gradients peut **r√©duire la stochasticit√©**, ce qui peut parfois **nuire √† la g√©n√©ralisation** (d'o√π l‚Äôint√©r√™t des petits batchs pour √©viter un sur-apprentissage).  

En gros, c‚Äôest **un bon compromis** pour stabiliser l'entra√Ænement avec un petit batch, mais il ne remplace pas les autres techniques d'am√©lioration de la g√©n√©ralisation.  

Tu cherches √† optimiser un mod√®le pr√©cis avec cette approche ? üòä