---

### üìú Licence d'utilisation

Ce document est prot√©g√© sous licence **Creative Commons BY-NC-ND 4.0 International**  
üîí **Aucune modification ni r√©utilisation sans autorisation explicite de l'auteur.**

- üë§ Auteur : Christie Vassilian  
- üì• T√©l√©chargement autoris√© uniquement √† usage p√©dagogique personnel  
- üö´ R√©utilisation commerciale ou modification interdite  

[![Licence CC BY-NC-ND](https://licensebuttons.net/l/by-nc-nd/4.0/88x31.png)](https://creativecommons.org/licenses/by-nc-nd/4.0/)

--- 2025


# TP : Classification vs D√©tection ‚Äî Comprendre CNN, R-CNN et YOLO

Dans ce TP, tu vas comparer trois familles de mod√®les de vision artificielle :

- **CNN (classification simple)**
- **R-CNN (d√©tection en deux √©tapes)**
- **YOLO (d√©tection en une seule passe, temps r√©el)**

Tu vas utiliser ces mod√®les sur les **m√™mes images**, pour comprendre :

- ce que chaque mod√®le **peut** faire,
- ce qu‚Äôil **ne peut pas** faire,
- **pourquoi** on utilise YOLO aujourd‚Äôhui pour la d√©tection.

---

## üéØ Objectifs du TP

- Comprendre la diff√©rence entre **classification** et **d√©tection d‚Äôobjets**.  
- Voir comment un CNN simple atteint ses limites pour la localisation.  
- Utiliser un mod√®le de type **R-CNN** pour obtenir des bo√Ætes englobantes.  
- Utiliser **YOLO** pour comparer vitesse, efficacit√© et temps r√©el.  
- Construire une **synth√®se claire** entre les trois familles de mod√®les.



---
# üü¶ PARTIE 0 ‚Äî Pr√©paration du Notebook

üëâ Dans cette partie, on installe les biblioth√®ques n√©cessaires et on pr√©pare l'environnement.

> **Q0.1** : Pourquoi a-t-on besoin de biblioth√®ques pr√©-entra√Æn√©es pour ce TP ?  
> **Q0.2** : Quels sont les avantages d‚Äôutiliser des mod√®les d√©j√† entra√Æn√©s (comme ResNet ou YOLO) ?


In [None]:

# Installation (√† ex√©cuter dans Colab ou un environnement avec internet)
# Si tu es sur Google Colab, v√©rifie que tu as bien un GPU (Menu : Ex√©cution > Modifier le type d'ex√©cution > GPU).

!pip install ultralytics -q

import torch, torchvision
print("Version torch :", torch.__version__)
print("GPU disponible :", torch.cuda.is_available())



---
# üü¶ PARTIE 1 ‚Äî CNN : Classification d‚Äôune image enti√®re

Un **CNN de classification** prend une image en entr√©e et renvoie **une seule √©tiquette** (chien, chat, voiture‚Ä¶).  
Il ne renvoie **aucune information de position** des objets dans l‚Äôimage.

> **Q1.1** : En une phrase, explique la diff√©rence entre *classification* et *d√©tection d‚Äôobjets*.  
> **Q1.2** : Pourquoi la d√©tection d‚Äôobjets est-elle un probl√®me plus complexe que la simple classification ?



## 1.1 Chargement d‚Äôun mod√®le de classification (ResNet18)

On va utiliser **ResNet18**, un r√©seau de neurones convolutif pr√©-entra√Æn√© sur le jeu de donn√©es ImageNet.


In [None]:

import torch
from torchvision import models, transforms
from PIL import Image
from IPython.display import display

device = "cuda" if torch.cuda.is_available() else "cpu"
print("P√©riph√©rique utilis√© :", device)

# Chargement du mod√®le de classification
model_cnn = models.resnet18(weights=models.ResNet18_Weights.DEFAULT)
model_cnn.eval().to(device)

# Pr√©traitement associ√© au mod√®le
preprocess = models.ResNet18_Weights.DEFAULT.transforms()
labels = models.ResNet18_Weights.DEFAULT.meta["categories"]

print("Mod√®le ResNet18 charg√© avec succ√®s.")



## 1.2 Fonction de classification d‚Äôune image

On d√©finit une fonction qui :

1. charge l‚Äôimage,
2. applique les pr√©traitements,
3. passe l‚Äôimage dans le r√©seau,
4. affiche les **5 classes les plus probables**.


In [None]:

def classify_image(path):
    img = Image.open(path).convert("RGB")
    x = preprocess(img).unsqueeze(0).to(device)

    with torch.no_grad():
        logits = model_cnn(x)
        probs = torch.softmax(logits, dim=1)[0]

    topk = torch.topk(probs, 5)
    print("Top 5 pr√©dictions :")
    for score, idx in zip(topk.values, topk.indices):
        print(f"{labels[idx]} : {score:.3f}")

    display(img)

print("Fonction classify_image pr√™te.")



## 1.3 Tester la classification sur une image

1. T√©l√©verse une image contenant **un seul objet principal** (par exemple : un chien, une voiture...).  
2. Observe la pr√©diction du CNN.

> **Q1.3** : Que renvoie exactement le r√©seau (type de sortie) ?  
> **Q1.4** : Est-ce que le r√©seau donne une information sur la **position** de l‚Äôobjet dans l‚Äôimage ? Explique.  
> **Q1.5** : Quel serait le probl√®me si l‚Äôimage contenait **plusieurs objets diff√©rents** (ex : une personne + un chien + une voiture) ?


In [None]:

# T√©l√©versement d'une image (Google Colab)
from google.colab import files

print("Choisis une image sur ton ordinateur (format .jpg ou .png).")
uploaded = files.upload()

image_path = list(uploaded.keys())[0]
print("Image choisie :", image_path)

classify_image(image_path)



> **Q1.6** : Explique, en quelques phrases, pourquoi un CNN de classification ne peut pas r√©soudre le probl√®me de **d√©tection d‚Äôobjets**.  
> (Indice : une seule pr√©diction pour toute l‚Äôimage, aucune coordonn√©e de bo√Æte...)



---
# üü© PARTIE 2 ‚Äî R-CNN : D√©tection en deux √©tapes

Les mod√®les de type **R-CNN** sont con√ßus pour la **d√©tection d‚Äôobjets** : ils renvoient des **bo√Ætes englobantes** et des **classes** pour chaque objet d√©tect√©.

Id√©e g√©n√©rale (simplifi√©e) :  
1. Proposer des **r√©gions candidates** (zones o√π il pourrait y avoir un objet),  
2. Appliquer un CNN sur chaque r√©gion,  
3. Pr√©dire la **classe** et affiner la **bo√Æte** pour chaque objet.

Dans ce TP, on va utiliser un mod√®le pratique : **Faster R-CNN** (impl√©ment√© dans `torchvision`).



## 2.1 Chargement de Faster R-CNN

On charge un mod√®le pr√©-entra√Æn√© sur le jeu de donn√©es COCO.


In [None]:

from torchvision.models.detection import fasterrcnn_resnet50_fpn

model_rcnn = fasterrcnn_resnet50_fpn(weights="DEFAULT").to(device)
model_rcnn.eval()

print("Mod√®le Faster R-CNN charg√©.")



## 2.2 Fonction de d√©tection avec R-CNN

On applique le mod√®le sur la **m√™me image** que dans la Partie 1 et on affiche des bo√Ætes.


In [None]:

import matplotlib.pyplot as plt
import cv2
import numpy as np
from torchvision import transforms as T

def detect_rcnn(path, score_threshold=0.5):
    img = Image.open(path).convert("RGB")
    transform = T.ToTensor()
    x = transform(img).unsqueeze(0).to(device)

    with torch.no_grad():
        outputs = model_rcnn(x)[0]

    boxes = outputs["boxes"].cpu().numpy()
    labels_rcnn = outputs["labels"].cpu().numpy()
    scores = outputs["scores"].cpu().numpy()

    img_np = np.array(img)

    for (box, label, score) in zip(boxes, labels_rcnn, scores):
        if score < score_threshold:
            continue
        x1, y1, x2, y2 = box.astype(int)
        cv2.rectangle(img_np, (x1, y1), (x2, y2), 2)
        cv2.putText(img_np, f"{label} ({score:.2f})", (x1, max(y1-10, 0)),
                    cv2.FONT_HERSHEY_SIMPLEX, 0.5, 2, 1)

    plt.imshow(img_np)
    plt.axis("off")

print("Fonction detect_rcnn pr√™te.")



## 2.3 D√©tection sur la m√™me image qu‚Äôen Partie 1

On applique maintenant Faster R-CNN sur la **m√™me image** que celle utilis√©e avec le CNN de classification.

> **Q2.1** : Combien d‚Äôobjets semblent √™tre d√©tect√©s sur l‚Äôimage ?  
> **Q2.2** : Quelles informations suppl√©mentaires obtiens-tu par rapport au CNN de la Partie 1 ?


In [None]:

detect_rcnn(image_path, score_threshold=0.5)



> **Q2.3** : D√©cris la forme de la sortie de Faster R-CNN (types d'informations).  
> **Q2.4** : En quoi cette sortie est-elle fondamentalement diff√©rente de celle du CNN de classification ?  
> **Q2.5** : Pourquoi ce type de mod√®le est-il plus **lent** qu‚Äôun CNN simple (m√™me si on ne voit pas forc√©ment la diff√©rence sur une seule image) ?  
> **Q2.6** : Selon toi, quel probl√®me peut se poser si on veut utiliser ce mod√®le en **temps r√©el** sur une webcam ?



---
# üüß PARTIE 3 ‚Äî YOLO : D√©tection en une seule passe (temps r√©el)

Les mod√®les **YOLO (You Only Look Once)** sont aussi des r√©seaux convolutifs, mais organis√©s pour faire la d√©tection en **une seule passe** sur l‚Äôimage compl√®te.

Id√©e cl√© :  
- l‚Äôimage est divis√©e en une **grille**,  
- le r√©seau pr√©dit, pour chaque zone, des **bo√Ætes + classes**,  
- tout est calcul√© en une seule fois, ce qui permet la **vitesse** et le **temps r√©el**.

> **Q3.1** : Pourquoi l‚Äôid√©e de ‚Äúregarder l‚Äôimage une seule fois‚Äù (You Only Look Once) est-elle int√©ressante pour le temps r√©el ?



## 3.1 Chargement du mod√®le YOLOv8

On utilise la biblioth√®que `ultralytics` pour charger un mod√®le YOLOv8 pr√©-entra√Æn√©.


In [None]:

from ultralytics import YOLO

# Mod√®le YOLOv8 "small" (compromis vitesse/pr√©cision)
model_yolo = YOLO("yolov8s.pt")
print("Mod√®le YOLOv8s charg√©.")



## 3.2 D√©tection avec YOLO sur la m√™me image

On applique YOLO sur la **m√™me image** que dans les parties 1 et 2.


In [None]:

def detect_yolo(path):
    results = model_yolo(path)
    for r in results:
        img_plot = r.plot()  # numpy (BGR)
        img_plot = cv2.cvtColor(img_plot, cv2.COLOR_BGR2RGB)
        plt.imshow(img_plot)
        plt.axis("off")

print("Fonction detect_yolo pr√™te.")


In [None]:

detect_yolo(image_path)



> **Q3.2** : YOLO renvoie-t-il, lui aussi, des bo√Ætes englobantes et des classes pour plusieurs objets ?  
> **Q3.3** : Par rapport √† Faster R-CNN, que remarques-tu sur la ‚Äúr√©activit√©‚Äù du mod√®le (m√™me si on ne fait qu‚Äôune image ici) ?  
> **Q3.4** : Pourquoi YOLO est-il particuli√®rement adapt√© √† une utilisation **sur webcam** ou **sur Raspberry Pi** ?  
> **Q3.5** : YOLO utilise-t-il encore des convolutions comme les CNN classiques ?  



### (Optionnel) 3.3 YOLO sur la webcam

Cette partie n√©cessite un acc√®s cam√©ra (souvent plus simple en local que sur Colab).

```python
# Exemple indicatif (peut ne pas fonctionner directement sur Colab)
import cv2

cap = cv2.VideoCapture(0)

while True:
    ret, frame = cap.read()
    if not ret:
        break
    results = model_yolo(frame)
    plotted = results[0].plot()
    cv2.imshow("YOLOv8 Webcam", plotted)
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

cap.release()
cv2.destroyAllWindows()
```



---
# üü® PARTIE 4 ‚Äî Synth√®se Finale

Dans cette derni√®re partie, tu vas comparer les trois familles de mod√®les et r√©diger une courte conclusion.

## 4.1 Tableau comparatif (√† compl√©ter)

Recopie et compl√®te le tableau suivant dans ton cahier ou dans une cellule texte :

| Mod√®le | T√¢che principale | Sortie | Avantages | Limites |
|--------|------------------|--------|-----------|---------|
| CNN    |                  |        |           |         |
| R-CNN  |                  |        |           |         |
| YOLO   |                  |        |           |         |

> **Q4.1** : Pour chaque mod√®le, pr√©cise s‚Äôil fait de la **classification** ou de la **d√©tection**, et ce qu‚Äôil renvoie exactement en sortie.

## 4.2 Questions de synth√®se

> **Q4.2** : Explique ce que permet un **CNN**, un **R-CNN** puis un **YOLO**, et les limites de chacun.  
> **Q4.3** : Dans quel cas pr√©cis utiliserais-tu :  
> - un CNN simple ?  
> - un mod√®le de type R-CNN ?  
> - un mod√®le de type YOLO ?  

> **Q4.4** : Si tu devais cr√©er une application de d√©tection d‚Äôobjets **en temps r√©el** (par exemple pour suivre des objets avec une webcam), quel mod√®le choisirais-tu et pourquoi ?


üëè Bravo, tu as maintenant manipul√© trois grandes familles de mod√®les de vision et compris leurs diff√©rences fondamentales :
- **CNN** : reconna√Æt *quoi* il y a dans une image.  
- **R-CNN** : reconna√Æt *quoi* et *o√π*, mais de mani√®re plus lourde.  
- **YOLO** : reconna√Æt *quoi* et *o√π* en **temps r√©el**, en une seule passe.


---

### üìú Licence d'utilisation

Ce document est prot√©g√© sous licence **Creative Commons BY-NC-ND 4.0 International**  
üîí **Aucune modification ni r√©utilisation sans autorisation explicite de l'auteur.**

- üë§ Auteur : Christie Vassilian  
- üì• T√©l√©chargement autoris√© uniquement √† usage p√©dagogique personnel  
- üö´ R√©utilisation commerciale ou modification interdite  

[![Licence CC BY-NC-ND](https://licensebuttons.net/l/by-nc-nd/4.0/88x31.png)](https://creativecommons.org/licenses/by-nc-nd/4.0/)

--- 2025