# D√©tection de palmiers avec YOLOv8 + Export ONNX pour Deepness (QGIS)

Ce notebook permet de :
1. Monter Google Drive et acc√©der au dataset
2. Installer les d√©pendances n√©cessaires
3. **Diagnostiquer** le dataset (labels, tailles de bboxes, images)
4. Entra√Æner un mod√®le **YOLOv8s** optimis√© sur des images de palmiers
5. Exporter le mod√®le au format ONNX
6. Ajouter les m√©tadonn√©es Deepness (plugin QGIS) au fichier ONNX
7. Sauvegarder le mod√®le final dans Google Drive

**Pr√©requis** : le dataset doit √™tre dans Google Drive avec la structure suivante :
```
dataset_palmiers/
‚îú‚îÄ‚îÄ images/
‚îÇ   ‚îú‚îÄ‚îÄ train/
‚îÇ   ‚îî‚îÄ‚îÄ val/
‚îú‚îÄ‚îÄ labels/
‚îÇ   ‚îú‚îÄ‚îÄ train/
‚îÇ   ‚îî‚îÄ‚îÄ val/
‚îî‚îÄ‚îÄ palms.yaml
```

## 1. Monter Google Drive

In [None]:
from google.colab import drive
drive.mount('/content/drive')

## 2. Installer les d√©pendances

On installe `ultralytics` (YOLOv8) et `onnx` (pour manipuler les m√©tadonn√©es du mod√®le export√©).

In [None]:
!pip install ultralytics onnx --quiet

## 3. D√©finir le chemin du dataset et mettre √† jour `palms.yaml`

On met √† jour le fichier `palms.yaml` pour que le chemin (`path`) pointe vers le dossier dans Google Drive.

In [None]:
import os
import yaml

# --- Trouver automatiquement le dataset dans Google Drive ---
DRIVE_ROOT = '/content/drive/MyDrive'

# Chemins possibles (ajoutez le v√¥tre si diff√©rent)
candidates = [
    os.path.join(DRIVE_ROOT, 'Recherche', 'dataset_palmiers'),
    os.path.join(DRIVE_ROOT, 'dataset_palmiers'),
    os.path.join(DRIVE_ROOT, 'recherche', 'dataset_palmiers'),
]

DATASET_DIR = None
for path in candidates:
    if os.path.isdir(path):
        DATASET_DIR = path
        break

# Si aucun candidat trouv√©, afficher le contenu du Drive pour aider
if DATASET_DIR is None:
    print("‚ùå Dataset non trouv√© dans les chemins suivants :")
    for p in candidates:
        print(f"   {p}")
    print(f"\nüìÇ Contenu de {DRIVE_ROOT} :")
    for item in sorted(os.listdir(DRIVE_ROOT)):
        full = os.path.join(DRIVE_ROOT, item)
        marker = 'üìÅ' if os.path.isdir(full) else 'üìÑ'
        print(f"   {marker} {item}")
    # Chercher r√©cursivement un dossier dataset_palmiers
    print("\nüîç Recherche de 'dataset_palmiers' dans le Drive...")
    for root, dirs, files in os.walk(DRIVE_ROOT):
        if 'dataset_palmiers' in dirs:
            found = os.path.join(root, 'dataset_palmiers')
            print(f"   ‚úÖ Trouv√© : {found}")
    raise FileNotFoundError("Modifiez DATASET_DIR avec le bon chemin ci-dessus.")

YAML_PATH = os.path.join(DATASET_DIR, 'palms.yaml')
assert os.path.isfile(YAML_PATH), f"Le fichier palms.yaml n'existe pas dans {DATASET_DIR}"

print(f"‚úÖ Dataset trouv√© : {DATASET_DIR}")

# Mettre √† jour le path dans palms.yaml pour pointer vers Colab
with open(YAML_PATH, 'r') as f:
    config = yaml.safe_load(f)

config['path'] = DATASET_DIR

with open(YAML_PATH, 'w') as f:
    yaml.dump(config, f, default_flow_style=False, allow_unicode=True)

print("Configuration du dataset :")
print(yaml.dump(config, default_flow_style=False, allow_unicode=True))

# V√©rifier la pr√©sence des images et labels
for split in ['train', 'val']:
    img_dir = os.path.join(DATASET_DIR, 'images', split)
    lbl_dir = os.path.join(DATASET_DIR, 'labels', split)
    n_img = len([f for f in os.listdir(img_dir) if f.endswith(('.tif', '.tiff', '.png', '.jpg'))])
    n_lbl = len([f for f in os.listdir(lbl_dir) if f.endswith('.txt')])
    print(f"  {split}: {n_img} images, {n_lbl} labels")

## 4. Diagnostic du dataset

Avant d'entra√Æner, on v√©rifie la qualit√© du dataset :
- Labels vides ou manquants
- Distribution des tailles de bounding boxes
- Nombre d'objets par image

Cela permet de d√©tecter des probl√®mes en amont (annotations incorrectes, objets trop petits, etc.).

In [None]:
import glob
import numpy as np
import matplotlib.pyplot as plt
from collections import Counter

print("=" * 60)
print("DIAGNOSTIC DU DATASET")
print("=" * 60)

all_widths, all_heights, objects_per_image = [], [], []
empty_labels, missing_labels = [], []

for split in ['train', 'val']:
    img_dir = os.path.join(DATASET_DIR, 'images', split)
    lbl_dir = os.path.join(DATASET_DIR, 'labels', split)

    images = sorted(glob.glob(os.path.join(img_dir, '*.*')))
    print(f"\n--- {split.upper()} ---")
    print(f"  Images trouv√©es : {len(images)}")

    for img_path in images:
        base = os.path.splitext(os.path.basename(img_path))[0]
        lbl_path = os.path.join(lbl_dir, base + '.txt')

        if not os.path.exists(lbl_path):
            missing_labels.append(f"{split}/{base}")
            objects_per_image.append(0)
            continue

        with open(lbl_path, 'r') as f:
            lines = [l.strip() for l in f.readlines() if l.strip()]

        if len(lines) == 0:
            empty_labels.append(f"{split}/{base}")
            objects_per_image.append(0)
            continue

        objects_per_image.append(len(lines))
        for line in lines:
            parts = line.split()
            if len(parts) >= 5:
                w, h = float(parts[3]), float(parts[4])
                all_widths.append(w)
                all_heights.append(h)

if missing_labels:
    print(f"\n‚ö†Ô∏è  Labels MANQUANTS ({len(missing_labels)}) : {missing_labels[:10]}")
if empty_labels:
    print(f"‚ö†Ô∏è  Labels VIDES ({len(empty_labels)}) : {empty_labels[:10]}")
if not missing_labels and not empty_labels:
    print("\n‚úÖ Tous les labels sont pr√©sents et non-vides.")

total_objects = sum(objects_per_image)
print(f"\nüìä Statistiques :")
print(f"  Total d'objets annot√©s : {total_objects}")
print(f"  Objets/image ‚Äî min: {min(objects_per_image)}, max: {max(objects_per_image)}, "
      f"moyenne: {np.mean(objects_per_image):.1f}, m√©diane: {np.median(objects_per_image):.0f}")

# Graphiques
fig, axes = plt.subplots(1, 3, figsize=(16, 4))

# Distribution du nombre d'objets par image
axes[0].hist(objects_per_image, bins=30, color='steelblue', edgecolor='white')
axes[0].set_title("Objets par image")
axes[0].set_xlabel("Nombre d'objets")
axes[0].set_ylabel("Nombre d'images")

# Distribution des largeurs de bbox (normalis√©es)
axes[1].hist(all_widths, bins=50, color='coral', edgecolor='white')
axes[1].set_title("Largeur des bboxes (normalis√©e)")
axes[1].set_xlabel("Largeur")
axes[1].axvline(np.median(all_widths), color='red', linestyle='--', label=f'm√©diane={np.median(all_widths):.3f}')
axes[1].legend()

# Distribution des hauteurs de bbox (normalis√©es)
axes[2].hist(all_heights, bins=50, color='mediumseagreen', edgecolor='white')
axes[2].set_title("Hauteur des bboxes (normalis√©e)")
axes[2].set_xlabel("Hauteur")
axes[2].axvline(np.median(all_heights), color='red', linestyle='--', label=f'm√©diane={np.median(all_heights):.3f}')
axes[2].legend()

plt.tight_layout()
plt.show()

# Alerte si bboxes tr√®s petites
small_threshold = 0.02  # 2% de l'image
n_small = sum(1 for w, h in zip(all_widths, all_heights) if w < small_threshold or h < small_threshold)
if n_small > 0:
    pct = n_small / len(all_widths) * 100
    print(f"\n‚ö†Ô∏è  {n_small} bboxes ({pct:.1f}%) sont tr√®s petites (<{small_threshold*100}% de l'image).")
    print(f"   ‚Üí La taille d'entr√©e imgsz=1024 aidera √† les d√©tecter.")
else:
    print(f"\n‚úÖ Toutes les bboxes ont une taille raisonnable.")

## 5. Corriger les labels (BOM + classes incorrectes)

Deux probl√®mes courants d√©tect√©s dans les labels :
1. **BOM UTF-8** (`\ufeff`) : caract√®re invisible en d√©but de fichier, ajout√© par certains √©diteurs Windows
2. **Classes incorrectes** : certains fichiers utilisent la classe `17` au lieu de `0` ‚Äî on remap tout vers la classe `0` (palmier unique)

In [None]:
import glob

bom_fixed = 0
class_fixed = 0

for split in ['train', 'val']:
    lbl_dir = os.path.join(DATASET_DIR, 'labels', split)
    for lbl_file in sorted(glob.glob(os.path.join(lbl_dir, '*.txt'))):
        # Lire en binaire pour d√©tecter le BOM
        with open(lbl_file, 'rb') as f:
            raw = f.read()

        # Supprimer le BOM UTF-8 (EF BB BF)
        had_bom = raw.startswith(b'\xef\xbb\xbf')
        if had_bom:
            raw = raw[3:]
            bom_fixed += 1

        # D√©coder et corriger les classes
        text = raw.decode('utf-8')
        new_lines = []
        file_class_fixed = False
        for line in text.strip().split('\n'):
            if not line.strip():
                continue
            parts = line.strip().split()
            if len(parts) >= 5 and parts[0] != '0':
                parts[0] = '0'  # Remap toute classe vers 0 (palmier)
                file_class_fixed = True
            new_lines.append(' '.join(parts))

        if file_class_fixed:
            class_fixed += 1

        # R√©√©crire si modifi√©
        if had_bom or file_class_fixed:
            with open(lbl_file, 'w', encoding='utf-8', newline='\n') as f:
                f.write('\n'.join(new_lines) + '\n')

# Supprimer les fichiers .cache corrompus
for cache_file in glob.glob(os.path.join(DATASET_DIR, 'labels', '*.cache')):
    os.remove(cache_file)
    print(f"  Cache supprim√© : {cache_file}")

print(f"\n‚úÖ BOM supprim√© de {bom_fixed} fichiers.")
print(f"‚úÖ Classe corrig√©e (‚Üí 0) dans {class_fixed} fichiers.")
print("   Les labels sont maintenant pr√™ts pour YOLO.")

## 6. Convertir les images RGBA ‚Üí RGB

Les GeoTIFF ont 4 canaux (RGBA) mais YOLOv8 attend 3 canaux (RGB). On convertit toutes les images en supprimant le canal alpha, et on les sauvegarde en PNG (format standard pour YOLO).

In [None]:
from PIL import Image
import glob

converted = 0
for split in ['train', 'val']:
    img_dir = os.path.join(DATASET_DIR, 'images', split)
    for img_path in sorted(glob.glob(os.path.join(img_dir, '*.tif'))):
        img = Image.open(img_path)
        # Convertir en RGB si l'image a un canal alpha (RGBA)
        if img.mode == 'RGBA':
            img = img.convert('RGB')
        elif img.mode != 'RGB':
            img = img.convert('RGB')

        # Sauvegarder en PNG (m√™me nom, extension .png)
        png_path = os.path.splitext(img_path)[0] + '.png'
        img.save(png_path)
        converted += 1

    # Supprimer les anciens .tif pour √©viter les doublons
    for tif_path in glob.glob(os.path.join(img_dir, '*.tif')):
        os.remove(tif_path)

# Supprimer les .cache pour forcer YOLO √† rescanner les nouvelles images
for cache_file in glob.glob(os.path.join(DATASET_DIR, 'labels', '*.cache')):
    os.remove(cache_file)

print(f"‚úÖ {converted} images converties de RGBA/TIF ‚Üí RGB/PNG.")
print(f"   Les fichiers .tif originaux ont √©t√© supprim√©s.")

## 7. Entra√Æner le mod√®le YOLOv8n (adapt√© petit dataset)

Avec seulement **38 images d'entra√Ænement**, il faut √©viter l'overfitting. On utilise **YOLOv8n** (nano, 3M params) au lieu de YOLOv8s (11M) et on applique une strat√©gie de **fine-tuning** :

**Adaptations au petit dataset :**
- `yolov8n.pt` : mod√®le l√©ger ‚Üí moins de risque d'overfitting
- `imgsz=640` : proche du natif 680px (pas d'upscale inutile)
- `freeze=10` : geler le backbone pr√©-entra√Æn√©, ne fine-tuner que la t√™te de d√©tection
- `lr0=0.001` : learning rate bas pour du fine-tuning
- `copy_paste=0.3` : copie-colle d'objets entre images (augmentation tr√®s efficace)
- `mixup=0.15` : m√©lange d'images pour r√©gulariser
- `epochs=200` / `patience=30` : plus de temps avec LR bas

In [None]:
from ultralytics import YOLO

# YOLOv8n (nano) ‚Äî mieux adapt√© √† un petit dataset (38 images)
model = YOLO('yolov8n.pt')

# Entra√Ænement optimis√© pour petit dataset + vue a√©rienne
results = model.train(
    data=YAML_PATH,
    epochs=200,
    imgsz=640,           # proche du natif 680px, pas d'upscale
    batch=8,
    project=os.path.join(DATASET_DIR, 'runs'),
    name='palmier_detect',
    exist_ok=True,
    # --- Fine-tuning ---
    freeze=10,           # geler le backbone (couches 0-9), fine-tuner la t√™te
    lr0=0.001,           # LR bas pour fine-tuning
    lrf=0.01,            # LR final = lr0 * lrf
    cos_lr=True,         # cosine annealing
    # --- Early stopping ---
    patience=30,         # 30 √©poques sans am√©lioration ‚Üí arr√™t
    # --- Augmentations vue a√©rienne ---
    degrees=90.0,        # rotation ¬±90¬∞ (palmiers vus du dessus)
    flipud=0.5,          # retournement vertical (vue z√©nithale)
    fliplr=0.5,          # retournement horizontal
    scale=0.3,           # multi-scale mod√©r√© (petit dataset)
    mosaic=1.0,          # mosaic activ√©
    close_mosaic=20,     # d√©sactiver mosaic les 20 derni√®res √©poques
    copy_paste=0.3,      # copie-colle d'objets entre images
    mixup=0.15,          # m√©lange d'images pour r√©gulariser
    # --- Sauvegarde ---
    save=True,
    plots=True
)

## 6. Visualiser les r√©sultats d'entra√Ænement

Afficher les courbes de loss et les m√©triques de validation.

In [None]:
from IPython.display import Image, display

run_dir = os.path.join(DATASET_DIR, 'runs', 'palmier_detect')

# Afficher les courbes de r√©sultats
results_img = os.path.join(run_dir, 'results.png')
if os.path.exists(results_img):
    display(Image(filename=results_img, width=900))
else:
    print("Fichier results.png non trouv√©.")

# Afficher la matrice de confusion
conf_img = os.path.join(run_dir, 'confusion_matrix.png')
if os.path.exists(conf_img):
    display(Image(filename=conf_img, width=600))

# Afficher des pr√©dictions sur le set de validation
val_img = os.path.join(run_dir, 'val_batch0_pred.png')
if os.path.exists(val_img):
    display(Image(filename=val_img, width=900))

## 7. √âvaluation d√©taill√©e sur le set de validation

On lance une √©valuation formelle avec le meilleur mod√®le pour obtenir les m√©triques pr√©cises (mAP50, mAP50-95, pr√©cision, rappel).

In [None]:
# Charger le meilleur mod√®le et lancer la validation
run_dir = os.path.join(DATASET_DIR, 'runs', 'palmier_detect')
best_model_path = os.path.join(run_dir, 'weights', 'best.pt')

val_model = YOLO(best_model_path)
metrics = val_model.val(data=YAML_PATH, imgsz=640, split='val')

print("=" * 50)
print("M√âTRIQUES DE VALIDATION")
print("=" * 50)
print(f"  Pr√©cision (P)   : {metrics.box.mp:.4f}")
print(f"  Rappel (R)      : {metrics.box.mr:.4f}")
print(f"  mAP@50          : {metrics.box.map50:.4f}")
print(f"  mAP@50-95       : {metrics.box.map:.4f}")
print()

# Interpr√©tation
map50 = metrics.box.map50
if map50 >= 0.85:
    print("‚úÖ Excellent ! Le mod√®le d√©tecte tr√®s bien les palmiers.")
elif map50 >= 0.70:
    print("üëç Bon r√©sultat. Peut √™tre am√©lior√© avec plus de donn√©es ou plus d'√©poques.")
elif map50 >= 0.50:
    print("‚ö†Ô∏è  R√©sultat moyen. V√©rifiez la qualit√© des annotations et augmentez les donn√©es.")
else:
    print("‚ùå R√©sultat faible. Le dataset ou les annotations n√©cessitent une r√©vision.")

## 8. Exporter le meilleur mod√®le en ONNX

On charge le meilleur poids (`best.pt`) et on l'exporte au format ONNX avec `imgsz=640` (m√™me taille que l'entra√Ænement).

In [None]:
# Charger le meilleur mod√®le entra√Æn√©
best_model_path = os.path.join(run_dir, 'weights', 'best.pt')
assert os.path.isfile(best_model_path), f"Mod√®le introuvable : {best_model_path}"

best_model = YOLO(best_model_path)

# Exporter en ONNX (opset=17 pour compatibilit√© avec Deepness/QGIS)
onnx_path = best_model.export(format='onnx', imgsz=640, opset=17)
print(f"Mod√®le ONNX export√© : {onnx_path}")

## 9. Ajouter les m√©tadonn√©es Deepness au fichier ONNX

Le plugin **Deepness** pour QGIS attend des m√©tadonn√©es sp√©cifiques dans le mod√®le ONNX.
On les ajoute ici directement dans le fichier.

**Important** : ajustez la valeur `resolution` (en cm/pixel) selon la r√©solution r√©elle de vos orthophotos.

In [None]:
import onnx
import json

# Charger le mod√®le ONNX
onnx_model = onnx.load(onnx_path)

# --- Supprimer toutes les m√©tadonn√©es existantes (ajout√©es par Ultralytics) ---
# Deepness fait json.loads() sur CHAQUE valeur ‚Üí il faut que tout soit du JSON valide.
# Les m√©tadonn√©es Ultralytics ne sont pas au bon format ‚Üí on les supprime.
while len(onnx_model.metadata_props) > 0:
    onnx_model.metadata_props.pop()

# --- M√©tadonn√©es Deepness ---
# IMPORTANT : toutes les valeurs doivent √™tre encod√©es avec json.dumps()
# car Deepness appelle json.loads() sur chaque valeur lue.
# R√©f: https://github.com/PUTvision/qgis-plugin-deepness/blob/devel/tutorials/detection/cars_yolov7/car_detection__prepare_and_train.ipynb

class_names = {0: 'palmier'}  # cl√© int ‚Üí json.dumps convertira en "0"

m1 = onnx_model.metadata_props.add()
m1.key = 'model_type'
m1.value = json.dumps('Detector')         # ‚Üí '"Detector"'

m2 = onnx_model.metadata_props.add()
m2.key = 'class_names'
m2.value = json.dumps(class_names)         # ‚Üí '{"0": "palmier"}'

m3 = onnx_model.metadata_props.add()
m3.key = 'resolution'
m3.value = json.dumps(30)                  # cm/pixel ‚Äî √† adapter !

m4 = onnx_model.metadata_props.add()
m4.key = 'det_conf'
m4.value = json.dumps(0.3)

m5 = onnx_model.metadata_props.add()
m5.key = 'det_iou_thresh'
m5.value = json.dumps(0.5)

m6 = onnx_model.metadata_props.add()
m6.key = 'det_type'
m6.value = json.dumps('YOLO_Ultralytics')  # ‚Üí '"YOLO_Ultralytics"'

# Sauvegarder le mod√®le ONNX avec les m√©tadonn√©es
output_onnx_path = os.path.join(DATASET_DIR, 'palmier_yolov8n_deepness.onnx')
onnx.save(onnx_model, output_onnx_path)

print(f"Mod√®le ONNX final sauvegard√© : {output_onnx_path}")
print(f"Taille : {os.path.getsize(output_onnx_path) / 1024 / 1024:.1f} Mo")
print()
print("M√©tadonn√©es Deepness ajout√©es :")
for prop in onnx_model.metadata_props:
    print(f"  {prop.key}: {prop.value}")
    # V√©rification : chaque valeur doit √™tre parsable par json.loads
    json.loads(prop.value)
print("\n‚úÖ Toutes les valeurs sont du JSON valide.")

## 10. V√©rifier les m√©tadonn√©es du mod√®le ONNX

On relit le fichier ONNX pour confirmer que les m√©tadonn√©es sont bien enregistr√©es.

In [None]:
# V√©rification
check_model = onnx.load(output_onnx_path)

print("=" * 50)
print("M√©tadonn√©es du mod√®le ONNX export√©")
print("=" * 50)
for prop in check_model.metadata_props:
    print(f"  {prop.key}: {prop.value}")
print()
print(f"Entr√©es du mod√®le :")
for inp in check_model.graph.input:
    shape = [d.dim_value if d.dim_value else d.dim_param for d in inp.type.tensor_type.shape.dim]
    print(f"  {inp.name}: {shape}")
print(f"Sorties du mod√®le :")
for out in check_model.graph.output:
    shape = [d.dim_value if d.dim_value else d.dim_param for d in out.type.tensor_type.shape.dim]
    print(f"  {out.name}: {shape}")

## 11. T√©l√©charger le mod√®le (optionnel)

Le mod√®le est d√©j√† sauvegard√© dans Google Drive √† l'emplacement :

```
Google Drive/Recherche/dataset_palmiers/palmier_yolov8n_deepness.onnx
```

Vous pouvez aussi le t√©l√©charger directement depuis Colab :

In [None]:
from google.colab import files

# D√©commenter la ligne suivante pour t√©l√©charger le mod√®le
# files.download(output_onnx_path)

## Utilisation dans QGIS avec Deepness

1. Ouvrez QGIS et installez le plugin **Deepness** depuis le gestionnaire d'extensions
2. Chargez votre orthophoto dans QGIS
3. Lancez Deepness : **Plugins > Deepness > Detection**
4. S√©lectionnez le fichier `palmier_yolov8n_deepness.onnx`
5. Les param√®tres (confiance, IoU, r√©solution) seront automatiquement lus depuis les m√©tadonn√©es
6. Lancez l'inf√©rence ‚Äî les palmiers d√©tect√©s appara√Ætront comme une couche vectorielle