# Library import

In [26]:
import os
import subprocess
import time

import yaml
from sklearn.model_selection import GroupKFold

import torch
from torch.utils.data import DataLoader
from torch.optim import Adam
from tqdm import tqdm
import torch.nn as nn

from pathlib import Path
import json
from collections import defaultdict, Counter
import random
import random
import shutil
from tqdm import tqdm
import zipfile

# Path

In [9]:
COCO_JSON_NM = 'COCO_annotations_new.json'
OUT_COCO_JSON_NM = 'mod_COCO_annotations.json'
OUT_IMAGE_FLDR_NM = 'images'
YOLO_FLDR_NM = 'YOLO'
RANDOM_SEED = 2023

in_dataset_pth = Path('/kaggle/input/our-xview-dataset')
out_dataset_pth = Path('/kaggle/working/')
img_fldr = Path(f'/kaggle/input/our-xview-dataset/{OUT_IMAGE_FLDR_NM}')

coco_json_pth = in_dataset_pth / COCO_JSON_NM
new_coco_json_pth = out_dataset_pth / OUT_COCO_JSON_NM

yolo_path = out_dataset_pth / YOLO_FLDR_NM

train_file = "/kaggle/input/our-xview-dataset/YOLO_cfg/train.txt"
val_file = "/kaggle/input/our-xview-dataset/YOLO_cfg/val.txt"
test_file = "/kaggle/input/our-xview-dataset/YOLO_cfg/test.txt"
dataset_yaml = "/kaggle/input/our-xview-dataset/YOLO_cfg/xview_yolo.yaml" # bisogna modificare i path nel file perchè non si trovano 

In [15]:
# Pulizia dell'output per cartelle specifiche
def clean_output(output_dir):
    if output_dir.exists() and output_dir.is_dir():
        for item in output_dir.iterdir():
            if item.is_dir():
                shutil.rmtree(item)  # Rimuove la sotto-cartella
            else:
                item.unlink()  # Rimuove il file
        print(f"Cartella {output_dir} pulita.")
    else:
        print(f"Cartella {output_dir} non trovata. Nessuna azione necessaria.")

# Pulisce la cartella di output prima di avviare il processo
clean_output(out_dataset_pth)

Cartella /kaggle/working pulita.


# Utility

In [18]:
def load_json(file_path):
    """
    Carica un file JSON dal percorso specificato.

    :param file_path: Percorso al file JSON da caricare.
    :return: Dati contenuti nel file JSON (come dizionario o lista).
    """
    with open(file_path, 'r') as f:
        data = json.load(f)
    return data

# COCO Preprocessing

In [19]:
def process_custom_coco_json(input_path, output_path):
    """
    Funzione per processare un JSON COCO in formato personalizzato.
    """
    # Leggi il JSON dal file di input
    data = load_json(input_path)

    # Ottieni e correggi il formato delle categorie
    raw_categories = data.get('categories', [])
    categories = []
 
    for category in tqdm(raw_categories, desc="Processing Categories"):
        for id_str, name in category.items():
            try:
                categories.append({"id": int(id_str), "name": name})
            except ValueError:
                print(f"Errore nel parsing della categoria: {category}")
 
    # Trova la categoria "Aircraft" con ID 0
    aircraft_category = next((cat for cat in categories if cat['id'] == 0 and cat['name'] == "Aircraft"), None)
    if aircraft_category:
        aircraft_category['id'] = 11  # Cambia l'ID della categoria "Aircraft" a 11
 
    # Aggiungi la categoria "background" con ID 0 se non esiste
    if not any(cat['id'] == 0 for cat in categories):
        categories.append({"id": 0, "name": "background"})
 
    # Preprocessa le annotazioni in un dizionario per immagini
    image_annotations_dict = {}
    for annotation in tqdm(data.get('annotations', []), desc="Building Image Annotations Dictionary"):
        image_id = annotation['image_id']
        if image_id not in image_annotations_dict:
            image_annotations_dict[image_id] = []
        image_annotations_dict[image_id].append(annotation)
 
    # Elenco di annotazioni da mantenere (solo quelle valide)
    valid_annotations = []
    annotations_to_remove = set()
 
    # Controllo dei bounding box
    for annotation in tqdm(data.get('annotations', []), desc="Processing Annotations"):
        if annotation['category_id'] == 0:  # Se è Aircraft
            annotation['category_id'] = 11
        
        # Converte il formato del bbox
        if isinstance(annotation['bbox'], str):
            annotation['bbox'] = json.loads(annotation['bbox'])
        
        x, y, width, height = annotation['bbox']
        xmin, xmax = x, x + width
        ymin, ymax = y, y + height
        
        # Verifica che xmin < xmax e ymin < ymax, e che la larghezza e altezza siano sufficienti
        if xmin >= xmax or ymin >= ymax or width <= 10 or height <= 10:
            annotations_to_remove.add(annotation['id'])
        else:
            annotation['bbox'] = [xmin, ymin, xmax, ymax]
            valid_annotations.append(annotation)
 
    # Rimuovi le annotazioni non valide
    data['annotations'] = valid_annotations
 
    # Verifica se ci sono immagini senza annotazioni (usando il dizionario delle annotazioni)
    new_annotations = []
    for image in tqdm(data.get('images', []), desc="Processing Images"):
        if image['id'] not in image_annotations_dict:  # Se l'immagine non ha annotazioni
            # Aggiungi la categoria "background"
            new_annotation = {
                'id': len(data['annotations']) + len(new_annotations),
                'image_id': image['id'],
                'category_id': 0,  # Categoria background con ID 0
                'area': image['width'] * image['height'],
                'bbox': [0.0, 0.0, image['width'], image['height']],  # Background con bbox che copre tutta l'immagine
                'iscrowd': 0
            }
            new_annotations.append(new_annotation)
 
    # Aggiungi le nuove annotazioni al JSON originale
    data['annotations'].extend(new_annotations)
 
    # Aggiorna le categorie nel JSON
    data['categories'] = categories
 
    # Scrivi il JSON modificato nel file di output
    with open(output_path, 'w') as f:
        json.dump(data, f, indent=4)

In [20]:
process_custom_coco_json(coco_json_pth, new_coco_json_pth)

Processing Categories: 100%|██████████| 11/11 [00:00<00:00, 106062.86it/s]
Building Image Annotations Dictionary: 100%|██████████| 669983/669983 [00:00<00:00, 1973788.56it/s]
Processing Annotations: 100%|██████████| 669983/669983 [00:04<00:00, 148759.98it/s]
Processing Images: 100%|██████████| 45891/45891 [00:00<00:00, 777392.41it/s]


### Category Check

In [21]:
def count_bounding_boxes(json_path):
    """
    Conta il numero di bounding box per ogni categoria in un file COCO JSON.

    Args:
        json_path (str): Percorso del file JSON.

    Returns:
        list: Elenco di tuple con ID categoria, nome categoria e numero di bounding box.
    """
    # Carica il file JSON
    coco_data = load_json(json_path)

    # Estrarre i dati principali
    annotations = coco_data.get("annotations", [])
    categories = coco_data.get("categories", [])

    # Mappare id di categoria ai nomi delle categorie
    category_id_to_name = {category["id"]: category["name"] for category in categories}

    # Contare i bounding box per categoria
    bbox_counts = defaultdict(int)
    for annotation in annotations:
        category_id = annotation["category_id"]
        bbox_counts[category_id] += 1

    # Creare un elenco dei risultati
    results = [
        (cat_id, category_id_to_name.get(cat_id, "Unknown"), count)
        for cat_id, count in bbox_counts.items()
    ]
    
    # Ordinare i risultati in ordine decrescente per numero di bounding box
    results.sort(key=lambda x: x[2], reverse=True)
    
    # Stampare i risultati
    for cat_id, category_name, count in results:
        print(f"Categoria ID {cat_id} ('{category_name}'): {count} bounding box")

In [22]:
count_bounding_boxes(new_coco_json_pth)

Categoria ID 6 ('Building'): 343313 bounding box
Categoria ID 1 ('Passenger Vehicle'): 93827 bounding box
Categoria ID 2 ('Truck'): 24582 bounding box
Categoria ID 0 ('background'): 13691 bounding box
Categoria ID 4 ('Maritime Vessel'): 5161 bounding box
Categoria ID 5 ('Engineering Vehicle'): 4728 bounding box
Categoria ID 9 ('Shipping Container'): 4558 bounding box
Categoria ID 3 ('Railway Vehicle'): 3691 bounding box
Categoria ID 8 ('Storage Tank'): 1743 bounding box
Categoria ID 11 ('Aircraft'): 1561 bounding box
Categoria ID 10 ('Pylon'): 415 bounding box
Categoria ID 7 ('Helipad'): 136 bounding box


# JSON to YOLO

In [23]:
def convert_json_to_yolo(json_path, images_dir, output_dir, train_ratio=0.8, val_ratio=0.1, test_ratio=0.1):
    # Carica il file JSON
    with open(json_path) as f:
        data = json.load(f)

    # Mappa le classi
    class_mapping = {category['id']: category['name'] for category in data['categories']}
    nc = len(class_mapping)  # Numero di classi

    # Crea le cartelle per il dataset
    train_dir = os.path.join(output_dir, 'train')
    val_dir = os.path.join(output_dir, 'val')
    test_dir = os.path.join(output_dir, 'test')
    labels_dir = os.path.join(output_dir, 'labels')
    
    for dir_path in [train_dir, val_dir, test_dir, labels_dir]:
        os.makedirs(dir_path, exist_ok=True)

    # Dividi le immagini in training, validation, and test
    images = data['images']
    random.shuffle(images)
    total_images = len(images)
    
    train_split = int(train_ratio * total_images)
    val_split = int((train_ratio + val_ratio) * total_images)

    train_images = images[:train_split]
    val_images = images[train_split:val_split]
    test_images = images[val_split:]

    # Funzione per copiare le immagini in una cartella specifica
    def copy_images(image_list, target_dir):
        for image in tqdm(image_list, desc=f"Copying images to {target_dir}", unit="image"):
            src_path = os.path.join(images_dir, image['file_name'])
            dst_path = os.path.join(target_dir, image['file_name'])
            shutil.copy(src_path, dst_path)

    # Copia le immagini nelle rispettive cartelle
    copy_images(train_images, train_dir)
    copy_images(val_images, val_dir)
    copy_images(test_images, test_dir)

    # Converte le annotazioni in formato YOLO e salva nei file di testo
    def convert_annotations(image, annotations, target_dir):
        image_id = image['id']
        image_width = image['width']
        image_height = image['height']
        image_name = image['file_name']

        label_file_path = os.path.join(target_dir, f"{image_name.replace('.jpg', '.txt')}")
        label_dir = os.path.dirname(label_file_path)

        # Crea la cartella se non esiste
        os.makedirs(label_dir, exist_ok=True)

        with open(label_file_path, 'w') as label_file:
            for annotation in annotations:
                if annotation['image_id'] == image_id:
                    category_id = annotation['category_id']
                    xmin, ymin, xmax, ymax = annotation['bbox']

                    # Normalizza le coordinate
                    x_center = (xmin + xmax) / 2 / image_width
                    y_center = (ymin + ymax) / 2 / image_height
                    width = (xmax - xmin) / image_width
                    height = (ymax - ymin) / image_height

                    # Scrivi nel file di annotazione
                    label_file.write(f"{category_id} {x_center} {y_center} {width} {height}\n")

    # Converte le annotazioni per ogni immagine e le salva nelle cartelle appropriate
    def process_images(image_list, target_dir, label_target_dir):
        for image in tqdm(image_list, desc=f"Converting annotations", unit="image"):
            annotations = [annotation for annotation in data['annotations'] if annotation['image_id'] == image['id']]
            convert_annotations(image, annotations, os.path.join(label_target_dir, target_dir))

    # Processa le immagini per training, validation e test
    process_images(train_images, 'train', labels_dir)
    process_images(val_images, 'val', labels_dir)
    process_images(test_images, 'test', labels_dir)

    # Crea il file YAML per YOLO
    yaml_content = f"""
    path: {output_dir}
    train: {train_dir}
    val: {val_dir}
    test: {test_dir}
    nc: {nc}
    names: {list(class_mapping.values())}
    """
    with open(os.path.join(output_dir, 'dataset.yaml'), 'w') as yaml_file:
        yaml_file.write(yaml_content.strip())

    print("Conversione e split completati.")

In [24]:
convert_json_to_yolo(
    json_path=new_coco_json_pth,
    images_dir=img_fldr,
    output_dir=yolo_path, 
    train_ratio=0.8,
    val_ratio=0.1,
    test_ratio=0.1
)

Copying images to /kaggle/working/YOLO/train: 100%|██████████| 36712/36712 [00:51<00:00, 715.44image/s]
Copying images to /kaggle/working/YOLO/val: 100%|██████████| 4589/4589 [00:06<00:00, 677.41image/s]
Copying images to /kaggle/working/YOLO/test: 100%|██████████| 4590/4590 [00:06<00:00, 703.25image/s]
Converting annotations: 100%|██████████| 36712/36712 [37:54<00:00, 16.14image/s]
Converting annotations: 100%|██████████| 4589/4589 [04:44<00:00, 16.15image/s]
Converting annotations: 100%|██████████| 4590/4590 [04:44<00:00, 16.14image/s]


Conversione e split completati.


In [29]:
# Nome del file zip da creare
zip_file_name = "YOLO_dataset.zip"

# Elenco di file e cartelle da includere nello zip
items_to_zip = [
    "YOLO/labels",
    "YOLO/test",
    "YOLO/train",
    "YOLO/val",
    "YOLO/dataset.yaml",
]

# Funzione per aggiungere file e cartelle allo zip
def zip_folder(zipf, folder_path, base_folder=""):
    for root, _, files in os.walk(folder_path):
        for file in files:
            file_path = os.path.join(root, file)
            arcname = os.path.relpath(file_path, base_folder)
            zipf.write(file_path, arcname)

# Creazione dello zip
with zipfile.ZipFile(zip_file_name, 'w', compression=zipfile.ZIP_DEFLATED) as zipf:
    for item in items_to_zip:
        if os.path.exists(item):  # Verifica che il file o la cartella esista
            if os.path.isdir(item):  # Se è una cartella, aggiungi tutto il contenuto
                zip_folder(zipf, item, out_dataset_pth)
            else:  # Se è un file, aggiungilo direttamente
                zipf.write(item)
        else:
            print(f"Elemento non trovato: {item}")

# Azioni preliminari

### Copia il repository

In [None]:
!git clone https://github.com/ultralytics/yolov5  

### Cambia directory

In [None]:
%cd /kaggle/working/yolov5

### Installa le dipendenze

In [None]:
!pip install -r requirements.txt    

### Path

In [None]:
train_file = "/kaggle/input/our-xview-dataset/YOLO_cfg/train.txt"
val_file = "/kaggle/input/our-xview-dataset/YOLO_cfg/val.txt"
test_file = "/kaggle/input/our-xview-dataset/YOLO_cfg/test.txt"
dataset_yaml = "/kaggle/input/our-xview-dataset/YOLO_cfg/xview_yolo.yaml" # bisogna modificare i path nel file perchè non si trovano 
                                                                            # -> bisogna anche vedere se fare delle modifiche alle classi


# path per la gestione del modello e dell'addestramento
model_path = "yolov5s.pt"

# Network

In [None]:
class YoloModel(nn.Module):
    """
    Classe YOLOv5 per definire il modello e la funzione di forward.
    """
    def __init__(self, model_path="yolov5s.pt"):
        """
        Inizializza il modello YOLOv5.

        Args:
            model_path (str): Percorso ai pesi pre-addestrati YOLOv5.
        """
        super(YoloModel, self).__init__()
        self.model_path = model_path
        self.model = torch.hub.load('ultralytics/yolov5', 'custom', path=model_path)

    def forward(self, images):
        """
        Esegue la predizione sul batch di immagini.

        Args:
            images (torch.Tensor): Batch di immagini di input.

        Returns:
            torch.Tensor: Risultati delle predizioni.
        """
        return self.model(images)


In [None]:
yolo_model = YoloModel() # non è necessario segnalare il numero di classi perchè sono prese direttamente dal file .yaml

## per addestrare il modello
### python train.py --img 640 --epochs 3 --data dataset.yaml --weights yolov5s.pt

In [None]:
class Trainer:
    """
    Classe per addestrare un modello YOLOv5.
    """
    def __init__(self, model, dataset_yaml, optimizer, img_size=640, batch_size=16, epochs=50, cache="ram", save_best_only=True):
        """
        Inizializza il Trainer per YOLOv5.

        Args:
            model (YoloModel): Istanza del modello YOLOv5.
            dataset_yaml (str): Percorso al file di configurazione del dataset.
            optimizer (str): Ottimizzatore (e.g., 'Adam', 'SGD').
            img_size (int): Dimensione delle immagini di input.
            batch_size (int): Dimensione del batch per l'addestramento.
            epochs (int): Numero di epoche.
            cache (str): Tipo di caching ('ram' o 'disk').
            save_best_only (bool): Se True, salva solo il modello con la migliore performance di validazione.
        """
        self.model = model
        self.dataset_yaml = dataset_yaml
        self.img_size = img_size
        self.batch_size = batch_size
        self.epochs = epochs
        self.cache = cache
        self.optimizer = optimizer
        self.save_best_only = save_best_only
        self.best_val_loss = float('inf')  # Inizializza la miglior loss di validazione come infinita

    def train(self): 
        """
        Avvia l'addestramento del modello utilizzando YOLOv5.
        """
        print("Inizio addestramento...")
        for epoch in range(self.epochs):
            # Definisci il comando per l'addestramento
            command = (
                f"python train.py --img {self.img_size} --batch-size {self.batch_size} "
                f"--epochs {self.epochs} --optimizer {self.optimizer} "
                f"--data {self.dataset_yaml} "
                f"--weights {self.model.model_path} --cache {self.cache} "
                f"--save-period 1 --project runs/train --name {self.model.name} --exist-ok"
            )
            try:
                # Avvia il processo di training e monitora la validazione
                subprocess.run(command, check=True, shell=True)
                print(f"Epoch {epoch+1}/{self.epochs} completata.")
            except subprocess.CalledProcessError as e:
                print(f"Errore durante l'addestramento, Epoch {epoch+1}/{self.epochs} fallita. Dettagli: {e}")
                break

            # A questo punto, possiamo eseguire la validazione per monitorare i progressi
            val_loss = self.validate()

            # Salva il miglior modello sulla base della validazione
            if self.save_best_only and val_loss < self.best_val_loss:
                self.best_val_loss = val_loss
                self.save_best_model()

        print("Addestramento completato.")

    def validate(self):
        """
        Valida il modello sui dati di test e ritorna la loss di validazione.

        Returns:
            float: La loss di validazione.
        """
        print("Inizio validazione...")
        command = f"python val.py --data {self.dataset_yaml} --weights {self.model.model_path} --img {self.img_size}"
        result = subprocess.run(command, shell=True, capture_output=True, text=True)

        # Estrai la loss di validazione dal log di output
        for line in result.stdout.splitlines():
            if "val_loss" in line:  # Trova la linea con la validazione della loss
                val_loss = float(line.split()[-1])  # Assumendo che l'ultima colonna contenga la loss
                print(f"Loss di validazione: {val_loss}")
                return val_loss
        
        print("Non è stato possibile estrarre la loss di validazione.")
        return float('inf')  # Se non riesci a trovare la loss, ritorna infinito

    def save_best_model(self):
        """
        Salva il miglior modello sulla base della validazione.
        """
        print(f"Salvataggio del miglior modello con perdita di validazione: {self.best_val_loss}")
        best_model_path = f"best_model_{self.best_val_loss:.4f}.pt"
        # Comando per salvare il modello
        command = f"cp {self.model.model_path} {best_model_path}"
        subprocess.run(command, shell=True, check=True)
        print(f"Miglior modello salvato in {best_model_path}.")


In [None]:
trainer = Trainer(
    model=yolo_model,
    dataset_yaml=dataset_yaml,
    optimizer = "Adam",
    img_size=640,
    batch_size=16,
    epochs=50,
    cache="ram"
)

# 4. Avvia il training
trainer.train()

# YoloV11

In [1]:
%pip install ultralytics
import ultralytics
ultralytics.checks()

Ultralytics 8.3.56 🚀 Python-3.10.14 torch-2.4.0+cpu CPU (Intel Xeon 2.20GHz)
Setup complete ✅ (4 CPUs, 31.4 GB RAM, 6037.6/8062.4 GB disk)


In [None]:
from ultralytics import YOLO

# Load a model
model = YOLO('yolo11n.pt')  # load a pretrained model (recommended for training)

# Use the model
results = model.train(data='coco8.yaml', epochs=3)  # train the model
results = model.val()  # evaluate model performance on the validation set
results = model('https://ultralytics.com/images/bus.jpg')  # predict on an image