In [1]:
# Import necessary libraries
import os
import subprocess
import json

# Imposta la variabile d'ambiente PRIMA di aprire il video
os.environ["OPENCV_FFMPEG_READ_ATTEMPTS"] = "100000"  # Aumenta ulteriormente se necessario

import cv2
import random
from ultralytics import YOLO

# --- CARICAMENTO MODELLO YOLO ---
confidence_threshold = 0.20
sweep = "scarlet"
best_model = YOLO(f"/home/lorenzo/Scaricati/best-{sweep}.pt")

# --- CONFIGURAZIONE PATH ---
file_name = "IPS_2025-03-28.12.03.08.6760.mp4"
input_video_path = "/home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/" + file_name          # video in 1920x1080
temp_scaled_video_path = "/home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/" + "temp_scaled_" + file_name      # file temporaneo in 640x384
output_video_path = "/home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/output/out_conf_" + str(int(confidence_threshold * 100)) + "_" + sweep + "_" + file_name         # video finale in 1920x1080

In [2]:
# --- STEP 1: CREA VIDEO TEMPORANEO SCALATO A 640x384 ---
cap_in = cv2.VideoCapture(input_video_path)
if not cap_in.isOpened():
    raise Exception("Impossibile aprire il video di input.")

# Ottieni informazioni dal video originale
orig_width  = int(cap_in.get(cv2.CAP_PROP_FRAME_WIDTH))   # 1920
orig_height = int(cap_in.get(cv2.CAP_PROP_FRAME_HEIGHT))  # 1080
fps         = cap_in.get(cv2.CAP_PROP_FPS)
total_frames = int(cap_in.get(cv2.CAP_PROP_FRAME_COUNT))

print(f"Video di input: {input_video_path}")
print(f"Dimensione: {orig_width}x{orig_height}")
print(f"FPS: {fps}")
print(f"Numero di frame: {total_frames}")

# Dimensione di training di YOLO
yolo_width, yolo_height = 640, 384

# Scrittore per il video temporaneo (usa codec 'mp4v' per il file intermedio)
fourcc_temp = cv2.VideoWriter_fourcc(*'mp4v')
temp_writer = cv2.VideoWriter(temp_scaled_video_path, fourcc_temp, fps, (yolo_width, yolo_height))

frame_idx = 0
while True:
    ret, frame = cap_in.read()
    if not ret:
        break
    # Ridimensiona il frame da 1920x1080 a 640x384 (non mantiene aspect ratio originale)
    frame_resized = cv2.resize(frame, (yolo_width, yolo_height))
    temp_writer.write(frame_resized)
    frame_idx += 1

cap_in.release()
temp_writer.release()
print("Video temporaneo scalato creato.")

Video di input: /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/IPS_2025-03-28.12.03.08.6760.mp4
Dimensione: 1920x1080
FPS: 29.707249932418733
Numero di frame: 12158
Video temporaneo scalato creato.


In [3]:
# ----- STEP 2: ESEGUI PREDIZIONI CON YOLO SUL VIDEO TEMPORANEO -----
# Calcola lo skip per ottenere circa 15 fps di predizione
skip_factor = max(1, round(fps / 15))
print(f"Input fps: {fps:.2f}. Utilizzo vid_stride={skip_factor} per predire ~15 fps.")

# Utilizziamo un dizionario per salvare i risultati
# Chiave: indice del frame (nella scala 640x384) per cui è stata eseguita la predizione
# Valore: lista di dizionari contenenti: 'xywh', 'cls' e 'conf'
processed_results = {}

# Con il parametro vid_stride, YOLO processa solo i frame multipli di skip_factor
for i, result in enumerate(best_model.predict(source=temp_scaled_video_path, save=False, stream=True, vid_stride=skip_factor, conf=confidence_threshold)):
    processed_frame_idx = i * skip_factor  # indice del frame elaborato nella scala temporanea
    if result.boxes is not None and result.boxes.xywh is not None:
        xywh = result.boxes.xywh.cpu().numpy()    # coordinate in formato (x_center, y_center, width, height)
        cls = result.boxes.cls.cpu().numpy()        # indice della classe per ogni box
        conf = result.boxes.conf.cpu().numpy()      # confidenza per ogni box
        boxes_data = []
        for j in range(len(xywh)):
            # Se (la classe è "manhole" (indice 2) e la confidenza è inferiore al 80%) o 
            # (la classe è pothole e la confidence è inferiore al 20%) o 
            # (la classe è crack e la conf è < di 40%), 
            # salta questa box
            if (int(cls[j]) == 2 and float(conf[j]) < 0.80) or \
               (int(cls[j]) == 0 and float(conf[j]) < 0.20) or \
               (int(cls[j]) == 1 and float(conf[j]) < 0.40):
                continue
            boxes_data.append({
                'xywh': xywh[j],
                'cls': int(cls[j]),
                'conf': float(conf[j])
            })
    else:
        boxes_data = None
    processed_results[processed_frame_idx] = boxes_data

print("Predizioni eseguite sul video scalato.")

# Propaga le predizioni ai frame non processati: per ogni frame (0 .. total_frames-1)
# usiamo le bounding box del frame processato più vicino (precedente)
boxes_per_frame = []
processed_indices = sorted(processed_results.keys())
current_pointer = 0
last_boxes = processed_results[processed_indices[0]]  # in genere il frame 0

for i in range(total_frames):
    if current_pointer < len(processed_indices) and i == processed_indices[current_pointer]:
        last_boxes = processed_results[processed_indices[current_pointer]]
        current_pointer += 1
    boxes_per_frame.append(last_boxes)

Input fps: 29.71. Utilizzo vid_stride=2 per predire ~15 fps.

video 1/1 (frame 1/6079) /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/temp_scaled_IPS_2025-03-28.12.03.08.6760.mp4: 384x640 (no detections), 230.0ms
video 1/1 (frame 2/6079) /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/temp_scaled_IPS_2025-03-28.12.03.08.6760.mp4: 384x640 1 crack, 151.1ms
video 1/1 (frame 3/6079) /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/temp_scaled_IPS_2025-03-28.12.03.08.6760.mp4: 384x640 1 manhole, 139.2ms
video 1/1 (frame 4/6079) /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/temp_scaled_IPS_2025-03-28.12.03.08.6760.mp4: 384x640 1 crack, 123.9ms
video 1/1 (frame 5/6079) /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/temp_scaled_IPS_2025-03-28.12.03.08.6760.mp4: 384x640 1 cra

In [4]:
# ----- STEP 3: CREA VIDEO DI OUTPUT CON LE BB MAPPATE SU FRAME ORIGINALI -----
cap_orig = cv2.VideoCapture(input_video_path)
if not cap_orig.isOpened():
    raise Exception("Impossibile riaprire il video di input.")

# Qui uso 'mp4v' per scrivere il video intermedio; non possiamo impostare il bitrate con VideoWriter.
fourcc_out = cv2.VideoWriter_fourcc(*'mp4v')
orig_width  = int(cap_orig.get(cv2.CAP_PROP_FRAME_WIDTH))   # es. 1920
orig_height = int(cap_orig.get(cv2.CAP_PROP_FRAME_HEIGHT))   # es. 1080
fps         = cap_orig.get(cv2.CAP_PROP_FPS)
out_writer  = cv2.VideoWriter(temp_scaled_video_path, fourcc_out, fps, (orig_width, orig_height))

# Fattori di scala per mappare le coordinate da 640x384 a 1920x1080
scale_x = orig_width / yolo_width
scale_y = orig_height / yolo_height

# Mappa colori per le classi, basata su best_model.names
model_names = best_model.names  # es. {0: "person", 1: "car", ...}
random.seed(42)
colors = {cls: (random.randint(0, 255), random.randint(0, 255), random.randint(0, 255))
          for cls in model_names.keys()}

frame_idx = 0
while True:
    ret, frame = cap_orig.read()
    if not ret:
        break
    # Recupera le BB per il frame corrente (nella scala 640x384)
    boxes = boxes_per_frame[frame_idx]
    if boxes is not None:
        for box in boxes:
            # Estrai coordinate, classe e confidenza
            x_center, y_center, w, h = box['xywh']
            class_id = box['cls']
            confidence = box['conf']
            # Scala le coordinate al formato originale
            x_center *= scale_x
            y_center *= scale_y
            w *= scale_x
            h *= scale_y
            top_left = (int(x_center - w/2), int(y_center - h/2))
            bottom_right = (int(x_center + w/2), int(y_center + h/2))
            # Seleziona il colore per la classe
            color = colors.get(class_id, (0, 255, 0))
            # Disegna la bounding box (più spessa)
            cv2.rectangle(frame, top_left, bottom_right, color, 3)
            
            # Crea l'etichetta con nome classe e confidenza in percentuale
            class_name = model_names.get(class_id, "Unknown")
            label = f"{class_name} {confidence * 100:.1f}%"
            
            # Parametri per il testo
            font = cv2.FONT_HERSHEY_SIMPLEX
            font_scale = 0.8
            text_thickness = 2
            (text_width, text_height), baseline = cv2.getTextSize(label, font, font_scale, text_thickness)
            
            # Posiziona il rettangolo di background per il testo
            text_offset_x = top_left[0]
            text_offset_y = top_left[1] - 10  # 10 pixel sopra la BB
            if text_offset_y - text_height - baseline < 0:
                text_offset_y = top_left[1] + text_height + baseline + 10
            box_coords = ((text_offset_x, text_offset_y - text_height - baseline - 4),
                          (text_offset_x + text_width + 4, text_offset_y))
            # Disegna il rettangolo riempito (sfondo per il testo) con lo stesso colore della BB
            cv2.rectangle(frame, box_coords[0], box_coords[1], color, cv2.FILLED)
            # Disegna il testo in bianco sopra il rettangolo
            cv2.putText(frame, label, (text_offset_x + 2, text_offset_y - 2), 
                        font, font_scale, (255, 255, 255), text_thickness, cv2.LINE_AA)
    out_writer.write(frame)
    frame_idx += 1

cap_orig.release()
out_writer.release()
print(f"Video intermedio salvato come {temp_scaled_video_path}")

Video intermedio salvato come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/temp_scaled_IPS_2025-03-28.12.03.08.6760.mp4


In [5]:
# ----- STEP 4 (opzionale): MANTIENI LO STESSO BITRATE RI-ENCODANDO IL VIDEO DI OUTPUT -----

DO_IT = False

if DO_IT:
    def get_input_bitrate(video_path):
        """Estrae il bitrate del video di input utilizzando ffprobe."""
        cmd = [
            'ffprobe', '-v', 'error', '-select_streams', 'v:0',
            '-show_entries', 'stream=bit_rate', '-of', 'json', video_path
        ]
        output = subprocess.check_output(cmd)
        data = json.loads(output)
        bitrate = int(data['streams'][0]['bit_rate'])
        return bitrate

    # Estrae il bitrate dal video di input
    input_bitrate = get_input_bitrate(input_video_path)
    print(f"Bitrate video di input: {input_bitrate} bit/s")

    # Ri-encoda il video intermedio usando FFmpeg con il bitrate estratto
    ffmpeg_cmd = [
        'ffmpeg', '-y', '-i', temp_scaled_video_path,
        '-c:v', 'libx264', '-b:v', str(input_bitrate),
        output_video_path
    ]
    print("Esecuzione di FFmpeg per ri-encodifica...")
    subprocess.run(ffmpeg_cmd, check=True)
    print(f"Video finale salvato come {output_video_path}")
else:
    print("Non viene effettuata la ri-encodifica.")
    os.rename(temp_scaled_video_path, output_video_path)
    print(f"Video finale salvato come {output_video_path}")

Non viene effettuata la ri-encodifica.
Video finale salvato come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/output/out_conf_20_scarlet_IPS_2025-03-28.12.03.08.6760.mp4


In [6]:
# --- Rimuovi il file temporaneo ---
try:
    os.remove(temp_scaled_video_path)
    print("File temporaneo rimosso.")
except Exception as e:
    print(f"Impossibile rimuovere il file temporaneo: {e}")

Impossibile rimuovere il file temporaneo: [Errno 2] No such file or directory: '/home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/temp_scaled_IPS_2025-03-28.12.03.08.6760.mp4'


In [None]:
# 1: Elaborare un video con vari sweep
import os
import time
from video_processing import process_video

MODEL_NAME = "yolo11n"
TRAIN_IMG_SIZE = (640, 640)
VIDEO_SIZE = (640, 384)

file_name = "GH010213-2.mp4"
input_video = os.path.join("/home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/", file_name)
output_dir = "/home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/output/"
sweeps_path = "/home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/sweeps/"

def class_confidence(category, confidence):
    if category == 0:   # Pothole
        return confidence > 0.5
    elif category == 1: # Crack
        return confidence > 0.5
    elif category == 2: # Manhole
        return confidence > 0.7
    return False

def right_position(xywh, frame_height=VIDEO_SIZE[1], min_fraction=0.1):
    """
    Accetta la predizione se almeno 'min_fraction' dell'altezza della bounding box 
    cade nella metà inferiore del frame.
    
    Parametri:
      - xywh: Coordinate della bounding box nel formato [x_center, y_center, width, height].
      - frame_height: Altezza del frame YOLO.
      - min_fraction: Frazione minima dell'altezza della box che deve cadere nella metà inferiore (default: 0.3).
    
    Ritorna:
      - True se la frazione della box che cade nella parte inferiore del frame è almeno min_fraction,
        False altrimenti.
    """
    x_center, y_center, w, h = xywh
    # Calcola il bordo superiore e inferiore della bounding box
    top = y_center - h / 2
    bottom = y_center + h / 2
    half_line = frame_height / 2
    
    # Se tutta la box è sopra la linea di metà, scarta subito
    if bottom <= half_line:
        return False
    
    # Calcola la parte della box che cade nella metà inferiore:
    # l'intersezione è dal punto massimo tra il top della box e la linea di metà, fino al bottom della box
    intersection = bottom - max(top, half_line)
    fraction = intersection / h
    return fraction >= min_fraction


# Costruisce la lista dei file .pt (sweeps)
sweeps = [os.path.join(sweeps_path, sweep) for sweep in os.listdir(sweeps_path) if sweep.endswith(".pt")]

for sweep in sweeps:
    output_video = os.path.join(output_dir, f"output_{os.path.basename(sweep)}_{file_name}")
    print(f"Elaborazione del video {input_video} con sweep '{sweep}'...")
    
    start_time = time.time()
    process_video(sweep, input_video, output_video, confidence_threshold=0.20, do_reencode=False, 
                  prediction_fps=15, class_filter=class_confidence,
                  position_filter=right_position)
    elapsed_time = time.time() - start_time
    
    print(f"Video elaborato e salvato come {output_video}")
    print(f"Tempo impiegato per questo sweep: {elapsed_time / 60:.2f} minuti")
    print("####################################################################")

Elaborazione del video /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/GH010213-2.mp4 con sweep '/home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/sweeps/best-trim.pt'...


Scaling video frames: 100%|██████████| 8064/8064 [00:59<00:00, 135.52frame/s]


Video temporaneo scalato creato.
Input fps: 29.97. Utilizzo vid_stride=2 per predire ~15 fps.


YOLO Predictions: 100%|██████████| 4032/4032 [04:35<00:00, 14.62frame/s]
Propagating predictions: 100%|██████████| 8064/8064 [00:00<00:00, 1643642.12frame/s]


Predizioni eseguite sul video scalato.


Annotating video frames: 100%|██████████| 8064/8064 [02:50<00:00, 47.35frame/s]


Video annotato salvato temporaneamente come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/temp_scaled_GH010213-2.mp4
Video finale salvato come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/output/output_best-trim.pt_GH010213-2.mp4
Video elaborato e salvato come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/output/output_best-trim.pt_GH010213-2.mp4
Tempo impiegato per questo sweep: 8.43 minuti
Elaborazione del video /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/GH010213-2.mp4 con sweep '/home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/sweeps/best-copper.pt'...


Scaling video frames: 100%|██████████| 8064/8064 [00:58<00:00, 136.90frame/s]


Video temporaneo scalato creato.
Input fps: 29.97. Utilizzo vid_stride=2 per predire ~15 fps.


YOLO Predictions: 100%|██████████| 4032/4032 [04:46<00:00, 14.09frame/s]
Propagating predictions: 100%|██████████| 8064/8064 [00:00<00:00, 1878109.14frame/s]


Predizioni eseguite sul video scalato.


Annotating video frames: 100%|██████████| 8064/8064 [02:57<00:00, 45.45frame/s]


Video annotato salvato temporaneamente come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/temp_scaled_GH010213-2.mp4
Video finale salvato come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/output/output_best-copper.pt_GH010213-2.mp4
Video elaborato e salvato come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/output/output_best-copper.pt_GH010213-2.mp4
Tempo impiegato per questo sweep: 8.71 minuti
Elaborazione del video /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/GH010213-2.mp4 con sweep '/home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/sweeps/best-volcanic.pt'...


Scaling video frames: 100%|██████████| 8064/8064 [01:02<00:00, 129.50frame/s]


Video temporaneo scalato creato.
Input fps: 29.97. Utilizzo vid_stride=2 per predire ~15 fps.


YOLO Predictions: 100%|██████████| 4032/4032 [05:15<00:00, 12.78frame/s]
Propagating predictions: 100%|██████████| 8064/8064 [00:00<00:00, 1409344.87frame/s]


Predizioni eseguite sul video scalato.


Annotating video frames: 100%|██████████| 8064/8064 [02:50<00:00, 47.33frame/s]


Video annotato salvato temporaneamente come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/temp_scaled_GH010213-2.mp4
Video finale salvato come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/output/output_best-volcanic.pt_GH010213-2.mp4
Video elaborato e salvato come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/output/output_best-volcanic.pt_GH010213-2.mp4
Tempo impiegato per questo sweep: 9.14 minuti
Elaborazione del video /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/GH010213-2.mp4 con sweep '/home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/sweeps/best-dandy.pt'...


Scaling video frames: 100%|██████████| 8064/8064 [00:59<00:00, 136.62frame/s]


Video temporaneo scalato creato.
Input fps: 29.97. Utilizzo vid_stride=2 per predire ~15 fps.


YOLO Predictions: 100%|██████████| 4032/4032 [04:34<00:00, 14.71frame/s]
Propagating predictions: 100%|██████████| 8064/8064 [00:00<00:00, 1331923.58frame/s]


Predizioni eseguite sul video scalato.


Annotating video frames: 100%|██████████| 8064/8064 [02:47<00:00, 48.17frame/s]


Video annotato salvato temporaneamente come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/temp_scaled_GH010213-2.mp4
Video finale salvato come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/output/output_best-dandy.pt_GH010213-2.mp4
Video elaborato e salvato come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/output/output_best-dandy.pt_GH010213-2.mp4
Tempo impiegato per questo sweep: 8.35 minuti
Elaborazione del video /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/GH010213-2.mp4 con sweep '/home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/sweeps/best-celestial.pt'...


Scaling video frames: 100%|██████████| 8064/8064 [00:59<00:00, 135.55frame/s]


Video temporaneo scalato creato.
Input fps: 29.97. Utilizzo vid_stride=2 per predire ~15 fps.


YOLO Predictions: 100%|██████████| 4032/4032 [04:46<00:00, 14.09frame/s]
Propagating predictions: 100%|██████████| 8064/8064 [00:00<00:00, 1725656.50frame/s]


Predizioni eseguite sul video scalato.


Annotating video frames: 100%|██████████| 8064/8064 [02:52<00:00, 46.85frame/s]


Video annotato salvato temporaneamente come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/temp_scaled_GH010213-2.mp4
Video finale salvato come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/output/output_best-celestial.pt_GH010213-2.mp4
Video elaborato e salvato come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/output/output_best-celestial.pt_GH010213-2.mp4
Tempo impiegato per questo sweep: 8.64 minuti


In [4]:
# 2: Elaborare più video con lo stesso sweep
import os
import time
from video_processing import process_video

MODEL_NAME = "yolo11n-recall"
TRAIN_IMG_SIZE = (640, 640)
VIDEO_SIZE = (640, 384)

def class_confidence(category, confidence):
    if category == 0:   # Pothole
        return confidence > 0.4
    elif category == 1: # Crack
        return confidence > 0.4
    elif category == 2: # Manhole
        return confidence > 0.65
    return False

def right_position(xywh, frame_height=VIDEO_SIZE[1], min_fraction=0.1):
    """
    Accetta la predizione se almeno 'min_fraction' dell'altezza della bounding box 
    cade nella metà inferiore del frame.
    
    Parametri:
      - xywh: Coordinate della bounding box nel formato [x_center, y_center, width, height].
      - frame_height: Altezza del frame YOLO.
      - min_fraction: Frazione minima dell'altezza della box che deve cadere nella metà inferiore (default: 0.3).
    
    Ritorna:
      - True se la frazione della box che cade nella parte inferiore del frame è almeno min_fraction,
        False altrimenti.
    """
    x_center, y_center, w, h = xywh
    # Calcola il bordo superiore e inferiore della bounding box
    top = y_center - h / 2
    bottom = y_center + h / 2
    half_line = frame_height / 2
    
    # Se tutta la box è sopra la linea di metà, scarta subito
    if bottom <= half_line:
        return False
    
    # Calcola la parte della box che cade nella metà inferiore:
    # l'intersezione è dal punto massimo tra il top della box e la linea di metà, fino al bottom della box
    intersection = bottom - max(top, half_line)
    fraction = intersection / h
    return fraction >= min_fraction

sweep = "scarlet"  # Nome dello sweep da utilizzare
input_videos = [
    "/home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/IPS_2025-03-28.11.49.02.7080.mp4",
    "/home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/IPS_2025-03-28.12.03.08.6760.mp4",
    # Aggiungi altri video se necessario
]
output_dir = "/home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/output"

for input_video in input_videos:
    output_video = os.path.join(output_dir, f"output_{sweep}_{os.path.basename(input_video)}")
    print(f"############################# {input_video.split("/")[-1]} - {sweep} ###################################")
    print(f"Elaborazione del video {input_video} con sweep '{sweep}'...")
    
    start_time = time.time()
    process_video(f"/home/lorenzo/Scaricati/best-{sweep}.pt", input_video, output_video, confidence_threshold=0.20, do_reencode=False, 
                  prediction_fps=15, class_filter=class_confidence,
                  position_filter=right_position)
    elapsed_time = time.time() - start_time
    
    print(f"Video elaborato e salvato come {output_video}")
    print(f"Tempo impiegato per questo video: {elapsed_time:.2f} secondi")

############################# /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/IPS_2025-03-28.11.49.02.7080.mp4 - scarlet ###################################
Elaborazione del video /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/IPS_2025-03-28.11.49.02.7080.mp4 con sweep 'scarlet'...


Scaling video frames: 100%|██████████| 21791/21791 [02:58<00:00, 122.07frame/s]


Video temporaneo scalato creato.
Input fps: 29.51. Utilizzo vid_stride=2 per predire ~15 fps.


YOLO Predictions: 100%|█████████▉| 10895/10896 [16:17<00:00, 11.15frame/s] 
Propagating predictions: 100%|██████████| 21791/21791 [00:00<00:00, 1125495.07frame/s]


Predizioni eseguite sul video scalato.


Annotating video frames: 100%|██████████| 21791/21791 [06:34<00:00, 55.17frame/s]


Video annotato salvato temporaneamente come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/temp_scaled_IPS_2025-03-28.11.49.02.7080.mp4
Video finale salvato come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/output/output_scarlet_IPS_2025-03-28.11.49.02.7080.mp4
Video elaborato e salvato come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/output/output_scarlet_IPS_2025-03-28.11.49.02.7080.mp4
Tempo impiegato per questo video: 1551.54 secondi
############################# /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/IPS_2025-03-28.12.03.08.6760.mp4 - scarlet ###################################
Elaborazione del video /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/IPS_2025-03-28.12.03.08.6760.mp4 con sweep 'scarlet'...


Scaling video frames: 100%|██████████| 12158/12158 [01:11<00:00, 170.66frame/s]


Video temporaneo scalato creato.
Input fps: 29.71. Utilizzo vid_stride=2 per predire ~15 fps.


YOLO Predictions: 100%|██████████| 6079/6079 [07:55<00:00, 12.78frame/s]
Propagating predictions: 100%|██████████| 12158/12158 [00:00<00:00, 1505590.43frame/s]


Predizioni eseguite sul video scalato.


Annotating video frames: 100%|██████████| 12158/12158 [03:55<00:00, 51.61frame/s]

Video annotato salvato temporaneamente come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/temp_scaled_IPS_2025-03-28.12.03.08.6760.mp4
Video finale salvato come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/output/output_scarlet_IPS_2025-03-28.12.03.08.6760.mp4
Video elaborato e salvato come /home/lorenzo/Documenti/GitHub/Computer-Science-Sapienza/Computer Vision/project/test_video/output/output_scarlet_IPS_2025-03-28.12.03.08.6760.mp4
Tempo impiegato per questo video: 783.01 secondi



