In [None]:
!pip install supervision ultralytics

In [2]:
# Importar las librerías necesarias
import supervision as sv  # Librería para el seguimiento de objetos
from ultralytics import YOLO  # Librería para la detección de objetos con YOLO
import numpy as np  # Librería para operaciones matemáticas y manejo de arrays

In [5]:
# Definir rutas de los videos de entrada y salida, y el nombre del modelo
SOURCE_VIDEO_PATH = "/content/walking_dog.mp4"  # Ruta al video de entrada
TARGET_VIDEO_PATH = "/content/walking_dog_tracking.mp4"  # Ruta donde se guardará el video con seguimiento de objetos
MODEL_NAME = "yolov8x.pt"  # Nombre del modelo preentrenado de YOLO a utilizar


In [35]:
# Inicializar el modelo de detección y el rastreador de objetos
model = YOLO(MODEL_NAME)  # Cargar el modelo de YOLO
tracker = sv.ByteTrack()  # Inicializar ByteTrack para el seguimiento de objetos

# Inicializar los anotadores para las cajas delimitadoras y las etiquetas
bounding_box_annotator = sv.BoundingBoxAnnotator()  # Para dibujar cajas delimitadoras
label_annotator = sv.LabelAnnotator()  # Para dibujar etiquetas (IDs de seguimiento)

def callback(frame: np.ndarray, index: int) -> np.ndarray:
    results = model(frame)[0]  # Detectar objetos en el frame actual con YOLO
    detections = sv.Detections.from_ultralytics(results)  # Convertir resultados a formato de supervision
    detections = tracker.update_with_detections(detections)  # Actualizar el estado del rastreador con las detecciones

    # Filter detections to keep only those with class id 16
    class_16_indices = np.where(detections.class_id == 16)[0]
    filtered_detections = detections[class_16_indices]

    labels = [f"#{tracker_id}" for tracker_id in filtered_detections.tracker_id]

    # Anotar el frame con bounding boxes y etiquetas
    annotated_frame = bounding_box_annotator.annotate(
        scene=frame.copy(), detections=filtered_detections)
    annotated_frame = label_annotator.annotate(
        scene=annotated_frame, detections=filtered_detections, labels=labels)
    return annotated_frame  # Devolver el frame anotado

# Procesar el video: leer, aplicar callback a cada frame y guardar el resultado
sv.process_video(
    source_path=SOURCE_VIDEO_PATH,  # Ruta del video original
    target_path=TARGET_VIDEO_PATH,  # Ruta del video resultante
    callback=callback  # Función de callback para procesar cada frame
)


0: 384x640 13 persons, 1 car, 1 dog, 1 handbag, 3281.1ms
Speed: 5.7ms preprocess, 3281.1ms inference, 1.8ms postprocess per image at shape (1, 3, 384, 640)

0: 384x640 13 persons, 1 car, 1 dog, 1 handbag, 2279.7ms
Speed: 4.2ms preprocess, 2279.7ms inference, 1.1ms postprocess per image at shape (1, 3, 384, 640)

0: 384x640 13 persons, 1 car, 1 dog, 1 handbag, 2265.6ms
Speed: 4.2ms preprocess, 2265.6ms inference, 1.3ms postprocess per image at shape (1, 3, 384, 640)

0: 384x640 13 persons, 1 car, 1 dog, 1 handbag, 2297.5ms
Speed: 4.5ms preprocess, 2297.5ms inference, 1.2ms postprocess per image at shape (1, 3, 384, 640)

0: 384x640 13 persons, 1 car, 1 dog, 1 handbag, 2368.8ms
Speed: 3.4ms preprocess, 2368.8ms inference, 1.1ms postprocess per image at shape (1, 3, 384, 640)

0: 384x640 13 persons, 1 car, 1 dog, 1 handbag, 3242.8ms
Speed: 3.1ms preprocess, 3242.8ms inference, 1.1ms postprocess per image at shape (1, 3, 384, 640)

0: 384x640 13 persons, 1 car, 1 dog, 1 handbag, 2296.5ms
