# Ejercicio 8

En lo posible, realizar videos donde una clase de objeto difiera en número con otros objetos (sino, utilizar videos bajados de internet). Por ejemplo, al aire libre, un perro que se mueva entre personas en un parque. Una persona en bicicleta entre muchos autos en una calle de la ciudad. Luego, utilizar los distintos algoritmos presentados en teoría para detectar solo la clase minoritaria con su respectiva etiqueta. Indicando en cada caso la herramienta utilizada y comparando los niveles de confianza de detección logrados. 

In [1]:
!pip install supervision ultralytics

Collecting supervision
  Obtaining dependency information for supervision from https://files.pythonhosted.org/packages/50/1a/971a415d67011854c2c59716c49b3de151d54b422c6dd0a6489e0152b42e/supervision-0.20.0-py3-none-any.whl.metadata
  Downloading supervision-0.20.0-py3-none-any.whl.metadata (13 kB)
Collecting opencv-python-headless>=4.5.5.64 (from supervision)
  Obtaining dependency information for opencv-python-headless>=4.5.5.64 from https://files.pythonhosted.org/packages/ac/42/da433fca5733a3ce7e88dd0d4018f70dcffaf48770b5142250815f4faddb/opencv_python_headless-4.9.0.80-cp37-abi3-macosx_10_16_x86_64.whl.metadata
  Downloading opencv_python_headless-4.9.0.80-cp37-abi3-macosx_10_16_x86_64.whl.metadata (20 kB)
Downloading supervision-0.20.0-py3-none-any.whl (110 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m111.0/111.0 kB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hDownloading opencv_python_headless-4.9.0.80-cp37-abi3-macosx_10_16_x86_64.

In [2]:
# Importar las librerías necesarias
import supervision as sv  # Librería para el seguimiento de objetos
from ultralytics import YOLO  # Librería para la detección de objetos con YOLO
import numpy as np  # Librería para operaciones matemáticas y manejo de arrays

In [3]:
# Definir rutas de los videos de entrada y salida, y el nombre del modelo
SOURCE_VIDEO_PATH = "../fotos/video_perro.mp4"  # Ruta al video de entrada
TARGET_VIDEO_PATH = "../fotos/video_perro1.mp4"  # Ruta donde se guardará el video con seguimiento de objetos
MODEL_NAME = "yolov8x.pt"  # Nombre del modelo preentrenado de YOLO a utilizar

In [4]:
# Inicializar el modelo de detección y el rastreador de objetos
model = YOLO(MODEL_NAME)  # Cargar el modelo de YOLO
tracker = sv.ByteTrack()  # Inicializar ByteTrack para el seguimiento de objetos

# Inicializar los anotadores para las cajas delimitadoras y las etiquetas
bounding_box_annotator = sv.BoundingBoxAnnotator()  # Para dibujar cajas delimitadoras
label_annotator = sv.LabelAnnotator()  # Para dibujar etiquetas (IDs de seguimiento)

def callback(frame: np.ndarray, index: int) -> np.ndarray:
    results = model(frame)[0]  # Detectar objetos en el frame actual con YOLO
    detections = sv.Detections.from_ultralytics(results)  # Convertir resultados a formato de supervision
    detections = tracker.update_with_detections(detections)  # Actualizar el estado del rastreador con las detecciones

    # Filter detections to keep only those with class id 16
    class_16_indices = np.where(detections.class_id == 16)[0]
    filtered_detections = detections[class_16_indices]

    labels = [f"#{tracker_id}" for tracker_id in filtered_detections.tracker_id]

    # Anotar el frame con bounding boxes y etiquetas
    annotated_frame = bounding_box_annotator.annotate(
        scene=frame.copy(), detections=filtered_detections)
    annotated_frame = label_annotator.annotate(
        scene=annotated_frame, detections=filtered_detections, labels=labels)
    return annotated_frame  # Devolver el frame anotado

# Procesar el video: leer, aplicar callback a cada frame y guardar el resultado
sv.process_video(
    source_path=SOURCE_VIDEO_PATH,  # Ruta del video original
    target_path=TARGET_VIDEO_PATH,  # Ruta del video resultante
    callback=callback  # Función de callback para procesar cada frame
)
     

Downloading https://github.com/ultralytics/assets/releases/download/v8.1.0/yolov8x.pt to 'yolov8x.pt'...


100%|██████████| 131M/131M [00:13<00:00, 10.0MB/s] 



0: 640x480 10 persons, 1 dog, 4 umbrellas, 1 sports ball, 533.4ms
Speed: 3.8ms preprocess, 533.4ms inference, 1199.6ms postprocess per image at shape (1, 3, 640, 480)

0: 640x480 10 persons, 1 dog, 3 umbrellas, 1 sports ball, 470.2ms
Speed: 1.6ms preprocess, 470.2ms inference, 1.6ms postprocess per image at shape (1, 3, 640, 480)

0: 640x480 10 persons, 1 dog, 3 umbrellas, 1 sports ball, 471.3ms
Speed: 3.7ms preprocess, 471.3ms inference, 1.8ms postprocess per image at shape (1, 3, 640, 480)

0: 640x480 10 persons, 1 dog, 4 umbrellas, 458.4ms
Speed: 2.6ms preprocess, 458.4ms inference, 1.7ms postprocess per image at shape (1, 3, 640, 480)

0: 640x480 10 persons, 1 dog, 4 umbrellas, 467.3ms
Speed: 2.2ms preprocess, 467.3ms inference, 1.5ms postprocess per image at shape (1, 3, 640, 480)

0: 640x480 10 persons, 1 dog, 2 umbrellas, 1 sports ball, 467.4ms
Speed: 1.8ms preprocess, 467.4ms inference, 0.6ms postprocess per image at shape (1, 3, 640, 480)

0: 640x480 10 persons, 1 dog, 3 umbr