# YOLO en Tiempo Real: Detección de Objetos

Bienvenidos a este cuaderno de Jupyter, donde exploraremos la emocionante tarea de la detección de objetos en tiempo real utilizando YOLO (You Only Look Once), una técnica avanzada de visión por computadora.

En este cuaderno, aprenderás a utilizar YOLO para identificar y localizar diversos objetos en imágenes y secuencias de video. Esta habilidad es esencial en una amplia gama de aplicaciones, desde la conducción autónoma hasta la vigilancia de seguridad, y representa uno de los avances más emocionantes en el campo de la inteligencia artificial y la visión por computadora.

A lo largo de este curso, explorarás conceptos clave como:

- Detección de objetos en tiempo real.
- Configuración de modelos YOLO pre-entrenados.
- Interpretación de resultados de detección.
- Aplicaciones prácticas de la detección de objetos.

¡Prepárate para sumergirte en un emocionante mundo de visión por computadora y adquirir habilidades valiosas que te servirán en tu carrera en inteligencia artificial y más allá!

Recuerda consultar este cuaderno para acceder a los recursos y ejemplos que te ayudarán a comprender YOLO y la percepción computacional en tiempo real.

El siguiente código utiliza el comando `!pip` para instalar dos paquetes de Python: `opencv-python` y `ultralytics`.

- `opencv-python`: Esta es una biblioteca popular para tareas de visión por computadora en Python. Proporciona una variedad de funciones para el procesamiento de imágenes y videos, incluyendo detección de objetos, manipulación de imágenes y extracción de características.

- `ultralytics`: Esta es una biblioteca construida sobre PyTorch, que se enfoca principalmente en tareas de visión por computadora como detección de objetos y clasificación de imágenes. Proporciona interfaces fáciles de usar para entrenar y evaluar modelos de aprendizaje profundo para estas tareas.

Al ejecutar este comando, estás instalando estos paquetes en tu entorno de Python para que puedas usarlos en tu código.

In [6]:
# Instalamos los paquetes necesarios
!pip install opencv-python
!pip install ultralytics

Collecting opencv-python
  Using cached opencv_python-4.9.0.80-cp37-abi3-macosx_10_16_x86_64.whl.metadata (20 kB)
Collecting numpy>=1.21.2 (from opencv-python)
  Using cached numpy-1.26.4-cp311-cp311-macosx_10_9_x86_64.whl.metadata (61 kB)
Using cached opencv_python-4.9.0.80-cp37-abi3-macosx_10_16_x86_64.whl (55.7 MB)
Using cached numpy-1.26.4-cp311-cp311-macosx_10_9_x86_64.whl (20.6 MB)
Installing collected packages: numpy, opencv-python
Successfully installed numpy-1.26.4 opencv-python-4.9.0.80
Collecting ultralytics
  Downloading ultralytics-8.2.11-py3-none-any.whl.metadata (40 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m40.7/40.7 kB[0m [31m208.5 kB/s[0m eta [36m0:00:00[0m [36m0:00:01[0m
[?25hCollecting matplotlib>=3.3.0 (from ultralytics)
  Using cached matplotlib-3.8.4-cp311-cp311-macosx_10_12_x86_64.whl.metadata (5.8 kB)
Collecting pillow>=7.1.2 (from ultralytics)
  Using cached pillow-10.3.0-cp311-cp311-macosx_10_10_x86_64.whl.metadata (9.2 kB)
Col

Este fragmento de código importa tres bibliotecas en Python:

1. `ultralytics`: Esta es una biblioteca que proporciona una interfaz para usar modelos de detección de objetos YOLO (You Only Look Once). Permite entrenar, evaluar y utilizar modelos de detección de objetos de manera eficiente.

2. `cv2` (OpenCV): Esta es una biblioteca popular para el procesamiento de imágenes y videos en Python. Proporciona una amplia gama de funciones para trabajar con imágenes y videos, incluyendo cargar imágenes, realizar operaciones de procesamiento de imágenes, y mostrar imágenes en una ventana, entre otros.

3. `math`: Este es un módulo estándar de Python que proporciona funciones matemáticas comunes, como funciones trigonométricas, logarítmicas y aritméticas.

El código importa estas bibliotecas para utilizarlas en el resto del programa, pero en este fragmento específico no se están utilizando ninguna función o clase de estas bibliotecas.

In [7]:
# Importamos las bibliotecas necesarias
from ultralytics import YOLO
import cv2
import math

In [8]:
# Cargamos el modelo YOLO pre-entrenado
model = YOLO("yolo-Weights/yolov8n.pt")

In [9]:
# Definimos una lista de nombres de clases para identificar objetos detectados
classNames = ["person", "bicycle", "car", "motorbike", "aeroplane", "bus", "train", "truck", "boat",
              "traffic light", "fire hydrant", "stop sign", "parking meter", "bench", "bird", "cat",
              "dog", "horse", "sheep", "cow", "elephant", "bear", "zebra", "giraffe", "backpack", "umbrella",
              "handbag", "tie", "suitcase", "frisbee", "skis", "snowboard", "sports ball", "kite", "baseball bat",
              "baseball glove", "skateboard", "surfboard", "tennis racket", "bottle", "wine glass", "cup",
              "fork", "knife", "spoon", "bowl", "banana", "apple", "sandwich", "orange", "broccoli",
              "carrot", "hot dog", "pizza", "donut", "cake", "chair", "sofa", "pottedplant", "bed",
              "diningtable", "toilet", "tvmonitor", "laptop", "mouse", "remote", "keyboard", "cell phone",
              "microwave", "oven", "toaster", "sink", "refrigerator", "book", "clock", "vase", "scissors",
              "teddy bear", "hair drier", "toothbrush"
              ] # Aquí se enumeran todas las clases

In [10]:
# Configuramos la captura de video desde la cámara
cap = cv2.VideoCapture(0) # Se abre la cámara por defecto
cap.set(3, 640) # Ancho de la imagen
cap.set(4, 480) # Alto de la imagen

# Iniciamos un bucle para procesar los fotogramas de la cámara
while True:
    success, img = cap.read() # Capturamos un fotograma

    # Realizamos la detección de objetos en la imagen capturada (usando el modelo de YOLO pre-entrenado que cargamos anteriormente)
    results = model(img, stream=True)

   # Procesamos los resultados de la detección
    for r in results:
        boxes = r.boxes

        # Iteramos sobre las cajas delimitadoras detectadas
        for box in boxes:
            # Obtenemos las coordenadas de la caja delimitadora
            x1, y1, x2, y2 = box.xyxy[0]
            x1, y1, x2, y2 = int(x1), int(y1), int(x2), int(y2) # Convertimos a valores enteros

            # Dibujamos la caja delimitadora en la imagen
            cv2.rectangle(img, (x1, y1), (x2, y2), (255, 0, 255), 1)

            # Obtenemos la confianza de la detección
            confidence = math.ceil((box.conf[0]*100))/100
            print("Confidence --->",confidence)

            # Obtenemos el nombre de la clase detectada
            cls = int(box.cls[0])
            print("Class name -->", classNames[cls])

            # Mostramos el nombre de la clase junto a la caja delimitadora
            org = [x1, y1]
            font = cv2.FONT_HERSHEY_SIMPLEX
            fontScale = 1
            color = (255, 0, 0) # Color: Azul (formato BGR)
            thickness = 1
            cv2.putText(img, classNames[cls], org, font, fontScale, color, thickness)

    # Mostramos la imagen con las detecciones
    cv2.imshow('Webcam', img)

    # Salimos del bucle si se presiona la tecla 'q'
    if cv2.waitKey(1) == ord('q'):
        break

# Liberamos la cámara y cerramos todas las ventanas
cap.release()
cv2.destroyAllWindows()




0: 480x640 1 person, 1 tie, 184.8ms
Confidence ---> 0.9
Class name --> person
Confidence ---> 0.27
Class name --> tie
Speed: 6.0ms preprocess, 184.8ms inference, 3217.5ms postprocess per image at shape (1, 3, 480, 640)





0: 480x640 1 person, 1 tie, 2141.5ms
Confidence ---> 0.89
Class name --> person
Confidence ---> 0.77
Class name --> tie
Speed: 4.0ms preprocess, 2141.5ms inference, 44.1ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 1 person, 2 ties, 420.7ms
Confidence ---> 0.89
Class name --> person
Confidence ---> 0.65
Class name --> tie
Confidence ---> 0.27
Class name --> tie
Speed: 30.1ms preprocess, 420.7ms inference, 3.9ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 1 person, 2 ties, 210.6ms
Confidence ---> 0.89
Class name --> person
Confidence ---> 0.58
Class name --> tie
Confidence ---> 0.31
Class name --> tie
Speed: 12.3ms preprocess, 210.6ms inference, 1.2ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 1 person, 1 tie, 152.3ms
Confidence ---> 0.9
Class name --> person
Confidence ---> 0.69
Class name --> tie
Speed: 2.1ms preprocess, 152.3ms inference, 1.0ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 1 person, 1 tie, 151.2ms
Confid