# YOLO en Tiempo Real: Detección de Objetos
### Percepción Computacional - Universidad de los Hemisferios
#### Maestría en Inteligencia Artificial Aplicada

Bienvenidos a este cuaderno de Jupyter, donde exploraremos la emocionante tarea de la detección de objetos en tiempo real utilizando YOLO (You Only Look Once), una técnica avanzada de visión por computadora. Esta experiencia de aprendizaje forma parte del programa de la Maestría en Inteligencia Artificial Aplicada, impartido por la Universidad de los Hemisferios.

En este cuaderno, aprenderás a utilizar YOLO para identificar y localizar diversos objetos en imágenes y secuencias de video. Esta habilidad es esencial en una amplia gama de aplicaciones, desde la conducción autónoma hasta la vigilancia de seguridad, y representa uno de los avances más emocionantes en el campo de la inteligencia artificial y la visión por computadora.

A lo largo de este curso, explorarás conceptos clave como:

- Detección de objetos en tiempo real.
- Configuración de modelos YOLO pre-entrenados.
- Interpretación de resultados de detección.
- Aplicaciones prácticas de la detección de objetos.

¡Prepárate para sumergirte en un emocionante mundo de visión por computadora y adquirir habilidades valiosas que te servirán en tu carrera en inteligencia artificial y más allá!

Recuerda consultar este cuaderno para acceder a los recursos y ejemplos que te ayudarán a comprender YOLO y la percepción computacional en tiempo real.

Eugenio.

El siguiente código utiliza el comando `!pip` para instalar dos paquetes de Python: `opencv-python` y `ultralytics`.

- `opencv-python`: Esta es una biblioteca popular para tareas de visión por computadora en Python. Proporciona una variedad de funciones para el procesamiento de imágenes y videos, incluyendo detección de objetos, manipulación de imágenes y extracción de características.

- `ultralytics`: Esta es una biblioteca construida sobre PyTorch, que se enfoca principalmente en tareas de visión por computadora como detección de objetos y clasificación de imágenes. Proporciona interfaces fáciles de usar para entrenar y evaluar modelos de aprendizaje profundo para estas tareas.

Al ejecutar este comando, estás instalando estos paquetes en tu entorno de Python para que puedas usarlos en tu código.

In [None]:
# Instalamos los paquetes necesarios
!pip install opencv-python ultralytics

Este fragmento de código importa tres bibliotecas en Python:

1. `ultralytics`: Esta es una biblioteca que proporciona una interfaz para usar modelos de detección de objetos YOLO (You Only Look Once). Permite entrenar, evaluar y utilizar modelos de detección de objetos de manera eficiente.

2. `cv2` (OpenCV): Esta es una biblioteca popular para el procesamiento de imágenes y videos en Python. Proporciona una amplia gama de funciones para trabajar con imágenes y videos, incluyendo cargar imágenes, realizar operaciones de procesamiento de imágenes, y mostrar imágenes en una ventana, entre otros.

3. `math`: Este es un módulo estándar de Python que proporciona funciones matemáticas comunes, como funciones trigonométricas, logarítmicas y aritméticas.

El código importa estas bibliotecas para utilizarlas en el resto del programa, pero en este fragmento específico no se están utilizando ninguna función o clase de estas bibliotecas.

In [3]:
# Importamos las bibliotecas necesarias
from ultralytics import YOLO
import cv2
import math

In [4]:
# Cargamos el modelo YOLO pre-entrenado
model = YOLO("yolo-Weights/yolov8n.pt")

In [5]:
# Definimos una lista de nombres de clases para identificar objetos detectados
classNames = ["person", "bicycle", "car", "motorbike", "aeroplane", "bus", "train", "truck", "boat",
              "traffic light", "fire hydrant", "stop sign", "parking meter", "bench", "bird", "cat",
              "dog", "horse", "sheep", "cow", "elephant", "bear", "zebra", "giraffe", "backpack", "umbrella",
              "handbag", "tie", "suitcase", "frisbee", "skis", "snowboard", "sports ball", "kite", "baseball bat",
              "baseball glove", "skateboard", "surfboard", "tennis racket", "bottle", "wine glass", "cup",
              "fork", "knife", "spoon", "bowl", "banana", "apple", "sandwich", "orange", "broccoli",
              "carrot", "hot dog", "pizza", "donut", "cake", "chair", "sofa", "pottedplant", "bed",
              "diningtable", "toilet", "tvmonitor", "laptop", "mouse", "remote", "keyboard", "cell phone",
              "microwave", "oven", "toaster", "sink", "refrigerator", "book", "clock", "vase", "scissors",
              "teddy bear", "hair drier", "toothbrush"
              ] # Aquí se enumeran todas las clases

In [6]:
# Configuramos la captura de video desde la cámara
cap = cv2.VideoCapture(0) # Se abre la cámara por defecto
cap.set(3, 640) # Ancho de la imagen
cap.set(4, 480) # Alto de la imagen

# Iniciamos un bucle para procesar los fotogramas de la cámara
while True:
    success, img = cap.read() # Capturamos un fotograma

    # Realizamos la detección de objetos en la imagen capturada (usando el modelo de YOLO pre-entrenado que cargamos anteriormente)
    results = model(img, stream=True)

   # Procesamos los resultados de la detección
    for r in results:
        boxes = r.boxes

        # Iteramos sobre las cajas delimitadoras detectadas
        for box in boxes:
            # Obtenemos las coordenadas de la caja delimitadora
            x1, y1, x2, y2 = box.xyxy[0]
            x1, y1, x2, y2 = int(x1), int(y1), int(x2), int(y2) # Convertimos a valores enteros

            # Dibujamos la caja delimitadora en la imagen
            cv2.rectangle(img, (x1, y1), (x2, y2), (255, 0, 255), 1)

            # Obtenemos la confianza de la detección
            confidence = math.ceil((box.conf[0]*100))/100
            print("Confidence --->",confidence)

            # Obtenemos el nombre de la clase detectada
            cls = int(box.cls[0])
            print("Class name -->", classNames[cls])

            # Mostramos el nombre de la clase junto a la caja delimitadora
            org = [x1, y1]
            font = cv2.FONT_HERSHEY_SIMPLEX
            fontScale = 1
            color = (255, 0, 0) # Color: Azul (formato BGR)
            thickness = 1
            cv2.putText(img, classNames[cls], org, font, fontScale, color, thickness)

    # Mostramos la imagen con las detecciones
    cv2.imshow('Webcam', img)

    # Salimos del bucle si se presiona la tecla 'q'
    if cv2.waitKey(1) == ord('q'):
        break

# Liberamos la cámara y cerramos todas las ventanas
cap.release()
cv2.destroyAllWindows()


Confidence ---> 0.92
Class name --> person
0: 480x640 1 person, 146.0ms
Speed: 4.3ms preprocess, 146.0ms inference, 2.6ms postprocess per image at shape (1, 3, 480, 640)





Confidence ---> 0.92
Class name --> person
0: 480x640 1 person, 271.7ms
Speed: 1.7ms preprocess, 271.7ms inference, 0.8ms postprocess per image at shape (1, 3, 480, 640)

Confidence ---> 0.92
Class name --> person
0: 480x640 1 person, 153.2ms
Speed: 3.4ms preprocess, 153.2ms inference, 0.9ms postprocess per image at shape (1, 3, 480, 640)

Confidence ---> 0.92
Class name --> person
0: 480x640 1 person, 87.3ms
Speed: 1.3ms preprocess, 87.3ms inference, 0.9ms postprocess per image at shape (1, 3, 480, 640)

Confidence ---> 0.92
Class name --> person
0: 480x640 1 person, 95.9ms
Speed: 1.6ms preprocess, 95.9ms inference, 1.0ms postprocess per image at shape (1, 3, 480, 640)

Confidence ---> 0.92
Class name --> person
0: 480x640 1 person, 88.2ms
Speed: 1.6ms preprocess, 88.2ms inference, 0.8ms postprocess per image at shape (1, 3, 480, 640)

Confidence ---> 0.92
Class name --> person
0: 480x640 1 person, 87.3ms
Speed: 1.6ms preprocess, 87.3ms inference, 0.7ms postprocess per image at shape 

: 