# Detecci√≥n de Objetos YOLOv11

## ¬øQu√© es YOLO?

**YOLO** (You Only Look Once) es uno de los algoritmos m√°s populares y r√°pidos para **detecci√≥n de objetos en tiempo real**. A diferencia de otros m√©todos que analizan la imagen m√∫ltiples veces, YOLO procesa la imagen completa en una sola pasada, haci√©ndolo extremadamente r√°pido.

### Caracter√≠sticas principales:
-  **Velocidad**: Procesa im√°genes en tiempo real (30+ FPS)
-  **Precisi√≥n**: Detecta m√∫ltiples objetos simult√°neamente
-  **80+ Clases**: Puede detectar personas, veh√≠culos, animales, etc.
-  **Bounding Boxes**: Dibuja cajas delimitadoras alrededor de objetos
-  **Confianza**: Proporciona un score de confianza para cada detecci√≥n

### ¬øQu√© es YOLOv11?

YOLOv11 es la versi√≥n m√°s reciente de la familia YOLO, desarrollada por Ultralytics. Mejora sobre versiones anteriores con:
-  Mayor velocidad de inferencia
-  Mejor precisi√≥n en la detecci√≥n
-  Arquitectura m√°s eficiente
-  M√°s f√°cil de usar e implementar

### Aplicaciones en el mundo real:
-  Veh√≠culos aut√≥nomos
-  Sistemas de seguridad y vigilancia
-  Conteo de personas en retail
-  Control de calidad en manufactura
-  An√°lisis de tr√°fico urbano
-  Aplicaciones m√≥viles de realidad aumentada

## 1. Instalaci√≥n de Dependencias

Vamos a instalar todas las librer√≠as necesarias para trabajar con YOLOv11.

In [None]:
# Instalar las librer√≠as necesarias
# ultralytics: Contiene YOLOv11 y todas sus utilidades
# opencv-python: Para procesamiento de im√°genes y video
# numpy: Para operaciones num√©ricas
# matplotlib: Para visualizaci√≥n

#!pip install ultralytics opencv-python numpy matplotlib pillow

#print("\n‚úì Instalaci√≥n completada")

In [1]:
# Importar las librer√≠as necesarias
import cv2
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import rcParams
from ultralytics import YOLO
from PIL import Image
import time
from IPython.display import display, clear_output

# Configurar el tama√±o de las figuras
rcParams['figure.figsize'] = 14, 10

print("‚úì Librer√≠as importadas correctamente")
print(f"Versi√≥n de OpenCV: {cv2.__version__}")

‚úì Librer√≠as importadas correctamente
Versi√≥n de OpenCV: 4.12.0


## 2. Cargar el Modelo YOLOv11

YOLOv11 viene en diferentes tama√±os, cada uno con un balance diferente entre velocidad y precisi√≥n:

| Modelo | Tama√±o | Velocidad | Precisi√≥n | Uso recomendado |
|--------|---------|-----------|-----------|------------------|
| YOLOv11n | Nano | ‚ö°‚ö°‚ö°‚ö°‚ö° | ‚≠ê‚≠ê‚≠ê | Dispositivos m√≥viles, Edge computing |
| YOLOv11s | Small | ‚ö°‚ö°‚ö°‚ö° | ‚≠ê‚≠ê‚≠ê‚≠ê | Aplicaciones en tiempo real |
| YOLOv11m | Medium | ‚ö°‚ö°‚ö° | ‚≠ê‚≠ê‚≠ê‚≠ê | Balance velocidad-precisi√≥n |
| YOLOv11l | Large | ‚ö°‚ö° | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | Alta precisi√≥n |
| YOLOv11x | Extra Large | ‚ö° | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | M√°xima precisi√≥n |

Para este tutorial usaremos **YOLOv11n** (Nano) por su velocidad, ideal para webcam.

In [2]:
# Cargar el modelo YOLOv11 Nano (el m√°s r√°pido)
# La primera vez que ejecutes esto, descargar√° los pesos del modelo (~6 MB para nano)

print("Cargando modelo YOLOv11n...")
modelo = YOLO('yolo11s.pt')  # Descarga autom√°ticamente si no existe

print("‚úì Modelo YOLOv11n cargado exitosamente")
print(f"\nModelo: {modelo.model_name}")
print(f"Tipo de tarea: {modelo.task}")

# Si prefieres otro modelo, puedes usar:
# modelo = YOLO('yolo11s.pt')  # Small - m√°s preciso pero m√°s lento
# modelo = YOLO('yolo11m.pt')  # Medium
# modelo = YOLO('yolo11l.pt')  # Large
# modelo = YOLO('yolo11x.pt')  # Extra Large

Cargando modelo YOLOv11n...
‚úì Modelo YOLOv11n cargado exitosamente

Modelo: yolo11s.pt
Tipo de tarea: detect


## 3. Clases que Puede Detectar YOLO

El modelo est√° entrenado en el dataset COCO (Common Objects in Context) que contiene 80 clases de objetos comunes.

In [None]:
# Obtener la lista de clases que puede detectar el modelo
nombres_clases = modelo.names

print(f"El modelo puede detectar {len(nombres_clases)} clases diferentes:\n")

# Mostrar las clases en columnas para mejor visualizaci√≥n
clases_lista = list(nombres_clases.values())
num_columnas = 4
filas = [clases_lista[i:i+num_columnas] for i in range(0, len(clases_lista), num_columnas)]

for fila in filas:
    print("  ".join([f"{clase:20s}" for clase in fila]))

print("\nAlgunas clases destacadas:")
print("   Personas: person")
print("   Veh√≠culos: car, truck, bus, motorcycle, bicycle")
print("   Animales: dog, cat, bird, horse, cow, etc.")
print("   Objetos: cell phone, laptop, keyboard, mouse")
print("   Comida: pizza, apple, sandwich, banana, etc.")

## 4. Primera Detecci√≥n: Imagen Est√°tica

Antes de trabajar con la webcam, vamos a probar YOLO con una imagen est√°tica para entender c√≥mo funciona.

In [None]:

# Crear una imagen de ejemplo
imagen_prueba = cv2.imread("./img/mix.jpg")
# Mostrar la imagen original
plt.figure(figsize=(12, 8))
plt.imshow(cv2.cvtColor(imagen_prueba, cv2.COLOR_BGR2RGB))
plt.title('Imagen Original')
plt.axis('off')
plt.show()



In [None]:
#Primero trabajamos dentro del notebook


import cv2
import matplotlib.pyplot as plt

# Carga la imagen desde el archivo especificado
img = cv2.imread("./img/mix.jpg")

# Ejecuta el modelo sobre la imagen para obtener predicciones
results = modelo(img)

# Genera una versi√≥n de la imagen con las detecciones dibujadas
annotated_frame = results[0].plot()

# Convertir de BGR (OpenCV) a RGB (Matplotlib)
annotated_frame_rgb = cv2.cvtColor(annotated_frame, cv2.COLOR_BGR2RGB)

# Mostrar la imagen directamente en el notebook
plt.figure(figsize=(10,10))
plt.imshow(annotated_frame_rgb)
plt.axis("off")  # Oculta los ejes
plt.show()


In [None]:
# Realizar la detecci√≥n con YOLOv11
# El modelo procesa la imagen y devuelve las detecciones

print("Ejecutando detecci√≥n con YOLOv11...")

# Realizar la predicci√≥n
# conf: umbral de confianza m√≠nimo (0.0 a 1.0)
# iou: umbral de Intersection over Union para NMS (Non-Maximum Suppression)
resultados = modelo.predict(
    source=imagen_prueba,
    conf=0.25,  # Confianza m√≠nima del 25%
    iou=0.45,   # IOU threshold para eliminar detecciones duplicadas
    verbose=False  # No mostrar logs detallados
)

# Obtener la primera (y √∫nica) imagen de resultados
resultado = resultados[0]

# Informaci√≥n sobre las detecciones
num_detecciones = len(resultado.boxes)
print(f"\n‚úì Detecci√≥n completada")
print(f"Objetos detectados: {num_detecciones}")

# Visualizar el resultado con las cajas dibujadas
imagen_con_detecciones = resultado.plot()  # Dibuja las cajas autom√°ticamente

plt.figure(figsize=(12, 8))
plt.imshow(cv2.cvtColor(imagen_con_detecciones, cv2.COLOR_BGR2RGB))
plt.title(f'Detecciones de YOLOv11 ({num_detecciones} objetos)')
plt.axis('off')
plt.show()

# Mostrar detalles de cada detecci√≥n
if num_detecciones > 0:
    print("\nDetalles de las detecciones:")
    for i, box in enumerate(resultado.boxes):
        clase_id = int(box.cls[0])
        clase_nombre = nombres_clases[clase_id]
        confianza = float(box.conf[0])
        coordenadas = box.xyxy[0].cpu().numpy()
        
        print(f"\n  Objeto {i+1}:")
        print(f"    Clase: {clase_nombre}")
        print(f"    Confianza: {confianza*100:.2f}%")
        print(f"    Coordenadas: x1={coordenadas[0]:.0f}, y1={coordenadas[1]:.0f}, "
              f"x2={coordenadas[2]:.0f}, y2={coordenadas[3]:.0f}")
else:
    print("\nNo se detectaron objetos con la confianza m√≠nima establecida.")
    print("Tip: Usa una imagen real con objetos del mundo real para mejores resultados.")

In [None]:
#Pero si queremos trabajar en un script de Python para usarlo en una aplicaci√≥n, debemos usar este c√≥digo:

# Carga la imagen desde el archivo especificado
img = cv2.imread("./img/mix.jpg")

# Ejecuta el modelo sobre la imagen para obtener predicciones
results = modelo(img)

# Genera una versi√≥n de la imagen con las detecciones dibujadas
annotated_frame = results[0].plot()

# Muestra la imagen anotada en una ventana
cv2.imshow("Detecci√≥n - Imagen", annotated_frame)

# Espera a que se presione una tecla para cerrar la ventana
cv2.waitKey(0)

# Cierra todas las ventanas abiertas por OpenCV
cv2.destroyAllWindows()


## probemos con video

In [None]:
# Abre el archivo de video indicado
cap = cv2.VideoCapture("./video/people.mp4")

# Bucle principal: se ejecuta mientras el video est√© abierto
while cap.isOpened():

    # Lee un fotograma del video
    ret, frame = cap.read()

    # Si no se pudo leer (fin del video o error), salir del bucle
    if not ret:
        break

    # Ejecuta el modelo sobre el fotograma para obtener predicciones
    results = modelo(frame)

    # Genera un fotograma anotado con las detecciones dibujadas
    annotated_frame = results[0].plot()

    # Muestra el fotograma procesado en una ventana
    cv2.imshow("Detecci√≥n - Video", annotated_frame)

    # Espera una tecla; si se presiona 'q', se detiene la reproducci√≥n
    if cv2.waitKey(1) & 0xFF == ord('q'):  # Presiona 'q' para salir
        break

# Libera el recurso del video
cap.release()

# Cierra todas las ventanas de OpenCV
cv2.destroyAllWindows()


## Detecci√≥n en Webcam - Versi√≥n B√°sica 

Ahora vamos a usar la webcam para hacer detecci√≥n en tiempo real.

### Importante:
- Aseg√∫rate de tener una webcam conectada
- La primera ejecuci√≥n puede tardar unos segundos
- Presiona **'q'** para detener la detecci√≥n

### C√≥mo funciona:
1. Se captura cada frame de la webcam
2. YOLO procesa el frame y detecta objetos
3. Se dibujan las cajas y etiquetas
4. Se muestra el frame procesado

In [None]:
# Activa la webcam (√≠ndice 0 normalmente corresponde a la c√°mara principal)
cap = cv2.VideoCapture(0)

# Bucle infinito para capturar fotogramas en tiempo real
while True:

    # Captura un fotograma desde la webcam
    ret, frame = cap.read()

    # Si no se pudo capturar el fotograma, salir del bucle
    if not ret:
        break

    # Ejecuta el modelo sobre el fotograma para obtener predicciones
    results = modelo(frame)

    # Genera un fotograma anotado con las detecciones dibujadas
    annotated_frame = results[0].plot()

    # Muestra el fotograma procesado en una ventana
    cv2.imshow("Detecci√≥n - Webcam", annotated_frame)

    # Si se presiona la tecla 'q', se detiene la visualizaci√≥n
    if cv2.waitKey(1) & 0xFF == ord('q'):  # Presiona 'q' para salir
        break

# Libera la c√°mara
cap.release()

# Cierra todas las ventanas abiertas por OpenCV
cv2.destroyAllWindows()



0: 480x640 (no detections), 83.8ms
Speed: 7.6ms preprocess, 83.8ms inference, 0.4ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 (no detections), 95.4ms
Speed: 1.0ms preprocess, 95.4ms inference, 0.5ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 (no detections), 87.4ms
Speed: 1.2ms preprocess, 87.4ms inference, 0.4ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 (no detections), 90.5ms
Speed: 1.4ms preprocess, 90.5ms inference, 0.4ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 (no detections), 89.2ms
Speed: 1.0ms preprocess, 89.2ms inference, 0.3ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 (no detections), 93.2ms
Speed: 0.9ms preprocess, 93.2ms inference, 0.3ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 (no detections), 91.7ms
Speed: 1.3ms preprocess, 91.7ms inference, 0.4ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 (no detections), 95.8ms
Speed: 1.4ms preprocess, 95.8ms i

## 5. Entendiendo los Resultados de YOLO

Cada detecci√≥n de YOLO contiene:

1. **Bounding Box**: Coordenadas (x1, y1, x2, y2) del rect√°ngulo
2. **Clase**: El tipo de objeto detectado
3. **Confianza (Confidence)**: Probabilidad de que la detecci√≥n sea correcta (0-1)

### Par√°metros importantes:

- **conf (confidence threshold)**: Umbral de confianza m√≠nimo
  - Valores bajos (0.1-0.3): M√°s detecciones, pero m√°s falsos positivos
  - Valores altos (0.5-0.9): Menos detecciones, pero m√°s precisas
  
- **iou (Intersection over Union)**: Para eliminar cajas duplicadas
  - Valores t√≠picos: 0.45 - 0.5

In [None]:
# Funci√≥n auxiliar para procesar y mostrar resultados de forma personalizada

def procesar_detecciones(resultados, imagen_original):
    """
    Procesa los resultados de YOLO y dibuja las detecciones de forma personalizada
    
    Args:
        resultados: Resultados de modelo.predict()
        imagen_original: Imagen original en formato BGR
    
    Returns:
        imagen_anotada: Imagen con las detecciones dibujadas
        info_detecciones: Lista con informaci√≥n de cada detecci√≥n
    """
    # Crear una copia de la imagen para dibujar
    imagen_anotada = imagen_original.copy()
    info_detecciones = []
    
    resultado = resultados[0]
    
    # Procesar cada detecci√≥n
    for box in resultado.boxes:
        # Extraer informaci√≥n
        clase_id = int(box.cls[0])
        clase_nombre = nombres_clases[clase_id]
        confianza = float(box.conf[0])
        coordenadas = box.xyxy[0].cpu().numpy().astype(int)
        x1, y1, x2, y2 = coordenadas
        
        # Guardar informaci√≥n
        info_detecciones.append({
            'clase': clase_nombre,
            'confianza': confianza,
            'bbox': (x1, y1, x2, y2)
        })
        
        # Colores diferentes seg√∫n la clase (para visualizaci√≥n)
        color = (
            int(np.random.randint(0, 255)),
            int(np.random.randint(0, 255)),
            int(np.random.randint(0, 255))
        )
        
        # Dibujar el rect√°ngulo
        cv2.rectangle(imagen_anotada, (x1, y1), (x2, y2), color, 2)
        
        # Preparar el texto
        texto = f"{clase_nombre} {confianza*100:.1f}%"
        
        # Calcular el tama√±o del texto para el fondo
        (ancho_texto, alto_texto), baseline = cv2.getTextSize(
            texto, cv2.FONT_HERSHEY_SIMPLEX, 0.5, 2
        )
        
        # Dibujar rect√°ngulo de fondo para el texto
        cv2.rectangle(
            imagen_anotada,
            (x1, y1 - alto_texto - baseline - 5),
            (x1 + ancho_texto, y1),
            color,
            -1
        )
        
        # Dibujar el texto
        cv2.putText(
            imagen_anotada,
            texto,
            (x1, y1 - 5),
            cv2.FONT_HERSHEY_SIMPLEX,
            0.5,
            (255, 255, 255),
            2
        )
    
    return imagen_anotada, info_detecciones

print("‚úì Funci√≥n de procesamiento personalizado creada")

## 8. Aplicaci√≥n Pr√°ctica: Contador de Personas

Vamos a crear una aplicaci√≥n espec√≠fica que cuenta personas en tiempo real.
√ötil para:
- üè™ Conteo de clientes en tiendas
- üè¢ Control de aforo
- üìä An√°lisis de tr√°fico peatonal

In [None]:
def contador_personas_tiempo_real(duracion_segundos=30, conf_threshold=0.6):
    """
    Aplicaci√≥n espec√≠fica para contar personas en tiempo real
    
    Args:
        duracion_segundos: Duraci√≥n de la captura
        conf_threshold: Umbral de confianza (recomendado: 0.6 para personas)
    """
    print("="*60)
    print("CONTADOR DE PERSONAS EN TIEMPO REAL")
    print("="*60)
    print(f"Duraci√≥n: {duracion_segundos} segundos")
    print(f"Umbral de confianza: {conf_threshold}")
    print("\nPresiona 'q' para salir\n")
    
    cap = cv2.VideoCapture(0)
    
    if not cap.isOpened():
        print("‚ùå Error: No se pudo abrir la webcam")
        return
    
    cap.set(cv2.CAP_PROP_FRAME_WIDTH, 640)
    cap.set(cv2.CAP_PROP_FRAME_HEIGHT, 480)
    
    ancho = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
    alto = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
    
    print("‚úì Sistema iniciado")
    print("Detectando personas...\n")
    
    # Estad√≠sticas
    tiempo_inicio = time.time()
    personas_maximas = 0
    historial_personas = []
    total_detecciones = 0
    
    try:
        while True:
            tiempo_transcurrido = time.time() - tiempo_inicio
            if tiempo_transcurrido > duracion_segundos:
                break
            
            ret, frame = cap.read()
            if not ret:
                break
            
            # Detectar
            resultados = modelo.predict(
                source=frame,
                conf=conf_threshold,
                classes=[0],  # Clase 0 = person
                verbose=False
            )
            
            resultado = resultados[0]
            frame_anotado = frame.copy()
            
            # Contar personas
            num_personas = len(resultado.boxes)
            total_detecciones += num_personas
            historial_personas.append(num_personas)
            
            if num_personas > personas_maximas:
                personas_maximas = num_personas
            
            # Dibujar cada persona
            for i, box in enumerate(resultado.boxes):
                coordenadas = box.xyxy[0].cpu().numpy().astype(int)
                x1, y1, x2, y2 = coordenadas
                confianza = float(box.conf[0])
                
                # Color seg√∫n la confianza
                if confianza > 0.8:
                    color = (0, 255, 0)  # Verde - alta confianza
                elif confianza > 0.6:
                    color = (0, 255, 255)  # Amarillo - media confianza
                else:
                    color = (0, 165, 255)  # Naranja - baja confianza
                
                # Dibujar rect√°ngulo
                cv2.rectangle(frame_anotado, (x1, y1), (x2, y2), color, 3)
                
                # Etiqueta
                texto = f"Persona {i+1} ({confianza*100:.0f}%)"
                (w_text, h_text), _ = cv2.getTextSize(
                    texto, cv2.FONT_HERSHEY_SIMPLEX, 0.6, 2
                )
                cv2.rectangle(frame_anotado, (x1, y1-h_text-10), 
                            (x1+w_text, y1), color, -1)
                cv2.putText(frame_anotado, texto, (x1, y1-5),
                           cv2.FONT_HERSHEY_SIMPLEX, 0.6, (255, 255, 255), 2)
            
            # Panel de informaci√≥n grande
            panel_ancho = 300
            panel_alto = 200
            overlay = frame_anotado.copy()
            cv2.rectangle(overlay, (ancho-panel_ancho, 0), 
                         (ancho, panel_alto), (0, 0, 0), -1)
            frame_anotado = cv2.addWeighted(overlay, 0.7, frame_anotado, 0.3, 0)
            
            # Informaci√≥n del contador
            y = 40
            cv2.putText(frame_anotado, "CONTADOR", (ancho-panel_ancho+10, y),
                       cv2.FONT_HERSHEY_SIMPLEX, 0.8, (255, 255, 255), 2)
            
            y += 50
            # N√∫mero actual de personas (grande)
            texto_personas = f"{num_personas}"
            cv2.putText(frame_anotado, texto_personas, (ancho-panel_ancho+80, y),
                       cv2.FONT_HERSHEY_SIMPLEX, 2.5, (0, 255, 0), 4)
            
            y += 50
            cv2.putText(frame_anotado, "Personas ahora", (ancho-panel_ancho+40, y),
                       cv2.FONT_HERSHEY_SIMPLEX, 0.6, (255, 255, 255), 1)
            
            y += 35
            cv2.putText(frame_anotado, f"Maximo: {personas_maximas}", 
                       (ancho-panel_ancho+10, y),
                       cv2.FONT_HERSHEY_SIMPLEX, 0.6, (0, 255, 255), 1)
            
            y += 25
            promedio = np.mean(historial_personas) if historial_personas else 0
            cv2.putText(frame_anotado, f"Promedio: {promedio:.1f}", 
                       (ancho-panel_ancho+10, y),
                       cv2.FONT_HERSHEY_SIMPLEX, 0.6, (255, 255, 0), 1)
            
            # Tiempo restante
            tiempo_restante = duracion_segundos - tiempo_transcurrido
            cv2.putText(frame_anotado, f"Tiempo: {tiempo_restante:.0f}s", 
                       (10, alto-10),
                       cv2.FONT_HERSHEY_SIMPLEX, 0.6, (255, 255, 255), 2)
            
            # Mostrar
            cv2.imshow('Contador de Personas - YOLOv11', frame_anotado)
            
            if cv2.waitKey(1) & 0xFF == ord('q'):
                break
    
    except KeyboardInterrupt:
        print("\nInterrumpido")
    
    finally:
        cap.release()
        cv2.destroyAllWindows()
        
        # Reporte final
        tiempo_total = time.time() - tiempo_inicio
        promedio_final = np.mean(historial_personas) if historial_personas else 0
        
        print("\n" + "="*60)
        print("REPORTE FINAL - CONTADOR DE PERSONAS")
        print("="*60)
        print(f"Duraci√≥n del monitoreo: {tiempo_total:.2f} segundos")
        print(f"Personas detectadas (m√°ximo simult√°neo): {personas_maximas}")
        print(f"Promedio de personas: {promedio_final:.2f}")
        print(f"Total de detecciones: {total_detecciones}")
        print(f"Frames analizados: {len(historial_personas)}")
        print("="*60)
        
        # Gr√°fico del historial
        if historial_personas:
            plt.figure(figsize=(12, 5))
            plt.plot(historial_personas, linewidth=2, color='blue', label='Personas')
            plt.axhline(y=promedio_final, color='red', linestyle='--', 
                       label=f'Promedio ({promedio_final:.2f})')
            plt.axhline(y=personas_maximas, color='green', linestyle='--', 
                       label=f'M√°ximo ({personas_maximas})')
            plt.xlabel('Frame')
            plt.ylabel('N√∫mero de personas')
            plt.title('Historial de Detecci√≥n de Personas')
            plt.legend()
            plt.grid(True, alpha=0.3)
            plt.tight_layout()
            plt.show()

# Ejecutar el contador
contador_personas_tiempo_real(duracion_segundos=30, conf_threshold=0.6)

print("‚úì Aplicaci√≥n de contador de personas creada")
print("\nPara ejecutar, descomenta la √∫ltima l√≠nea")

## 9. Proyecto: Detector de Objetos Espec√≠ficos

Crea tu propio detector personalizado.
para este ejemplo vamos a contar coches 

In [None]:
# Importa la librer√≠a OpenCV para procesamiento de im√°genes y video
import cv2

# Importa las soluciones de Ultralytics (como ObjectCounter)
from ultralytics import solutions

# Abre el archivo de video indicado
cap = cv2.VideoCapture('./video/coches.mp4')

# Verifica que el video se haya abierto correctamente
assert cap.isOpened(), "Error reading video file"

# cap = cv2.VideoCapture(0)  # Descomenta esta l√≠nea si deseas usar la c√°mara en lugar de un archivo de video

# Define los puntos que forman la regi√≥n donde se realizar√° el conteo
# En este caso, una l√≠nea formada por dos puntos
region_points = [(218, 264), (554, 222)]

# Ejemplos alternativos para usar una regi√≥n rectangular o poligonal:
# region_points = [(20, 400), (1080, 400), (1080, 360), (20, 360)]  # rect√°ngulo
# region_points = [(20, 400), (1080, 400), (1080, 360), (20, 360), (20, 400)]  # pol√≠gono

# Obtener propiedades del video: ancho, alto y FPS
w, h, fps = (int(cap.get(x)) for x in (
    cv2.CAP_PROP_FRAME_WIDTH,
    cv2.CAP_PROP_FRAME_HEIGHT,
    cv2.CAP_PROP_FPS
))

# Crear un escritor de video para guardar el resultado procesado
video_writer = cv2.VideoWriter(
    "object_counting_output.avi",
    cv2.VideoWriter_fourcc(*"mp4v"),
    fps,
    (w, h)
)

# Inicializar el contador de objetos
counter = solutions.ObjectCounter(
    show=True,              # Mostrar la salida procesada en pantalla
    region=region_points,   # Puntos de la regi√≥n donde se contar√°n los objetos
    model="yolo11n.pt",     # Modelo de detecci√≥n (OBB disponible opcionalmente)
    # classes=[0, 2],        # (Opcional) Contar solo clases espec√≠ficas, ej.: persona y coche
    # tracker="botsort.yaml" # (Opcional) Elegir un tracker como ByteTrack o BoT-SORT
)

# Procesar el video cuadro por cuadro
while cap.isOpened():

    # Leer un fotograma del video
    success, im0 = cap.read()

    # Si no se obtuvo un fotograma, se termin√≥ el video
    if not success:
        print("Video frame is empty or processing is complete.")
        break

    # Procesar el fotograma con el contador (detecci√≥n + tracking + conteo)
    results = counter(im0)

    # print(results)  # (Opcional) Ver el resultado detallado en consola

    # Guardar el fotograma procesado en el archivo de salida
    video_writer.write(results.plot_im)

# Liberar el video original
cap.release()

# Cerrar el archivo de salida
video_writer.release()

# Cerrar todas las ventanas abiertas por OpenCV
cv2.destroyAllWindows()


## pero.. ¬øcomo hago la linea?

In [None]:
# Importa la librer√≠a OpenCV para trabajar con im√°genes y video
import cv2

# Ruta del video que se usar√° para seleccionar puntos
video_path = './video/coches.mp4'

# Escala para mostrar el video m√°s peque√±o en pantalla (√∫til para pantallas peque√±as)
scale = 0.5  # Ajusta a 0.3 o 0.7 seg√∫n lo necesites

# Lista donde se guardar√°n los puntos seleccionados
points = []

# Funci√≥n que se ejecuta cuando el usuario hace clic en la ventana
def click_event(event, x, y, flags, params):
    if event == cv2.EVENT_LBUTTONDOWN:  # Detecta clic izquierdo
        # Convertir coordenadas de la ventana escalada a las coordenadas reales del video
        x_orig = int(x / scale)
        y_orig = int(y / scale)
        points.append((x_orig, y_orig))

        # Imprime la coordenada real seleccionada
        print(f"Coordenada original: ({x_orig}, {y_orig})")

        # Si ya hay dos puntos, muestra la l√≠nea final
        if len(points) == 2:
            print(f"\nL√≠nea lista: {points}\n")

# Abre el video para lectura
cap = cv2.VideoCapture(video_path)

# Bucle para mostrar el video y permitir seleccionar puntos
while True:
    ret, frame = cap.read()
    if not ret:  # Si no hay m√°s fotogramas, termina
        break

    # Reduce el tama√±o del fotograma seg√∫n el factor de escala
    frame_resized = cv2.resize(frame, (0, 0), fx=scale, fy=scale)

    # Copia del frame donde se dibujar√° la l√≠nea
    clone = frame_resized.copy()

    # Si ya se seleccionaron dos puntos, dibujar la l√≠nea en la ventana escalada
    if len(points) == 2:
        pt1 = (int(points[0][0] * scale), int(points[0][1] * scale))
        pt2 = (int(points[1][0] * scale), int(points[1][1] * scale))
        cv2.line(clone, pt1, pt2, (0, 255, 0), 2)  # L√≠nea verde

    # Mostrar la ventana con el video
    cv2.imshow("Haz clic en dos puntos para definir la l√≠nea", clone)

    # Registrar el callback para capturar clics del usuario
    cv2.setMouseCallback("Haz clic en dos puntos para definir la l√≠nea", click_event)

    # Salir si el usuario presiona 'q' o ya seleccion√≥ 2 puntos
    key = cv2.waitKey(20)
    if key == ord('q') or len(points) == 2:
        break

# Liberar el video
cap.release()

# Cerrar ventanas abiertas
cv2.destroyAllWindows()

# Mostrar el resultado final en consola
if len(points) == 2:
    print(f"Usa esta l√≠nea en tu c√≥digo:\nregion_points = {points}")
else:
    print("No seleccionaste dos puntos.")


## 11. Optimizaci√≥n y Consejos

### Para mejorar el rendimiento:

1. **Usa el modelo m√°s peque√±o necesario**
   - YOLOv11n para velocidad
   - YOLOv11s o m para balance
   - YOLOv11l o x solo si necesitas m√°xima precisi√≥n

2. **Reduce la resoluci√≥n de la webcam**
   ```python
   cap.set(cv2.CAP_PROP_FRAME_WIDTH, 416)
   cap.set(cv2.CAP_PROP_FRAME_HEIGHT, 416)
   ```

3. **Ajusta el umbral de confianza**
   - Valores m√°s altos = menos detecciones pero m√°s precisas
   - Experimenta con valores entre 0.3 y 0.7

4. **Procesa cada N frames**
   - No es necesario detectar en TODOS los frames
   - Procesa cada 2 o 3 frames para ahorrar procesamiento

5. **Usa GPU si est√° disponible**
   - YOLO detectar√° autom√°ticamente CUDA si tienes una GPU NVIDIA
   - Puede aumentar la velocidad 5-10x

### Soluci√≥n de problemas comunes:

| Problema | Soluci√≥n |
|----------|----------|
| FPS muy bajos | Usa modelo m√°s peque√±o o reduce resoluci√≥n |
| Muchos falsos positivos | Aumenta el umbral de confianza |
| No detecta objetos peque√±os | Aumenta la resoluci√≥n o usa modelo m√°s grande |
| Webcam no se abre | Verifica que no est√© en uso por otra app |
| Detecciones inestables | Implementa tracking o suavizado temporal |

## 12. Proyecto Final: Sistema Completo de Vigilancia

Combina todo lo aprendido en un sistema completo.

In [None]:
# Importamos el m√≥dulo datetime, que permite manejar fechas y horas (√∫til para registrar eventos)
import datetime


# --------------------------------------------------------
# FUNCI√ìN PRINCIPAL DEL SISTEMA DE VIGILANCIA
# --------------------------------------------------------
def sistema_vigilancia_completo(
    duracion_minutos=5,            # Duraci√≥n total del sistema antes de apagarse autom√°ticamente
    guardar_eventos=True,          # Si TRUE, se guardar√°n videos cuando haya detecciones
    clases_vigilar=['person'],     # Lista de clases a detectar (seg√∫n el modelo YOLO)
    conf_threshold=0.6             # Nivel m√≠nimo de confianza para considerar v√°lida una detecci√≥n
):
    """
    Sistema completo de vigilancia conectado a YOLOv11.

    Este sistema realiza:
    - Captura continua desde webcam
    - Detecci√≥n en tiempo real
    - Dibujo de cuadros y etiquetas sobre la imagen
    - Registro autom√°tico de eventos con hora
    - Grabaci√≥n cuando aparece un objeto vigilado
    - Estad√≠sticas en vivo en la pantalla
    - Reporte final de todo lo detectado
    """

    # --------------------------------------------------------
    # MUESTRA INFORMACI√ìN INICIAL ANTES DE EMPEZAR
    # --------------------------------------------------------
    print("="*70)
    print("SISTEMA DE VIGILANCIA INTELIGENTE - YOLOv11")
    print("="*70)
    print(f"Duraci√≥n: {duracion_minutos} minutos")                 # Tiempo total de monitoreo
    print(f"Vigilando: {', '.join(clases_vigilar)}")               # Clases de objetos que se detectar√°n
    print(f"Umbral de confianza: {conf_threshold}")                # Nivel requerido para aceptaci√≥n
    print("\nPresiona 'q' para detener\n")
    

    # --------------------------------------------------------
    # CONFIGURACI√ìN DE LA WEBCAM
    # --------------------------------------------------------
    cap = cv2.VideoCapture(0)   # 0 = webcam principal
    if not cap.isOpened():      # Verifica que la c√°mara est√© disponible
        print("‚ùå Error: No se pudo abrir la webcam")
        return
    
    # Establecemos una resoluci√≥n est√°ndar (puedes modificar si quieres calidad HD)
    cap.set(cv2.CAP_PROP_FRAME_WIDTH, 640)  
    cap.set(cv2.CAP_PROP_FRAME_HEIGHT, 480)

    # Guardamos los valores reales (en caso el sistema no acepte la resoluci√≥n pedida)
    ancho = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
    alto = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
    

    # --------------------------------------------------------
    # VARIABLES PARA CONTROL INTERNO DEL SISTEMA
    # --------------------------------------------------------
    tiempo_inicio = time.time()                 # Momento en que inicia el sistema
    duracion_segundos = duracion_minutos * 60   # Convertimos minutos ‚Üí segundos

    eventos = []                                # Lista para guardar todos los eventos detectados
    grabando = False                            # Indica si estamos grabando video o no
    writer = None                                # Objeto VideoWriter (cuando se graba)
    contador_eventos = 0                         # Cantidad total de eventos detectados

    print("‚úì Sistema de vigilancia activado")
    print("Monitoreando...\n")
    

    # --------------------------------------------------------
    # BUCLE PRINCIPAL DE VIGILANCIA
    # --------------------------------------------------------
    try:
        while True:

            # Calculamos cu√°nto tiempo ha transcurrido desde el inicio
            tiempo_actual = time.time()
            tiempo_transcurrido = tiempo_actual - tiempo_inicio

            # Si ya se cumpli√≥ el tiempo total ‚Üí terminar
            if tiempo_transcurrido > duracion_segundos:
                break

            # Capturamos un fotograma de la webcam
            ret, frame = cap.read()
            if not ret:
                break   # Si falla la captura, se detiene el sistema

            
            # --------------------------------------------------------
            # PROCESAMOS EL FRAME CON YOLO
            # --------------------------------------------------------
            resultados = modelo.predict(
                source=frame,       # Imagen a procesar
                conf=conf_threshold,# Probabilidad m√≠nima
                verbose=False       # Oculta logs
            )
            
            resultado = resultados[0]       # YOLO devuelve varias cosas, aqu√≠ tomamos el primer frame
            frame_anotado = frame.copy()    # Duplicamos el frame para dibujar sobre √©l


            # --------------------------------------------------------
            # ANALIZAMOS LAS DETECCIONES REALIZADAS POR YOLO
            # --------------------------------------------------------
            objetos_detectados = []         # Lista para este frame

            for box in resultado.boxes:     # Recorremos cada detecci√≥n encontrada
                
                clase_id = int(box.cls[0])          # ID num√©rico de la clase detectada
                clase_nombre = nombres_clases[clase_id]  # Convertimos ID ‚Üí nombre (ej. 'person')
                
                # Solo nos interesa si coincide con la lista de vigilancia
                if clase_nombre in clases_vigilar:

                    objetos_detectados.append(clase_nombre)

                    # Confianza de detecci√≥n (entre 0 y 1)
                    confianza = float(box.conf[0])

                    # Coordenadas del cuadro delimitador
                    x1, y1, x2, y2 = box.xyxy[0].cpu().numpy().astype(int)
                    
                    # Dibujar el cuadro ROJO alrededor del objeto
                    cv2.rectangle(frame_anotado, (x1, y1), (x2, y2), (0, 0, 255), 2)

                    # Dibujar etiqueta con nombre y porcentaje de confianza
                    cv2.putText(
                        frame_anotado,
                        f"{clase_nombre} {confianza*100:.0f}%",
                        (x1, y1 - 10),
                        cv2.FONT_HERSHEY_SIMPLEX,
                        0.6,
                        (0, 0, 255),
                        2
                    )


            # --------------------------------------------------------
            # MANEJO DE EVENTOS (INICIO Y FIN DE GRABACI√ìN)
            # --------------------------------------------------------

            # Si detectamos objetos Y no estamos grabando todav√≠a ‚Üí iniciamos grabaci√≥n
            if objetos_detectados and not grabando:

                contador_eventos += 1   # Aumentamos el n√∫mero de evento
                
                timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
                nombre_archivo = f"evento_{contador_eventos}_{timestamp}.mp4"

                # Si guardamos los eventos ‚Üí abrir archivo de video
                if guardar_eventos:
                    fourcc = cv2.VideoWriter_fourcc(*'mp4v')  # C√≥dec de video
                    writer = cv2.VideoWriter(nombre_archivo, fourcc, 20, (ancho, alto))

                # Guardamos la informaci√≥n del evento
                evento = {
                    'numero': contador_eventos,
                    'timestamp': datetime.datetime.now(),
                    'objetos': list(set(objetos_detectados)),
                    'archivo': nombre_archivo if guardar_eventos else None
                }
                eventos.append(evento)

                grabando = True

                # Mostrar alerta en consola
                print(f"‚ö†Ô∏è  EVENTO {contador_eventos}: {', '.join(set(objetos_detectados))} detectado a las {evento['timestamp'].strftime('%H:%M:%S')}")


            # Si NO hay detecciones y S√ç est√° grabando ‚Üí detener grabaci√≥n
            elif not objetos_detectados and grabando:
                if writer:
                    writer.release()   # Cerramos archivo de video
                    writer = None
                grabando = False


            # Si grabando, guardar el frame actual en el video
            if grabando and writer:
                writer.write(frame_anotado)


            # --------------------------------------------------------
            # INTERFAZ GR√ÅFICA (HUD EN LA PARTE SUPERIOR)
            # --------------------------------------------------------

            # Creamos fondo oscuro semitransparente
            overlay = frame_anotado.copy()
            cv2.rectangle(overlay, (0, 0), (ancho, 100), (0, 0, 0), -1)
            frame_anotado = cv2.addWeighted(overlay, 0.7, frame_anotado, 0.3, 0)
            
            # Texto del estado actual (MONITOREANDO / GRABANDO)
            estado = "GRABANDO" if grabando else "MONITOREANDO"
            color_estado = (0, 0, 255) if grabando else (0, 255, 0)
            cv2.putText(frame_anotado, estado, (10, 35),
                        cv2.FONT_HERSHEY_SIMPLEX, 1, color_estado, 2)
            
            # Hora actual del sistema
            hora_actual = datetime.datetime.now().strftime("%H:%M:%S")
            cv2.putText(frame_anotado, hora_actual, (10, 70),
                        cv2.FONT_HERSHEY_SIMPLEX, 0.7, (255, 255, 255), 2)
            
            # Cantidad de eventos detectados hasta el momento
            cv2.putText(frame_anotado, f"Eventos: {contador_eventos}", (ancho-180, 35),
                        cv2.FONT_HERSHEY_SIMPLEX, 0.7, (255, 255, 255), 2)
            
            # N√∫mero de objetos detectados en este frame
            if objetos_detectados:
                cv2.putText(frame_anotado, f"Detectados: {len(objetos_detectados)}",
                            (ancho-180, 70), cv2.FONT_HERSHEY_SIMPLEX, 0.6, (0, 255, 255), 2)
            
            # Mostrar frame con HUD y anotaciones
            cv2.imshow('Sistema de Vigilancia - YOLOv11', frame_anotado)
            
            # Permitir salir manualmente
            if cv2.waitKey(1) & 0xFF == ord('q'):
                break
    

    # Capturamos interrupci√≥n manual (Ctrl + C)
    except KeyboardInterrupt:
        print("\nSistema detenido manualmente.")
    

    # --------------------------------------------------------
    # LIBERAR RECURSOS + REPORTE FINAL
    # --------------------------------------------------------
    finally:
        if writer:
            writer.release()
        cap.release()
        cv2.destroyAllWindows()
        

        # ------------------------
        # MOSTRAR REPORTE FINAL
        # ------------------------
        print("\n" + "="*70)
        print("REPORTE DE VIGILANCIA")
        print("="*70)
        print(f"Duraci√≥n del monitoreo: {tiempo_transcurrido/60:.2f} minutos")
        print(f"Total de eventos detectados: {contador_eventos}")
        
        # Mostrar detalles de cada evento encontrado
        if eventos:
            print("\nDetalle de eventos:")
            for evento in eventos:
                print(f"\n  Evento #{evento['numero']}")
                print(f"    Hora: {evento['timestamp'].strftime('%H:%M:%S')}")
                print(f"    Objetos: {', '.join(evento['objetos'])}")
                if evento['archivo']:
                    print(f"    Archivo: {evento['archivo']}")
        else:
            print("\nNo se detectaron eventos durante el monitoreo.")
        
        print("\n" + "="*70)
        print("Monitoreo finalizado")
        print("="*70)



# --------------------------------------------------------
# EJECUCI√ìN DEL SISTEMA
# --------------------------------------------------------
sistema_vigilancia_completo(
     duracion_minutos=5,             # Tiempo de vigilancia
     guardar_eventos=True,           # Guardar videos cuando haya detecciones
     clases_vigilar=['person'],      # Detectar personas
     conf_threshold=0.6              # Nivel de confianza m√≠nimo
)

print("‚úì Sistema de vigilancia completo creado")
print("\nPara ejecutar, descomenta el c√≥digo de ejemplo")


## Conclusiones y Pr√≥ximos Pasos


Has aprendido a:
-  Instalar y configurar YOLOv11
-  Realizar detecci√≥n en im√°genes est√°ticas
-  Implementar detecci√≥n en tiempo real con webcam
-  Crear aplicaciones personalizadas
-  Construir un sistema de vigilancia completo
-  Optimizar el rendimiento
-  Analizar y visualizar resultados

### Proyectos que puedes crear:

1. **Sistema de Asistencia Autom√°tica**
   - Detecta personas en un aula
   - Registra asistencia autom√°ticamente

2. **Monitor de Distanciamiento Social**
   - Detecta personas
   - Calcula distancias entre ellas
   - Alerta si est√°n muy cerca

3. **Contador de Aforo**
   - Cuenta personas que entran/salen
   - Controla capacidad m√°xima

4. **Sistema Anti-Robo**
   - Detecta movimiento
   - Env√≠a alertas
   - Graba autom√°ticamente

5. **Asistente para Personas con Discapacidad Visual**
   - Detecta objetos
   - Proporciona retroalimentaci√≥n por voz

### Recursos para seguir aprendiendo:

-  [Documentaci√≥n Ultralytics YOLOv11](https://docs.ultralytics.com/)
-  [Canal de YouTube Ultralytics](https://www.youtube.com/@Ultralytics)
-  [Repositorio GitHub](https://github.com/ultralytics/ultralytics)
-  [Roboflow Universe](https://universe.roboflow.com/) - Datasets p√∫blicos


### Siguientes niveles:

1. **Entrenar tu propio modelo**
   - Crear tu dataset personalizado
   - Fine-tuning de YOLO
   - Detectar objetos espec√≠ficos de tu proyecto

2. **Tracking de objetos**
   - Seguir objetos a trav√©s de frames
   - Contar objetos que cruzan l√≠neas
   - An√°lisis de trayectorias

3. **Segmentaci√≥n de instancias**
   - YOLOv11 tambi√©n soporta segmentaci√≥n
   - Obtener m√°scaras precisas de objetos

4. **Despliegue en producci√≥n**
   - Optimizaci√≥n para edge devices
   - Conversi√≥n a TensorRT, ONNX
   - Implementaci√≥n en Raspberry Pi, Jetson Nano

---

**Ahora es tu turno de crear proyectos incre√≠bles con YOLOv11!**