#
$$\textbf{Entrenamiento del modelo}$$

##
$$\textbf{Bloque 1 ‚Äî Preparaci√≥n del entorno:}
\\ \text{Crea la estructura de carpetas del proyecto en Colab (inputs, temporales, dataset, runs y resultados) para trabajar ordenado.}$$


In [1]:
# Importa herramientas para manejar rutas, archivos, comandos y datos
from pathlib import Path                  # Permite trabajar con rutas de carpetas/archivos de forma simple
import shutil                             # Sirve para copiar/mover/borrar archivos y carpetas
import zipfile                            # Sirve para descomprimir/comprimir archivos .zip
import subprocess                         # Sirve para ejecutar comandos del sistema (ffmpeg, etc.)
import os                                 # Utilidades del sistema (rutas, variables, etc.)
import glob                               # Buscar archivos con patrones (ej: *.jpg)
import re                                 # Manejo de texto con patrones (regex)
import pandas as pd                       # Para crear/guardar tablas (CSV)

BASE = Path("/content")                   # Define la carpeta ra√≠z del entorno Colab
DIR_IN = BASE/"in"                        # Carpeta para archivos que t√∫ subes (video/zip)
DIR_WORK = BASE/"work"                    # Carpeta para trabajo temporal (frames, raw, etc.)
DIR_DATASET = BASE/"dataset"              # Carpeta del dataset final en formato YOLO
DIR_RUNS = BASE/"runs"                    # Carpeta donde YOLO guarda entrenamientos/predicciones
DIR_OUT = BASE/"out"                      # Carpeta para resultados finales listos para descargar

for d in [DIR_IN, DIR_WORK, DIR_DATASET, DIR_RUNS, DIR_OUT]:  # Recorre cada carpeta necesaria
    d.mkdir(parents=True, exist_ok=True)                      # Crea la carpeta si no existe

print("‚úÖ Carpetas listas:")              # Muestra confirmaci√≥n
print("IN:", DIR_IN)                     # Imprime ruta de inputs
print("WORK:", DIR_WORK)                 # Imprime ruta de temporales
print("DATASET:", DIR_DATASET)           # Imprime ruta del dataset final
print("RUNS:", DIR_RUNS)                 # Imprime ruta de salidas de YOLO
print("OUT:", DIR_OUT)                   # Imprime ruta de resultados descargables


‚úÖ Carpetas listas:
IN: /content/in
WORK: /content/work
DATASET: /content/dataset
RUNS: /content/runs
OUT: /content/out


##
$$\textbf{Bloque 2 ‚Äî Instalaci√≥n y verificaci√≥n:} \
\\\ \text{Instala YOLO (Ultralytics) y verifica que herramientas clave como FFmpeg y la GPU est√©n disponibles.}$$


In [2]:
# Instala la librer√≠a Ultralytics (YOLO) en el entorno de Colab
!pip -q install ultralytics

# Importa YOLO para confirmar que la instalaci√≥n qued√≥ OK
from ultralytics import YOLO

# Muestra la versi√≥n de FFmpeg para verificar que est√° instalado
!ffmpeg -version | head -n 2

# Lista la GPU disponible (si hay) para confirmar aceleraci√≥n por hardware
!nvidia-smi -L || true

# Imprime confirmaci√≥n de que Ultralytics qued√≥ listo
print("‚úÖ Ultralytics (YOLO) instalado y disponible")


[?25l   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.0/1.2 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[91m‚ï∏[0m[90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.7/1.2 MB[0m [31m20.0 MB/s[0m eta [36m0:00:01[0m[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m1.2/1.2 MB[0m [31m18.5 MB/s[0m eta [36m0:00:00[0m
[?25hCreating new Ultralytics Settings v0.0.6 file ‚úÖ 
View Ultralytics Settings with 'yolo settings' or at '/root/.config/Ultralytics/settings.json'
Update Settings with 'yolo settings key=value', i.e. 'yolo settings runs_dir=path/to/dir'. For help see https://docs.ultralytics.com/quickstart/#ultralytics-settings.
ffmpeg version 4.4.2-0ubuntu0.22.04.1 Copyright (c) 2000-2021 the FFmpeg devel

##
$$\textbf{Bloque 3 ‚Äî Subida de archivos:} \
\\\ \text{Permite subir archivos desde tu computador a Colab y los deja guardados en content in para usarlos en el flujo.}$$

In [3]:
# Habilita el bot√≥n de subir archivos desde tu PC a Colab
from google.colab import files  # Herramienta de Colab para subir archivos manualmente

# Abre el selector para subir: video.mp4 o images.zip o cvat_yolo_export.zip
uploaded = files.upload()  # Te deja elegir archivos desde tu computador

# Mueve cada archivo subido a la carpeta est√°ndar /content/in
for fname in uploaded.keys():              # Recorre los nombres de lo que subiste
    src = Path("/content")/fname           # Colab lo deja primero en /content
    dst = DIR_IN/fname                     # Destino final en /content/in
    if src.exists():                       # Confirma que el archivo est√°
        shutil.move(str(src), str(dst))    # Lo mueve a /content/in

# Muestra lo que qued√≥ en /content/in para confirmar que est√° OK
print("‚úÖ Archivos guardados en /content/in:")  # Mensaje de confirmaci√≥n
items = list(DIR_IN.iterdir())                 # Lee el contenido de /content/in
if items:                                      # Si hay archivos
    for p in items:                            # Recorre cada archivo
        print(" -", p.name, f"({p.stat().st_size/1e6:.2f} MB)")  # Nombre y tama√±o
else:
    print("‚ö†Ô∏è Carpeta vac√≠a: no se subi√≥ nada a√∫n.")             # Aviso si no hay archivos


‚úÖ Archivos guardados en /content/in:
‚ö†Ô∏è Carpeta vac√≠a: no se subi√≥ nada a√∫n.


##
$$\textbf{Bloque 4 ‚Äî Exploraci√≥n y control de espacio:} \
\\\ \text{Te muestra qu√© hay dentro de las carpetas del proyecto y cu√°nto espacio est√°n usando (para no llenar Colab).}$$


In [4]:
# Define una funci√≥n simple para listar contenido de una carpeta sin tirar error
def listar_carpeta(ruta, max_items=50):                  # Crea una funci√≥n para listar archivos/carpetas
    ruta = Path(ruta)                                    # Convierte la ruta a formato Path
    print("\nüìÅ", ruta)                                   # Imprime la carpeta que se est√° revisando
    if not ruta.exists():                                # Si la carpeta no existe
        print("‚ö†Ô∏è No existe todav√≠a.")                    # Avisa sin romper el notebook
        return                                            # Termina la funci√≥n

    items = sorted(list(ruta.iterdir()), key=lambda p: (p.is_file(), p.name.lower()))  # Ordena primero carpetas
    if len(items) == 0:                                  # Si no hay nada dentro
        print("‚ö†Ô∏è Est√° vac√≠a.")                           # Avisa sin romper el notebook
        return                                            # Termina la funci√≥n

    for p in items[:max_items]:                          # Recorre hasta max_items elementos
        tipo = "DIR " if p.is_dir() else "FILE"          # Marca si es carpeta o archivo
        print(f" - {tipo} {p.name}")                     # Imprime el nombre

    if len(items) > max_items:                           # Si hay m√°s de max_items
        print(f" ... y {len(items)-max_items} m√°s")      # Avisa cu√°ntos faltan por mostrar

# Lista las carpetas principales del proyecto para ver el estado general
print("‚úÖ Listado r√°pido de carpetas del proyecto:")      # Mensaje de inicio
listar_carpeta("/content")                               # Muestra lo que hay en /content
listar_carpeta(DIR_IN)                                   # Muestra lo que hay en /content/in
listar_carpeta(DIR_WORK)                                 # Muestra lo que hay en /content/work
listar_carpeta(DIR_DATASET)                              # Muestra lo que hay en /content/dataset
listar_carpeta(DIR_RUNS)                                 # Muestra lo que hay en /content/runs
listar_carpeta(DIR_OUT)                                  # Muestra lo que hay en /content/out

# Muestra el espacio total del disco del entorno (si el comando est√° disponible)
print("\n‚úÖ Espacio total del entorno (df -h):")           # T√≠tulo del chequeo
try:
    subprocess.run(["df", "-h"], check=False)            # Ejecuta df sin romper si falla
except Exception:
    print("‚ö†Ô∏è No pude ejecutar df -h en este entorno.")   # Aviso si no se pudo

# Muestra cu√°nto pesa cada carpeta dentro de /content (para detectar qu√© est√° llenando)
print("\n‚úÖ Peso por carpeta dentro de /content (du -h):") # T√≠tulo del chequeo
try:
    subprocess.run(["bash", "-lc", "du -h --max-depth=1 /content | sort -h"], check=False)  # Ejecuta du ordenado
except Exception:
    print("‚ö†Ô∏è No pude ejecutar du en este entorno.")      # Aviso si no se pudo


‚úÖ Listado r√°pido de carpetas del proyecto:

üìÅ /content
 - DIR  .config
 - DIR  dataset
 - DIR  in
 - DIR  out
 - DIR  runs
 - DIR  sample_data
 - DIR  work

üìÅ /content/in
‚ö†Ô∏è Est√° vac√≠a.

üìÅ /content/work
‚ö†Ô∏è Est√° vac√≠a.

üìÅ /content/dataset
‚ö†Ô∏è Est√° vac√≠a.

üìÅ /content/runs
‚ö†Ô∏è Est√° vac√≠a.

üìÅ /content/out
‚ö†Ô∏è Est√° vac√≠a.

‚úÖ Espacio total del entorno (df -h):

‚úÖ Peso por carpeta dentro de /content (du -h):


##
$$\textbf{Bloque 5 ‚Äî Detecci√≥n de inputs y preparaci√≥n de rutas:} \
\\\ \text{Revisa qu√© subiste (video, zip de im√°genes o zip de CVAT) y deja listas las carpetas de trabajo para frames y dataset crudo.}$$


In [5]:
# Detecta autom√°ticamente qu√© tipo de archivo tienes en /content/in (sin tirar error si no hay nada)
in_files = list(DIR_IN.iterdir())                               # Lee todo lo que hay dentro de /content/in

# Busca un video por extensi√≥n com√∫n (si existe)
video = next((p for p in in_files if p.suffix.lower() in [".mp4", ".mov", ".avi", ".mkv"]), None)  # Encuentra el primer video

# Busca un zip que se llame images.zip (si existe)
zip_images = next((p for p in in_files if p.name.lower() == "images.zip"), None)  # Encuentra images.zip

# Busca un zip que parezca export de CVAT (si existe)
zip_cvat = next((p for p in in_files if p.suffix.lower() == ".zip" and "cvat" in p.name.lower()), None)  # Encuentra zip CVAT

# Define carpetas de trabajo est√°ndar (frames y dataset_raw)
FRAMES_DIR = DIR_WORK/"frames"                                  # Carpeta donde se guardan frames extra√≠dos del video
RAW_DIR = DIR_WORK/"dataset_raw"                                # Carpeta donde se descomprime el export de CVAT

# Crea las carpetas si no existen
FRAMES_DIR.mkdir(parents=True, exist_ok=True)                   # Crea /content/work/frames si no existe
RAW_DIR.mkdir(parents=True, exist_ok=True)                      # Crea /content/work/dataset_raw si no existe

# Imprime un resumen claro de lo que se detect√≥
print("‚úÖ Detecci√≥n de inputs en /content/in:")                  # T√≠tulo del resumen
print(" - Video:", video.name if video else "No detectado")      # Informa si hay video
print(" - images.zip:", zip_images.name if zip_images else "No detectado")  # Informa si hay zip de im√°genes
print(" - zip CVAT:", zip_cvat.name if zip_cvat else "No detectado")        # Informa si hay export CVAT

# Imprime rutas de trabajo listas
print("\n‚úÖ Rutas de trabajo listas:")                           # T√≠tulo para rutas
print(" - FRAMES_DIR:", FRAMES_DIR)                              # Ruta donde ir√°n los frames
print(" - RAW_DIR:", RAW_DIR)                                    # Ruta donde ir√° el dataset crudo

# Mensaje gu√≠a para tu siguiente decisi√≥n (sin obligarte a nada)
print("\n‚ÑπÔ∏è Pr√≥ximo paso sugerido:")                              # Gu√≠a de flujo
if video:
    print(" - Tienes video: puedes extraer frames (Bloque 6).")   # Recomienda ruta A
elif zip_cvat:
    print(" - Tienes export CVAT: puedes descomprimir y normalizar dataset (Bloques 7+).")  # Recomienda ruta CVAT
elif zip_images:
    print(" - Tienes images.zip: puedes descomprimir para etiquetar (si lo necesitas).")    # Recomienda ruta B
else:
    print(" - A√∫n no hay inputs: puedes seguir armando notebook igual y subir despu√©s.")    # Recomienda seguir sin datos


‚úÖ Detecci√≥n de inputs en /content/in:
 - Video: No detectado
 - images.zip: No detectado
 - zip CVAT: No detectado

‚úÖ Rutas de trabajo listas:
 - FRAMES_DIR: /content/work/frames
 - RAW_DIR: /content/work/dataset_raw

‚ÑπÔ∏è Pr√≥ximo paso sugerido:
 - A√∫n no hay inputs: puedes seguir armando notebook igual y subir despu√©s.


##
$$\textbf{Bloque 6 ‚Äî Video ‚Üí Frames:} \
\\\ \text{Si hay un video, extrae im√°genes (frames) a una frecuencia definida (fps) y las guarda en #/content/work/frames para etiquetarlas despu√©s.}$$


In [6]:
# Extrae frames desde el video detectado (si no hay video, no falla: solo avisa)
fps_extract = 1.0                                              # Define cu√°ntas im√°genes por segundo extraer (ej: 1.0 = 1 frame/seg)
img_ext = "jpg"                                                # Define el formato de imagen de salida (jpg o png)

# Si no hay video, no hacemos nada y seguimos
if video is None:                                              # Revisa si se detect√≥ un video en /content/in
    print("‚ö†Ô∏è No hay video detectado en /content/in, as√≠ que no se extraen frames todav√≠a.")  # Aviso sin romper el flujo
else:
    # Limpia frames anteriores para no mezclar corridas
    old_frames = list(FRAMES_DIR.glob(f"*.{img_ext}"))          # Busca frames antiguos en la carpeta de frames
    for f in old_frames:                                        # Recorre frames antiguos
        f.unlink()                                              # Borra cada frame antiguo

    # Define el patr√≥n de nombres (000001.jpg, 000002.jpg, ...)
    out_pattern = str(FRAMES_DIR / f"%06d.{img_ext}")           # Crea el patr√≥n de salida para ffmpeg

    # Construye y ejecuta el comando ffmpeg para extraer frames
    cmd = ["ffmpeg", "-y", "-i", str(video), "-vf", f"fps={fps_extract}", out_pattern]  # Comando para extraer frames a fps definido
    print("‚úÖ Ejecutando FFmpeg para extraer frames:")           # Mensaje de inicio
    print("   ", " ".join(cmd))                                 # Muestra el comando para trazabilidad
    subprocess.run(cmd, check=False)                            # Ejecuta sin romper el notebook si ffmpeg devuelve error

    # Cuenta y muestra resultados
    frames = sorted(FRAMES_DIR.glob(f"*.{img_ext}"))            # Busca los frames generados
    if len(frames) == 0:                                        # Si no se gener√≥ ning√∫n frame
        print("‚ö†Ô∏è No se generaron frames (revisa si el video est√° OK o si fps_extract es muy bajo).")  # Aviso
    else:
        print(f"‚úÖ Frames listos: {len(frames)} en {FRAMES_DIR}")  # Confirma cu√°ntos frames se crearon
        print("   Ejemplo primero/√∫ltimo:", frames[0].name, "|", frames[-1].name)  # Muestra nombres de ejemplo


‚ö†Ô∏è No hay video detectado en /content/in, as√≠ que no se extraen frames todav√≠a.


##
$$\textbf{Bloque 7 ‚Äî Zip de frames para CVAT:} \
\\\ \text{Comprime los frames extra√≠dos en un archivo frames.zip dentro de #/content/out para descargarlo y subirlo a CVAT.}$$


In [7]:
# Comprime los frames en un ZIP descargable (si no hay frames, no falla: solo avisa)
zip_frames_path = DIR_OUT/"frames.zip"                         # Define d√≥nde quedar√° el zip final

# Busca frames existentes en la carpeta de frames
frame_files = sorted(list(FRAMES_DIR.glob("*.jpg")) + list(FRAMES_DIR.glob("*.png")))  # Re√∫ne frames jpg/png

# Si no hay frames a√∫n, avisa y termina sin error
if len(frame_files) == 0:                                      # Revisa si hay frames para comprimir
    print("‚ö†Ô∏è No hay frames en /content/work/frames, as√≠ que no se puede crear frames.zip todav√≠a.")  # Aviso
else:
    # Si ya exist√≠a un zip antiguo, lo borra para evitar confusiones
    if zip_frames_path.exists():                               # Verifica si el zip ya existe
        zip_frames_path.unlink()                               # Borra el zip anterior

    # Crea el zip con todos los frames
    with zipfile.ZipFile(zip_frames_path, "w", zipfile.ZIP_DEFLATED) as z:  # Abre un zip en modo escritura
        for f in frame_files:                                  # Recorre cada frame
            z.write(f, arcname=f.name)                         # Agrega el archivo al zip con su nombre

    # Confirma que el zip se cre√≥ correctamente
    print("‚úÖ ZIP creado para CVAT:", zip_frames_path)          # Muestra la ruta del zip creado
    print(f"‚úÖ Incluye {len(frame_files)} im√°genes.")          # Indica cu√°ntas im√°genes quedaron dentro

    # Opci√≥n de descarga directa (si quieres)
    try:
        from google.colab import files                         # Importa herramienta de descarga de Colab
        files.download(str(zip_frames_path))                   # Descarga el zip a tu PC
        print("‚úÖ Descarga iniciada (si tu navegador lo permite).")  # Confirmaci√≥n
    except Exception:
        print("‚ö†Ô∏è No pude iniciar descarga autom√°tica, pero el zip qued√≥ en /content/out para descargarlo manualmente.")  # Aviso


‚ö†Ô∏è No hay frames en /content/work/frames, as√≠ que no se puede crear frames.zip todav√≠a.


##
$$\textbf{C√≥mo descargar frames.zip y subir el export de CVAT:} \
\\\ \text{Descargas frames.zip desde Colab a tu PC y luego, cuando CVAT te entregue el zip exportado (YOLO), lo subes de vuelta a Colab en #/content/in.}$$


In [22]:
# Descarga frames.zip si existe (si no existe, no falla: avisa)
frames_zip = DIR_OUT/"frames.zip"                                # Define la ruta donde deber√≠a estar frames.zip

# Revisa si el zip existe antes de intentar descargarlo
if not frames_zip.exists():                                      # Si frames.zip no est√° creado
    print("‚ö†Ô∏è No existe /content/out/frames.zip todav√≠a.")       # Aviso
    print("‚ÑπÔ∏è Primero corre el Bloque 7 (crear frames.zip).")    # Gu√≠a
else:
    # Inicia descarga al computador usando el navegador
    from google.colab import files                               # Importa utilidad de descarga
    files.download(str(frames_zip))                              # Descarga frames.zip
    print("‚úÖ Descarga iniciada: revisa tu navegador (descargas).")  # Confirmaci√≥n


# Subida del export de CVAT (YOLO) a /content/in (si no subes nada, no falla: avisa)
print("\n‚úÖ Ahora puedes subir el ZIP exportado desde CVAT (formato YOLO).")  # Instrucci√≥n al usuario

from google.colab import files                                   # Importa utilidad de subida
uploaded = files.upload()                                        # Abre selector para subir el zip de CVAT

# Si no subiste nada, avisa y sigue
if len(uploaded) == 0:                                           # Si el usuario cancel√≥ o no subi√≥
    print("‚ö†Ô∏è No se subi√≥ ning√∫n archivo todav√≠a.")              # Aviso
    print("‚ÑπÔ∏è Cuando tengas el export de CVAT, vuelve a correr esta parte y s√∫belo.")  # Gu√≠a
else:
    # Mueve lo subido a /content/in para mantener el est√°ndar
    for fname in uploaded.keys():                                # Recorre lo que subiste
        src = Path("/content")/fname                             # Ubicaci√≥n temporal de Colab
        dst = DIR_IN/fname                                       # Destino final en /content/in
        if src.exists():                                         # Verifica que exista
            shutil.move(str(src), str(dst))                      # Mueve a /content/in

    # Lista lo que qued√≥ en /content/in para confirmar
    print("‚úÖ Archivos en /content/in:")                          # T√≠tulo del listado
    items = list(DIR_IN.iterdir())                               # Lee contenido de /content/in
    for p in items:                                              # Recorre cada archivo
        print(" -", p.name, f"({p.stat().st_size/1e6:.2f} MB)")   # Muestra nombre y tama√±o

    print("‚ÑπÔ∏è Pr√≥ximo paso: corre el Bloque 8 para descomprimir el export de CVAT.")  # Gu√≠a de flujo


‚ö†Ô∏è No existe /content/out/frames.zip todav√≠a.
‚ÑπÔ∏è Primero corre el Bloque 7 (crear frames.zip).

‚úÖ Ahora puedes subir el ZIP exportado desde CVAT (formato YOLO).


‚ö†Ô∏è No se subi√≥ ning√∫n archivo todav√≠a.
‚ÑπÔ∏è Cuando tengas el export de CVAT, vuelve a correr esta parte y s√∫belo.


##
$$\textbf{Bloque 8 ‚Äî Importar export de CVAT (YOLO):} \
\\\ \text{Si subiste el ZIP exportado desde CVAT, lo descomprime en /content #/work/dataset_raw para preparar la creaci√≥n del dataset final.}$$


In [8]:
# Descomprime el export de CVAT (si existe) en /content/work/dataset_raw (si no existe, no falla: avisa)
# Nota: Este zip suele llamarse algo como "cvat_yolo_export.zip" (el nombre puede variar)

# Vuelve a buscar un zip que parezca de CVAT por si lo subiste reci√©n
in_files = list(DIR_IN.iterdir())                                              # Lee archivos en /content/in
zip_cvat = next((p for p in in_files if p.suffix.lower() == ".zip" and "cvat" in p.name.lower()), None)  # Busca zip con "cvat" en el nombre

# Si no encontramos zip CVAT, avisamos y seguimos sin error
if zip_cvat is None:                                                           # Revisa si existe export de CVAT
    print("‚ö†Ô∏è No detect√© ning√∫n .zip de CVAT en /content/in (debe tener 'cvat' en el nombre).")           # Aviso
    print("‚ÑπÔ∏è Cuando lo tengas, s√∫belo y vuelve a correr este bloque.")         # Gu√≠a
else:
    # Limpia dataset_raw anterior para evitar mezclar versiones
    if RAW_DIR.exists():                                                       # Revisa si ya existe dataset_raw
        shutil.rmtree(RAW_DIR)                                                 # Borra dataset_raw anterior completo
    RAW_DIR.mkdir(parents=True, exist_ok=True)                                 # Crea dataset_raw limpio

    # Descomprime el zip de CVAT dentro de dataset_raw
    with zipfile.ZipFile(zip_cvat, "r") as z:                                  # Abre el zip de CVAT
        z.extractall(RAW_DIR)                                                  # Extrae todo su contenido en RAW_DIR

    # Lista contenido para confirmar que se extrajo algo
    extracted_any = any(RAW_DIR.rglob("*"))                                     # Verifica si hay archivos extra√≠dos
    if not extracted_any:                                                      # Si no se extrajo nada
        print("‚ö†Ô∏è El zip se descomprimi√≥, pero no veo archivos dentro. Revisa si el zip est√° correcto.")  # Aviso
    else:
        print("‚úÖ Export CVAT descomprimido en:", RAW_DIR)                      # Confirmaci√≥n
        # Muestra un vistazo r√°pido de archivos/carpetas extra√≠das
        top_items = sorted(list(RAW_DIR.iterdir()))                             # Lista el primer nivel de dataset_raw
        print("‚úÖ Primer nivel dentro de dataset_raw:")                         # T√≠tulo del listado
        for p in top_items[:30]:                                                # Muestra hasta 30 √≠tems
            tag = "DIR " if p.is_dir() else "FILE"                              # Marca si es carpeta o archivo
            print(" -", tag, p.name)                                            # Imprime nombre
        if len(top_items) > 30:                                                 # Si hay muchos √≠tems
            print(f" ... y {len(top_items)-30} m√°s")                            # Indica que hay m√°s


‚ö†Ô∏è No detect√© ning√∫n .zip de CVAT en /content/in (debe tener 'cvat' en el nombre).
‚ÑπÔ∏è Cuando lo tengas, s√∫belo y vuelve a correr este bloque.


##
$$\textbf{Bloque 9 ‚Äî Detectar d√≥nde quedaron im√°genes y labels (CVAT):} \
\\\ \text{Busca autom√°ticamente las carpetas con im√°genes (jpg/png) y las carpetas con archivos .txt (labels) dentro de #/content/work/dataset_raw.}$$


In [9]:
# Detecta autom√°ticamente la carpeta de im√°genes y la carpeta de labels dentro de dataset_raw (sin caer si no hay nada)
img_exts = {".jpg", ".jpeg", ".png"}                                       # Define extensiones v√°lidas de im√°genes
raw_exists = RAW_DIR.exists()                                              # Verifica si existe la carpeta dataset_raw

# Si no existe dataset_raw, avisa y no rompe el notebook
if not raw_exists:                                                         # Revisa si RAW_DIR existe
    print("‚ö†Ô∏è No existe /content/work/dataset_raw todav√≠a. Corre el Bloque 8 primero (descomprimir CVAT).")  # Aviso
else:
    # Busca todas las im√°genes dentro de dataset_raw
    all_imgs = [p for p in RAW_DIR.rglob("*") if p.suffix.lower() in img_exts]  # Encuentra todas las im√°genes (recursivo)

    # Busca todos los .txt dentro de dataset_raw (labels YOLO suelen ser .txt)
    all_txt = [p for p in RAW_DIR.rglob("*.txt")]                          # Encuentra todos los txt (recursivo)

    # Filtra por si hubiera archivos txt que no son labels (igual lo mostramos como warning)
    print("‚úÖ Archivos encontrados dentro de dataset_raw:")                 # T√≠tulo de resumen
    print(" - Im√°genes:", len(all_imgs))                                   # Cantidad de im√°genes encontradas
    print(" - TXT:", len(all_txt))                                         # Cantidad de txt encontrados

    # Si no se encontraron im√°genes o txt, avisa y termina sin error
    if len(all_imgs) == 0:
        print("‚ö†Ô∏è No encontr√© im√°genes (.jpg/.png) dentro de dataset_raw. Revisa la estructura del zip exportado.")  # Aviso
    if len(all_txt) == 0:
        print("‚ö†Ô∏è No encontr√© labels (.txt) dentro de dataset_raw. Revisa que exportaste en formato YOLO desde CVAT.")  # Aviso

    # Si hay im√°genes, intenta detectar la carpeta con m√°s im√°genes (candidata principal)
    img_dir = None                                                        # Inicializa carpeta candidata de im√°genes
    if len(all_imgs) > 0:                                                 # Solo si hay im√°genes
        counts_img_parent = {}                                            # Diccionario para contar im√°genes por carpeta
        for p in all_imgs:                                                # Recorre cada imagen encontrada
            counts_img_parent[p.parent] = counts_img_parent.get(p.parent, 0) + 1  # Suma 1 a la carpeta padre
        img_dir = max(counts_img_parent, key=counts_img_parent.get)       # Elige la carpeta con mayor cantidad de im√°genes

    # Si hay txt, intenta detectar la carpeta con m√°s txt (candidata principal)
    lbl_dir = None                                                        # Inicializa carpeta candidata de labels
    if len(all_txt) > 0:                                                  # Solo si hay txt
        counts_lbl_parent = {}                                            # Diccionario para contar txt por carpeta
        for p in all_txt:                                                 # Recorre cada txt encontrado
            counts_lbl_parent[p.parent] = counts_lbl_parent.get(p.parent, 0) + 1  # Suma 1 a la carpeta padre
        lbl_dir = max(counts_lbl_parent, key=counts_lbl_parent.get)       # Elige la carpeta con mayor cantidad de txt

    # Imprime rutas detectadas (o avisa si no se pudo)
    print("\n‚úÖ Rutas detectadas (candidatas principales):")               # T√≠tulo de rutas detectadas
    print(" - img_dir:", str(img_dir) if img_dir else "No detectado")      # Muestra carpeta de im√°genes
    print(" - lbl_dir:", str(lbl_dir) if lbl_dir else "No detectado")      # Muestra carpeta de labels

    # Muestra ejemplos para confirmar visualmente que se ve razonable
    if img_dir:                                                           # Si se detect√≥ carpeta de im√°genes
        ex_imgs = sorted([p.name for p in img_dir.iterdir() if p.suffix.lower() in img_exts])  # Lista nombres de im√°genes en esa carpeta
        print("\n‚úÖ Ejemplos de im√°genes en img_dir:", ex_imgs[:5])        # Muestra 5 ejemplos
    if lbl_dir:                                                           # Si se detect√≥ carpeta de labels
        ex_lbls = sorted([p.name for p in lbl_dir.iterdir() if p.suffix.lower() == ".txt"])   # Lista nombres de txt en esa carpeta
        print("‚úÖ Ejemplos de labels en lbl_dir:", ex_lbls[:5])            # Muestra 5 ejemplos

    # Guarda las rutas en variables globales para que el siguiente bloque (split/normalizaci√≥n) las use
    IMG_DIR_DETECTED = img_dir                                             # Deja guardada la carpeta de im√°genes detectada
    LBL_DIR_DETECTED = lbl_dir                                             # Deja guardada la carpeta de labels detectada

    # Gu√≠a de siguiente paso
    print("\n‚ÑπÔ∏è Pr√≥ximo paso sugerido:")                                    # Gu√≠a del flujo
    if IMG_DIR_DETECTED and LBL_DIR_DETECTED:
        print(" - Ya est√°n detectadas im√°genes y labels: puedes normalizar y hacer split train/val (Bloque 10).")  # Recomienda continuar
    else:
        print(" - No se detectaron bien las rutas: lista dataset_raw (Bloque 4) y ajustamos.")  # Recomienda revisar estructura


‚úÖ Archivos encontrados dentro de dataset_raw:
 - Im√°genes: 0
 - TXT: 0
‚ö†Ô∏è No encontr√© im√°genes (.jpg/.png) dentro de dataset_raw. Revisa la estructura del zip exportado.
‚ö†Ô∏è No encontr√© labels (.txt) dentro de dataset_raw. Revisa que exportaste en formato YOLO desde CVAT.

‚úÖ Rutas detectadas (candidatas principales):
 - img_dir: No detectado
 - lbl_dir: No detectado

‚ÑπÔ∏è Pr√≥ximo paso sugerido:
 - No se detectaron bien las rutas: lista dataset_raw (Bloque 4) y ajustamos.


##
$$\textbf{Bloque 10 ‚Äî Normalizaci√≥n YOLO + Split train/val:} \
\\\ \text{Crea la estructura YOLO est√°ndar (#images/labels en train y val), copia pares imagen+txt, y reporta errores t√≠picos (faltan labels o nombres no calzan).}$$


In [10]:
# Construye el dataset final YOLO (train/val) desde las carpetas detectadas (si no est√°n, no falla: avisa)
import random                                                   # Sirve para mezclar aleatoriamente antes del split

train_ratio = 0.8                                               # Define proporci√≥n para train (ej: 0.8 = 80% train, 20% val)
seed = 42                                                       # Fija semilla para que el split sea repetible

# Define rutas YOLO est√°ndar de salida
IMG_TRAIN = DIR_DATASET/"images/train"                          # Carpeta de im√°genes de entrenamiento
IMG_VAL   = DIR_DATASET/"images/val"                            # Carpeta de im√°genes de validaci√≥n
LBL_TRAIN = DIR_DATASET/"labels/train"                          # Carpeta de labels de entrenamiento
LBL_VAL   = DIR_DATASET/"labels/val"                            # Carpeta de labels de validaci√≥n

# Crea las carpetas de salida si no existen
for d in [IMG_TRAIN, IMG_VAL, LBL_TRAIN, LBL_VAL]:              # Recorre las carpetas YOLO est√°ndar
    d.mkdir(parents=True, exist_ok=True)                        # Crea cada carpeta si no existe

# Verifica que existan las rutas detectadas por el Bloque 9
img_dir = globals().get("IMG_DIR_DETECTED", None)               # Recupera la carpeta de im√°genes detectada (si existe)
lbl_dir = globals().get("LBL_DIR_DETECTED", None)               # Recupera la carpeta de labels detectada (si existe)

# Si no hay carpetas detectadas, avisa y termina sin error
if (img_dir is None) or (lbl_dir is None):                      # Revisa si faltan rutas para continuar
    print("‚ö†Ô∏è No tengo img_dir/lbl_dir detectadas todav√≠a. Corre el Bloque 9 (detecci√≥n) antes de este bloque.")  # Aviso
else:
    img_dir = Path(img_dir)                                     # Asegura que sea Path
    lbl_dir = Path(lbl_dir)                                     # Asegura que sea Path

    # Define extensiones v√°lidas de im√°genes
    img_exts = {".jpg", ".jpeg", ".png"}                        # Extensiones permitidas para im√°genes

    # Crea mapas por 'stem' (nombre sin extensi√≥n) para hacer match imagen <-> label
    img_map = {}                                                # Diccionario: stem -> ruta imagen
    for p in img_dir.iterdir():                                 # Recorre archivos en la carpeta de im√°genes detectada
        if p.suffix.lower() in img_exts:                        # Filtra solo im√°genes
            img_map[p.stem] = p                                 # Guarda usando el stem como clave

    lbl_map = {}                                                # Diccionario: stem -> ruta label (.txt)
    for p in lbl_dir.iterdir():                                 # Recorre archivos en la carpeta de labels detectada
        if p.suffix.lower() == ".txt":                          # Filtra solo txt
            lbl_map[p.stem] = p                                 # Guarda usando el stem como clave

    # Identifica pares v√°lidos y casos con problemas
    paired = sorted(set(img_map.keys()) & set(lbl_map.keys()))  # Stems que existen en ambos (imagen y txt)
    missing_lbl = sorted(set(img_map.keys()) - set(lbl_map.keys()))  # Im√°genes sin txt
    missing_img = sorted(set(lbl_map.keys()) - set(img_map.keys()))  # Txt sin imagen

    # Reporta estado de matching
    print("‚úÖ Matching imagen + label:")                         # T√≠tulo
    print(" - Pares OK (img+txt):", len(paired))                # Cantidad de pares correctos
    print(" - Im√°genes sin txt:", len(missing_lbl))             # Cantidad de im√°genes sin label
    print(" - Txt sin imagen:", len(missing_img))               # Cantidad de labels sin imagen

    # Si no hay pares, avisa y termina sin error
    if len(paired) == 0:                                        # Si no hay nada para construir dataset
        print("‚ö†Ô∏è No hay pares (img+txt) para construir dataset. Revisa export de CVAT o nombres.")  # Aviso
    else:
        # Limpia salidas anteriores para no mezclar versiones
        for d in [IMG_TRAIN, IMG_VAL, LBL_TRAIN, LBL_VAL]:      # Recorre carpetas de salida
            for f in d.glob("*"):                               # Recorre todo dentro
                f.unlink()                                      # Borra archivo

        # Mezcla y hace el split train/val
        random.seed(seed)                                       # Fija semilla para reproducibilidad
        random.shuffle(paired)                                  # Mezcla los pares
        cut = int(len(paired) * train_ratio)                    # Calcula el punto de corte para train
        train_ids = paired[:cut]                                # Lista de stems para train
        val_ids = paired[cut:]                                  # Lista de stems para val

        # Funci√≥n para copiar un par imagen+txt al destino (manteniendo nombres)
        def copy_pair(stem, img_dst, lbl_dst):                  # Define copiado de un par
            shutil.copy2(img_map[stem], img_dst / img_map[stem].name)  # Copia imagen a su carpeta
            shutil.copy2(lbl_map[stem], lbl_dst / lbl_map[stem].name)  # Copia txt a su carpeta

        # Copia pares a train
        for s in train_ids:                                     # Recorre stems de train
            copy_pair(s, IMG_TRAIN, LBL_TRAIN)                  # Copia imagen y label a train

        # Copia pares a val
        for s in val_ids:                                       # Recorre stems de val
            copy_pair(s, IMG_VAL, LBL_VAL)                      # Copia imagen y label a val

        # Cuenta resultados finales y confirma
        n_train_img = len(list(IMG_TRAIN.glob("*")))            # Cuenta im√°genes train
        n_train_lbl = len(list(LBL_TRAIN.glob("*.txt")))        # Cuenta labels train
        n_val_img = len(list(IMG_VAL.glob("*")))                # Cuenta im√°genes val
        n_val_lbl = len(list(LBL_VAL.glob("*.txt")))            # Cuenta labels val

        print("\n‚úÖ Dataset YOLO final creado en:", DIR_DATASET) # Confirma ruta base
        print(" - Train: imgs =", n_train_img, "| lbls =", n_train_lbl)  # Resumen train
        print(" - Val:   imgs =", n_val_img,   "| lbls =", n_val_lbl)    # Resumen val

        # Muestra ejemplos de nombres para verificar r√°pidamente
        ex_train = sorted([p.name for p in IMG_TRAIN.glob("*")])[:5]     # 5 ejemplos train
        ex_val = sorted([p.name for p in IMG_VAL.glob("*")])[:5]         # 5 ejemplos val
        print("\n‚úÖ Ejemplos (train imgs):", ex_train)                    # Imprime ejemplos train
        print("‚úÖ Ejemplos (val imgs):", ex_val)                          # Imprime ejemplos val

        # Guarda un resumen para que quede registro
        summary_path = DIR_OUT/"dataset_summary.txt"                     # Ruta del resumen
        summary_text = (
            f"pares_ok={len(paired)}\n"
            f"missing_lbl={len(missing_lbl)}\n"
            f"missing_img={len(missing_img)}\n"
            f"train_ratio={train_ratio}\n"
            f"train_imgs={n_train_img}\ntrain_lbls={n_train_lbl}\n"
            f"val_imgs={n_val_img}\nval_lbls={n_val_lbl}\n"
        )
        summary_path.write_text(summary_text, encoding="utf-8")          # Escribe resumen a archivo
        print("\n‚úÖ Resumen guardado en:", summary_path)                  # Confirma guardado


‚ö†Ô∏è No tengo img_dir/lbl_dir detectadas todav√≠a. Corre el Bloque 9 (detecci√≥n) antes de este bloque.


##
$$\textbf{Bloque 11 ‚Äî Crear data.yaml (receta del dataset):} \
\\\ \text{Genera el archivo data.yaml que le dice a YOLO d√≥nde est√° tu dataset (train/val) y cu√°l es el orden de clases.}$$


In [11]:
# Crea el archivo data.yaml para YOLO (si no hay dataset a√∫n, no falla: avisa)
yaml_path = BASE/"data.yaml"                                    # Define la ruta donde se guardar√° el YAML

# Define aqu√≠ tus clases EXACTAS y en el MISMO orden que usaste en CVAT
classes = [
    # "grieta",
    # "desprendimiento",
    # "humedad",
]                                                               # Lista de nombres de clases (ed√≠tala t√∫)

# Verifica que existan carpetas train/val para evitar un YAML apuntando a nada
train_dir_ok = (DIR_DATASET/"images/train").exists()            # Revisa si existe la carpeta de im√°genes train
val_dir_ok = (DIR_DATASET/"images/val").exists()                # Revisa si existe la carpeta de im√°genes val

# Si no hay estructura dataset, avisa y no rompe el notebook
if not (train_dir_ok and val_dir_ok):                           # Si faltan carpetas b√°sicas del dataset
    print("‚ö†Ô∏è No detecto la estructura de dataset en /content/dataset/images/train y /val.")  # Aviso
    print("‚ÑπÔ∏è Corre el Bloque 10 (normalizaci√≥n + split) antes de crear el data.yaml.")       # Gu√≠a
else:
    # Si no definiste clases, avisa para que no entrenes con un YAML incompleto
    if len(classes) == 0:                                       # Si la lista de clases est√° vac√≠a
        print("‚ö†Ô∏è La lista 'classes' est√° vac√≠a. Agrega tus clases en el orden de CVAT antes de entrenar.")  # Aviso
        print("‚ÑπÔ∏è Igual crear√© el data.yaml, pero NO deber√≠as entrenar hasta completar 'classes'.")          # Gu√≠a

    # Construye el contenido del YAML que YOLO necesita
    yaml_text = f"""path: {DIR_DATASET}
train: images/train
val: images/val
names:
"""                                                             # Texto base del YAML (path + rutas train/val)

    # Agrega las clases con su √≠ndice (0,1,2...) en el orden correcto
    for i, c in enumerate(classes):                              # Recorre clases con √≠ndice
        yaml_text += f"  {i}: {c}\n"                              # Agrega cada clase al YAML

    # Guarda el archivo data.yaml
    yaml_path.write_text(yaml_text, encoding="utf-8")            # Escribe el YAML en disco

    # Prints de confirmaci√≥n + vista r√°pida del contenido
    print("‚úÖ data.yaml creado en:", yaml_path)                   # Confirma ruta del archivo creado
    print("‚úÖ Contenido de data.yaml:")                           # T√≠tulo del contenido
    print(yaml_text)                                              # Muestra el texto completo


‚ö†Ô∏è La lista 'classes' est√° vac√≠a. Agrega tus clases en el orden de CVAT antes de entrenar.
‚ÑπÔ∏è Igual crear√© el data.yaml, pero NO deber√≠as entrenar hasta completar 'classes'.
‚úÖ data.yaml creado en: /content/data.yaml
‚úÖ Contenido de data.yaml:
path: /content/dataset
train: images/train
val: images/val
names:



##
$$\textbf{Bloque 12 ‚Äî Entrenamiento YOLO:} \
\\\ \text{Entrena un modelo YOLO usando data.yaml y guarda los pesos (best.pt/last.pt) y m√©tricas dentro de #/content/runs/train.}$$


In [12]:
# Entrena YOLO si existe data.yaml (si falta algo, no falla: avisa y sigue)
model_base = "yolov8n.pt"                                        # Define el modelo base (n = liviano/r√°pido)
epochs = 50                                                      # Define cu√°ntas √©pocas entrenar (m√°s = m√°s aprendizaje, m√°s tiempo)
imgsz = 640                                                      # Define tama√±o de imagen para entrenamiento (t√≠pico 640)
batch = 16                                                       # Define batch size (si da error de memoria, baja a 8 o 4)
run_name = "train"                                               # Nombre de la carpeta dentro de /content/runs

# Revisa si existe el data.yaml antes de entrenar
if not yaml_path.exists():                                       # Si no existe el YAML
    print("‚ö†Ô∏è No existe /content/data.yaml todav√≠a.")            # Aviso
    print("‚ÑπÔ∏è Corre el Bloque 11 (crear data.yaml) antes de entrenar.")  # Gu√≠a
else:
    # Intenta cargar y entrenar el modelo (sin romper el notebook si algo falla)
    try:
        print("‚úÖ Iniciando entrenamiento con:")                  # Mensaje de inicio
        print(" - Modelo base:", model_base)                      # Muestra modelo base
        print(" - Epochs:", epochs, "| imgsz:", imgsz, "| batch:", batch)  # Muestra par√°metros
        print(" - Dataset YAML:", yaml_path)                      # Muestra ruta del YAML
        print(" - Salida runs:", DIR_RUNS/run_name)               # Muestra carpeta de salida

        model = YOLO(model_base)                                  # Carga el modelo YOLO base
        results = model.train(                                    # Ejecuta entrenamiento
            data=str(yaml_path),                                  # Indica el YAML del dataset
            epochs=epochs,                                        # N√∫mero de √©pocas
            imgsz=imgsz,                                          # Tama√±o de imagen
            batch=batch,                                          # Batch size
            project=str(DIR_RUNS),                                # Carpeta base de runs
            name=run_name,                                        # Nombre de corrida
            exist_ok=True                                         # Reutiliza carpeta si existe
        )

        print("‚úÖ Entrenamiento terminado.")                       # Confirmaci√≥n general

    except Exception as e:
        print("‚ö†Ô∏è El entrenamiento fall√≥ por un error:")          # Aviso de fallo
        print("   ", str(e)[:400])                                # Muestra parte del error sin saturar
        print("‚ÑπÔ∏è Tip t√≠pico: baja batch (8 o 4) o revisa data.yaml/clases.")  # Gu√≠a r√°pida

    # Chequea si se gener√≥ best.pt y last.pt
    best_path = DIR_RUNS/run_name/"weights/best.pt"               # Ruta esperada de best.pt
    last_path = DIR_RUNS/run_name/"weights/last.pt"               # Ruta esperada de last.pt

    if best_path.exists():                                        # Si existe best.pt
        print("‚úÖ best.pt generado en:", best_path)               # Confirma d√≥nde est√°
    else:
        print("‚ö†Ô∏è No encuentro best.pt todav√≠a (quiz√°s fall√≥ el train o a√∫n no termina).")  # Aviso

    if last_path.exists():                                        # Si existe last.pt
        print("‚úÖ last.pt generado en:", last_path)               # Confirma d√≥nde est√°
    else:
        print("‚ö†Ô∏è No encuentro last.pt todav√≠a.")                 # Aviso

    # Muestra un listado r√°pido del directorio de la corrida
    if (DIR_RUNS/run_name).exists():                              # Si existe la carpeta del run
        print("\n‚úÖ Contenido de /content/runs/train (vista r√°pida):")  # T√≠tulo
        for p in sorted((DIR_RUNS/run_name).iterdir()):           # Recorre el primer nivel
            tag = "DIR " if p.is_dir() else "FILE"               # Marca tipo
            print(" -", tag, p.name)                              # Imprime nombre


‚úÖ Iniciando entrenamiento con:
 - Modelo base: yolov8n.pt
 - Epochs: 50 | imgsz: 640 | batch: 16
 - Dataset YAML: /content/data.yaml
 - Salida runs: /content/runs/train
[KDownloading https://github.com/ultralytics/assets/releases/download/v8.4.0/yolov8n.pt to 'yolov8n.pt': 100% ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ 6.2MB 70.5MB/s 0.1s
Ultralytics 8.4.6 üöÄ Python-3.12.12 torch-2.9.0+cpu CPU (Intel Xeon CPU @ 2.20GHz)
[34m[1mengine/trainer: [0magnostic_nms=False, amp=True, angle=1.0, augment=False, auto_augment=randaugment, batch=16, bgr=0.0, box=7.5, cache=False, cfg=None, classes=None, close_mosaic=10, cls=0.5, compile=False, conf=None, copy_paste=0.0, copy_paste_mode=flip, cos_lr=False, cutmix=0.0, data=/content/data.yaml, degrees=0.0, deterministic=True, device=cpu, dfl=1.5, dnn=False, dropout=0.0, dynamic=False, embed=None, epochs=50, erasing=0.4, exist_ok=True, fliplr=0.5, flipud=0.0, format=torchscript, fraction=1.0, freeze=None, half=False, hsv_h=0.015, hsv_s=0.7, hsv_v=0.

##
$$\textbf{Bloque 13 ‚Äî Validaci√≥n visual en im√°genes (val):} \
\\\ \text{Usa best.pt para predecir sobre images/val y guarda im√°genes con cajas dibujadas en #/content/runs/predict\_val para revisar si ‚Äúfunciona de verdad‚Äù.}$$


In [13]:
# Genera predicciones sobre el set de validaci√≥n (si no hay best.pt o val, no falla: avisa)
run_name = "train"                                               # Define el nombre del entrenamiento (debe coincidir con el Bloque 12)
pred_name = "predict_val"                                        # Define el nombre de la carpeta de predicciones para val

best_path = DIR_RUNS/run_name/"weights/best.pt"                  # Ruta esperada del modelo entrenado best.pt
val_images_dir = DIR_DATASET/"images/val"                        # Ruta esperada del set de validaci√≥n

# Revisa prerequisitos antes de predecir
if not best_path.exists():                                       # Si no existe best.pt
    print("‚ö†Ô∏è No encuentro best.pt todav√≠a en:", best_path)      # Aviso
    print("‚ÑπÔ∏è Corre el Bloque 12 (entrenamiento) y aseg√∫rate que termine bien.")  # Gu√≠a
elif not val_images_dir.exists():                                # Si no existe la carpeta val
    print("‚ö†Ô∏è No encuentro images/val en:", val_images_dir)      # Aviso
    print("‚ÑπÔ∏è Corre el Bloque 10 (normalizaci√≥n + split) para crear el dataset.")  # Gu√≠a
else:
    # Intenta ejecutar predicci√≥n sobre im√°genes de validaci√≥n
    try:
        print("‚úÖ Iniciando predicci√≥n sobre val:")              # Mensaje de inicio
        print(" - Modelo:", best_path)                           # Muestra el modelo que se usar√°
        print(" - Fuente (val):", val_images_dir)                # Muestra la carpeta fuente
        print(" - Salida:", DIR_RUNS/pred_name)                  # Muestra la carpeta de salida

        model = YOLO(str(best_path))                             # Carga el modelo entrenado
        model.predict(                                           # Ejecuta predicci√≥n sobre val
            source=str(val_images_dir),                          # Fuente: im√°genes val
            save=True,                                           # Guarda im√°genes con cajas dibujadas
            project=str(DIR_RUNS),                               # Carpeta base de salida
            name=pred_name,                                      # Nombre de la carpeta de predicci√≥n
            exist_ok=True                                        # Reutiliza carpeta si ya existe
        )

        print("‚úÖ Predicciones val guardadas en:", DIR_RUNS/pred_name)  # Confirmaci√≥n final

        # Muestra algunos archivos de salida para confirmar que se generaron
        out_dir = DIR_RUNS/pred_name                              # Carpeta de salida
        out_imgs = sorted([p for p in out_dir.iterdir() if p.suffix.lower() in [".jpg",".png"]])  # Lista im√°genes de salida
        print("‚úÖ Cantidad de im√°genes generadas:", len(out_imgs)) # Cantidad de archivos resultantes
        if out_imgs:                                              # Si hay im√°genes
            print("‚úÖ Ejemplos:", out_imgs[0].name, "|", out_imgs[min(4, len(out_imgs)-1)].name)  # Muestra 2 ejemplos
        else:
            print("‚ö†Ô∏è No veo im√°genes de salida. Revisa si la predicci√≥n guard√≥ correctamente.")  # Aviso

    except Exception as e:
        print("‚ö†Ô∏è Fall√≥ la predicci√≥n en val por un error:")      # Aviso de error
        print("   ", str(e)[:400])                                # Muestra parte del error
        print("‚ÑπÔ∏è Tip t√≠pico: revisa rutas, nombres o si hay im√°genes corruptas.")  # Gu√≠a r√°pida
#

‚ö†Ô∏è No encuentro best.pt todav√≠a en: /content/runs/train/weights/best.pt
‚ÑπÔ∏è Corre el Bloque 12 (entrenamiento) y aseg√∫rate que termine bien.


#
$$\textbf{Modelo DAICH}$$

##
$$\textbf{Bloque 14 ‚Äî Predicci√≥n en VIDEO (salida anotada + labels):} \
\\\ \text{Usa best.pt para predecir sobre un video y guarda: (1) video anotado y (2) archivos .txt por frame con detecciones (para luego armar CSVs).}$$


In [14]:
# Corre predicci√≥n sobre un video usando best.pt y guarda resultados (si falta algo, no falla: avisa)
run_name = "train"                                                # Define el nombre del entrenamiento (igual que antes)
pred_video_name = "predict_video"                                 # Define el nombre de la carpeta de salida para video

best_path = DIR_RUNS/run_name/"weights/best.pt"                   # Ruta esperada del modelo entrenado best.pt
video_path = next((p for p in DIR_IN.iterdir() if p.suffix.lower() in [".mp4", ".mov", ".avi", ".mkv"]), None)  # Busca un video en /content/in

# Chequea prerequisitos sin tirar error
if not best_path.exists():                                        # Si no existe best.pt
    print("‚ö†Ô∏è No encuentro best.pt en:", best_path)               # Aviso
    print("‚ÑπÔ∏è Corre el Bloque 12 (entrenamiento) antes de este bloque.")  # Gu√≠a
elif video_path is None:                                          # Si no hay video subido
    print("‚ö†Ô∏è No detecto ning√∫n video en /content/in.")           # Aviso
    print("‚ÑπÔ∏è Sube un video (mp4/mov/avi/mkv) y vuelve a correr este bloque.")  # Gu√≠a
else:
    # Intenta correr la predicci√≥n de YOLO sobre el video
    try:
        print("‚úÖ Iniciando predicci√≥n en video:")                # Mensaje de inicio
        print(" - Modelo:", best_path)                            # Muestra el modelo usado
        print(" - Video:", video_path.name)                       # Muestra el video usado
        print(" - Salida:", DIR_RUNS/pred_video_name)             # Muestra la carpeta de salida

        model = YOLO(str(best_path))                              # Carga el modelo entrenado
        model.predict(                                            # Ejecuta predicci√≥n
            source=str(video_path),                               # Fuente: video
            save=True,                                            # Guarda el video/frames con cajas dibujadas
            save_txt=True,                                        # Guarda detecciones en .txt (por frame)
            save_conf=True,                                       # Incluye confidence en esos .txt
            project=str(DIR_RUNS),                                # Carpeta base de salida
            name=pred_video_name,                                 # Nombre del run de predicci√≥n
            exist_ok=True                                         # Reutiliza carpeta si ya existe
        )

        print("‚úÖ Predicci√≥n completada en:", DIR_RUNS/pred_video_name)  # Confirmaci√≥n

    except Exception as e:
        print("‚ö†Ô∏è Fall√≥ la predicci√≥n en video por un error:")    # Aviso de error
        print("   ", str(e)[:400])                                # Muestra parte del error
        print("‚ÑπÔ∏è Tip t√≠pico: revisa que el video no est√© corrupto o que best.pt exista.")  # Gu√≠a

    # Chequea outputs esperados (sin romper)
    out_dir = DIR_RUNS/pred_video_name                            # Carpeta de salida del predict
    labels_dir = out_dir/"labels"                                 # Carpeta donde deber√≠an quedar los .txt

    print("\n‚úÖ Chequeo de outputs:")                              # T√≠tulo del chequeo
    if out_dir.exists():                                          # Si existe la carpeta de salida
        print(" - Carpeta salida OK:", out_dir)                   # Confirma
    else:
        print("‚ö†Ô∏è No existe la carpeta de salida:", out_dir)      # Aviso

    if labels_dir.exists():                                       # Si existe la carpeta labels
        n_txt = len(list(labels_dir.glob("*.txt")))               # Cuenta cuantos txt hay
        print(" - Labels (.txt) OK:", labels_dir, "| cantidad:", n_txt)  # Confirma cantidad
        if n_txt == 0:                                            # Si no hay txt
            print("‚ö†Ô∏è labels/ existe pero no tiene .txt (puede ser que no detect√≥ nada o fall√≥ el guardado).")  # Aviso
    else:
        print("‚ö†Ô∏è No encontr√© carpeta labels/ en:", labels_dir)   # Aviso
        print("‚ÑπÔ∏è Si no existe, revisa que predict se ejecut√≥ con save_txt=True.")  # Gu√≠a

    # Intenta encontrar el video anotado generado y reportarlo
    annotated_candidates = []                                     # Lista para candidatos de video anotado
    for ext in [".mp4", ".mov", ".avi", ".mkv"]:                  # Revisa extensiones comunes
        annotated_candidates += list(out_dir.glob(f"*{ext}"))     # Agrega coincidencias

    if annotated_candidates:                                      # Si hay alg√∫n candidato
        annotated_video = annotated_candidates[0]                 # Toma el primero
        print(" - Video anotado detectado:", annotated_video.name)  # Confirma nombre
    else:
        print("‚ö†Ô∏è No pude detectar un video anotado en la carpeta de salida (a veces YOLO guarda frames en vez de video).")  # Aviso


‚ö†Ô∏è No encuentro best.pt en: /content/runs/train/weights/best.pt
‚ÑπÔ∏è Corre el Bloque 12 (entrenamiento) antes de este bloque.


##
$$\textbf{Bloque 15 ‚Äî Construir detections.csv (detecciones por frame/tiempo):} \
\\\ \text{Lee los .txt generados por YOLO en labels/ y crea una tabla (CSV) con frame, tiempo, clase, confianza y caja (x,y,w,h).}$$


In [15]:
# Crea detections.csv desde los .txt de /content/runs/predict_video/labels (si falta algo, no falla: avisa)
import json                                                     # Sirve para leer salida JSON de ffprobe (fps del video)
import math                                                     # Utilidades matem√°ticas (por si se necesita)

pred_video_name = "predict_video"                               # Debe coincidir con el nombre usado en el Bloque 14
out_dir = DIR_RUNS/pred_video_name                              # Carpeta de salida de la predicci√≥n de video
labels_dir = out_dir/"labels"                                   # Carpeta donde YOLO deja los .txt por frame
det_csv_path = DIR_OUT/"detections.csv"                         # Ruta final del CSV de detecciones

# Intenta detectar el video en /content/in (para calcular tiempo real con fps)
video_path = next((p for p in DIR_IN.iterdir() if p.suffix.lower() in [".mp4", ".mov", ".avi", ".mkv"]), None)  # Busca video subido

# Funci√≥n para obtener FPS real del video usando ffprobe (si falla, devuelve None)
def get_video_fps(path):                                        # Define funci√≥n para leer fps del video
    try:
        cmd = f'ffprobe -v error -select_streams v:0 -show_entries stream=r_frame_rate -of json "{path}"'  # Comando ffprobe
        r = subprocess.run(cmd, shell=True, capture_output=True, text=True)  # Ejecuta ffprobe
        data = json.loads(r.stdout)                              # Parsea JSON
        rate = data["streams"][0]["r_frame_rate"]                # Lee r_frame_rate (ej: "30000/1001")
        num, den = rate.split("/")                               # Separa numerador/denominador
        return float(num) / float(den)                           # Calcula fps como n√∫mero
    except Exception:
        return None                                              # Si algo falla, retorna None

# Chequea prerequisitos sin romper el notebook
if not out_dir.exists():                                        # Si no existe carpeta de predicci√≥n de video
    print("‚ö†Ô∏è No existe la carpeta de predicci√≥n:", out_dir)     # Aviso
    print("‚ÑπÔ∏è Corre el Bloque 14 (predicci√≥n en video) antes de este bloque.")  # Gu√≠a
elif not labels_dir.exists():                                    # Si no existe labels/
    print("‚ö†Ô∏è No existe la carpeta labels/:", labels_dir)        # Aviso
    print("‚ÑπÔ∏è Aseg√∫rate de correr el Bloque 14 con save_txt=True y save_conf=True.")  # Gu√≠a
else:
    # Obtiene fps del video (si no hay video o falla, usa fps=1 como fallback)
    fps = get_video_fps(video_path) if video_path else None      # Calcula fps real si hay video
    if fps is None:                                              # Si no se pudo obtener fps
        fps = 1.0                                                # Fallback para no romper el flujo
        print("‚ö†Ô∏è No pude obtener FPS del video; usar√© fps=1.0 como aproximaci√≥n para time_s.")  # Aviso
    else:
        print("‚úÖ FPS detectado del video:", fps)                 # Confirma fps real

    # Lee todos los .txt de labels/ ordenados por nombre
    txt_files = sorted(labels_dir.glob("*.txt"))                 # Lista txt en labels/
    if len(txt_files) == 0:                                      # Si no hay txt
        print("‚ö†Ô∏è labels/ existe pero no tiene .txt. Puede que no haya detecciones o algo fall√≥.")  # Aviso
    else:
        rows = []                                                # Lista para acumular filas del CSV

        # Recorre cada archivo .txt (cada uno representa un frame/imagen)
        for lf in txt_files:                                     # Recorre cada archivo de detecci√≥n
            stem = lf.stem                                       # Nombre sin extensi√≥n (ej: "000001")
            digits = re.sub(r"\D", "", stem)                     # Extrae solo n√∫meros del nombre
            if digits == "":                                     # Si no hay n√∫meros, salta
                continue                                         # Evita errores de conversi√≥n

            frame_idx = int(digits)                              # Convierte a √≠ndice de frame
            time_s = frame_idx / fps                             # Convierte frame a tiempo en segundos (aprox)

            # Lee cada detecci√≥n dentro del txt (una l√≠nea por detecci√≥n)
            content = lf.read_text(encoding="utf-8").strip()     # Lee el contenido del archivo
            if content == "":                                    # Si est√° vac√≠o, no hay detecciones en ese frame
                continue                                         # Salta

            for line in content.splitlines():                    # Recorre cada l√≠nea del txt
                parts = line.split()                             # Separa por espacios
                if len(parts) < 5:                               # Si no tiene lo m√≠nimo YOLO
                    continue                                     # Salta l√≠neas raras

                cls_id = int(parts[0])                           # ID de clase (0,1,2...)
                x = float(parts[1]); y = float(parts[2])         # Centro x,y normalizado (0-1)
                w = float(parts[3]); h = float(parts[4])         # Ancho/alto normalizado (0-1)

                # confidence solo existe si guardaste save_conf=True
                conf = float(parts[5]) if len(parts) >= 6 else None  # Lee confidence si existe

                # Obtiene nombre de clase si existe lista 'classes' (si no, deja el id)
                class_name = None                                # Inicializa nombre de clase
                if "classes" in globals() and isinstance(classes, list) and cls_id < len(classes):  # Si existe lista classes
                    class_name = classes[cls_id]                 # Traduce id a nombre
                else:
                    class_name = str(cls_id)                     # Fallback: usa el id como texto

                # Agrega una fila a la tabla
                rows.append({                                    # Crea un dict por detecci√≥n
                    "frame": frame_idx,                          # Frame detectado
                    "time_s": time_s,                            # Tiempo aproximado en segundos
                    "class_id": cls_id,                          # ID de clase
                    "class_name": class_name,                    # Nombre de clase (si est√° definido)
                    "conf": conf,                                # Confianza (puede ser None)
                    "x": x, "y": y, "w": w, "h": h               # Caja en formato YOLO normalizado
                })

        # Convierte a DataFrame y guarda CSV
        det_df = pd.DataFrame(rows)                              # Crea tabla con todas las detecciones
        if det_df.empty:                                         # Si qued√≥ vac√≠o
            print("‚ö†Ô∏è No se generaron filas en detections.csv (quiz√°s no hubo detecciones).")  # Aviso
        else:
            det_df = det_df.sort_values(["frame", "conf"], ascending=[True, False])  # Ordena por frame y mejor confianza
            det_df.to_csv(det_csv_path, index=False, encoding="utf-8")               # Guarda el CSV

            print("‚úÖ detections.csv creado en:", det_csv_path)   # Confirma salida
            print("‚úÖ Filas:", len(det_df), "| Frames √∫nicos:", det_df["frame"].nunique())  # Resumen r√°pido
            print("‚úÖ Ejemplo de 5 filas:")                       # T√≠tulo ejemplo
            print(det_df.head(5).to_string(index=False))          # Muestra 5 filas


‚ö†Ô∏è No existe la carpeta de predicci√≥n: /content/runs/predict_video
‚ÑπÔ∏è Corre el Bloque 14 (predicci√≥n en video) antes de este bloque.


##
$$\textbf{Bloque 16 ‚Äî Construir events.csv (intervalos/timeline):} \
\\\ \text{Convierte detections.csv en ‚Äúeventos‚Äù por clase: agrupa frames cercanos en intervalos (inicio‚Äìfin) para evitar parpadeos y generar un timeline legible.}$$


In [16]:
# Crea events.csv agrupando detecciones por clase en intervalos (si falta detections.csv, no falla: avisa)
events_csv_path = DIR_OUT/"events.csv"                             # Define d√≥nde se guardar√° el archivo de eventos
det_csv_path = DIR_OUT/"detections.csv"                            # Ruta esperada del detections.csv

# Par√°metros anti-parpadeo (ajustables)
min_conf = 0.35                                                     # Umbral m√≠nimo de confianza para considerar detecci√≥n
gap_frames = 2                                                      # Permite ‚Äúhuecos‚Äù de hasta N frames dentro de un mismo evento
min_len_frames = 3                                                  # Evento m√≠nimo: requiere al menos N frames para existir

# Intenta obtener FPS del video para convertir frames a segundos (si falla, usa 1.0)
video_path = next((p for p in DIR_IN.iterdir() if p.suffix.lower() in [".mp4", ".mov", ".avi", ".mkv"]), None)  # Busca video en /content/in

def get_video_fps_safe(path):                                       # Funci√≥n segura para obtener fps del video
    try:
        import json                                                 # Importa json para parsear ffprobe
        cmd = f'ffprobe -v error -select_streams v:0 -show_entries stream=r_frame_rate -of json "{path}"'  # Comando ffprobe
        r = subprocess.run(cmd, shell=True, capture_output=True, text=True)  # Ejecuta ffprobe
        data = json.loads(r.stdout)                                 # Parsea JSON
        rate = data["streams"][0]["r_frame_rate"]                   # Lee r_frame_rate (ej: "30000/1001")
        num, den = rate.split("/")                                  # Separa numerador/denominador
        return float(num) / float(den)                              # Devuelve fps real
    except Exception:
        return 1.0                                                  # Fallback si falla

fps = get_video_fps_safe(video_path) if video_path else 1.0         # Calcula fps si hay video; si no, usa 1.0
print("‚úÖ FPS usado para convertir frames‚Üísegundos:", fps)            # Confirma fps usado

# Si no existe detections.csv, avisa y termina sin romper el notebook
if not det_csv_path.exists():                                       # Verifica si existe detections.csv
    print("‚ö†Ô∏è No existe detections.csv en:", det_csv_path)          # Aviso
    print("‚ÑπÔ∏è Corre el Bloque 15 (detections.csv) antes de este bloque.")  # Gu√≠a
else:
    # Carga detections.csv (si est√° vac√≠o o corrupto, avisa sin romper)
    try:
        det_df = pd.read_csv(det_csv_path)                          # Lee el CSV de detecciones
        print("‚úÖ detections.csv cargado | filas:", len(det_df))     # Confirma carga
    except Exception as e:
        print("‚ö†Ô∏è No pude leer detections.csv por un error:")       # Aviso
        print("   ", str(e)[:300])                                   # Muestra parte del error
        det_df = pd.DataFrame()                                     # Deja DF vac√≠o para no romper

    # Si no hay datos, avisa y termina
    if det_df.empty:                                                # Revisa si el DataFrame qued√≥ vac√≠o
        print("‚ö†Ô∏è detections.csv est√° vac√≠o; no puedo generar events.csv.")  # Aviso
        print("‚ÑπÔ∏è Esto puede pasar si el modelo no detect√≥ nada en el video.")  # Gu√≠a
    else:
        # Asegura columnas necesarias (si falta alguna, avisa y termina)
        needed = {"frame", "class_name", "conf"}                    # Columnas m√≠nimas requeridas
        if not needed.issubset(set(det_df.columns)):                # Verifica columnas
            print("‚ö†Ô∏è detections.csv no tiene las columnas m√≠nimas:", needed)  # Aviso
            print("‚ÑπÔ∏è Revisa que el Bloque 15 haya generado frame/class_name/conf.")  # Gu√≠a
        else:
            events_rows = []                                        # Lista donde guardaremos eventos (intervalos)

            # Recorre cada clase y crea intervalos de frames consecutivos (con tolerancia de gap)
            for cname in sorted(det_df["class_name"].dropna().unique()):  # Recorre clases detectadas
                sub = det_df[(det_df["class_name"] == cname)]       # Filtra por clase
                sub = sub[sub["conf"].fillna(0) >= min_conf]        # Filtra por confianza m√≠nima (maneja NaN)

                frames = sorted(sub["frame"].dropna().astype(int).unique())  # Lista frames √∫nicos ordenados
                if len(frames) == 0:                                # Si no hay frames para esta clase
                    continue                                        # Pasa a la siguiente clase

                start = frames[0]                                   # Inicio del evento actual
                prev = frames[0]                                    # √öltimo frame visto del evento actual

                for fr in frames[1:]:                               # Recorre frames siguientes
                    if fr <= prev + 1 + gap_frames:                 # Si est√° cerca (con tolerancia de huecos)
                        prev = fr                                   # Extiende el evento actual
                    else:
                        # Cierra evento anterior si cumple largo m√≠nimo
                        if (prev - start + 1) >= min_len_frames:    # Verifica largo m√≠nimo del evento
                            events_rows.append([cname, start, prev])  # Guarda evento (clase, inicio, fin)
                        start = fr                                  # Abre nuevo evento
                        prev = fr                                   # Reinicia √∫ltimo frame

                # Cierra el √∫ltimo evento
                if (prev - start + 1) >= min_len_frames:            # Verifica largo m√≠nimo final
                    events_rows.append([cname, start, prev])         # Guarda √∫ltimo evento

            # Si no hubo eventos (por filtros), avisa y termina sin romper
            if len(events_rows) == 0:                               # Revisa si se gener√≥ algo
                print("‚ö†Ô∏è No se generaron eventos con los par√°metros actuales.")  # Aviso
                print("‚ÑπÔ∏è Prueba bajar min_conf o min_len_frames si te est√° quedando vac√≠o.")  # Gu√≠a
            else:
                # Convierte eventos a DataFrame y calcula tiempos
                ev_df = pd.DataFrame(events_rows, columns=["class_name", "start_frame", "end_frame"])  # Crea tabla de eventos
                ev_df["start_s"] = ev_df["start_frame"] / fps       # Convierte inicio a segundos
                ev_df["end_s"] = ev_df["end_frame"] / fps           # Convierte fin a segundos
                ev_df["duration_s"] = (ev_df["end_s"] - ev_df["start_s"]).clip(lower=0)  # Calcula duraci√≥n no negativa

                # Ordena eventos por tiempo de inicio
                ev_df = ev_df.sort_values(["start_s", "class_name"])  # Ordena cronol√≥gicamente

                # Guarda events.csv
                ev_df.to_csv(events_csv_path, index=False, encoding="utf-8")  # Guarda el CSV final

                # Prints de confirmaci√≥n + resumen
                print("‚úÖ events.csv creado en:", events_csv_path)   # Confirma salida
                print("‚úÖ Eventos:", len(ev_df), "| Clases:", ev_df["class_name"].nunique())  # Resumen
                print("‚úÖ Ejemplo de 10 eventos:")                   # T√≠tulo ejemplo
                print(ev_df.head(10).to_string(index=False))         # Muestra 10 filas

                # Guarda los par√°metros usados para trazabilidad
                params_path = DIR_OUT/"events_params.txt"            # Archivo para guardar par√°metros
                params_text = (                                     # Texto de par√°metros
                    f"min_conf={min_conf}\n"
                    f"gap_frames={gap_frames}\n"
                    f"min_len_frames={min_len_frames}\n"
                    f"fps_used={fps}\n"
                )
                params_path.write_text(params_text, encoding="utf-8")  # Escribe par√°metros
                print("‚úÖ Par√°metros guardados en:", params_path)     # Confirma guardado


‚úÖ FPS usado para convertir frames‚Üísegundos: 1.0
‚ö†Ô∏è No existe detections.csv en: /content/out/detections.csv
‚ÑπÔ∏è Corre el Bloque 15 (detections.csv) antes de este bloque.


##
$$\textbf{Bloque 17 ‚Äî Empaquetar resultados y descargar (final\_report.zip):} \
\\\ \text{Copia best.pt y los CSV (detections/events) a #/content/out, busca el video anotado si existe, arma un ZIP final y lo descarga.}$$


In [17]:
# Empaqueta outputs finales en /content/out y crea final_report.zip (si falta algo, no falla: avisa)
run_name = "train"                                                 # Nombre del entrenamiento usado
pred_video_name = "predict_video"                                  # Nombre de carpeta de predicci√≥n de video

best_path = DIR_RUNS/run_name/"weights/best.pt"                    # Ruta esperada del best.pt
det_csv_path = DIR_OUT/"detections.csv"                            # Ruta esperada del detections.csv
events_csv_path = DIR_OUT/"events.csv"                             # Ruta esperada del events.csv

final_zip_path = DIR_OUT/"final_report.zip"                        # Ruta del zip final
best_out_path = DIR_OUT/"best.pt"                                  # Copia final de best.pt en /out

pred_dir = DIR_RUNS/pred_video_name                                # Carpeta donde quedaron outputs del predict video
annotated_out_path = DIR_OUT/"annotated.mp4"                       # Nombre est√°ndar del video anotado en /out

# Lista de archivos que intentaremos meter al zip
to_zip = []                                                        # Lista de rutas para incluir en el zip

print("‚úÖ Preparando empaquetado de resultados...")                 # Mensaje de inicio

# Copia best.pt a /out si existe
if best_path.exists():                                             # Si existe best.pt
    shutil.copy2(best_path, best_out_path)                          # Copia best.pt a /content/out
    to_zip.append(best_out_path)                                   # Agrega best.pt a lista para zip
    print("‚úÖ best.pt listo en:", best_out_path)                    # Confirma
else:
    print("‚ö†Ô∏è No encontr√© best.pt en:", best_path)                  # Aviso

# Agrega detections.csv si existe
if det_csv_path.exists():                                          # Si existe detections.csv
    to_zip.append(det_csv_path)                                    # Agrega al zip
    print("‚úÖ detections.csv listo en:", det_csv_path)              # Confirma
else:
    print("‚ö†Ô∏è No encontr√© detections.csv en:", det_csv_path)        # Aviso

# Agrega events.csv si existe
if events_csv_path.exists():                                       # Si existe events.csv
    to_zip.append(events_csv_path)                                 # Agrega al zip
    print("‚úÖ events.csv listo en:", events_csv_path)               # Confirma
else:
    print("‚ö†Ô∏è No encontr√© events.csv en:", events_csv_path)         # Aviso

# Intenta detectar un video anotado en la carpeta de predicci√≥n
annotated_video = None                                             # Variable para guardar ruta del video anotado
if pred_dir.exists():                                              # Si existe carpeta predict_video
    candidates = []                                                # Lista de posibles videos generados
    for ext in [".mp4", ".mov", ".avi", ".mkv"]:                   # Extensiones comunes de video
        candidates += list(pred_dir.glob(f"*{ext}"))               # Busca archivos de video en la carpeta
    if candidates:                                                 # Si encontr√≥ alguno
        annotated_video = candidates[0]                            # Toma el primero
        shutil.copy2(annotated_video, annotated_out_path)          # Copia a /content/out con nombre est√°ndar
        to_zip.append(annotated_out_path)                          # Agrega al zip
        print("‚úÖ Video anotado listo en:", annotated_out_path)     # Confirma
    else:
        print("‚ö†Ô∏è No encontr√© video anotado en:", pred_dir)         # Aviso
else:
    print("‚ö†Ô∏è No existe la carpeta de predicci√≥n de video:", pred_dir)  # Aviso

# Si no hay nada para comprimir, avisa y termina sin error
if len(to_zip) == 0:                                               # Revisa si hay archivos en lista
    print("‚ö†Ô∏è No hay archivos suficientes para crear el zip final todav√≠a.")  # Aviso
    print("‚ÑπÔ∏è Corre entrenamiento/predicci√≥n y generaci√≥n de CSV antes de empaquetar.")  # Gu√≠a
else:
    # Borra zip anterior si exist√≠a para evitar confusi√≥n
    if final_zip_path.exists():                                    # Si ya exist√≠a final_report.zip
        final_zip_path.unlink()                                    # Lo borra

    # Crea el zip final con todo lo disponible
    with zipfile.ZipFile(final_zip_path, "w", zipfile.ZIP_DEFLATED) as z:  # Abre zip para escribir
        for p in to_zip:                                           # Recorre archivos a incluir
            z.write(p, arcname=p.name)                              # Agrega con nombre simple dentro del zip

    # Confirma creaci√≥n del zip final
    print("‚úÖ ZIP final creado:", final_zip_path)                   # Confirma ruta del zip
    print("‚úÖ Incluye:", [p.name for p in to_zip])                  # Muestra qu√© incluy√≥

    # Intenta descargar autom√°ticamente el zip
    try:
        from google.colab import files                              # Importa herramienta de descarga
        files.download(str(final_zip_path))                         # Descarga zip
        print("‚úÖ Descarga iniciada (si tu navegador lo permite).")  # Confirmaci√≥n
    except Exception:
        print("‚ö†Ô∏è No pude iniciar descarga autom√°tica, pero el zip qued√≥ en /content/out.")  # Aviso


‚úÖ Preparando empaquetado de resultados...
‚ö†Ô∏è No encontr√© best.pt en: /content/runs/train/weights/best.pt
‚ö†Ô∏è No encontr√© detections.csv en: /content/out/detections.csv
‚ö†Ô∏è No encontr√© events.csv en: /content/out/events.csv
‚ö†Ô∏è No existe la carpeta de predicci√≥n de video: /content/runs/predict_video
‚ö†Ô∏è No hay archivos suficientes para crear el zip final todav√≠a.
‚ÑπÔ∏è Corre entrenamiento/predicci√≥n y generaci√≥n de CSV antes de empaquetar.


##
$$\textbf{Bloque 19 ‚Äî Interfaz simple (modo ‚Äúusuario final‚Äù):} \
\\\ \text{Permite subir un modelo best.pt y un video, ejecuta la predicci√≥n y genera final\_report.zip (video anotado + CSVs) en #/content/out.}$$


In [19]:
# Interfaz m√≠nima: subes best.pt + video y el notebook te genera el zip final (si falta algo, no falla: avisa)
from google.colab import files                                  # Herramienta de Colab para subir/descargar archivos

# Define nombres est√°ndar de trabajo
UI_MODEL_NAME = "best.pt"                                       # Nombre esperado para el modelo subido
UI_VIDEO_NAME = None                                            # Nombre del video subido (lo detectamos por extensi√≥n)

# Crea carpetas por si no existen (por seguridad)
for d in [DIR_IN, DIR_RUNS, DIR_OUT]:                           # Asegura carpetas clave
    d.mkdir(parents=True, exist_ok=True)                        # Crea si falta

print("‚úÖ Interfaz simple: sube best.pt y un video (mp4/mov/avi/mkv).")  # Instrucci√≥n amigable

# Subida de archivos (el usuario elige desde su PC)
uploaded = files.upload()                                       # Abre selector para subir archivos

# Mueve lo subido a /content/in para mantener el est√°ndar
for fname in uploaded.keys():                                   # Recorre nombres de archivos subidos
    src = Path("/content")/fname                                # Ruta temporal donde Colab deja los archivos
    dst = DIR_IN/fname                                          # Ruta final en /content/in
    if src.exists():                                            # Verifica existencia
        shutil.move(str(src), str(dst))                         # Mueve a /content/in

# Detecta best.pt y video dentro de /content/in
model_path = DIR_IN/UI_MODEL_NAME                               # Ruta esperada del modelo (best.pt)
video_path = next((p for p in DIR_IN.iterdir() if p.suffix.lower() in [".mp4",".mov",".avi",".mkv"]), None)  # Busca video

# Valida inputs sin romper
if not model_path.exists():                                     # Si no existe el modelo subido
    print("‚ö†Ô∏è No encontr√© best.pt en /content/in.")             # Aviso
    print("‚ÑπÔ∏è Sube un archivo llamado exactamente 'best.pt'.")  # Gu√≠a
elif video_path is None:                                        # Si no se detect√≥ video
    print("‚ö†Ô∏è No encontr√© un video en /content/in.")            # Aviso
    print("‚ÑπÔ∏è Sube un video .mp4/.mov/.avi/.mkv junto al best.pt.")  # Gu√≠a
else:
    # Define carpeta de salida para esta predicci√≥n
    pred_video_name = "predict_video_ui"                        # Nombre del run de predicci√≥n para interfaz
    out_dir = DIR_RUNS/pred_video_name                          # Carpeta donde YOLO guardar√° resultados
    labels_dir = out_dir/"labels"                               # Carpeta donde quedar√°n txt por frame

    # Ejecuta predicci√≥n en video y guarda video + txt + conf
    try:
        print("‚úÖ Ejecutando predicci√≥n (interfaz):")            # Mensaje de inicio
        print(" - Modelo:", model_path)                          # Muestra modelo
        print(" - Video:", video_path.name)                      # Muestra video
        print(" - Salida:", out_dir)                             # Muestra salida

        model = YOLO(str(model_path))                            # Carga el modelo subido
        model.predict(                                           # Ejecuta predicci√≥n
            source=str(video_path),                               # Video de entrada
            save=True,                                            # Guarda salida visual
            save_txt=True,                                        # Guarda txt por frame
            save_conf=True,                                       # Guarda confidence
            project=str(DIR_RUNS),                                # Carpeta base
            name=pred_video_name,                                 # Nombre del run
            exist_ok=True                                         # Reutiliza si existe
        )

        print("‚úÖ Predicci√≥n terminada.")                         # Confirmaci√≥n
    except Exception as e:
        print("‚ö†Ô∏è Fall√≥ la predicci√≥n por un error:")            # Aviso de error
        print("   ", str(e)[:400])                               # Muestra parte del error
        print("‚ÑπÔ∏è Revisa que best.pt sea compatible con tu dataset/clases.")  # Gu√≠a

    # Construye detections.csv si existen labels
    det_csv_path = DIR_OUT/"detections.csv"                      # Ruta detections final
    events_csv_path = DIR_OUT/"events.csv"                       # Ruta events final

    if not labels_dir.exists():                                  # Si no existe labels/
        print("‚ö†Ô∏è No existe labels/ en la salida, as√≠ que no puedo construir CSVs.")  # Aviso
    else:
        # Obtiene fps real para time_s (si falla, usa 1.0)
        def get_video_fps_safe(path):                            # Funci√≥n segura para fps
            try:
                import json                                      # Para parsear JSON
                cmd = f'ffprobe -v error -select_streams v:0 -show_entries stream=r_frame_rate -of json "{path}"'  # ffprobe
                r = subprocess.run(cmd, shell=True, capture_output=True, text=True)  # Ejecuta
                data = json.loads(r.stdout)                      # Parsea
                rate = data["streams"][0]["r_frame_rate"]        # Lee rate
                num, den = rate.split("/")                       # Separa
                return float(num)/float(den)                     # Calcula fps
            except Exception:
                return 1.0                                       # Fallback

        fps = get_video_fps_safe(video_path)                     # FPS para convertir frames a segundos
        print("‚úÖ FPS usado:", fps)                               # Confirma fps

        # Lee txt y arma detections.csv
        txt_files = sorted(labels_dir.glob("*.txt"))             # Lista txt por frame
        rows = []                                                # Filas para detections

        for lf in txt_files:                                     # Recorre cada txt
            digits = re.sub(r"\D", "", lf.stem)                  # Extrae frame desde el nombre
            if digits == "":                                     # Si no hay n√∫mero
                continue                                         # Salta
            frame_idx = int(digits)                              # Frame
            time_s = frame_idx / fps                             # Tiempo en segundos (aprox)
            content = lf.read_text(encoding="utf-8").strip()     # Lee contenido
            if content == "":                                    # Si vac√≠o
                continue                                         # Salta

            for line in content.splitlines():                    # Recorre detecciones
                parts = line.split()                             # Separa
                if len(parts) < 5:                               # Si no cumple m√≠nimo
                    continue                                     # Salta
                cls_id = int(parts[0])                           # Clase id
                x, y, w, h = map(float, parts[1:5])              # Caja
                conf = float(parts[5]) if len(parts) >= 6 else None  # Conf si existe
                rows.append({"frame": frame_idx, "time_s": time_s, "class_id": cls_id, "conf": conf,
                             "x": x, "y": y, "w": w, "h": h})    # Agrega fila

        det_df = pd.DataFrame(rows)                              # Crea DataFrame
        if det_df.empty:                                         # Si no hay detecciones
            print("‚ö†Ô∏è No hubo detecciones, detections.csv quedar√° vac√≠o/no se generar√° events.csv.")  # Aviso
        else:
            det_df = det_df.sort_values(["frame","conf"], ascending=[True, False])  # Ordena
            det_df.to_csv(det_csv_path, index=False, encoding="utf-8")              # Guarda CSV
            print("‚úÖ detections.csv listo en:", det_csv_path)    # Confirma

            # Genera events.csv agrupando por class_id (interfaz simple, sin nombres)
            min_conf = 0.35                                      # Umbral conf
            gap_frames = 2                                       # Huecos tolerados
            min_len_frames = 3                                   # Largo m√≠nimo

            events_rows = []                                     # Lista eventos
            for cid in sorted(det_df["class_id"].unique()):      # Recorre clases
                sub = det_df[(det_df["class_id"] == cid) & (det_df["conf"].fillna(0) >= min_conf)]  # Filtra
                frames = sorted(sub["frame"].unique())           # Frames
                if not frames:                                   # Si vac√≠o
                    continue                                     # Salta
                start = frames[0]; prev = frames[0]              # Inicializa evento
                for fr in frames[1:]:                            # Recorre frames
                    if fr <= prev + 1 + gap_frames:              # Si cercano
                        prev = fr                                # Extiende
                    else:
                        if (prev - start + 1) >= min_len_frames: # Si cumple m√≠nimo
                            events_rows.append([cid, start, prev])  # Guarda
                        start = fr; prev = fr                    # Nuevo evento
                if (prev - start + 1) >= min_len_frames:         # Cierra √∫ltimo
                    events_rows.append([cid, start, prev])        # Guarda

            ev_df = pd.DataFrame(events_rows, columns=["class_id","start_frame","end_frame"])  # Tabla eventos
            if ev_df.empty:                                      # Si no hay eventos
                print("‚ö†Ô∏è No se generaron eventos con los par√°metros actuales.")  # Aviso
            else:
                ev_df["start_s"] = ev_df["start_frame"]/fps      # Inicio s
                ev_df["end_s"] = ev_df["end_frame"]/fps          # Fin s
                ev_df["duration_s"] = (ev_df["end_s"]-ev_df["start_s"]).clip(lower=0)  # Duraci√≥n
                ev_df.to_csv(events_csv_path, index=False, encoding="utf-8")            # Guarda CSV
                print("‚úÖ events.csv listo en:", events_csv_path)  # Confirma

    # Copia video anotado (si existe) y arma zip final
    final_zip_path = DIR_OUT/"final_report.zip"                  # Ruta zip final
    to_zip = []                                                  # Lista archivos para zip

    if model_path.exists():                                      # Si modelo existe
        to_zip.append(model_path)                                # Agrega best.pt
    if det_csv_path.exists():                                    # Si detections existe
        to_zip.append(det_csv_path)                              # Agrega detections
    if events_csv_path.exists():                                 # Si events existe
        to_zip.append(events_csv_path)                           # Agrega events

    # Busca un video anotado en la carpeta de salida y lo copia a /out
    annotated_candidates = []                                    # Lista candidatos
    for ext in [".mp4",".mov",".avi",".mkv"]:                    # Exts video
        annotated_candidates += list(out_dir.glob(f"*{ext}"))     # Busca videos
    if annotated_candidates:                                     # Si encontr√≥
        shutil.copy2(annotated_candidates[0], DIR_OUT/"annotated.mp4")  # Copia a /out
        to_zip.append(DIR_OUT/"annotated.mp4")                   # Agrega al zip
        print("‚úÖ annotated.mp4 listo en /content/out.")          # Confirma
    else:
        print("‚ö†Ô∏è No encontr√© video anotado en la salida.")       # Aviso

    # Crea zip final si hay algo para comprimir
    if len(to_zip) == 0:                                         # Si no hay nada
        print("‚ö†Ô∏è No hay archivos para empaquetar todav√≠a.")      # Aviso
    else:
        if final_zip_path.exists():                              # Si zip existe
            final_zip_path.unlink()                              # Lo borra
        with zipfile.ZipFile(final_zip_path, "w", zipfile.ZIP_DEFLATED) as z:  # Crea zip
            for p in to_zip:                                     # Recorre archivos
                z.write(p, arcname=p.name)                       # Agrega al zip
        print("‚úÖ final_report.zip creado en:", final_zip_path)   # Confirma

        # Descarga zip final
        try:
            files.download(str(final_zip_path))                  # Descarga zip
            print("‚úÖ Descarga iniciada.")                        # Confirmaci√≥n
        except Exception:
            print("‚ö†Ô∏è No pude iniciar descarga autom√°tica, pero qued√≥ en /content/out.")  # Aviso


‚úÖ Interfaz simple: sube best.pt y un video (mp4/mov/avi/mkv).


‚ö†Ô∏è No encontr√© best.pt en /content/in.
‚ÑπÔ∏è Sube un archivo llamado exactamente 'best.pt'.


#
$$\textbf{Bloques auxiliares}$$

##
$$\textbf{Bloque 21 ‚Äî Iteraci√≥n controlada (versionado de resultados):} \
\\\ \text{Guarda una ‚Äúversi√≥n‚Äù de tu modelo y reportes (best.pt, CSVs, video anotado) con nombre v1, v2, etc., para comparar mejoras sin perder evidencia.}$$


In [21]:
# Versiona y guarda evidencia de una iteraci√≥n (si falta algo, no falla: avisa)
import datetime                                                  # Sirve para poner fecha/hora en el registro

# Define el nombre de esta iteraci√≥n (c√°mbialo manualmente: v1, v2, v3...)
iteration_name = "v1"                                            # Nombre de la iteraci√≥n (ej: "v1", "v2", "v3")

# Define rutas de origen t√≠picas (si existen)
best_src = DIR_RUNS/"train/weights/best.pt"                      # best.pt del entrenamiento
det_src = DIR_OUT/"detections.csv"                               # detections.csv generado
ev_src = DIR_OUT/"events.csv"                                    # events.csv generado
zip_src = DIR_OUT/"final_report.zip"                             # zip final (si existe)
annot_src = DIR_OUT/"annotated.mp4"                              # video anotado (si existe)

# Crea carpeta de evidencias por iteraci√≥n dentro de /content/out/iterations/
iters_dir = DIR_OUT/"iterations"                                 # Carpeta base para iteraciones
iter_dir = iters_dir/iteration_name                              # Carpeta espec√≠fica de esta iteraci√≥n
iter_dir.mkdir(parents=True, exist_ok=True)                      # Crea carpeta si no existe

print("‚úÖ Guardando evidencia de iteraci√≥n en:", iter_dir)        # Confirma destino

# Funci√≥n segura para copiar si existe (si no existe, avisa y sigue)
def copy_if_exists(src_path, dst_dir, new_name=None):            # Copia archivos sin romper el flujo
    src_path = Path(src_path)                                    # Asegura Path
    if not src_path.exists():                                    # Si no existe
        print("‚ö†Ô∏è No existe, se omite:", src_path)               # Aviso
        return None                                              # Retorna None
    dst_path = dst_dir/(new_name if new_name else src_path.name) # Define nombre final
    shutil.copy2(src_path, dst_path)                             # Copia archivo
    print("‚úÖ Copiado:", src_path.name, "‚Üí", dst_path.name)       # Confirma copiado
    return dst_path                                              # Retorna ruta copiada

# Copia archivos clave si existen
copied = []                                                      # Lista de archivos copiados
p = copy_if_exists(best_src, iter_dir, new_name=f"best_{iteration_name}.pt")     # Copia best.pt versionado
if p: copied.append(p)                                           # Guarda si se copi√≥

p = copy_if_exists(det_src, iter_dir, new_name=f"detections_{iteration_name}.csv")  # Copia detections versionado
if p: copied.append(p)                                           # Guarda si se copi√≥

p = copy_if_exists(ev_src, iter_dir, new_name=f"events_{iteration_name}.csv")    # Copia events versionado
if p: copied.append(p)                                           # Guarda si se copi√≥

p = copy_if_exists(annot_src, iter_dir, new_name=f"annotated_{iteration_name}.mp4")  # Copia video anotado versionado
if p: copied.append(p)                                           # Guarda si se copi√≥

p = copy_if_exists(zip_src, iter_dir, new_name=f"final_report_{iteration_name}.zip") # Copia zip versionado
if p: copied.append(p)                                           # Guarda si se copi√≥

# Crea un archivo de registro simple (qu√© se guard√≥ y cu√°ndo)
log_path = iter_dir/f"log_{iteration_name}.txt"                  # Ruta del log
now = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")       # Fecha/hora actual
log_text = f"iteration={iteration_name}\ncreated_at={now}\nfiles:\n"  # Texto base del log
for f in copied:                                                 # Recorre archivos copiados
    log_text += f"- {f.name}\n"                                  # Agrega nombre al log
log_path.write_text(log_text, encoding="utf-8")                  # Guarda el log
print("‚úÖ Log guardado en:", log_path)                            # Confirma log

# (Opcional) Crea un zip SOLO de esta iteraci√≥n para descargarla f√°cil
iter_zip = DIR_OUT/f"iteration_{iteration_name}.zip"             # Nombre del zip de iteraci√≥n
if copied:                                                       # Solo si hay algo copiado
    if iter_zip.exists():                                        # Si ya exist√≠a
        iter_zip.unlink()                                        # Borra el anterior
    with zipfile.ZipFile(iter_zip, "w", zipfile.ZIP_DEFLATED) as z:  # Crea zip
        for f in copied:                                         # Agrega archivos copiados
            z.write(f, arcname=f.name)                           # Guarda con nombre simple
        z.write(log_path, arcname=log_path.name)                 # Agrega el log
    print("‚úÖ ZIP de iteraci√≥n creado:", iter_zip)                # Confirma zip

    # Descarga autom√°tica (si se puede)
    try:
        from google.colab import files                           # Importa herramienta de descarga
        files.download(str(iter_zip))                            # Descarga zip de iteraci√≥n
        print("‚úÖ Descarga iniciada.")                            # Confirmaci√≥n
    except Exception:
        print("‚ö†Ô∏è No pude iniciar descarga autom√°tica, pero qued√≥ en /content/out.")  # Aviso
else:
    print("‚ö†Ô∏è No se copi√≥ ning√∫n archivo (quiz√°s a√∫n no generas best.pt/CSVs/video).")  # Aviso


‚úÖ Guardando evidencia de iteraci√≥n en: /content/out/iterations/v1
‚ö†Ô∏è No existe, se omite: /content/runs/train/weights/best.pt
‚ö†Ô∏è No existe, se omite: /content/out/detections.csv
‚ö†Ô∏è No existe, se omite: /content/out/events.csv
‚ö†Ô∏è No existe, se omite: /content/out/annotated.mp4
‚ö†Ô∏è No existe, se omite: /content/out/final_report.zip
‚úÖ Log guardado en: /content/out/iterations/v1/log_v1.txt
‚ö†Ô∏è No se copi√≥ ning√∫n archivo (quiz√°s a√∫n no generas best.pt/CSVs/video).


##
$$\textbf{Bloque 20 ‚Äî ‚ÄúEstado del proyecto‚Äù (resumen autom√°tico):} \
\\\ \text{Muestra en una sola pantalla qu√© partes del flujo ya est√°n listas (inputs, dataset, best.pt, CSVs y ZIP final) para saber qu√© te falta.}$$


In [20]:
# Genera un resumen del estado actual del proyecto (sin errores si falta algo)
def exists_and_count(path, pattern="*"):                          # Funci√≥n para chequear existencia y contar archivos
    p = Path(path)                                                # Convierte a Path
    if not p.exists():                                            # Si no existe
        return False, 0                                           # Devuelve no-existe y 0
    if p.is_file():                                               # Si es archivo
        return True, 1                                            # Existe y cuenta 1
    return True, len(list(p.glob(pattern)))                       # Si es carpeta, cuenta archivos seg√∫n patr√≥n

print("‚úÖ Estado del proyecto (checklist):")                       # T√≠tulo principal

# Inputs
video = next((p for p in DIR_IN.iterdir() if p.suffix.lower() in [".mp4",".mov",".avi",".mkv"]), None)  # Detecta video
cvat_zip = next((p for p in DIR_IN.iterdir() if p.suffix.lower()==".zip" and "cvat" in p.name.lower()), None)  # Detecta zip CVAT
print("\nüìå Inputs en /content/in:")                               # Secci√≥n inputs
print(" - Video:", video.name if video else "No")                 # Muestra si hay video
print(" - ZIP CVAT:", cvat_zip.name if cvat_zip else "No")        # Muestra si hay zip CVAT
print(" - Archivos totales en /in:", len(list(DIR_IN.iterdir()))) # Cuenta total de archivos en /in

# Frames
frames_ok, n_frames = exists_and_count(DIR_WORK/"frames", "*.jpg")  # Cuenta frames jpg
frames_ok2, n_frames2 = exists_and_count(DIR_WORK/"frames", "*.png") # Cuenta frames png
print("\nüìå Frames (video ‚Üí im√°genes):")                           # Secci√≥n frames
if frames_ok or frames_ok2:                                        # Si existe frames
    print(" - Frames encontrados:", n_frames + n_frames2)          # Muestra total
else:
    print(" - Frames encontrados: 0 (a√∫n no)")                     # Si no existe

# Dataset YOLO
train_ok, n_train_img = exists_and_count(DIR_DATASET/"images/train", "*")  # Cuenta im√°genes train
val_ok, n_val_img = exists_and_count(DIR_DATASET/"images/val", "*")        # Cuenta im√°genes val
train_lbl_ok, n_train_lbl = exists_and_count(DIR_DATASET/"labels/train", "*.txt")  # Cuenta labels train
val_lbl_ok, n_val_lbl = exists_and_count(DIR_DATASET/"labels/val", "*.txt")        # Cuenta labels val
print("\nüìå Dataset YOLO (/content/dataset):")                      # Secci√≥n dataset
print(" - Train imgs:", n_train_img, "| Train lbls:", n_train_lbl)  # Resumen train
print(" - Val imgs:", n_val_img, "| Val lbls:", n_val_lbl)          # Resumen val

# data.yaml
yaml_ok, _ = exists_and_count(BASE/"data.yaml")                    # Chequea data.yaml
print("\nüìå data.yaml:")                                           # Secci√≥n yaml
print(" - Existe:", "S√≠" if yaml_ok else "No")                     # Reporta existencia

# Entrenamiento best.pt
best_ok, _ = exists_and_count(DIR_RUNS/"train/weights/best.pt")    # Chequea best.pt
last_ok, _ = exists_and_count(DIR_RUNS/"train/weights/last.pt")    # Chequea last.pt
print("\nüìå Modelo entrenado:")                                     # Secci√≥n modelo
print(" - best.pt:", "S√≠" if best_ok else "No")                    # Reporta best
print(" - last.pt:", "S√≠" if last_ok else "No")                    # Reporta last

# CSVs y zip final
det_ok, _ = exists_and_count(DIR_OUT/"detections.csv")             # Chequea detections.csv
ev_ok, _ = exists_and_count(DIR_OUT/"events.csv")                  # Chequea events.csv
zip_ok, _ = exists_and_count(DIR_OUT/"final_report.zip")           # Chequea zip final
print("\nüìå Outputs en /content/out:")                              # Secci√≥n outputs
print(" - detections.csv:", "S√≠" if det_ok else "No")              # Reporta detections
print(" - events.csv:", "S√≠" if ev_ok else "No")                   # Reporta events
print(" - final_report.zip:", "S√≠" if zip_ok else "No")            # Reporta zip

# Recomendaci√≥n siguiente paso seg√∫n lo que falte
print("\n‚ÑπÔ∏è Siguiente paso recomendado:")                            # Secci√≥n recomendaci√≥n
if not yaml_ok:
    print(" - Crear data.yaml (Bloque 11).")                       # Recomienda YAML
elif not best_ok:
    print(" - Entrenar modelo (Bloque 12).")                       # Recomienda entrenar
elif video is not None and not det_ok:
    print(" - Predecir en video y crear CSVs (Bloques 14‚Äì16).")    # Recomienda predicci√≥n + CSVs
elif not zip_ok:
    print(" - Empaquetar resultados (Bloque 17).")                 # Recomienda zip final
else:
    print(" - Todo lo clave est√° listo ‚úÖ (puedes iterar mejorando dataset/etiquetas).")  # Confirmaci√≥n final


‚úÖ Estado del proyecto (checklist):

üìå Inputs en /content/in:
 - Video: No
 - ZIP CVAT: No
 - Archivos totales en /in: 0

üìå Frames (video ‚Üí im√°genes):
 - Frames encontrados: 0

üìå Dataset YOLO (/content/dataset):
 - Train imgs: 0 | Train lbls: 0
 - Val imgs: 0 | Val lbls: 0

üìå data.yaml:
 - Existe: S√≠

üìå Modelo entrenado:
 - best.pt: No
 - last.pt: No

üìå Outputs en /content/out:
 - detections.csv: No
 - events.csv: No
 - final_report.zip: No

‚ÑπÔ∏è Siguiente paso recomendado:
 - Entrenar modelo (Bloque 12).


##
$$\textbf{Bloque 18 ‚Äî Limpieza controlada (evitar que Colab se llene):} \
\\\ \text{Borra temporales pesados (frames, predicciones antiguas) sin tocar #/content/out ni tu dataset final, para mantener el entorno liviano.}$$


In [18]:
# Limpia carpetas pesadas de forma segura (si no existen, no falla: avisa)
clean_frames = True                                              # Si True, borra /content/work/frames
clean_raw = False                                                # Si True, borra /content/work/dataset_raw (ojo: solo si ya no lo necesitas)
clean_predict_val = True                                         # Si True, borra /content/runs/predict_val
clean_predict_video = False                                      # Si True, borra /content/runs/predict_video (ojo: borra outputs del √∫ltimo video)
clean_train_runs = False                                         # Si True, borra /content/runs/train (ojo: borra best.pt/last.pt de esa corrida)

# Define rutas a limpiar
paths_to_clean = []                                              # Lista de carpetas a borrar
if clean_frames: paths_to_clean.append(DIR_WORK/"frames")         # Agrega frames si est√° activado
if clean_raw: paths_to_clean.append(DIR_WORK/"dataset_raw")       # Agrega dataset_raw si est√° activado
if clean_predict_val: paths_to_clean.append(DIR_RUNS/"predict_val")  # Agrega predicciones val si est√° activado
if clean_predict_video: paths_to_clean.append(DIR_RUNS/"predict_video")  # Agrega predicci√≥n video si est√° activado
if clean_train_runs: paths_to_clean.append(DIR_RUNS/"train")      # Agrega carpeta train si est√° activado

print("‚úÖ Inicio limpieza controlada:")                           # Mensaje de inicio
print("‚ÑπÔ∏è Nota: NO se borra /content/out ni /content/dataset.")   # Aclara qu√© no se toca

# Ejecuta borrado carpeta por carpeta con mensajes amigables
for p in paths_to_clean:                                         # Recorre rutas marcadas para limpieza
    if p.exists():                                               # Si la carpeta existe
        shutil.rmtree(p)                                         # Borra carpeta completa
        print("‚úÖ Borrado:", p)                                   # Confirma borrado
    else:
        print("‚ö†Ô∏è No existe, se omite:", p)                       # Aviso si no existe

# Re-crea carpetas que suelen necesitarse para seguir trabajando sin errores
(DIR_WORK/"frames").mkdir(parents=True, exist_ok=True)           # Re-crea frames (vac√≠a) para futuras extracciones
(DIR_WORK/"dataset_raw").mkdir(parents=True, exist_ok=True)      # Re-crea dataset_raw (vac√≠a) para futuros exports CVAT
print("‚úÖ Carpetas de trabajo re-creadas (vac√≠as) si correspond√≠a.")  # Confirma recreaci√≥n

# Muestra cu√°nto pesa /content despu√©s de limpiar (para ver efecto)
print("\n‚úÖ Peso por carpeta dentro de /content (post-limpieza):") # T√≠tulo del chequeo
try:
    subprocess.run(["bash", "-lc", "du -h --max-depth=1 /content | sort -h"], check=False)  # Muestra tama√±os por carpeta
except Exception:
    print("‚ö†Ô∏è No pude ejecutar du para ver tama√±os.")             # Aviso si falla


‚úÖ Inicio limpieza controlada:
‚ÑπÔ∏è Nota: NO se borra /content/out ni /content/dataset.
‚úÖ Borrado: /content/work/frames
‚ö†Ô∏è No existe, se omite: /content/runs/predict_val
‚úÖ Carpetas de trabajo re-creadas (vac√≠as) si correspond√≠a.

‚úÖ Peso por carpeta dentro de /content (post-limpieza):
