In [None]:
import torch
import torchvision.models as models  # Para acceder a los modelos pre-entrenados
from torchvision.models import ResNet50_Weights  # Importar los pesos preentrenados
import torchvision.transforms as transforms  # Para aplicar transformaciones a las imágenes
from PIL import Image  # Para manipular imágenes
import pandas as pd  # Para manipular datos
import os  # Para crear carpetas y manejar rutas de archivos
import glob  # Para buscar archivos
import logging  # Para el manejo de logs

# Configuración del logging: crear un archivo 'deteccion_objetos.log' para guardar los errores
logging.basicConfig(filename='deteccion_objetos.log', level=logging.INFO, format='%(asctime)s %(levelname)s %(message)s')

# 1. Cargar el modelo (ResNet50) y ponerlo en modo evaluación
try:
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    modelo = models.resnet50(weights=ResNet50_Weights.IMAGENET1K_V1).to(device)  # Usar pesos de ImageNet
    modelo.eval()  # Poner el modelo en modo evaluación
except Exception as e:
    logging.error(f"Error al cargar el modelo: {e}")
    exit()

# 2. Transformaciones para pre-procesar las imágenes
transformaciones = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])


def procesar_fotogramas_batch(rutas_imagenes):
    """ Procesa un lote de fotogramas, devuelve las clases predichas y las confianzas. """
    try:
        imagenes = [Image.open(ruta).convert("RGB") for ruta in rutas_imagenes]  # Convertir a RGB
        imagenes_tensor = torch.stack([transformaciones(imagen) for imagen in imagenes]).to(device)  # Aplicar transformaciones y mover a la GPU

        with torch.no_grad():  # Desactiva el cálculo de gradientes
            salidas = modelo(imagenes_tensor)  # Pasa las imágenes por el modelo

        probabilidades = torch.nn.functional.softmax(salidas, dim=1)  # Obtiene las probabilidades de la clase
        confianzas, indices_prediccion = torch.max(probabilidades, dim=1)  # Obtiene la clase y la confianza con mayor probabilidad

        return indices_prediccion.cpu().numpy(), confianzas.cpu().numpy()  # Devuelve las clases y las confianzas
    except Exception as e:
        logging.exception(f"Error al procesar el lote de imágenes: {e}")  # Registrar el error
        return None, None


def procesar_directorio_frames(directorio_frames, batch_size=32):
    """ Procesa un directorio de fotogramas en lotes y devuelve un DataFrame. """
    resultados = []  # Lista para almacenar los resultados
    archivos_frame = glob.glob(os.path.join(directorio_frames, "*.jpg"))  # Usa glob para obtener solo los archivos jpg
    archivos_frame = sorted(archivos_frame, key=lambda x: int(os.path.splitext(os.path.basename(x))[0]))  # Ordenar los archivos

    for i in range(0, len(archivos_frame), batch_size):  # Procesar en lotes
        batch_rutas = archivos_frame[i:i + batch_size]  # Obtener el lote de rutas
        indices, confianzas = procesar_fotogramas_batch(batch_rutas)  # Procesar el lote

        if indices is not None and confianzas is not None:  # Si el procesamiento fue exitoso
            for j, (indice, confianza) in enumerate(zip(indices, confianzas)):  # Iterar sobre los resultados del lote
                nombre_archivo = os.path.basename(batch_rutas[j])  # Obtener el nombre del archivo
                resultados.append([int(nombre_archivo[:-4]), indice, confianza])  # Agregar el resultado a la lista

    df_resultados = pd.DataFrame(resultados, columns=["Frame", "indice", "confianza"])  # Crear un DataFrame de pandas con los resultados
    return df_resultados  # Devolver el DataFrame


# Rutas principales
ruta_base = r"C:\Users\Usuario\Desktop\GitHub\Grupo-Atrium\Deep Learning"  # Ruta base
ruta_videos = os.path.join(ruta_base, "videos")  # Ruta a la carpeta de videos
ruta_frames = os.path.join(ruta_base, "frames")  # Ruta a la carpeta de frames
categorias = ["coches", "mascotas", "comida"]  # Lista de las categorías

# Crear la carpeta 'frames' si no existe
os.makedirs(ruta_frames, exist_ok=True)

# Procesamiento principal
for categoria in categorias:  # Iterar sobre las categorías
    ruta_categoria_videos = os.path.join(ruta_videos, categoria)  # Ruta a la carpeta de videos de la categoría
    ruta_categoria_frames = os.path.join(ruta_frames, categoria)  # Ruta a la carpeta de frames de la categoría
    os.makedirs(ruta_categoria_frames, exist_ok=True)  # Crear la carpeta de frames de la categoría si no existe

    for video in os.listdir(ruta_categoria_videos):  # Iterar sobre los videos de la categoría
        ruta_video = os.path.join(ruta_categoria_videos, video)  # Ruta al video
        if os.path.isfile(ruta_video):  # Comprobar si es un archivo (video)
            nombre_video = os.path.splitext(video)[0]  # Nombre del video sin extensión
            ruta_frames_video = os.path.join(ruta_categoria_frames, nombre_video)  # Ruta a la carpeta de frames del video
            os.makedirs(ruta_frames_video, exist_ok=True)  # Crear la carpeta de frames del video si no existe

            try:
                # Procesar el video y obtener los resultados en un DataFrame
                df_resultados = procesar_directorio_frames(ruta_frames_video)  # Procesar los frames
                print(f"Resultados del video: {video} de la categoría {categoria}:")
                print(df_resultados)  # Mostrar los resultados en la consola
            except Exception as e:  # Manejo de errores
                logging.exception(f"Error al procesar la categoría {categoria} y video: {video}: {e}")  # Registrar el error

KeyboardInterrupt: 

* EXPLICACIÓN:
Tomamos los videos que están ordenados por categorías en carpetas (ej: "videos/coches", "videos/mascotas", "videos/comida") y sacamos fotos (fotogramas) de esos videos. Estas fotos las guardamos en una carpeta nueva llamada "frames", manteniendo la misma organización por categorías (ej: "frames/coches", "frames/mascotas", "frames/comida"). Dentro de cada carpeta de categoría en "frames", creamos subcarpetas con el nombre del video original, y ahí dentro guardamos las fotos.
Para mas comodidad he guardado los frames en csv, para que puedas cargarlos facilmente en un dataframe.
