# **PROTOTIPO FUNCIONAL DE DETECCIÓN DE VIOLENCIA FÍSICAS**

In [None]:
!pip install ultralytics deep-sort-realtime transformers torch opencv-python numpy

Collecting ultralytics
  Downloading ultralytics-8.3.105-py3-none-any.whl.metadata (37 kB)
Collecting deep-sort-realtime
  Downloading deep_sort_realtime-1.3.2-py3-none-any.whl.metadata (12 kB)
Collecting ultralytics-thop>=2.0.0 (from ultralytics)
  Downloading ultralytics_thop-2.0.14-py3-none-any.whl.metadata (9.4 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch)
  Downloadin

In [None]:
from google.colab import drive
drive.flush_and_unmount()
drive.mount('/content/drive')

Mounted at /content/drive


## PROCESAMIENTO DE VIDEOS A 1280x720

In [None]:
import os
from moviepy.editor import VideoFileClip

# PARÁMETROS PREDEFINIDOS - MODIFICA ESTOS VALORES
INPUT_PATH = "/content/drive/MyDrive/Proyecto IA-3/violence_school_project/videos/videos_nuevos/video_prueba3.mp4"  # Ruta al video de entrada
OUTPUT_FOLDER = "/content/drive/MyDrive/Proyecto IA-3/violence_school_project/videos/videos_procesados"  # Carpeta donde se guardará el video procesado
START_TIME = 9  # Tiempo de inicio para el recorte (en segundos)
END_TIME = 14  # Tiempo de fin para el recorte (en segundos)
TARGET_RESOLUTION = (1280, 720)  # Resolución objetivo (ancho, alto)

def process_video(input_path, output_folder, start_time, end_time, target_resolution=(1280, 720)):
    """
    Procesa un video recortándolo por un rango de tiempo específico y ajustando su resolución.
    Mantiene el nombre original del archivo de entrada.

    Args:
        input_path (str): Ruta al video de entrada
        output_folder (str): Carpeta donde se guardará el video procesado
        start_time (float): Tiempo de inicio para el recorte (en segundos)
        end_time (float): Tiempo de fin para el recorte (en segundos)
        target_resolution (tuple): Resolución objetivo en formato (ancho, alto)

    Returns:
        str: Ruta del archivo de salida procesado
    """
    # Verificar si el archivo de entrada existe
    if not os.path.exists(input_path):
        raise FileNotFoundError(f"El archivo de video no existe: {input_path}")

    # Crear la carpeta de salida si no existe
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
        print(f"Carpeta de salida creada: {output_folder}")

    # Obtener el nombre base del archivo de entrada sin extensión
    base_name = os.path.basename(input_path)
    file_name, file_ext = os.path.splitext(base_name)

    # Mantener el nombre original del archivo
    output_name = f"{file_name}{file_ext}"
    output_path = os.path.join(output_folder, output_name)

    try:
        # Cargar el video
        print(f"Cargando video: {input_path}")
        video = VideoFileClip(input_path)

        # Obtener información del video original
        original_duration = video.duration
        original_size = video.size
        print(f"Información del video original:")
        print(f"- Duración: {original_duration:.2f} segundos")
        print(f"- Resolución: {original_size[0]}x{original_size[1]}")

        # Validar tiempos de recorte
        if start_time < 0 or end_time > original_duration or start_time >= end_time:
            raise ValueError(f"Tiempos de recorte inválidos: {start_time}s - {end_time}s. " +
                            f"El video tiene una duración de {original_duration:.2f}s")

        # Recortar el video dentro del rango especificado
        print(f"Recortando video del segundo {start_time} al {end_time}")
        video_trimmed = video.subclip(start_time, end_time)

        # Redimensionar el video si es necesario
        if original_size[0] != target_resolution[0] or original_size[1] != target_resolution[1]:
            print(f"Redimensionando video de {original_size[0]}x{original_size[1]} a {target_resolution[0]}x{target_resolution[1]}")
            # Usar redimensionamiento compatible con moviepy 1.0.3 y Pillow 6.2.2
            video_processed = video_trimmed.resize(target_resolution)
        else:
            print("El video ya tiene la resolución objetivo. No es necesario redimensionar.")
            video_processed = video_trimmed

        # Guardar el video procesado con alta calidad
        print(f"Guardando video procesado: {output_path}")

        # Configurar parámetros de codificación para mantener buena calidad
        video_processed.write_videofile(
            output_path,
            codec="libx264",
            audio_codec="aac",
            bitrate="8000k",
            preset="slow",  # Mejor calidad
            threads=4,
            fps=video.fps,  # Mantener la misma tasa de fotogramas
            temp_audiofile="temp-audio.m4a",
            remove_temp=True
        )

        # Obtener información del video procesado
        print(f"Video procesado guardado exitosamente:")
        print(f"- Duración: {end_time - start_time:.2f} segundos")
        print(f"- Resolución: {target_resolution[0]}x{target_resolution[1]}")

        # Limpiar
        video.close()
        video_processed.close()

        return output_path

    except Exception as e:
        print(f"Error al procesar el video: {str(e)}")
        # Asegurar que los recursos se liberen en caso de error
        try:
            video.close()
        except:
            pass
        try:
            video_processed.close()
        except:
            pass
        raise

# Punto de entrada principal del script
if __name__ == "__main__":
    print("=" * 50)
    print("PROCESADOR DE VIDEO: RECORTE Y REDIMENSIONAMIENTO")
    print("=" * 50)
    print(f"Video de entrada: {INPUT_PATH}")
    print(f"Carpeta de salida: {OUTPUT_FOLDER}")
    print(f"Rango de recorte: {START_TIME}s - {END_TIME}s")
    print(f"Resolución objetivo: {TARGET_RESOLUTION[0]}x{TARGET_RESOLUTION[1]}")
    print("=" * 50)

    try:
        # Ejecutar procesamiento con los parámetros predefinidos
        result = process_video(INPUT_PATH, OUTPUT_FOLDER, START_TIME, END_TIME, TARGET_RESOLUTION)
        print("\n" + "=" * 50)
        print(f"PROCESO COMPLETADO EXITOSAMENTE")
        print(f"Video procesado guardado en: {result}")
        print("=" * 50)
    except Exception as e:
        print("\n" + "=" * 50)
        print(f"ERROR: {str(e)}")
        print("=" * 50)

  if event.key is 'enter':



PROCESADOR DE VIDEO: RECORTE Y REDIMENSIONAMIENTO
Video de entrada: /content/drive/MyDrive/Proyecto IA-3/violence_school_project/videos/videos_nuevos/video_prueba3.mp4
Carpeta de salida: /content/drive/MyDrive/Proyecto IA-3/violence_school_project/videos/videos_procesados
Rango de recorte: 9s - 14s
Resolución objetivo: 1280x720
Cargando video: /content/drive/MyDrive/Proyecto IA-3/violence_school_project/videos/videos_nuevos/video_prueba3.mp4
Información del video original:
- Duración: 5.00 segundos
- Resolución: 768x432
Error al procesar el video: Tiempos de recorte inválidos: 9s - 14s. El video tiene una duración de 5.00s

ERROR: Tiempos de recorte inválidos: 9s - 14s. El video tiene una duración de 5.00s


In [None]:
import os
from moviepy.editor import VideoFileClip

# PARÁMETROS PREDEFINIDOS - MODIFICA ESTOS VALORES
INPUT_PATH = "/content/drive/MyDrive/Proyecto IA-3/violence_school_project/videos/videos_nuevos/video_prueba10.mp4"  # Ruta al video de entrada
OUTPUT_FOLDER = "/content/drive/MyDrive/Proyecto IA-3/violence_school_project/videos/videos_procesados"  # Carpeta donde se guardará el video procesado
TARGET_RESOLUTION = (1280, 720)  # Resolución objetivo (ancho, alto)

def process_video(input_path, output_folder, target_resolution=(1280, 720)):
    """
    Procesa un video ajustando su resolución.
    Mantiene el nombre original del archivo de entrada.

    Args:
        input_path (str): Ruta al video de entrada
        output_folder (str): Carpeta donde se guardará el video procesado
        target_resolution (tuple): Resolución objetivo en formato (ancho, alto)

    Returns:
        str: Ruta del archivo de salida procesado
    """
    if not os.path.exists(input_path):
        raise FileNotFoundError(f"El archivo de video no existe: {input_path}")

    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
        print(f"Carpeta de salida creada: {output_folder}")

    base_name = os.path.basename(input_path)
    file_name, file_ext = os.path.splitext(base_name)
    output_name = f"{file_name}{file_ext}"
    output_path = os.path.join(output_folder, output_name)

    try:
        print(f"Cargando video: {input_path}")
        video = VideoFileClip(input_path)

        original_size = video.size
        original_duration = video.duration
        print(f"Información del video original:")
        print(f"- Duración: {original_duration:.2f} segundos")
        print(f"- Resolución: {original_size[0]}x{original_size[1]}")

        if original_size != list(target_resolution):
            print(f"Redimensionando video a {target_resolution[0]}x{target_resolution[1]}")
            video_processed = video.resize(target_resolution)
        else:
            print("El video ya tiene la resolución objetivo. No es necesario redimensionar.")
            video_processed = video

        print(f"Guardando video procesado: {output_path}")
        video_processed.write_videofile(
            output_path,
            codec="libx264",
            audio_codec="aac",
            bitrate="8000k",
            preset="slow",
            threads=4,
            fps=video.fps,
            temp_audiofile="temp-audio.m4a",
            remove_temp=True
        )

        print(f"Video procesado guardado exitosamente.")
        print(f"- Duración: {original_duration:.2f} segundos")
        print(f"- Resolución: {target_resolution[0]}x{target_resolution[1]}")

        video.close()
        video_processed.close()

        return output_path

    except Exception as e:
        print(f"Error al procesar el video: {str(e)}")
        try:
            video.close()
        except:
            pass
        try:
            video_processed.close()
        except:
            pass
        raise

# Punto de entrada principal del script
if __name__ == "__main__":
    print("=" * 50)
    print("PROCESADOR DE VIDEO: SOLO REDIMENSIONAMIENTO")
    print("=" * 50)
    print(f"Video de entrada: {INPUT_PATH}")
    print(f"Carpeta de salida: {OUTPUT_FOLDER}")
    print(f"Resolución objetivo: {TARGET_RESOLUTION[0]}x{TARGET_RESOLUTION[1]}")
    print("=" * 50)

    try:
        result = process_video(INPUT_PATH, OUTPUT_FOLDER, TARGET_RESOLUTION)
        print("\n" + "=" * 50)
        print("PROCESO COMPLETADO EXITOSAMENTE")
        print(f"Video procesado guardado en: {result}")
        print("=" * 50)
    except Exception as e:
        print("\n" + "=" * 50)
        print(f"ERROR: {str(e)}")
        print("=" * 50)


PROCESADOR DE VIDEO: SOLO REDIMENSIONAMIENTO
Video de entrada: /content/drive/MyDrive/Proyecto IA-3/violence_school_project/videos/videos_nuevos/video_prueba10.mp4
Carpeta de salida: /content/drive/MyDrive/Proyecto IA-3/violence_school_project/videos/videos_procesados
Resolución objetivo: 1280x720
Cargando video: /content/drive/MyDrive/Proyecto IA-3/violence_school_project/videos/videos_nuevos/video_prueba10.mp4
Información del video original:
- Duración: 5.00 segundos
- Resolución: 1280x720
El video ya tiene la resolución objetivo. No es necesario redimensionar.
Guardando video procesado: /content/drive/MyDrive/Proyecto IA-3/violence_school_project/videos/videos_procesados/video_prueba10.mp4
Moviepy - Building video /content/drive/MyDrive/Proyecto IA-3/violence_school_project/videos/videos_procesados/video_prueba10.mp4.
MoviePy - Writing audio in temp-audio.m4a




MoviePy - Done.
Moviepy - Writing video /content/drive/MyDrive/Proyecto IA-3/violence_school_project/videos/videos_procesados/video_prueba10.mp4






Moviepy - Done !
Moviepy - video ready /content/drive/MyDrive/Proyecto IA-3/violence_school_project/videos/videos_procesados/video_prueba10.mp4
Video procesado guardado exitosamente.
- Duración: 5.00 segundos
- Resolución: 1280x720

PROCESO COMPLETADO EXITOSAMENTE
Video procesado guardado en: /content/drive/MyDrive/Proyecto IA-3/violence_school_project/videos/videos_procesados/video_prueba10.mp4


# PROTORIPO DEL MODELO

In [1]:
!pip install ultralytics deep-sort-realtime transformers torch opencv-python numpy

Collecting ultralytics
  Downloading ultralytics-8.3.127-py3-none-any.whl.metadata (37 kB)
Collecting deep-sort-realtime
  Downloading deep_sort_realtime-1.3.2-py3-none-any.whl.metadata (12 kB)
Collecting ultralytics-thop>=2.0.0 (from ultralytics)
  Downloading ultralytics_thop-2.0.14-py3-none-any.whl.metadata (9.4 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch)
  Downloadin

In [2]:
import cv2
import numpy as np
import torch
from ultralytics import YOLO
from deep_sort_realtime.deepsort_tracker import DeepSort
from transformers import TimesformerForVideoClassification, AutoImageProcessor
import logging
import os
from collections import deque, defaultdict
from datetime import datetime

Creating new Ultralytics Settings v0.0.6 file ✅ 
View Ultralytics Settings with 'yolo settings' or at '/root/.config/Ultralytics/settings.json'
Update Settings with 'yolo settings key=value', i.e. 'yolo settings runs_dir=path/to/dir'. For help see https://docs.ultralytics.com/quickstart/#ultralytics-settings.


In [5]:
from google.colab import drive
drive.flush_and_unmount()
drive.mount('/content/drive')

Mounted at /content/drive


In [6]:
# Configurar logging
logging.basicConfig(
    level=logging.INFO,
    format="%(asctime)s - %(levelname)s - %(message)s",
    handlers=[
        logging.FileHandler("violence_detection_prototype.log"),
        logging.StreamHandler()
    ]
)

# Definir rutas
BASE_PATH = "/content/drive/MyDrive/Proyecto IA-3/violence_school_project/"
YOLO_MODEL_PATH = os.path.join(BASE_PATH, "modelosV2/best.pt")  # Modelo YOLO entrenado
TIMESFORMER_MODEL_PATH = os.path.join(BASE_PATH, "models/timesformer/run_finetune_20250408_003512/best_timesformer_finetune.pt")
# TIMESFORMER_MODEL_PATH = os.path.join(BASE_PATH, "models/timesformer/run_20250407_115035/best_timesformer_transfer.pt")
VIDEO_PATH = os.path.join(BASE_PATH, "videos/fight_0620_004.mp4")  # Video de prueba
OUTPUT_PATH = os.path.join(BASE_PATH, "output_videos/video_prueba4.2.mp4")

# Verificar que los modelos existan
if not os.path.exists(YOLO_MODEL_PATH):
    raise FileNotFoundError(f"No se encontró el modelo YOLO en: {YOLO_MODEL_PATH}")
if not os.path.exists(TIMESFORMER_MODEL_PATH):
    raise FileNotFoundError(f"No se encontró el modelo TimeSformer en: {TIMESFORMER_MODEL_PATH}")

# Crear la carpeta de salida si no existe
output_dir = os.path.dirname(OUTPUT_PATH)
if not os.path.exists(output_dir):
    os.makedirs(output_dir)
    logging.info(f"Carpeta de salida creada: {output_dir}")

In [7]:
# Configurar dispositivo
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
logging.info(f"Usando dispositivo: {device}")
print(f"Usando dispositivo: {device}")

# Cargar modelo YOLO entrenado
yolo_model = YOLO(YOLO_MODEL_PATH)
logging.info(f"Modelo YOLO cargado desde: {YOLO_MODEL_PATH}")
print(f"Modelo YOLO cargado desde: {YOLO_MODEL_PATH}")

# Cargar DeepSORT
deepsort = DeepSort(max_age=30, n_init=3, nn_budget=100)
logging.info("DeepSORT inicializado.")
print("DeepSORT inicializado.")

# Cargar modelo TimeSformer
timesformer_model = TimesformerForVideoClassification.from_pretrained(TIMESFORMER_MODEL_PATH)
timesformer_model.to(device)
timesformer_model.eval()
processor = AutoImageProcessor.from_pretrained("facebook/timesformer-base-finetuned-k400")
logging.info(f"Modelo TimeSformer cargado desde: {TIMESFORMER_MODEL_PATH}")
print(f"Modelo TimeSformer cargado desde: {TIMESFORMER_MODEL_PATH}")

Usando dispositivo: cuda
Modelo YOLO cargado desde: /content/drive/MyDrive/Proyecto IA-3/violence_school_project/modelosV2/best.pt
DeepSORT inicializado.


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


preprocessor_config.json:   0%|          | 0.00/412 [00:00<?, ?B/s]

Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.


Modelo TimeSformer cargado desde: /content/drive/MyDrive/Proyecto IA-3/violence_school_project/models/timesformer/run_finetune_20250408_003512/best_timesformer_finetune.pt


In [8]:
# Parámetros clave para el procesamiento del video y los modelos
CLIP_DURATION_SECONDS = 10  # Duración de cada clip de video a analizar (10 segundos)
FPS = 30  # FPS inicial esperado del video (se ajustará según el video real)
CLIP_FRAMES = CLIP_DURATION_SECONDS * FPS  # Total de frames por clip (10 seg * 30 FPS = 300 frames)
STRIDE_FRAMES = CLIP_FRAMES // 5  # Solapamiento para procesar clips cada 2 segundos (300 // 5 = 60 frames)
TIMESFORMER_FPS = 15  # FPS objetivo para TimeSformer (reduce la carga computacional)
TIMESFORMER_FRAMES = CLIP_DURATION_SECONDS * TIMESFORMER_FPS  # Frames totales para TimeSformer (10 seg * 15 FPS = 150 frames)
NUM_FRAMES_TIMESFORMER = 8  # Número de frames que TimeSformer usará por clip (muestreo uniforme)
THRESHOLD_VIOLENCE = 0.6  # Umbral de probabilidad para clasificar un clip como violento (60%)
YOLO_CONF_THRESHOLD = 0.65  # Umbral de confianza para las detecciones de YOLO (reduce falsos positivos)

# Cola para almacenar frames en un buffer circular (máximo CLIP_FRAMES)
frame_buffer = deque(maxlen=CLIP_FRAMES)

# Diccionario para almacenar las trayectorias de las personas detectadas por DeepSORT
trajectories = defaultdict(list)

# Función para preprocesar frames para TimeSformer
def preprocess_frames_for_timesformer(frames, num_frames=NUM_FRAMES_TIMESFORMER, target_size=(224, 224), target_fps=TIMESFORMER_FPS):
    # Reducir FPS a 15 FPS para TimeSformer
    total_frames = len(frames)  # Total de frames en el clip (300 a 30 FPS)
    target_frame_count = int((total_frames / FPS) * target_fps)  # Frames a 15 FPS (150 frames)
    frame_indices = np.linspace(0, total_frames - 1, target_frame_count, dtype=int)  # Seleccionar índices uniformemente
    selected_frames = [frames[i] for i in frame_indices]  # Frames seleccionados a 15 FPS

    # Muestrear 8 frames uniformemente de los 150 frames
    if len(selected_frames) < num_frames:
        raise ValueError(f"No hay suficientes frames después de reducir FPS: {len(selected_frames)} < {num_frames}")

    sample_indices = np.linspace(0, len(selected_frames) - 1, num_frames, dtype=int)  # Índices para 8 frames
    final_frames = [selected_frames[i] for i in sample_indices]  # Frames finales para TimeSformer

    # Redimensionar y convertir a RGB
    processed_frames = []
    for frame in final_frames:
        frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)  # Convertir de BGR (OpenCV) a RGB (TimeSformer)
        h, w = frame.shape[:2]  # Dimensiones originales del frame
        ratio = min(target_size[0] / w, target_size[1] / h)  # Calcular ratio de redimensionamiento
        new_w, new_h = int(w * ratio), int(h * ratio)  # Nuevas dimensiones manteniendo proporción
        resized_frame = cv2.resize(frame, (new_w, new_h), interpolation=cv2.INTER_AREA)  # Redimensionar
        padded_frame = np.zeros((target_size[1], target_size[0], 3), dtype=np.uint8)  # Crear frame vacío de 224x224
        pad_top = (target_size[1] - new_h) // 2  # Calcular padding superior
        pad_left = (target_size[0] - new_w) // 2  # Calcular padding izquierdo
        padded_frame[pad_top:pad_top + new_h, pad_left:pad_left + new_w] = resized_frame  # Colocar frame redimensionado
        processed_frames.append(padded_frame)

    # Preprocesar con AutoImageProcessor para TimeSformer
    inputs = processor(processed_frames, return_tensors="pt")  # Convertir a tensores
    pixel_values = inputs["pixel_values"].to(device)  # Mover a GPU/CPU según dispositivo
    return pixel_values

# Función para predecir violencia con TimeSformer
def predict_violence(frames):
    try:
        pixel_values = preprocess_frames_for_timesformer(frames)  # Preprocesar frames
        with torch.no_grad():  # Desactivar gradientes para inferencia
            outputs = timesformer_model(pixel_values=pixel_values)  # Pasar frames a TimeSformer
            logits = outputs.logits  # Obtener logits (salida cruda del modelo)
            probs = torch.softmax(logits, dim=1)  # Convertir logits a probabilidades
            prob_violence = probs[0, 1].item()  # Probabilidad de la clase "Violencia"
            pred = 1 if prob_violence > THRESHOLD_VIOLENCE else 0  # Clasificar según umbral
        return pred, prob_violence  # Devolver predicción (0 o 1) y probabilidad
    except Exception as e:
        logging.error(f"Error al predecir violencia: {str(e)}")  # Registrar error
        return 0, 0.0  # Devolver valores por defecto en caso de error

# Función para obtener los IDs de personas presentes en un intervalo de frames
def get_ids_in_interval(start_frame, end_frame):
    ids_in_interval = set()  # Conjunto para almacenar IDs únicos
    for frame_num in range(start_frame, end_frame + 1):  # Iterar sobre el intervalo
        if frame_num in trajectories:  # Si el frame tiene trayectorias
            for track_id, _ in trajectories[frame_num]:  # Obtener IDs
                ids_in_interval.add(track_id)  # Añadir ID al conjunto
    return sorted(list(ids_in_interval))  # Devolver lista ordenada de IDs

In [11]:
# Cargar video de entrada
cap = cv2.VideoCapture(VIDEO_PATH)  # Abrir video desde la ruta especificada
if not cap.isOpened():  # Verificar si se pudo abrir
    raise ValueError(f"No se pudo abrir el video: {VIDEO_PATH}")

# Obtener propiedades del video
width = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))  # Ancho del video
height = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))  # Alto del video
fps = int(cap.get(cv2.CAP_PROP_FPS))  # FPS real del video
total_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))  # Total de frames

# Ajustar FPS si es necesario
if fps != FPS:  # Si el FPS real no coincide con el esperado
    logging.warning(f"El FPS del video ({fps}) no coincide con el esperado ({FPS}). Ajustando...")
    print(f"El FPS del video ({fps}) no coincide con el esperado ({FPS}). Ajustando...")
    FPS = fps  # Actualizar FPS
    CLIP_FRAMES = CLIP_DURATION_SECONDS * FPS  # Recalcular frames por clip
    STRIDE_FRAMES = CLIP_FRAMES // 5  # Recalcular solapamiento
    TIMESFORMER_FRAMES = CLIP_DURATION_SECONDS * TIMESFORMER_FPS  # Recalcular frames para TimeSformer
    frame_buffer = deque(maxlen=CLIP_FRAMES)  # Reiniciar buffer con nuevo tamaño

# Configurar video de salida
fourcc = cv2.VideoWriter_fourcc(*"mp4v")  # Códec para el video de salida
out = cv2.VideoWriter(OUTPUT_PATH, fourcc, FPS, (width, height))  # Crear video de salida

# Verificar que VideoWriter se inicializó correctamente
if not out.isOpened():
    raise ValueError(f"No se pudo inicializar el VideoWriter para: {OUTPUT_PATH}. Verifica permisos y códec.")




# Inicializar contadores y variables de estado
frame_count = 0  # Contador de frames procesados
written_frames = 0  # Contador de frames escritos en el video de salida
violence_detected = False  # Estado de detección de violencia
last_prob_violence = 0.0  # Última probabilidad de violencia
last_violence_ids = []  # IDs de personas involucradas en el último evento de violencia

logging.info(f"Procesando video: {VIDEO_PATH}")
print(f"Procesando video: {VIDEO_PATH}")

# Bucle principal para procesar cada frame del video
while cap.isOpened():
    ret, frame = cap.read()  # Leer el siguiente frame
    if not ret:  # Si no hay más frames, salir del bucle
        break

    frame_count += 1  # Incrementar contador de frames

    # Redimensionar frame para YOLOv8n
    yolo_frame = cv2.resize(frame, (640, 640), interpolation=cv2.INTER_AREA)  # Redimensionar a 640x640
    frame_buffer.append(frame.copy())  # Añadir frame al buffer

    # Detección de personas con YOLOv8n
    results = yolo_model(yolo_frame, conf=YOLO_CONF_THRESHOLD, classes=0, iou=0.5)  # Detectar personas
    detections = []  # Lista para almacenar detecciones
    for result in results:
        boxes = result.boxes.xyxy.cpu().numpy()  # Coordenadas de los bounding boxes
        scores = result.boxes.conf.cpu().numpy()  # Confianzas de las detecciones
        scale_x = width / 640  # Factor de escala para ancho
        scale_y = height / 640  # Factor de escala para alto
        for box, score in zip(boxes, scores):
            x1, y1, x2, y2 = box  # Coordenadas en 640x640
            x1, x2 = x1 * scale_x, x2 * scale_x  # Escalar a dimensiones originales
            y1, y2 = y1 * scale_y, y2 * scale_y  # Escalar a dimensiones originales
            detections.append(([x1, y1, x2 - x1, y2 - y1], score, 0))  # Formato para DeepSORT

    # Seguimiento de personas con DeepSORT
    tracks = deepsort.update_tracks(detections, frame=frame)  # Actualizar trayectorias

    # Almacenar trayectorias del frame actual
    current_trajectories = []
    for track in tracks:
        if not track.is_confirmed():  # Ignorar trayectorias no confirmadas
            continue
        track_id = track.track_id  # Obtener ID de la persona
        ltrb = track.to_ltrb()  # Coordenadas del bounding box (left, top, right, bottom)
        current_trajectories.append((track_id, ltrb))  # Guardar ID y coordenadas
    trajectories[frame_count] = current_trajectories  # Almacenar en el diccionario

    # Predecir violencia cada STRIDE_FRAMES (cada 60 frames o 2 segundos)
    if frame_count % STRIDE_FRAMES == 0 and len(frame_buffer) == CLIP_FRAMES:
        start_frame = max(1, frame_count - CLIP_FRAMES + 1)  # Frame inicial del clip
        end_frame = frame_count  # Frame final del clip

        pred, prob_violence = predict_violence(list(frame_buffer))  # Predecir violencia
        # Post-procesamiento: si la probabilidad está cerca del umbral, no clasificar como violencia
        if 0.4 < prob_violence < 0.6:
            pred = 0  # Considerar como "incierto"
        violence_detected = (pred == 1)  # Actualizar estado de violencia
        last_prob_violence = prob_violence  # Guardar probabilidad

        logging.info(f"Predicción en frames {start_frame}-{end_frame}: Violencia={'Sí' if violence_detected else 'No'}, Probabilidad={prob_violence:.4f}")
        print(f"Predicción en frames {start_frame}-{end_frame}: Violencia={'Sí' if violence_detected else 'No'}, Probabilidad={prob_violence:.4f}")

        ids_in_interval = get_ids_in_interval(start_frame, end_frame)  # Obtener IDs en el intervalo
        last_violence_ids = ids_in_interval if violence_detected else []  # Guardar IDs si hay violencia

        if violence_detected:
            timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")  # Timestamp del evento
            event = f"Violencia detectada en frames {start_frame}-{end_frame}, Probabilidad: {prob_violence:.4f}, IDs: {ids_in_interval}, Timestamp: {timestamp}"
            logging.info(event)  # Registrar evento
            print(event)  # Mostrar evento

    # Visualización: dibujar bounding boxes y IDs
    for track in tracks:
        if not track.is_confirmed():  # Ignorar trayectorias no confirmadas
            continue
        track_id = track.track_id  # Obtener ID
        ltrb = track.to_ltrb()  # Obtener coordenadas
        x1, y1, x2, y2 = map(int, ltrb)  # Convertir a enteros
        cv2.rectangle(frame, (x1, y1), (x2, y2), (0, 255, 0), 2)  # Dibujar bounding box
        cv2.putText(frame, f"ID: {track_id}", (x1, y1 - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 255, 0), 2)  # Mostrar ID

    # Mostrar predicción de violencia en el frame
    status_text = f"Violencia: {'Sí' if violence_detected else 'No'} (Prob: {last_prob_violence:.4f})"
    status_color = (0, 0, 255) if violence_detected else (0, 255, 0)  # Rojo si hay violencia, verde si no
    cv2.putText(frame, status_text, (10, 30), cv2.FONT_HERSHEY_SIMPLEX, 1, status_color, 2)  # Mostrar estado

    # Mostrar IDs involucrados en violencia
    if violence_detected and last_violence_ids:
        ids_text = f"IDs Involucrados: {last_violence_ids}"
        cv2.putText(frame, ids_text, (10, 60), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2)  # Mostrar IDs

    # Escribir frame en el video de salida
    out.write(frame)  # Guardar frame procesado
    written_frames += 1  # Incrementar contador

    # Mostrar progreso cada 100 frames
    if frame_count % 100 == 0:
        logging.info(f"Procesados {frame_count}/{total_frames} frames")
        print(f"Procesados {frame_count}/{total_frames} frames")


# Liberar recursos al finalizar
cap.release()  # Cerrar el video de entrada
out.release()  # Cerrar el video de salida
# cv2.destroyAllWindows()  # Cerrar ventanas de OpenCV (si las hubiera)

Procesando video: /content/drive/MyDrive/Proyecto IA-3/violence_school_project/videos/fight_0620_004.mp4

0: 640x640 3 items, 14.0ms
Speed: 3.0ms preprocess, 14.0ms inference, 1.8ms postprocess per image at shape (1, 3, 640, 640)

0: 640x640 3 items, 9.7ms
Speed: 2.8ms preprocess, 9.7ms inference, 1.7ms postprocess per image at shape (1, 3, 640, 640)

0: 640x640 3 items, 11.0ms
Speed: 3.0ms preprocess, 11.0ms inference, 2.0ms postprocess per image at shape (1, 3, 640, 640)

0: 640x640 3 items, 11.1ms
Speed: 3.0ms preprocess, 11.1ms inference, 3.1ms postprocess per image at shape (1, 3, 640, 640)

0: 640x640 4 items, 10.1ms
Speed: 2.5ms preprocess, 10.1ms inference, 1.7ms postprocess per image at shape (1, 3, 640, 640)

0: 640x640 3 items, 11.2ms
Speed: 2.3ms preprocess, 11.2ms inference, 1.8ms postprocess per image at shape (1, 3, 640, 640)

0: 640x640 3 items, 11.1ms
Speed: 2.4ms preprocess, 11.1ms inference, 2.0ms postprocess per image at shape (1, 3, 640, 640)

0: 640x640 3 items, 9

In [12]:
# Verificar que el video de salida existe y reportar frames escritos
if os.path.exists(OUTPUT_PATH):
    logging.info(f"Video procesado guardado en: {OUTPUT_PATH}")
    print(f"Video procesado guardado en: {OUTPUT_PATH}")
    logging.info(f"Total de frames escritos: {written_frames}")
    print(f"Total de frames escritos: {written_frames}")
else:
    logging.error(f"No se encontró el video de salida en: {OUTPUT_PATH}. Verifica permisos y códec.")
    print(f"No se encontró el video de salida en: {OUTPUT_PATH}. Verifica permisos y códec.")

Video procesado guardado en: /content/drive/MyDrive/Proyecto IA-3/violence_school_project/output_videos/video_prueba4.2.mp4
Total de frames escritos: 150


# *EXPORTAR EL MODELO EN ONNX*

In [None]:
from transformers import TimesformerForVideoClassification

# Cargar el modelo desde el directorio que contiene model.safetensors
model_dir = "path/to/your/model/directory"  # Reemplaza con la ruta al directorio que contiene model.safetensors
model = TimesformerForVideoClassification.from_pretrained(model_dir)

# Mover el modelo a evaluación y al dispositivo adecuado
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.eval()
model.to(device)