# Análisis Exploratorio de Videos

In [1]:
import os
from pathlib import Path
from datetime import datetime
import json

In [2]:
def get_video_files(directory):
    """Obtiene todos los archivos de video en el directorio."""
    video_extensions = ['.mp4', '.avi', '.mov', '.mkv', '.wmv', '.flv']
    videos = []
    
    if not os.path.exists(directory):
        print(f"Directorio no encontrado: {directory}")
        return videos
    
    for root, dirs, files in os.walk(directory):
        for file in files:
            if any(file.lower().endswith(ext) for ext in video_extensions):
                videos.append(os.path.join(root, file))
    
    return videos

In [3]:
def analyze_video_metadata(video_path):
    """Analiza metadatos básicos de un archivo de video."""
    stats = os.stat(video_path)
    
    return {
        'nombre': os.path.basename(video_path),
        'ruta': video_path,
        'tamaño_mb': round(stats.st_size / (1024 * 1024), 2),
        'fecha_creacion': datetime.fromtimestamp(stats.st_ctime).strftime('%Y-%m-%d %H:%M:%S'),
        'fecha_modificacion': datetime.fromtimestamp(stats.st_mtime).strftime('%Y-%m-%d %H:%M:%S'),
        'extension': os.path.splitext(video_path)[1]
    }

## Configuración

Directorio donde están los videos:

In [4]:
# Directorio de videos
video_directory = '../data/raw'

## Análisis de Videos

In [5]:
print("="*70)
print("ANÁLISIS EXPLORATORIO DE VIDEOS")
print("="*70)

# Obtener videos
videos = get_video_files(video_directory)

if not videos:
    print(f"\nNo se encontraron videos en: {video_directory}")
else:
    print(f"\nTotal de videos encontrados: {len(videos)}")
    print("-"*70)

ANÁLISIS EXPLORATORIO DE VIDEOS

Total de videos encontrados: 2
----------------------------------------------------------------------


## Análisis de Metadatos

In [6]:
if videos:
    # Analizar cada video
    video_data = []
    total_size = 0
    
    for video_path in videos:
        metadata = analyze_video_metadata(video_path)
        video_data.append(metadata)
        total_size += metadata['tamaño_mb']
    
    # Resumen por extensión
    extensions = {}
    for vd in video_data:
        ext = vd['extension']
        extensions[ext] = extensions.get(ext, 0) + 1

## 1. Resumen General

In [7]:
if videos:
    print("\n1. RESUMEN GENERAL")
    print("-"*70)
    print(f"Total de videos: {len(videos)}")
    print(f"Tamaño total: {total_size:.2f} MB ({total_size/1024:.2f} GB)")
    print(f"Tamaño promedio: {total_size/len(videos):.2f} MB")


1. RESUMEN GENERAL
----------------------------------------------------------------------
Total de videos: 2
Tamaño total: 2.24 MB (0.00 GB)
Tamaño promedio: 1.12 MB


## 2. Distribución por Formato

In [8]:
if videos:
    print("\n2. DISTRIBUCIÓN POR FORMATO")
    print("-"*70)
    for ext, count in sorted(extensions.items()):
        print(f"{ext}: {count} archivos")


2. DISTRIBUCIÓN POR FORMATO
----------------------------------------------------------------------
.mp4: 2 archivos


## 3. Listado Detallado de Videos

In [9]:
if videos:
    print("\n3. LISTADO DETALLADO DE VIDEOS")
    print("-"*70)
    for i, vd in enumerate(video_data, 1):
        print(f"\n{i}. {vd['nombre']}")
        print(f"   Tamaño: {vd['tamaño_mb']} MB")
        print(f"   Formato: {vd['extension']}")
        print(f"   Creado: {vd['fecha_creacion']}")


3. LISTADO DETALLADO DE VIDEOS
----------------------------------------------------------------------

1. Generated video 1.mp4
   Tamaño: 1.16 MB
   Formato: .mp4
   Creado: 2025-10-11 18:01:01

2. Generated video 2.mp4
   Tamaño: 1.08 MB
   Formato: .mp4
   Creado: 2025-10-11 18:01:01


## Guardar Reporte JSON

In [10]:
# if videos:
#     # Guardar reporte en JSON
#     output_file = '../results/video_eda_report.json'
#     os.makedirs('../results', exist_ok=True)
    
#     report_data = {
#         'fecha_analisis': datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
#         'directorio': video_directory,
#         'total_videos': len(videos),
#         'tamaño_total_mb': round(total_size, 2),
#         'formatos': extensions,
#         'videos': video_data
#     }
    
#     with open(output_file, 'w', encoding='utf-8') as f:
#         json.dump(report_data, f, indent=4, ensure_ascii=False)
    
#     print(f"\n{'='*70}")
#     print(f"Reporte guardado en: {output_file}")
#     print("="*70)