In [None]:
# Celda 1: Imports y configuración
import sys
sys.path.append('../src')

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from data_preprocessing import MovieDataPreprocessor

plt.style.use('seaborn-v0_8')
%matplotlib inline

# Celda 2: Cargar y explorar datos
DATA_PATH = "../data/raw"
preprocessor = MovieDataPreprocessor(DATA_PATH, img_size=(224, 224))

print("🎬 EXPLORACIÓN DEL DATASET DE PELÍCULAS")
print("="*50)

# Cargar datos
X, y_labels = preprocessor.load_data()
print(f"Total de imágenes cargadas: {len(X)}")
print(f"Forma de las imágenes: {X[0].shape}")

# Celda 3: Análisis de distribución de clases
from collections import Counter

class_counts = Counter(y_labels)
print("\n📊 Distribución de géneros:")
for genre, count in class_counts.items():
    print(f"  {genre}: {count} películas ({count/len(y_labels)*100:.1f}%)")

# Visualización
plt.figure(figsize=(12, 6))
genres = list(class_counts.keys())
counts = list(class_counts.values())

plt.subplot(1, 2, 1)
plt.bar(genres, counts, color='skyblue', edgecolor='navy', alpha=0.7)
plt.title('Distribución de Géneros de Películas')
plt.xlabel('Género')
plt.ylabel('Número de Películas')
plt.xticks(rotation=45)

plt.subplot(1, 2, 2)
plt.pie(counts, labels=genres, autopct='%1.1f%%', startangle=90)
plt.title('Proporción de Géneros')

plt.tight_layout()
plt.show()

# Celda 4: Visualización de muestras
def plot_movie_samples(X, y_labels, samples_per_class=3):
    """Mostrar muestras de cada clase"""
    unique_labels = np.unique(y_labels)
    
    fig, axes = plt.subplots(len(unique_labels), samples_per_class, 
                            figsize=(15, 4*len(unique_labels)))
    
    for i, label in enumerate(unique_labels):
        # Encontrar índices de esta clase
        indices = np.where(y_labels == label)[0]
        selected_indices = np.random.choice(indices, samples_per_class, replace=False)
        
        for j, idx in enumerate(selected_indices):
            ax = axes[i, j] if len(unique_labels) > 1 else axes[j]
            ax.imshow(X[idx])
            ax.set_title(f'{label}')
            ax.axis('off')
    
    plt.tight_layout()
    plt.show()

plot_movie_samples(X, y_labels)

# Celda 5: Análisis estadístico de imágenes
def analyze_image_statistics(X):
    """Analizar estadísticas de las imágenes"""
    print("📈 ESTADÍSTICAS DE LAS IMÁGENES")
    print("-" * 35)
    
    # Estadísticas de intensidad
    mean_intensity = np.mean(X)
    std_intensity = np.std(X)
    min_intensity = np.min(X)
    max_intensity = np.max(X)
    
    print(f"Intensidad promedio: {mean_intensity:.3f}")
    print(f"Desviación estándar: {std_intensity:.3f}")
    print(f"Valor mínimo: {min_intensity:.3f}")
    print(f"Valor máximo: {max_intensity:.3f}")
    
    # Histograma de intensidades
    plt.figure(figsize=(15, 5))
    
    plt.subplot(1, 3, 1)
    plt.hist(X[:,:,:,0].flatten(), bins=50, alpha=0.7, color='red', label='Canal Rojo')
    plt.title('Distribución Canal Rojo')
    plt.xlabel('Intensidad')
    plt.ylabel('Frecuencia')
    
    plt.subplot(1, 3, 2)
    plt.hist(X[:,:,:,1].flatten(), bins=50, alpha=0.7, color='green', label='Canal Verde')
    plt.title('Distribución Canal Verde')
    plt.xlabel('Intensidad')
    plt.ylabel('Frecuencia')
    
    plt.subplot(1, 3, 3)
    plt.hist(X[:,:,:,2].flatten(), bins=50, alpha=0.7, color='blue', label='Canal Azul')
    plt.title('Distribución Canal Azul')
    plt.xlabel('Intensidad')
    plt.ylabel('Frecuencia')
    
    plt.tight_layout()
    plt.show()

analyze_image_statistics(X)