# Exploratory Data Analysis

Análisis exploratorio ejecutado para las 41 imágenes recopiladas para construir la base de datos de Ucampus DB_Ucampus

In [None]:
import os
from PIL import Image
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import pandas as pd

# Carpeta con las imágenes
dataset_dir = "data/ucampus/"

# Listas para almacenar dimensiones y colores
widths = []
heights = []
r_means = []
g_means = []
b_means = []

total_images = 0

# Procesar imágenes
for img_name in os.listdir(dataset_dir):
    img_path = os.path.join(dataset_dir, img_name)
    if not os.path.isfile(img_path):
        continue
    try:
        with Image.open(img_path) as img:
            img = img.convert('RGB') 
            w, h = img.size
            widths.append(w)
            heights.append(h)

            np_img = np.array(img)
            r_means.append(np.mean(np_img[:, :, 0]))
            g_means.append(np.mean(np_img[:, :, 1]))
            b_means.append(np.mean(np_img[:, :, 2]))

            total_images += 1
    except Exception as e:
        print(f"Error abriendo imagen {img_path}: {e}")

print(f"Total de imágenes procesadas: {total_images}")

# Crear carpeta para guardar resultados
os.makedirs("output", exist_ok=True)

# ----------- Histograma de dimensiones -------------
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
sns.histplot(widths, bins=30, kde=True, color='skyblue')
plt.title('Distribución de Ancho de Imágenes')
plt.xlabel('Ancho (px)')
plt.ylabel('Frecuencia')

plt.subplot(1, 2, 2)
sns.histplot(heights, bins=30, kde=True, color='salmon')
plt.title('Distribución de Alto de Imágenes')
plt.xlabel('Alto (px)')
plt.ylabel('Frecuencia')

plt.tight_layout()
plt.savefig("output/dimensiones_imagenes.png")
plt.close()

# ----------- Análisis RGB --------------------------
plt.figure(figsize=(10, 6))
sns.histplot(r_means, bins=30, color='red', label='R', kde=True)
sns.histplot(g_means, bins=30, color='green', label='G', kde=True)
sns.histplot(b_means, bins=30, color='blue', label='B', kde=True)
plt.title('Distribución de Valores Promedio RGB por Imagen')
plt.xlabel('Valor promedio del canal')
plt.ylabel('Frecuencia')
plt.legend()

plt.tight_layout()
plt.savefig("output/analisis_rgb.png")
plt.close()

# ----------- Heatmap de tamaños ---------------------
df_sizes = pd.DataFrame({'width': widths, 'height': heights})
heatmap_data = df_sizes.groupby(['height', 'width']).size().unstack(fill_value=0)

plt.figure(figsize=(12, 10))
sns.heatmap(heatmap_data, cmap='YlGnBu', linewidths=0.5)
plt.title('Frecuencia de Tamaños de Imagen (Width vs Height)')
plt.xlabel('Ancho (px)')
plt.ylabel('Alto (px)')

plt.tight_layout()
plt.savefig("output/heatmap_tamanos.png")
plt.close()