In [None]:
# WESAD - Exploración inicial y preprocesamiento (Componente 1 - Parte A)

# Paso 1. Imports y configuración inicial
import os
import pickle
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Estilo para los plots
plt.style.use('classic')
sns.set_context("notebook")

# Paso 2: Cargar un archivo .pkl (Sujeto S2 como ejemplo)
subject_id = "S2"
subject_path = f"/kaggle/input/wesad-full-dataset/WESAD/{subject_id}/{subject_id}.pkl"
with open(subject_path, 'rb') as file:
    data = pickle.load(file, encoding='latin1')

# Paso 3: Explorar las claves del diccionario principal
print("Claves del diccionario:", data.keys())
print("Modalidades disponibles:", data['signal'].keys())
print("Modalidades RespiBAN:", data['signal']['chest'].keys())
print("Modalidades Empatica E4:", data['signal']['wrist'].keys())

# Paso 4: Visualizar dimensiones y tipos de datos
print("\nTamaño de etiqueta:", data['label'].shape)
for location in ['chest', 'wrist']:
    for modality in data['signal'][location]:
        print(f"{location} | {modality} | shape: {data['signal'][location][modality].shape}")

# Paso 5: Visualizar una señal fisiológica (ejemplo: temperatura de la muñeca)
temp_signal = data['signal']['wrist']['TEMP']
plt.figure(figsize=(12,4))
plt.plot(temp_signal[:1000], color='orange')
plt.title("Temperatura de la piel - Muñeca (E4) - Primeras 1000 muestras")
plt.xlabel("Muestras")
plt.ylabel("Temperatura [°C]")
plt.grid(True)
plt.show()

# Paso 6: Ver la distribución de etiquetas (condiciones del estudio)
unique, counts = np.unique(data['label'], return_counts=True)
label_names = {0: "transitorio", 1: "baseline", 2: "estrés", 3: "diversión", 4: "meditación"}
label_series = pd.Series(counts, index=[label_names.get(u, str(u)) for u in unique])


plt.figure(figsize=(8,5))
sns.barplot(x=label_series.index, y=label_series.values, palette="Set2")
plt.title("Distribución de etiquetas en el sujeto S2")
plt.ylabel("Cantidad de muestras")
plt.xticks(rotation=30)
plt.show()


# Nota: cada señal puede tener distinta frecuencia de muestreo,
# pero en el .pkl ya están sincronizadas temporalmente con las etiquetas.