In [None]:
# Librerías estándar de Python
import os  # Proporciona funciones para interactuar con el sistema operativo (por ejemplo, manejo de archivos y directorios).
import pickle  # Permite la serialización y deserialización de objetos de Python (guardar y cargar estructuras de datos).

# Librerías de terceros para análisis y visualización de datos
import pandas as pd  # Herramientas para manipulación y análisis de datos estructurados (DataFrames, series temporales).
# Importación de funciones propias del proyecto
from preprocessing import extract_features_with_majority_label, parse_personal_info, extract_float
import re
import numpy as np
from collections import Counter
import time

In [7]:
# Definición de la ruta al directorio WESAD y carga del archivo S11.pkl
WESAD_ROOT = "/Users/gerardoaboulafia/Library/Mobile Documents/com~apple~CloudDocs/UCA/Documentos/Cuatrimestre 5/Laboratorio/WESAD"

with open(os.path.join(WESAD_ROOT, "S11", "S11.pkl"), "rb") as f:
    data = pickle.load(f, encoding='latin1')

# Exploramos las claves principales
print("Claves del diccionario principal:", data.keys())
print("Claves de 'signal':", data['signal'].keys())

Claves del diccionario principal: dict_keys(['signal', 'label', 'subject'])
Claves de 'signal': dict_keys(['chest', 'wrist'])


-----

En esta segunda sección se implementa un pipeline completo de procesamiento y análisis del dataset WESAD para múltiples pacientes. El objetivo es extraer información fisiológica relevante, vincularla con metadatos personales, y entrenar un modelo de clasificación supervisado para distinguir entre dos estados emocionales (etiquetas 1 y 2).

Para cada paciente:
- Se busca y carga automáticamente el archivo .pkl con las señales fisiológicas y el archivo readme.txt con la información demográfica.
- Se aplica una función de extracción de características basada en ventanas deslizantes sobre las señales ACC, EDA y Temperatura, generando un vector de 17 estadísticas por ventana (media, desvío estándar, máximos, pendiente, etc.).
- Se asigna la etiqueta mayoritaria de cada ventana y se estructura todo en un DataFrame enriquecido con los datos del participante (edad, género, mano dominante, etc.).

Posteriormente, se concatenan los datos de todos los sujetos en un único DataFrame global.

In [8]:
#WESAD_ROOT = "/Users/gerardoaboulafia/Library/Mobile Documents/com~apple~CloudDocs/UCA/Documentos/Cuatrimestre 5/Laboratorio/WESAD"
WESAD_ROOT = "/Users/gerardoaboulafia/Library/Mobile Documents/com~apple~CloudDocs/UCA/Documentos/Cuatrimestre 5/Laboratorio/WESAD"

# ------------------------------------------------------------------
# Procesamiento de todos los sujetos
# ------------------------------------------------------------------

all_subjects = []

for subject_dir in sorted(os.listdir(WESAD_ROOT)):
    subject_path = os.path.join(WESAD_ROOT, subject_dir)
    if not os.path.isdir(subject_path):
        continue

    # Busca el .pkl
    pkl_path = None
    for root, _, files in os.walk(subject_path):
        for file in files:
            if file.lower().endswith(".pkl"):
                pkl_path = os.path.join(root, file)
                break
        if pkl_path:
            break
    if not pkl_path:
        print(f" No se encontró .pkl en {subject_dir}")
        continue

    # Busca el readme.txt con info demográfica
    txt_path = None
    for root, _, files in os.walk(subject_path):
        for file in files:
            if file.lower().endswith(".txt") and "readme" in file.lower():
                txt_path = os.path.join(root, file)
                break
        if txt_path:
            break

    # Carga el archivo
    try:
        with open(pkl_path, "rb") as f:
            data = pickle.load(f, encoding='latin1')
    except Exception as e:
        print(f" Error cargando {subject_dir}: {e}")
        continue

    print(f" Procesando {subject_dir}...")
    X, y = extract_features_with_majority_label(data, verbose=True)

    # Lo pasamos a DataFrame
    colnames = [
        'acc_mean', 'acc_std', 'acc_maxx', 'acc_maxy', 'acc_maxz',
        'eda_max', 'eda_min', 'eda_mean', 'eda_range', 'eda_std', 'eda_slope',
        'tmp_max', 'tmp_min', 'tmp_mean', 'tmp_range', 'tmp_std'
    ]
    df = pd.DataFrame(X, columns=colnames)
    df["Label"] = y
    df["Paciente"] = subject_dir

    if txt_path:
        info = parse_personal_info(txt_path)
        for k, v in info.items():
            df[k] = v

    all_subjects.append(df)
    print(f" {subject_dir} procesado: {df.shape[0]} ventanas")

# ------------------------------------------------------------------
# Unión final
# ------------------------------------------------------------------

if not all_subjects:
    raise RuntimeError("No se procesó ningún sujeto.")

df_final = pd.concat(all_subjects, ignore_index=True)
print(" DataFrame final:", df_final.shape)

 Procesando S10...
Procesado: 0/21744 ventanas (0.0%)
Procesado: 1088/21744 ventanas (5.0%)
Procesado: 2176/21744 ventanas (10.0%)
Procesado: 3264/21744 ventanas (15.0%)
Procesado: 4352/21744 ventanas (20.0%)
Procesado: 5440/21744 ventanas (25.0%)
Procesado: 6528/21744 ventanas (30.0%)
Procesado: 7616/21744 ventanas (35.0%)
Procesado: 8704/21744 ventanas (40.0%)
Procesado: 9792/21744 ventanas (45.0%)
Procesado: 10880/21744 ventanas (50.0%)
Procesado: 11968/21744 ventanas (55.0%)
Procesado: 13056/21744 ventanas (60.0%)
Procesado: 14144/21744 ventanas (65.0%)
Procesado: 15232/21744 ventanas (70.1%)
Procesado: 16320/21744 ventanas (75.1%)
Procesado: 17408/21744 ventanas (80.1%)
Procesado: 18496/21744 ventanas (85.1%)
Procesado: 19584/21744 ventanas (90.1%)
Procesado: 20672/21744 ventanas (95.1%)

 Extracción finalizada en 229.72 segundos.
 S10 procesado: 21744 ventanas


  return np.array(features_list), np.array(labels_list)


 Procesando S11...
Procesado: 0/20692 ventanas (0.0%)
Procesado: 1035/20692 ventanas (5.0%)
Procesado: 2070/20692 ventanas (10.0%)
Procesado: 3105/20692 ventanas (15.0%)
Procesado: 4140/20692 ventanas (20.0%)
Procesado: 5175/20692 ventanas (25.0%)
Procesado: 6210/20692 ventanas (30.0%)
Procesado: 7245/20692 ventanas (35.0%)
Procesado: 8280/20692 ventanas (40.0%)
Procesado: 9315/20692 ventanas (45.0%)
Procesado: 10350/20692 ventanas (50.0%)
Procesado: 11385/20692 ventanas (55.0%)
Procesado: 12420/20692 ventanas (60.0%)
Procesado: 13455/20692 ventanas (65.0%)
Procesado: 14490/20692 ventanas (70.0%)
Procesado: 15525/20692 ventanas (75.0%)
Procesado: 16560/20692 ventanas (80.0%)
Procesado: 17595/20692 ventanas (85.0%)
Procesado: 18630/20692 ventanas (90.0%)
Procesado: 19665/20692 ventanas (95.0%)

 Extracción finalizada en 216.16 segundos.
 S11 procesado: 20692 ventanas


  return np.array(features_list), np.array(labels_list)


 Procesando S13...
Procesado: 0/21908 ventanas (0.0%)
Procesado: 1096/21908 ventanas (5.0%)
Procesado: 2192/21908 ventanas (10.0%)
Procesado: 3288/21908 ventanas (15.0%)
Procesado: 4384/21908 ventanas (20.0%)
Procesado: 5480/21908 ventanas (25.0%)
Procesado: 6576/21908 ventanas (30.0%)
Procesado: 7672/21908 ventanas (35.0%)
Procesado: 8768/21908 ventanas (40.0%)
Procesado: 9864/21908 ventanas (45.0%)
Procesado: 10960/21908 ventanas (50.0%)
Procesado: 12056/21908 ventanas (55.0%)
Procesado: 13152/21908 ventanas (60.0%)
Procesado: 14248/21908 ventanas (65.0%)
Procesado: 15344/21908 ventanas (70.0%)
Procesado: 16440/21908 ventanas (75.0%)
Procesado: 17536/21908 ventanas (80.0%)
Procesado: 18632/21908 ventanas (85.0%)
Procesado: 19728/21908 ventanas (90.0%)
Procesado: 20824/21908 ventanas (95.1%)

 Extracción finalizada en 226.41 segundos.
 S13 procesado: 21908 ventanas


  return np.array(features_list), np.array(labels_list)


 Procesando S14...
Procesado: 0/21952 ventanas (0.0%)
Procesado: 1098/21952 ventanas (5.0%)
Procesado: 2196/21952 ventanas (10.0%)
Procesado: 3294/21952 ventanas (15.0%)
Procesado: 4392/21952 ventanas (20.0%)
Procesado: 5490/21952 ventanas (25.0%)
Procesado: 6588/21952 ventanas (30.0%)
Procesado: 7686/21952 ventanas (35.0%)
Procesado: 8784/21952 ventanas (40.0%)
Procesado: 9882/21952 ventanas (45.0%)
Procesado: 10980/21952 ventanas (50.0%)
Procesado: 12078/21952 ventanas (55.0%)
Procesado: 13176/21952 ventanas (60.0%)
Procesado: 14274/21952 ventanas (65.0%)
Procesado: 15372/21952 ventanas (70.0%)
Procesado: 16470/21952 ventanas (75.0%)
Procesado: 17568/21952 ventanas (80.0%)
Procesado: 18666/21952 ventanas (85.0%)
Procesado: 19764/21952 ventanas (90.0%)
Procesado: 20862/21952 ventanas (95.0%)

 Extracción finalizada en 229.89 segundos.
 S14 procesado: 21952 ventanas


  return np.array(features_list), np.array(labels_list)


 Procesando S15...
Procesado: 0/20768 ventanas (0.0%)
Procesado: 1039/20768 ventanas (5.0%)
Procesado: 2078/20768 ventanas (10.0%)
Procesado: 3117/20768 ventanas (15.0%)
Procesado: 4156/20768 ventanas (20.0%)
Procesado: 5195/20768 ventanas (25.0%)
Procesado: 6234/20768 ventanas (30.0%)
Procesado: 7273/20768 ventanas (35.0%)
Procesado: 8312/20768 ventanas (40.0%)
Procesado: 9351/20768 ventanas (45.0%)
Procesado: 10390/20768 ventanas (50.0%)
Procesado: 11429/20768 ventanas (55.0%)
Procesado: 12468/20768 ventanas (60.0%)
Procesado: 13507/20768 ventanas (65.0%)
Procesado: 14546/20768 ventanas (70.0%)
Procesado: 15585/20768 ventanas (75.0%)
Procesado: 16624/20768 ventanas (80.0%)
Procesado: 17663/20768 ventanas (85.0%)
Procesado: 18702/20768 ventanas (90.1%)
Procesado: 19741/20768 ventanas (95.1%)

 Extracción finalizada en 215.68 segundos.
 S15 procesado: 20768 ventanas


  return np.array(features_list), np.array(labels_list)


 Procesando S16...
Procesado: 0/22284 ventanas (0.0%)
Procesado: 1115/22284 ventanas (5.0%)
Procesado: 2230/22284 ventanas (10.0%)
Procesado: 3345/22284 ventanas (15.0%)
Procesado: 4460/22284 ventanas (20.0%)
Procesado: 5575/22284 ventanas (25.0%)
Procesado: 6690/22284 ventanas (30.0%)
Procesado: 7805/22284 ventanas (35.0%)
Procesado: 8920/22284 ventanas (40.0%)
Procesado: 10035/22284 ventanas (45.0%)
Procesado: 11150/22284 ventanas (50.0%)
Procesado: 12265/22284 ventanas (55.0%)
Procesado: 13380/22284 ventanas (60.0%)
Procesado: 14495/22284 ventanas (65.0%)
Procesado: 15610/22284 ventanas (70.1%)
Procesado: 16725/22284 ventanas (75.1%)
Procesado: 17840/22284 ventanas (80.1%)
Procesado: 18955/22284 ventanas (85.1%)
Procesado: 20070/22284 ventanas (90.1%)
Procesado: 21185/22284 ventanas (95.1%)

 Extracción finalizada en 230.30 segundos.
 S16 procesado: 22284 ventanas


  return np.array(features_list), np.array(labels_list)


 Procesando S17...
Procesado: 0/23440 ventanas (0.0%)
Procesado: 1173/23440 ventanas (5.0%)
Procesado: 2346/23440 ventanas (10.0%)
Procesado: 3519/23440 ventanas (15.0%)
Procesado: 4692/23440 ventanas (20.0%)
Procesado: 5865/23440 ventanas (25.0%)
Procesado: 7038/23440 ventanas (30.0%)
Procesado: 8211/23440 ventanas (35.0%)
Procesado: 9384/23440 ventanas (40.0%)
Procesado: 10557/23440 ventanas (45.0%)
Procesado: 11730/23440 ventanas (50.0%)
Procesado: 12903/23440 ventanas (55.0%)
Procesado: 14076/23440 ventanas (60.1%)
Procesado: 15249/23440 ventanas (65.1%)
Procesado: 16422/23440 ventanas (70.1%)
Procesado: 17595/23440 ventanas (75.1%)
Procesado: 18768/23440 ventanas (80.1%)
Procesado: 19941/23440 ventanas (85.1%)
Procesado: 21114/23440 ventanas (90.1%)
Procesado: 22287/23440 ventanas (95.1%)

 Extracción finalizada en 242.19 segundos.
 S17 procesado: 23440 ventanas


  return np.array(features_list), np.array(labels_list)


 Procesando S2...
Procesado: 0/24076 ventanas (0.0%)
Procesado: 1204/24076 ventanas (5.0%)
Procesado: 2408/24076 ventanas (10.0%)
Procesado: 3612/24076 ventanas (15.0%)
Procesado: 4816/24076 ventanas (20.0%)
Procesado: 6020/24076 ventanas (25.0%)
Procesado: 7224/24076 ventanas (30.0%)
Procesado: 8428/24076 ventanas (35.0%)
Procesado: 9632/24076 ventanas (40.0%)
Procesado: 10836/24076 ventanas (45.0%)
Procesado: 12040/24076 ventanas (50.0%)
Procesado: 13244/24076 ventanas (55.0%)
Procesado: 14448/24076 ventanas (60.0%)
Procesado: 15652/24076 ventanas (65.0%)
Procesado: 16856/24076 ventanas (70.0%)
Procesado: 18060/24076 ventanas (75.0%)
Procesado: 19264/24076 ventanas (80.0%)
Procesado: 20468/24076 ventanas (85.0%)
Procesado: 21672/24076 ventanas (90.0%)
Procesado: 22876/24076 ventanas (95.0%)

 Extracción finalizada en 246.59 segundos.
 S2 procesado: 24076 ventanas


  return np.array(features_list), np.array(labels_list)


 Procesando S3...
Procesado: 0/25732 ventanas (0.0%)
Procesado: 1287/25732 ventanas (5.0%)
Procesado: 2574/25732 ventanas (10.0%)
Procesado: 3861/25732 ventanas (15.0%)
Procesado: 5148/25732 ventanas (20.0%)
Procesado: 6435/25732 ventanas (25.0%)
Procesado: 7722/25732 ventanas (30.0%)
Procesado: 9009/25732 ventanas (35.0%)
Procesado: 10296/25732 ventanas (40.0%)
Procesado: 11583/25732 ventanas (45.0%)
Procesado: 12870/25732 ventanas (50.0%)
Procesado: 14157/25732 ventanas (55.0%)
Procesado: 15444/25732 ventanas (60.0%)
Procesado: 16731/25732 ventanas (65.0%)
Procesado: 18018/25732 ventanas (70.0%)
Procesado: 19305/25732 ventanas (75.0%)
Procesado: 20592/25732 ventanas (80.0%)
Procesado: 21879/25732 ventanas (85.0%)
Procesado: 23166/25732 ventanas (90.0%)
Procesado: 24453/25732 ventanas (95.0%)

 Extracción finalizada en 262.68 segundos.
 S3 procesado: 25732 ventanas


  return np.array(features_list), np.array(labels_list)


 Procesando S4...
Procesado: 0/25452 ventanas (0.0%)
Procesado: 1273/25452 ventanas (5.0%)
Procesado: 2546/25452 ventanas (10.0%)
Procesado: 3819/25452 ventanas (15.0%)
Procesado: 5092/25452 ventanas (20.0%)
Procesado: 6365/25452 ventanas (25.0%)
Procesado: 7638/25452 ventanas (30.0%)
Procesado: 8911/25452 ventanas (35.0%)
Procesado: 10184/25452 ventanas (40.0%)
Procesado: 11457/25452 ventanas (45.0%)
Procesado: 12730/25452 ventanas (50.0%)
Procesado: 14003/25452 ventanas (55.0%)
Procesado: 15276/25452 ventanas (60.0%)
Procesado: 16549/25452 ventanas (65.0%)
Procesado: 17822/25452 ventanas (70.0%)
Procesado: 19095/25452 ventanas (75.0%)
Procesado: 20368/25452 ventanas (80.0%)
Procesado: 21641/25452 ventanas (85.0%)
Procesado: 22914/25452 ventanas (90.0%)
Procesado: 24187/25452 ventanas (95.0%)

 Extracción finalizada en 259.89 segundos.
 S4 procesado: 25452 ventanas


  return np.array(features_list), np.array(labels_list)


 Procesando S5...
Procesado: 0/24792 ventanas (0.0%)
Procesado: 1240/24792 ventanas (5.0%)
Procesado: 2480/24792 ventanas (10.0%)
Procesado: 3720/24792 ventanas (15.0%)
Procesado: 4960/24792 ventanas (20.0%)
Procesado: 6200/24792 ventanas (25.0%)
Procesado: 7440/24792 ventanas (30.0%)
Procesado: 8680/24792 ventanas (35.0%)
Procesado: 9920/24792 ventanas (40.0%)
Procesado: 11160/24792 ventanas (45.0%)
Procesado: 12400/24792 ventanas (50.0%)
Procesado: 13640/24792 ventanas (55.0%)
Procesado: 14880/24792 ventanas (60.0%)
Procesado: 16120/24792 ventanas (65.0%)
Procesado: 17360/24792 ventanas (70.0%)
Procesado: 18600/24792 ventanas (75.0%)
Procesado: 19840/24792 ventanas (80.0%)
Procesado: 21080/24792 ventanas (85.0%)
Procesado: 22320/24792 ventanas (90.0%)
Procesado: 23560/24792 ventanas (95.0%)

 Extracción finalizada en 252.61 segundos.
 S5 procesado: 24792 ventanas


  return np.array(features_list), np.array(labels_list)


 Procesando S6...
Procesado: 0/28044 ventanas (0.0%)
Procesado: 1403/28044 ventanas (5.0%)
Procesado: 2806/28044 ventanas (10.0%)
Procesado: 4209/28044 ventanas (15.0%)
Procesado: 5612/28044 ventanas (20.0%)
Procesado: 7015/28044 ventanas (25.0%)
Procesado: 8418/28044 ventanas (30.0%)
Procesado: 9821/28044 ventanas (35.0%)
Procesado: 11224/28044 ventanas (40.0%)
Procesado: 12627/28044 ventanas (45.0%)
Procesado: 14030/28044 ventanas (50.0%)
Procesado: 15433/28044 ventanas (55.0%)
Procesado: 16836/28044 ventanas (60.0%)
Procesado: 18239/28044 ventanas (65.0%)
Procesado: 19642/28044 ventanas (70.0%)
Procesado: 21045/28044 ventanas (75.0%)
Procesado: 22448/28044 ventanas (80.0%)
Procesado: 23851/28044 ventanas (85.0%)
Procesado: 25254/28044 ventanas (90.1%)
Procesado: 26657/28044 ventanas (95.1%)

 Extracción finalizada en 286.25 segundos.
 S6 procesado: 28044 ventanas


  return np.array(features_list), np.array(labels_list)


 Procesando S7...
Procesado: 0/20712 ventanas (0.0%)
Procesado: 1036/20712 ventanas (5.0%)
Procesado: 2072/20712 ventanas (10.0%)
Procesado: 3108/20712 ventanas (15.0%)
Procesado: 4144/20712 ventanas (20.0%)
Procesado: 5180/20712 ventanas (25.0%)
Procesado: 6216/20712 ventanas (30.0%)
Procesado: 7252/20712 ventanas (35.0%)
Procesado: 8288/20712 ventanas (40.0%)
Procesado: 9324/20712 ventanas (45.0%)
Procesado: 10360/20712 ventanas (50.0%)
Procesado: 11396/20712 ventanas (55.0%)
Procesado: 12432/20712 ventanas (60.0%)
Procesado: 13468/20712 ventanas (65.0%)
Procesado: 14504/20712 ventanas (70.0%)
Procesado: 15540/20712 ventanas (75.0%)
Procesado: 16576/20712 ventanas (80.0%)
Procesado: 17612/20712 ventanas (85.0%)
Procesado: 18648/20712 ventanas (90.0%)
Procesado: 19684/20712 ventanas (95.0%)

 Extracción finalizada en 211.38 segundos.
 S7 procesado: 20712 ventanas


  return np.array(features_list), np.array(labels_list)


 Procesando S8...
Procesado: 0/21624 ventanas (0.0%)
Procesado: 1082/21624 ventanas (5.0%)
Procesado: 2164/21624 ventanas (10.0%)
Procesado: 3246/21624 ventanas (15.0%)
Procesado: 4328/21624 ventanas (20.0%)
Procesado: 5410/21624 ventanas (25.0%)
Procesado: 6492/21624 ventanas (30.0%)
Procesado: 7574/21624 ventanas (35.0%)
Procesado: 8656/21624 ventanas (40.0%)
Procesado: 9738/21624 ventanas (45.0%)
Procesado: 10820/21624 ventanas (50.0%)
Procesado: 11902/21624 ventanas (55.0%)
Procesado: 12984/21624 ventanas (60.0%)
Procesado: 14066/21624 ventanas (65.0%)
Procesado: 15148/21624 ventanas (70.1%)
Procesado: 16230/21624 ventanas (75.1%)
Procesado: 17312/21624 ventanas (80.1%)
Procesado: 18394/21624 ventanas (85.1%)
Procesado: 19476/21624 ventanas (90.1%)
Procesado: 20558/21624 ventanas (95.1%)

 Extracción finalizada en 220.50 segundos.
 S8 procesado: 21624 ventanas


  return np.array(features_list), np.array(labels_list)


 Procesando S9...
Procesado: 0/20652 ventanas (0.0%)
Procesado: 1033/20652 ventanas (5.0%)
Procesado: 2066/20652 ventanas (10.0%)
Procesado: 3099/20652 ventanas (15.0%)
Procesado: 4132/20652 ventanas (20.0%)
Procesado: 5165/20652 ventanas (25.0%)
Procesado: 6198/20652 ventanas (30.0%)
Procesado: 7231/20652 ventanas (35.0%)
Procesado: 8264/20652 ventanas (40.0%)
Procesado: 9297/20652 ventanas (45.0%)
Procesado: 10330/20652 ventanas (50.0%)
Procesado: 11363/20652 ventanas (55.0%)
Procesado: 12396/20652 ventanas (60.0%)
Procesado: 13429/20652 ventanas (65.0%)
Procesado: 14462/20652 ventanas (70.0%)
Procesado: 15495/20652 ventanas (75.0%)
Procesado: 16528/20652 ventanas (80.0%)
Procesado: 17561/20652 ventanas (85.0%)
Procesado: 18594/20652 ventanas (90.0%)
Procesado: 19627/20652 ventanas (95.0%)

 Extracción finalizada en 210.81 segundos.
 S9 procesado: 20652 ventanas


  return np.array(features_list), np.array(labels_list)


 DataFrame final: (343872, 23)
