# **Ingenier√≠a de Caracter√≠sticas - `05_ingenieria_caracteristicas.ipynb`**

### **üéØ Objetivo del Notebook**
Este notebook tiene como objetivo aplicar t√©cnicas de **ingenier√≠a de caracter√≠sticas** sobre las se√±ales EEG, con el fin de capturar mejor la informaci√≥n contenida en las se√±ales y mejorar el rendimiento de los modelos de clasificaci√≥n.

### **üìå Contexto**
En el notebook anterior (`04_analisis_caracteristicas.ipynb`), analizamos la importancia de las caracter√≠sticas existentes y aplicamos varias t√©cnicas de selecci√≥n y reducci√≥n de dimensionalidad. Sin embargo, concluimos que:

- La **eliminaci√≥n de outliers** fue el √∫nico preprocesamiento que mejor√≥ el rendimiento.
- La **selecci√≥n de caracter√≠sticas** y **reducci√≥n de dimensionalidad** no s√≥lo no aportaron mejoras, sino que en muchos casos **empeoraron los resultados**.

Dado que los datos EEG son se√±ales **temporales complejas**, y que el modelo actual no logra capturar suficientemente su estructura din√°mica con las caracter√≠sticas crudas, es necesario **generar nuevas variables** que representen mejor la informaci√≥n relevante en la se√±al.

---

### **üß† ¬øPor qu√© Ingenier√≠a de Caracter√≠sticas?**

Incluso los mejores modelos no pueden rendir bien si no se les alimenta con datos representativos. Por eso, vamos a construir nuevas variables derivadas de las se√±ales originales que puedan captar:

- Tendencias locales (media m√≥vil)
- Cambios r√°pidos (derivadas o gradientes)
- Patrones en el dominio de la frecuencia (FFT)
- Niveles de variabilidad o actividad (desviaci√≥n est√°ndar, rango, energ√≠a)

Estas transformaciones buscan **extraer informaci√≥n latente** que no es evidente en las se√±ales brutas.

---

### **üöÄ Flujo de Trabajo en este Notebook**
1Ô∏è‚É£ **Carga de datos**    
2Ô∏è‚É£ **Definici√≥n de ventanas temporales para extracci√≥n de caracter√≠sticas**    
3Ô∏è‚É£ **C√°lculo de estad√≠sticas temporales (media, std, varianza, gradiente)**  
4Ô∏è‚É£ **Aplicaci√≥n de transformadas en frecuencia (FFT, potencia espectral)**  
5Ô∏è‚É£ **Generaci√≥n de nuevas variables y construcci√≥n de un nuevo conjunto de datos**  
6Ô∏è‚É£ **Evaluaci√≥n del impacto en el rendimiento del modelo**  
7Ô∏è‚É£ **Conclusi√≥n sobre qu√© variables se mantienen y pr√≥ximos pasos**

*Cargamos los datos sin preprocesar y eliminamos `outliers` pero todav√≠a no normalizamos ya que las transformaciones que haremos, como calcular medias, desviaciones, FFT o energ√≠a, dependen de la forma y magnitud original de la se√±al. Si normaliz√°ramos antes, perder√≠amos esa informaci√≥n significativa. Por eso, aplicaremos la normalizaci√≥n despu√©s de extraer las nuevas caracter√≠sticas.

---

üìå Si estas nuevas variables aportan mejoras, las incorporaremos como parte del preprocesamiento final antes de probar modelos m√°s avanzados como **XGBoost, LightGBM o Redes Neuronales**.


## **1. Carga de datos y Eliminaci√≥n Outliers**

In [1]:
import os
import pickle
import numpy as np
import pandas as pd
from scipy.stats import zscore


DATA_PATH = r"C:\Users\luciaft\Documents\TFG\TFG\graspAndLiftDetectionTFGProyect\data\raw_data\train\train"
SUBJECT = "subj1"
SERIES_TRAIN = [f"{SUBJECT}_series{i}_data.csv" for i in range(1, 9)]
SERIES_EVENTS = [f"{SUBJECT}_series{i}_events.csv" for i in range(1, 9)]

def load_data(series, path=DATA_PATH):
    dfs = [pd.read_csv(os.path.join(path, file)) for file in series]
    return pd.concat(dfs, ignore_index=True)

df_train = load_data(SERIES_TRAIN)
df_events = load_data(SERIES_EVENTS)
df = df_train.merge(df_events, on="id")

eeg_columns = df.columns[1:33]  # Columnas de se√±ales EEG
event_columns = ["HandStart", "FirstDigitTouch", "BothStartLoadPhase", "LiftOff", "Replace", "BothReleased"]

df_sujeto1 = df[df["id"].str.startswith("subj1_series")]
df_train = df_sujeto1[df_sujeto1["id"].str.contains("series[1-6]_")]
df_valid = df_sujeto1[df_sujeto1["id"].str.contains(r"series[7-8]_", regex=True)]

X_train, y_train = df_train[eeg_columns], df_train[event_columns]
X_valid, y_valid = df_valid[eeg_columns], df_valid[event_columns]

# Eliminaci√≥n de Outliers
z_scores = np.abs(zscore(X_train))
outlier_threshold = 3
mask = (z_scores < outlier_threshold).all(axis=1)
X_train_filtered = X_train[mask]
y_train_filtered = y_train[mask]

print(f"X_train_filtered shape: {X_train_filtered.shape}")
print(f"y_train_filtered shape: {y_train_filtered.shape}")
print(f"X_valid shape: {X_valid.shape}")
print(f"y_valid shape: {y_valid.shape}")

X_train_filtered shape: (1043205, 32)
y_train_filtered shape: (1043205, 6)
X_valid shape: (236894, 32)
y_valid shape: (236894, 6)


## **2. Creaci√≥n Ventanas Temporales**

Las ventanas sirven para dividir la se√±al EEG continua en segmentos cortos que nos permiten extraer estad√≠sticas (como media, energ√≠a o frecuencia) en intervalos de tiempo. As√≠ captamos c√≥mo cambia la actividad cerebral antes, durante y despu√©s de un evento.

In [2]:
# Par√°metros
window_size = 128  # duraci√≥n de la ventana
step_size = 1      # paso entre ventanas de 1 para tener una predicci√≥n por fila

def create_windows_with_padding(X, y, window_size, step_size):
    X_windows, y_windows = [], []
    
    # Padding con ceros al principio
    pad = pd.DataFrame(0, index=range(window_size - 1), columns=X.columns)
    X_padded = pd.concat([pad, X], ignore_index=True)
    
    for i in range(0, X.shape[0], step_size):
        window = X_padded.iloc[i:i+window_size]
        label = y.iloc[i]  # se mantiene la etiqueta real correspondiente a la fila original
        X_windows.append(window)
        y_windows.append(label)
        
    return np.array(X_windows, dtype=np.float32), pd.DataFrame(y_windows, columns=y.columns)


# Aplicar a los datos
X_train_win, y_train_win = create_windows_with_padding(X_train_filtered, y_train_filtered, window_size, step_size)
X_valid_win, y_valid_win = create_windows_with_padding(X_valid, y_valid, window_size, step_size)

# Verificar dimensiones
print("Ventanas creadas:")
print(f"X_train_win shape: {X_train_win.shape}")
print(f"y_train_win shape: {y_train_win.shape}")

Ventanas creadas:
X_train_win shape: (1043205, 128, 32)
y_train_win shape: (1043205, 6)


### Justificaci√≥n de la selecci√≥n de `step = 1` y `window_size = 120`

Para la fase de ingenier√≠a de caracter√≠sticas, se debe definir correctamente la forma en que se crean las ventanas temporales sobre las se√±ales EEG. Esta decisi√≥n afecta directamente al rendimiento del modelo y debe basarse en el comportamiento real de los datos.

#### Frecuencia de muestreo

Seg√∫n la documentaci√≥n oficial del conjunto de datos, las se√±ales EEG han sido registradas con una frecuencia de muestreo de 500 Hz. Esto significa que cada fila del dataset representa 2 milisegundos de se√±al.

#### Observaci√≥n directa de los eventos

Se analizaron manualmente las etiquetas de los eventos en uno de los primeros intentos del sujeto 1. Se observ√≥ que los eventos tienen duraciones t√≠picas de entre 50 y 150 muestras, lo que equivale a intervalos de aproximadamente 100 a 300 milisegundos. Adem√°s, los eventos no siempre son exclusivos y pueden solaparse parcialmente.

Por ejemplo:
- El evento `HandStart` abarca unas 147 muestras (~294 ms).
- El evento `LiftOff` abarca unas 77 muestras (~154 ms).
- El evento `BothReleased` abarca unas 120 muestras (~240 ms).

Estos valores indican que los eventos no son instant√°neos, sino procesos que se desarrollan a lo largo de decenas o centenas de muestras.

#### Elecci√≥n de `window_size = 120`

Se selecciona un tama√±o de ventana de 120 muestras (~240 ms) porque permite capturar con precisi√≥n la din√°mica completa de la mayor√≠a de los eventos observados, sin que la ventana se quede demasiado corta o abarque demasiado contexto irrelevante.

#### Elecci√≥n de `step = 1`

Dado que cada fila corresponde a 2 ms, usar `step = 1` garantiza que se genere una predicci√≥n para cada instante temporal, como exige la competencia. De esta forma, se preserva la resoluci√≥n original de los datos y se evitan saltos en las predicciones.

#### Consideraciones adicionales

Ventanas m√°s peque√±as podr√≠an no capturar toda la informaci√≥n relevante de un evento. Por el contrario, ventanas mucho m√°s grandes podr√≠an introducir ruido de eventos anteriores o futuros, lo que afectar√≠a la precisi√≥n del modelo.

En cualquier caso, se probar√°n diferentes tama√±os de ventana (`window_size`) durante la experimentaci√≥n para comprobar si se puede mejorar el rendimiento del modelo.

## Justificaci√≥n del uso de ventanas causales y padding inicial

En sistemas de predicci√≥n en tiempo real, como las interfaces cerebro-computadora (BCI) o pr√≥tesis inteligentes, es fundamental que los modelos operen **de forma causal**, es decir, utilizando √∫nicamente informaci√≥n del pasado y del presente. Esta pr√°ctica garantiza que el sistema pueda desplegarse en entornos reales sin depender de datos futuros, lo cual ser√≠a imposible f√≠sicamente y conducir√≠a a errores graves de implementaci√≥n o evaluaci√≥n (*lookahead bias*).

### Implementaci√≥n de ventanas causales

Para alinear este trabajo con las buenas pr√°cticas en entornos reales, se ha implementado una **ventana deslizante causal**. En concreto:

- Para predecir el estado en el instante `t`, se utiliza una ventana de tama√±o fijo que contiene los datos `[t - window_size, ..., t - 1]`.
- En ning√∫n caso se accede a valores futuros, cumpliendo con los requisitos de sistemas en tiempo real.
- La primera predicci√≥n v√°lida se realiza en `t = window_size`, ya que no existe suficiente historial antes de ese punto.

Esta estrategia est√° ampliamente documentada en la literatura cient√≠fica y t√©cnica, donde se se√±ala que la **causalidad es un requisito indispensable** para que un sistema predictivo pueda operar en tiempo real (Simard, 2020; Lyons, 2011; Widrow & Stearns, 1985). El uso de ventanas causales tambi√©n evita la fuga de informaci√≥n futura, que podr√≠a inflar artificialmente el rendimiento del modelo durante la evaluaci√≥n.

### Justificaci√≥n del padding con ceros al inicio

En este trabajo se justifica tambi√©n el uso de **padding con ceros** en las primeras `window_size - 1` filas, donde el modelo a√∫n no dispone de suficiente historial para generar predicciones. Esta decisi√≥n se basa en los siguientes puntos:

- En todas las series del conjunto de datos, las primeras ‚âà1000 filas no presentan ning√∫n evento (todas las etiquetas son `[0, 0, 0, 0, 0, 0]`). Este patr√≥n constante permite asumir que en los primeros instantes **no se producen eventos relevantes** para la detecci√≥n.
- El padding con ceros **respeta la causalidad**, ya que no introduce informaci√≥n futura.
- Permite evitar la p√©rdida de predicciones al inicio, asegurando que el modelo pueda operar de forma continua desde el primer instante.
- Est√° alineado con otras aplicaciones en tiempo real que tambi√©n aplican padding inicial con ceros o medias hist√≥ricas cuando el historial a√∫n no es completo (Zhu et al., 2020; Oppenheim & Schafer, 2010).

Este enfoque garantiza una entrada uniforme al modelo desde el inicio, mejora la cobertura temporal de las predicciones y se adapta a la distribuci√≥n observada en los datos. Adem√°s, es coherente con la ingenier√≠a de sistemas en producci√≥n, donde es habitual aplicar un periodo de *warm-up* o inicializaci√≥n con valores neutros para permitir que el sistema entre en r√©gimen estable sin comprometer su validez.



## **3. Extraer Estad√≠sticas Temporales**

**Para cada ventana y cada canal EEG vamos a sacar:**
- Media
- Desviaci√≥n est√°ndar
- M√≠nimo y m√°ximo
- Rango (max - min)
- Mediana
- Percentiles 25 y 75
- Gradiente medio
- Asimetr√≠a (skewness)
- Curtosis

```
def extract_time_features(X_windows):
    features = []
    for window in X_windows:
        stats = []
        for ch in window.T:  # recorremos canales
            ch_series = pd.Series(ch)
            stats.extend([
                ch_series.mean(),
                ch_series.std(),
                ch_series.min(),
                ch_series.max(),
                ch_series.max() - ch_series.min(),  # rango
                ch_series.median(),
                ch_series.quantile(0.25),
                ch_series.quantile(0.75),
                np.gradient(ch).mean(),
                ch_series.skew(),
                ch_series.kurt()
            ])
        features.append(stats)
    return np.array(features)

X_train_feats = extract_time_features(X_train_win)
X_valid_feats = extract_time_features(X_valid_win)

print("Nuevas caracter√≠sticas extra√≠das:")
print(f"X_train_feats shape: {X_train_feats.shape}")

### **Versi√≥n optimizada del extractor temporal:**

Dado que el proceso de extracci√≥n de caracter√≠sticas temporales tardaba demasiado, optimizaremos el c√≥digo para reducir significativamente el tiempo de c√≥mputo sin perder precisi√≥n en los resultados.

```
from joblib import Parallel, delayed
from scipy.stats import skew, kurtosis

# Funci√≥n para extraer estad√≠sticas de una sola ventana
def extract_features_from_window(window):
    stats = []
    for ch in window.T:
        stats.extend([
            np.mean(ch),
            np.std(ch),
            np.min(ch),
            np.max(ch),
            np.ptp(ch),  # rango
            np.median(ch),
            np.percentile(ch, 25),
            np.percentile(ch, 75),
            np.mean(np.gradient(ch)),
            skew(ch),
            kurtosis(ch)
        ])
    return stats

# Extracci√≥n en paralelo con joblib
n_jobs = 6  # Usa 6 n√∫cleos
X_train_feats = Parallel(n_jobs=n_jobs)(delayed(extract_features_from_window)(w) for w in X_train_win)
X_valid_feats = Parallel(n_jobs=n_jobs)(delayed(extract_features_from_window)(w) for w in X_valid_win)

# Convertir a arrays de tipo float32 para ahorrar memoria
X_train_feats = np.array(X_train_feats, dtype=np.float32)
X_valid_feats = np.array(X_valid_feats, dtype=np.float32)

# Verificar dimensiones
print("Nuevas caracter√≠sticas extra√≠das:")
print(f"X_train_feats shape: {X_train_feats.shape}")
print(f"X_valid_feats shape: {X_valid_feats.shape}")

### Optimizaci√≥n del tiempo de extracci√≥n de caracter√≠sticas

Para mejorar la eficiencia del procesamiento de datos, se implement√≥ una versi√≥n paralelizada del extractor de caracter√≠sticas estad√≠sticas sobre las ventanas EEG.

#### Justificaci√≥n

La funci√≥n original recorr√≠a cada ventana secuencialmente, lo que resultaba en tiempos de espera de m√°s de 30 minutos cuando se usaba un `step_size = 60`. Al cambiar a `step_size = 1` para cumplir con el requisito de la competici√≥n (una predicci√≥n por fila), el n√∫mero de ventanas generadas supera el mill√≥n, lo que hizo inviable continuar con un procesamiento secuencial (ya que tardar√≠a aproximadamente 30 horas en ejecutarse).

#### Implementaci√≥n de la mejora

Inicialmente se intent√≥ paralelizar el proceso con la librer√≠a `multiprocessing`, dividiendo el trabajo en varios n√∫cleos usando `Pool.map()`. Sin embargo, al ejecutar este enfoque en Jupyter Notebook, no se produjo el uso real de los n√∫cleos, ni se mostr√≥ un aprovechamiento efectivo de la CPU.

Por tanto, se opt√≥ finalmente por utilizar `joblib.Parallel`, pero segu√≠a tardando mucho ya que en Jupyter no se aplicaba bien el uso simult√°neo de los n√∫cleos, por lo que se cre√≥ el archivo `test_parallel.py` dentro del directorio `test` dentro del directorio del proyecto, demostrando que se ejecutaba r√°pido y que efectivamente el problema era tratar de aplicar esta estrategia dentro de Jupyter, por lo que finalmente procedemos ejecutando la extracci√≥n de caracter√≠sticas temporales en un script independiente fuera de Jupyter llamado `extraer_caracteristicas.py` dentro del directorio `scripts` dentro del directorio del proyecto, permitiendo:

- Procesar las ventanas en paralelo de forma eficiente.
- Verificar que todos los n√∫cleos disponibles son aprovechados correctamente (aunque como comentamos se realiz√≥ una prueba previa de carga).

Para ello guardaremos los datos de entrada (`X_train_win`, `X_valid_win`) en disco en varias partes para que no haya problemas con la memoria y ejecutamos el script desde terminal, el cual tambi√©n guarda los archivos generados con las caracter√≠sticas extra√≠das. Posteriormente, estos archivos se cargan de nuevo en el notebook para continuar registrando aqu√≠ todos los pasos del pipeline.

#### Beneficios

- **Reducci√≥n dr√°stica del tiempo de ejecuci√≥n** (de m√°s de 30 horas a aproximadamente 3 horas).
- **Mismos resultados** que el enfoque secuencial.
- **Cumplimiento del `step_size = 1`** sin penalizaci√≥n computacional.
- **Uso real de todos los n√∫cleos f√≠sicos**, al ejecutar el script fuera de Jupyter, lo cual demostra ser clave para el rendimiento.

Esta estrategia permite continuar con un pipeline profesional, eficiente y escalable sin sacrificar precisi√≥n en las predicciones por muestra.

In [10]:
path = r"C:\Users\luciaft\Documents\TFG\TFG\graspAndLiftDetectionTFGProyect\data\processed\ventanas"

# Par√°metro: tama√±o de cada parte
part_size = 100_000

# Guardar X_train_win por partes
for i in range(0, len(X_train_win), part_size):
    np.save(os.path.join(path, f"X_train_win_part{i//part_size}.npy"), X_train_win[i:i+part_size])
print("X_train_win guardado por partes.")

# Guardar X_valid_win por partes
for i in range(0, len(X_valid_win), part_size):
    np.save(os.path.join(path, f"X_valid_win_part{i//part_size}.npy"), X_valid_win[i:i+part_size])
print("X_valid_win guardado por partes.")

X_train_win guardado por partes.
X_valid_win guardado por partes.


## **4. Extraer Caracter√≠sticas en Frecuencia (FFT)**

El cerebro se comunica en diferentes frecuencias (ondas delta, theta, alfa, beta...), la FFT ayuda a ver qu√© tan activas est√°n esas bandas durante cada ventana. Al trabajar con se√±ales EEG, es fundamental capturar informaci√≥n tanto en el dominio temporal como en el de frecuencia. Para ello, en lugar de usar una FFT directa, utilizamos el m√©todo de Welch (`scipy.signal.welch`), que estima la potencia espectral de forma m√°s estable y robusta frente al ruido. Esto nos permite calcular de forma m√°s fiable la energ√≠a presente en las bandas caracter√≠sticas del EEG (delta, theta, alfa y beta), generando variables m√°s representativas para los modelos de clasificaci√≥n.

```
from scipy.signal import welch

def extract_freq_features(X_windows, fs=128):
    freq_feats = []
    for window in X_windows:
        features = []
        for ch in window.T:
            freqs, psd = welch(ch, fs=fs, nperseg=128)
            bands = {
                'delta': (0.5, 4),
                'theta': (4, 8),
                'alpha': (8, 13),
                'beta': (13, 30)
            }
            for low, high in bands.values():
                band_power = np.sum(psd[(freqs >= low) & (freqs < high)])
                features.append(band_power)
            features.append(np.sum(psd))  # energ√≠a total
        freq_feats.append(features)
    return np.array(freq_feats)

X_train_freq = extract_freq_features(X_train_win)
X_valid_freq = extract_freq_features(X_valid_win)

print("Caracter√≠sticas en frecuencia extra√≠das:")
print(f"X_train_freq shape: {X_train_freq.shape}")

Al igual que en la extracci√≥n de caracter√≠sticas estad√≠sticas temporales, las caracter√≠sticas en frecuencia tambi√©n se obtienen de forma paralela dentro del script Python `extraer_caracteristicas.py` plasmado a continuaci√≥n:
```
import os
import numpy as np
from joblib import Parallel, delayed
from scipy.stats import skew, kurtosis
from scipy.signal import welch

# Rutas
input_dir = r"C:\Users\luciaft\Documents\TFG\TFG\graspAndLiftDetectionTFGProyect\data\processed\ventanas"
output_dir = r"C:\Users\luciaft\Documents\TFG\TFG\graspAndLiftDetectionTFGProyect\data\processed\ventanas\caract"
os.makedirs(output_dir, exist_ok=True)

# Funci√≥n para cargar partes ordenadas
def load_ordered_parts(prefix):
    part_files = sorted(
        [f for f in os.listdir(input_dir) if f.startswith(prefix) and f.endswith(".npy")],
        key=lambda x: int(x.split("part")[1].split(".")[0])  # orden por √≠ndice
    )
    print(f"Cargando partes de {prefix}:", part_files)
    parts = [np.load(os.path.join(input_dir, f)) for f in part_files]
    return np.concatenate(parts, axis=0)

# Cargar y reconstruir X_train_win y X_valid_win
X_train_win = load_ordered_parts("X_train_win_part")
X_valid_win = load_ordered_parts("X_valid_win_part")

# ========================
# FUNCIONES DE CARACTER√çSTICAS
# ========================

# Funci√≥n para estad√≠sticas temporales
def extract_features_from_window(window):
    stats = []
    for ch in window.T:
        stats.extend([
            np.mean(ch), np.std(ch), np.min(ch), np.max(ch), np.ptp(ch),
            np.median(ch), np.percentile(ch, 25), np.percentile(ch, 75),
            np.mean(np.gradient(ch)), skew(ch), kurtosis(ch)
        ])
    return stats

def extract_time_features_parallel(X_windows, n_jobs=-1):
    return np.array(
        Parallel(n_jobs=n_jobs)(
            delayed(extract_features_from_window)(win) for win in X_windows
        ),
        dtype=np.float32
    )

# Funci√≥n para caracter√≠sticas en frecuencia
def extract_freq_features_from_window(window, fs=128):
    features = []
    for ch in window.T:
        freqs, psd = welch(ch, fs=fs, nperseg=128)
        for low, high in [(0.5, 4), (4, 8), (8, 13), (13, 30)]:
            features.append(np.sum(psd[(freqs >= low) & (freqs < high)]))
        features.append(np.sum(psd))  # energ√≠a total
    return features

def extract_freq_features_parallel(X_windows, fs=128, n_jobs=-1):
    return np.array(
        Parallel(n_jobs=n_jobs)(
            delayed(extract_freq_features_from_window)(win, fs) for win in X_windows
        ),
        dtype=np.float32
    )

# ========================
# EJECUCI√ìN
# ========================

print("Extrayendo caracter√≠sticas TEMPORALES para X_train...")
X_train_feats = extract_time_features_parallel(X_train_win)
np.save(os.path.join(output_dir, "X_train_feats.npy"), X_train_feats)

print("Extrayendo caracter√≠sticas TEMPORALES para X_valid...")
X_valid_feats = extract_time_features_parallel(X_valid_win)
np.save(os.path.join(output_dir, "X_valid_feats.npy"), X_valid_feats)

print("Extrayendo caracter√≠sticas en FRECUENCIA para X_train...")
X_train_freq = extract_freq_features_parallel(X_train_win)
np.save(os.path.join(output_dir, "X_train_freq.npy"), X_train_freq)

print("Extrayendo caracter√≠sticas en FRECUENCIA para X_valid...")
X_valid_freq = extract_freq_features_parallel(X_valid_win)
np.save(os.path.join(output_dir, "X_valid_freq.npy"), X_valid_freq)

print("‚úÖ Extracci√≥n completada y archivos guardados.")


```

Debido al gran tama√±o de los datos, tal y como mencionamos anteriormente los resultados se guardan divididos en varias partes (por ejemplo, `X_train_feats_part0.npy`, `X_train_feats_part1.npy`, etc.). Posteriormente, en este notebook, se cargan todas esas partes y se concatenan para reconstruir los arrays completos (`X_train_feats`, `X_train_freq`, etc.).

Este procedimiento permite trabajar con los datos completos sin superar los l√≠mites de memoria del sistema, manteniendo la trazabilidad y eficiencia del procesamiento. Una vez concatenados, los arrays est√°n listos para continuar con el modelado y an√°lisis.

In [3]:
# Ruta donde se guardaron las caracter√≠sticas
caract_dir = r"C:\Users\luciaft\Documents\TFG\TFG\graspAndLiftDetectionTFGProyect\data\processed\ventanas\caract"

# Cargar caracter√≠sticas temporales
X_train_feats = np.load(os.path.join(caract_dir, "X_train_feats.npy"))
X_valid_feats = np.load(os.path.join(caract_dir, "X_valid_feats.npy"))

# Cargar caracter√≠sticas en frecuencia
X_train_freq = np.load(os.path.join(caract_dir, "X_train_freq.npy"))
X_valid_freq = np.load(os.path.join(caract_dir, "X_valid_freq.npy"))

# Verificar dimensiones
print("Caracter√≠sticas cargadas:")
print(f"X_train_feats: {X_train_feats.shape}")
print(f"X_valid_feats: {X_valid_feats.shape}")
print(f"X_train_freq:  {X_train_freq.shape}")
print(f"X_valid_freq:  {X_valid_freq.shape}")


Caracter√≠sticas cargadas:
X_train_feats: (1043205, 352)
X_valid_feats: (236894, 352)
X_train_freq:  (1043205, 160)
X_valid_freq:  (236894, 160)


## **5. Generaci√≥n Nuevas Variables**

Unimos los datos de las estad√≠sticas temporales y de las caracter√≠sticas en frecuencia, y normalizamos los datos.

In [4]:
X_train_final = np.concatenate([X_train_feats, X_train_freq], axis=1)
X_valid_final = np.concatenate([X_valid_feats, X_valid_freq], axis=1)

In [5]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train_final)
X_valid_scaled = scaler.transform(X_valid_final)

## **6. Entrenar y Evaluar Modelos**

Finalmente entrenamos con estas nuevas variables el modelo base que hasta ahora mejores resultados ha demostrado, **Regresi√≥n Log√≠stica**, y lo evaluamos para verificar si estas nuevas caracter√≠sticas realmente mejoran el rendimiento.

In [6]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score

def evaluate_model(X_train, y_train, X_valid, y_valid, event_name):
    model = LogisticRegression(max_iter=1000)
    model.fit(X_train, y_train)
    y_pred = model.predict_proba(X_valid)[:, 1]
    auc = roc_auc_score(y_valid, y_pred)
    print(f"{event_name}: AUC = {auc:.4f}")
    return auc

# Evaluaci√≥n por evento
for i, event in enumerate(y_train_win.columns):
    print(f"\nEvaluando evento: {event}")
    auc = evaluate_model(
        X_train_scaled, y_train_win[event],
        X_valid_scaled, y_valid_win[event],
        event
    )


Evaluando evento: HandStart
HandStart: AUC = 0.8928

Evaluando evento: FirstDigitTouch
FirstDigitTouch: AUC = 0.8838

Evaluando evento: BothStartLoadPhase
BothStartLoadPhase: AUC = 0.8888

Evaluando evento: LiftOff
LiftOff: AUC = 0.9059

Evaluando evento: Replace
Replace: AUC = 0.8966

Evaluando evento: BothReleased
BothReleased: AUC = 0.8751


In [9]:
import os
import pickle

# Ruta de guardado
processed_path = r"C:\Users\luciaft\Documents\TFG\TFG\graspAndLiftDetectionTFGProyect\data\processed"
os.makedirs(processed_path, exist_ok=True)

# Guardar datos preprocesados finales (w/o outliers + features temporales + frecuencia + escalado)
with open(os.path.join(processed_path, "preprocessed_features_temporal_freq.pkl"), "wb") as f:
    pickle.dump((X_train_scaled, y_train_win, X_valid_scaled, y_valid_win), f)

# Guardar en CSV para visualizaci√≥n r√°pida si hace falta
pd.DataFrame(X_train_scaled).to_csv(os.path.join(processed_path, "X_train_feats.csv"), index=False)
pd.DataFrame(y_train_win).to_csv(os.path.join(processed_path, "y_train_feats.csv"), index=False)
pd.DataFrame(X_valid_scaled).to_csv(os.path.join(processed_path, "X_valid_feats.csv"), index=False)
pd.DataFrame(y_valid_win).to_csv(os.path.join(processed_path, "y_valid_feats.csv"), index=False)

# Guardar resultados AUC del modelo actual
auc_dict = {
    "HandStart": 0.8928,
    "FirstDigitTouch": 0.8838,
    "BothStartLoadPhase": 0.8888,
    "LiftOff": 0.9059,
    "Replace": 0.8966,
    "BothReleased": 0.8751
}

auc_df = pd.DataFrame.from_dict(auc_dict, orient='index', columns=['AUC'])
auc_df.index.name = 'Evento'
auc_df.to_csv(os.path.join(processed_path, "auc_results_feats_logreg.csv"))

## üìå **Conclusi√≥n y Pr√≥ximos Pasos**
### Comparaci√≥n de Rendimiento: Antes vs Despu√©s de Ingenier√≠a de Caracter√≠sticas

Comprobamos si las nuevas variables generadas (estad√≠sticas temporales + frecuencia mediante potencia espectral) mejoran el rendimiento del modelo. A continuaci√≥n, se comparan los valores de AUC-ROC obtenidos con:

- **Datos preprocesados √∫nicamente eliminando outliers y normalizando**
- **Nuevas caracter√≠sticas extra√≠das y normalizadas**

| Evento                | AUC (antes) | AUC (con nuevas caracter√≠sticas) |
|-----------------------|-------------|----------------------------------|
| HandStart             | 0.718       | 0.8928                           |
| FirstDigitTouch       | 0.694       | 0.8838                           |
| BothStartLoadPhase    | 0.6922      | 0.8888                           |
| LiftOff               | 0.7462      | 0.9059                           |
| Replace               | 0.8501      | 0.8966                           |
| BothReleased          | 0.808       | 0.8751                           |

üü¢ **Conclusi√≥n**: Las nuevas caracter√≠sticas extra√≠das mejoran de forma clara y consistente el rendimiento del modelo en todos los eventos. Se observa un aumento especialmente significativo en eventos como *HandStart* y *LiftOff*, donde se alcanzan valores cercanos o superiores a 0.90 cuando antes no superaban 0.75 en AUC-ROC. Por tanto, estas nuevas variables se incorporar√°n al pipeline final de modelado. Tras mostrarse los resultados, se han guardado los datos preprocesados para ser utilizados en el siguiente notebook con modelos avanzados.

### ‚úÖ Preprocesado Completo

El conjunto de datos final preparado para entrenar modelos incluye los siguientes pasos:

- **Filtrado de outliers**: Se eliminaron muestras extremas del conjunto de entrenamiento utilizando un umbral de z-score con valor absoluto superior a 3. Esta t√©cnica es habitual para eliminar artefactos sin eliminar datos √∫tiles. El conjunto de validaci√≥n se mantuvo sin alteraciones para evitar fugas de informaci√≥n.

- **Ventaneo de las se√±ales**: Las se√±ales EEG se dividieron en ventanas deslizantes de 120 muestras (equivalente a 240‚ÄØms, con muestreo de 500‚ÄØHz), con un `step` de 1 muestra. Esto garantiza una predicci√≥n por cada instante temporal, como exige la competici√≥n. Adem√°s, cada ventana contiene √∫nicamente muestras **anteriores al instante actual**, siguiendo una l√≥gica causal compatible con sistemas en tiempo real. Para las primeras muestras sin historial suficiente, se aplic√≥ **padding con ceros**.

- **Extracci√≥n de caracter√≠sticas**: Para cada ventana y canal se extrajeron:
  - **Caracter√≠sticas temporales**: media, desviaci√≥n est√°ndar, m√≠nimo, m√°ximo, rango, mediana, percentiles 25 y 75, gradiente medio, asimetr√≠a (skewness) y curtosis.
  - **Caracter√≠sticas en frecuencia**: energ√≠a espectral en las bandas delta (0.5‚Äì4‚ÄØHz), theta (4‚Äì8‚ÄØHz), alpha (8‚Äì13‚ÄØHz), beta (13‚Äì30‚ÄØHz), y energ√≠a total, a partir de la densidad espectral de potencia (PSD) calculada con el m√©todo de Welch.

- **Normalizaci√≥n**: Las caracter√≠sticas extra√≠das fueron estandarizadas con `StandardScaler`, centrando en media 0 y varianza 1. Esto asegura que todas las variables tengan la misma escala y evita que algunas dominen sobre otras durante el entrenamiento.

- **Alineaci√≥n temporal con las etiquetas**: Las etiquetas (`y_train_win`) se tomaron de la fila actual (la √∫ltima dentro de cada ventana), garantizando que las predicciones se realicen solo con informaci√≥n disponible hasta ese instante. Esta estrategia es compatible con aplicaciones reales en tiempo real como sistemas BCI.


---

### Pr√≥ximos pasos - Notebook **`06_modelado_avanzado`**

En el siguiente notebook entrenaremos modelos m√°s potentes para mejorar el rendimiento,  como:
   - `RandomForestClassifier`
   - `XGBoost`
   - `LightGBM`
   - Redes neuronales con `Keras`