# **Ingeniería de Características - `05_ingenieria_caracteristicas.ipynb`**

### **🎯 Objetivo del Notebook**
Este notebook tiene como objetivo aplicar técnicas de **ingeniería de características** sobre las señales EEG, con el fin de capturar mejor la información contenida en las señales y mejorar el rendimiento de los modelos de clasificación.

### **📌 Contexto**
En el notebook anterior (`04_analisis_caracteristicas.ipynb`), analizamos la importancia de las características existentes y aplicamos varias técnicas de selección y reducción de dimensionalidad. Sin embargo, concluimos que:

- La **eliminación de outliers** fue el único preprocesamiento que mejoró el rendimiento.
- La **selección de características** y **reducción de dimensionalidad** no sólo no aportaron mejoras, sino que en muchos casos **empeoraron los resultados**.

Dado que los datos EEG son señales **temporales complejas**, y que el modelo actual no logra capturar suficientemente su estructura dinámica con las características crudas, es necesario **generar nuevas variables** que representen mejor la información relevante en la señal.

---

### **🧠 ¿Por qué Ingeniería de Características?**

Incluso los mejores modelos no pueden rendir bien si no se les alimenta con datos representativos. Por eso, vamos a construir nuevas variables derivadas de las señales originales que puedan captar:

- Tendencias locales (media móvil)
- Cambios rápidos (derivadas o gradientes)
- Patrones en el dominio de la frecuencia (FFT)
- Niveles de variabilidad o actividad (desviación estándar, rango, energía)

Estas transformaciones buscan **extraer información latente** que no es evidente en las señales brutas.

---

### **🚀 Flujo de Trabajo en este Notebook**
1️⃣ **Carga de datos preprocesados (outliers eliminados y normalizados)**  
2️⃣ **Definición de ventanas temporales para extracción de características**  
3️⃣ **Cálculo de estadísticas temporales (media, std, varianza, gradiente)**  
4️⃣ **Aplicación de transformadas en frecuencia (FFT, potencia espectral)**  
5️⃣ **Generación de nuevas variables y construcción de un nuevo conjunto de datos**  
6️⃣ **Evaluación del impacto en el rendimiento del modelo**  
7️⃣ **Conclusión sobre qué variables se mantienen y próximos pasos**

---

📌 Si estas nuevas variables aportan mejoras, las incorporaremos como parte del preprocesamiento final antes de probar modelos más avanzados como **XGBoost, LightGBM o Redes Neuronales**.


## **1. Carga de datos**

In [1]:
import os
import pickle
import pandas as pd

# Ruta al archivo pickle con datos ya preprocesados (outliers eliminados + normalizados)
processed_path = r"C:\Users\luciaft\Documents\TFG\TFG\graspAndLiftDetectionTFGProyect\data\processed"
pickle_file = os.path.join(processed_path, "preprocessed_data_outliers_scaled.pkl")

# Cargar datos
with open(pickle_file, "rb") as f:
    X_train, y_train, X_valid, y_valid = pickle.load(f)

# Verificar dimensiones
print("✅ Datos cargados correctamente:")
print(f"X_train shape: {X_train.shape}")
print(f"y_train shape: {y_train.shape}")
print(f"X_valid shape: {X_valid.shape}")
print(f"y_valid shape: {y_valid.shape}")

✅ Datos cargados correctamente:
X_train shape: (1043205, 32)
y_train shape: (1043205, 6)
X_valid shape: (236894, 32)
y_valid shape: (236894, 6)
