# **Ingenier√≠a de Caracter√≠sticas - `05_ingenieria_caracteristicas.ipynb`**

### **üéØ Objetivo del Notebook**
Este notebook tiene como objetivo aplicar t√©cnicas de **ingenier√≠a de caracter√≠sticas** sobre las se√±ales EEG, con el fin de capturar mejor la informaci√≥n contenida en las se√±ales y mejorar el rendimiento de los modelos de clasificaci√≥n.

### **üìå Contexto**
En el notebook anterior (`04_analisis_caracteristicas.ipynb`), analizamos la importancia de las caracter√≠sticas existentes y aplicamos varias t√©cnicas de selecci√≥n y reducci√≥n de dimensionalidad. Sin embargo, concluimos que:

- La **eliminaci√≥n de outliers** fue el √∫nico preprocesamiento que mejor√≥ el rendimiento.
- La **selecci√≥n de caracter√≠sticas** y **reducci√≥n de dimensionalidad** no s√≥lo no aportaron mejoras, sino que en muchos casos **empeoraron los resultados**.

Dado que los datos EEG son se√±ales **temporales complejas**, y que el modelo actual no logra capturar suficientemente su estructura din√°mica con las caracter√≠sticas crudas, es necesario **generar nuevas variables** que representen mejor la informaci√≥n relevante en la se√±al.

---

### **üß† ¬øPor qu√© Ingenier√≠a de Caracter√≠sticas?**

Incluso los mejores modelos no pueden rendir bien si no se les alimenta con datos representativos. Por eso, vamos a construir nuevas variables derivadas de las se√±ales originales que puedan captar:

- Tendencias locales (media m√≥vil)
- Cambios r√°pidos (derivadas o gradientes)
- Patrones en el dominio de la frecuencia (FFT)
- Niveles de variabilidad o actividad (desviaci√≥n est√°ndar, rango, energ√≠a)

Estas transformaciones buscan **extraer informaci√≥n latente** que no es evidente en las se√±ales brutas.

---

### **üöÄ Flujo de Trabajo en este Notebook**
1Ô∏è‚É£ **Carga de datos preprocesados (outliers eliminados y normalizados)**  
2Ô∏è‚É£ **Definici√≥n de ventanas temporales para extracci√≥n de caracter√≠sticas**  
3Ô∏è‚É£ **C√°lculo de estad√≠sticas temporales (media, std, varianza, gradiente)**  
4Ô∏è‚É£ **Aplicaci√≥n de transformadas en frecuencia (FFT, potencia espectral)**  
5Ô∏è‚É£ **Generaci√≥n de nuevas variables y construcci√≥n de un nuevo conjunto de datos**  
6Ô∏è‚É£ **Evaluaci√≥n del impacto en el rendimiento del modelo**  
7Ô∏è‚É£ **Conclusi√≥n sobre qu√© variables se mantienen y pr√≥ximos pasos**

---

üìå Si estas nuevas variables aportan mejoras, las incorporaremos como parte del preprocesamiento final antes de probar modelos m√°s avanzados como **XGBoost, LightGBM o Redes Neuronales**.


## **1. Carga de datos**

In [1]:
import os
import pickle
import pandas as pd

# Ruta al archivo pickle con datos ya preprocesados (outliers eliminados + normalizados)
processed_path = r"C:\Users\luciaft\Documents\TFG\TFG\graspAndLiftDetectionTFGProyect\data\processed"
pickle_file = os.path.join(processed_path, "preprocessed_data_outliers_scaled.pkl")

# Cargar datos
with open(pickle_file, "rb") as f:
    X_train, y_train, X_valid, y_valid = pickle.load(f)

# Verificar dimensiones
print("‚úÖ Datos cargados correctamente:")
print(f"X_train shape: {X_train.shape}")
print(f"y_train shape: {y_train.shape}")
print(f"X_valid shape: {X_valid.shape}")
print(f"y_valid shape: {y_valid.shape}")

‚úÖ Datos cargados correctamente:
X_train shape: (1043205, 32)
y_train shape: (1043205, 6)
X_valid shape: (236894, 32)
y_valid shape: (236894, 6)
