# **Modelado Avanzado - `06_modelado_avanzado.ipynb`**

### üéØ **Objetivo del Notebook**

Este notebook tiene como objetivo aplicar y evaluar modelos de clasificaci√≥n m√°s avanzados sobre las caracter√≠sticas extra√≠das de las se√±ales EEG, con el fin de mejorar la detecci√≥n de eventos motores (*Grasp-and-Lift*) a partir de se√±ales cerebrales. Partimos de los datos ya preprocesados en el notebook anterior (caracter√≠sticas temporales + frecuencia, con outliers eliminados y normalizaci√≥n).

---

### üìå **Contexto**

En el notebook anterior (`06_ingenieria_caracteristicas.ipynb`), extra√≠mos nuevas variables a partir de ventanas temporales de la se√±al EEG, combinando estad√≠sticas en el dominio temporal y energ√≠a por bandas en el dominio de la frecuencia (potencia espectral por canal). Estas nuevas variables, al ser introducidas en un modelo base (`LogisticRegression`), generaron una mejora notable en el rendimiento, alcanzando AUC-ROC superiores a 0.94 en varios eventos.

Dado el √©xito de estas nuevas representaciones, en este notebook las utilizaremos para probar modelos m√°s potentes y complejos, que podr√≠an explotar a√∫n mejor la informaci√≥n contenida en las se√±ales.

---

### ü§ñ **An√°lisis de Modelos Avanzados a Utilizar**

Por tanto, tras aplicar ingenier√≠a de caracter√≠sticas sobre las se√±ales EEG, disponemos ahora de un conjunto de datos **tabular y num√©rico**, que incluye estad√≠sticas temporales y caracter√≠sticas en frecuencia por canal. Esto nos permite aplicar modelos de clasificaci√≥n avanzados que trabajen bien con este tipo de representaci√≥n.

A continuaci√≥n, se resumen los modelos m√°s adecuados para este escenario, con sus ventajas y consideraciones:


#### üî≤ Random Forest (RF)
- ‚úÖ Robusto frente a ruido y datos no lineales.
- ‚úÖ No requiere mucho ajuste.
- ‚úÖ Interpretable (permite ver la importancia de las caracter√≠sticas).
- üî∏ Puede ser una excelente l√≠nea base avanzada.
  
> **Recomendado como primer modelo avanzado.**

#### üü† XGBoost
- üìà Muy potente y usado en competiciones de ciencia de datos.
- ‚úÖ Excelente capacidad para capturar relaciones complejas.
- ‚úÖ Controla bien el sobreajuste.
- üî∏ Requiere ajuste fino de hiperpar√°metros para rendir al m√°ximo.

> **Recomendado como modelo principal si se desea m√°xima precisi√≥n.**

#### üü¢ LightGBM
- ‚ö° Muy r√°pido y eficiente, incluso con muchos datos.
- ‚úÖ Similar a XGBoost pero con menor consumo de recursos.
- üî∏ Puede requerir ajustes para manejar datos desbalanceados.

> **Ideal si se necesita alta velocidad de entrenamiento.**

#### üîµ Redes Neuronales (MLP / Keras)
- ‚úÖ Capaces de aprender representaciones complejas.
- üî∏ Menos interpretables.
- üî∏ Requieren m√°s datos y ajuste fino para evitar sobreajuste.

> **Opci√≥n interesante si se quiere explorar arquitectura neuronal simple sobre datos tabulares.**

#### ‚ö´ SVM (Support Vector Machines)
- ‚ùå Poca escalabilidad con muchos datos.
- ‚ùå No recomendable para clasificaci√≥n multiclase o multietiqueta con gran volumen de muestras.

> **No se recomienda como opci√≥n principal para este caso.**
> 

#### üß† **Conclusi√≥n**

Dado el tipo de datos actual (ventanas EEG convertidas a caracter√≠sticas num√©ricas tabulares), se considera que los modelos m√°s apropiados para probar en este notebook son:

1. `RandomForestClassifier`
2. `XGBoostClassifier`
3. `LightGBMClassifier`
4. (Opcional) `MLPClassifier` o redes con Keras

Estos modelos ser√°n evaluados por separado para cada evento motor, comparando su rendimiento con el modelo base (`LogisticRegression`), y seleccionando los m√°s prometedores para integrar en el pipeline final.

---

### **üöÄ Flujo de Trabajo en este Notebook**

1Ô∏è‚É£ Carga de los datos preprocesados (caracter√≠sticas extra√≠das + normalizaci√≥n)

2Ô∏è‚É£ Entrenamiento de modelos avanzados:
- **`RandomForestClassifier`**
- **`XGBoostClassifier`**
- **`LightGBMClassifier`**

3Ô∏è‚É£ Evaluaci√≥n de rendimiento por evento utilizando m√©tricas como:
- AUC-ROC
- (Opcional) F1-score, accuracy

4Ô∏è‚É£ Comparaci√≥n de resultados frente al modelo base (`LogisticRegression`)

5Ô∏è‚É£ **Selecci√≥n del mejor modelo** y guardado para uso posterior

---

### **üí° Objetivo final**
Identificar el modelo con mejor capacidad de generalizaci√≥n para cada evento motor, y dejarlo listo para usar en el pipeline de predicci√≥n final.


## **1. Carga de Datos Preprocesados**

In [2]:
import os
import pickle
import pandas as pd

# Ruta de los datos procesados
processed_path = r"C:\Users\luciaft\Documents\TFG\TFG\graspAndLiftDetectionTFGProyect\data\processed"
data_file = os.path.join(processed_path, "preprocessed_features_temporal_freq.pkl")

# Cargar los datos preprocesados
with open(data_file, "rb") as f:
    X_train_scaled, y_train_win, X_valid_scaled, y_valid_win = pickle.load(f)

# Verificar formas
print("‚úÖ Datos cargados correctamente:")
print(f"X_train_scaled shape: {X_train_scaled.shape}")
print(f"y_train_win shape: {y_train_win.shape}")
print(f"X_valid_scaled shape: {X_valid_scaled.shape}")
print(f"y_valid_win shape: {y_valid_win.shape}")

‚úÖ Datos cargados correctamente:
X_train_scaled shape: (16299, 512)
y_train_win shape: (16299, 6)
X_valid_scaled shape: (3700, 512)
y_valid_win shape: (3700, 6)


## **2. Entrenamiento de Modelos Avanzados**