# Fase 6
## Estrategia detallada paso a paso (qu√© hacer antes de entrenar)

### 2.1 Pre-filtrado estructural 
- Eliminar columnas con >30‚Äì40% de valores nulos (NaN) o imputar si son relevantes.  
- Eliminar columnas con varianza casi nula (constantes).  
- Detectar y eliminar duplicados exactos o altamente correlacionados.  
- Convertir precios a **retornos logar√≠tmicos** y mantener precios si aportan contexto adicional.

---

### 2.2 Priorizaci√≥n por dominio
Seleccionar manualmente variables relevantes por grupo:

- **Acciones bancarias:** precios, volumen, retornos, volatilidades m√≥viles (30d).  
- **√çndices:** IBEX, S&P500, DAX ‚Äî retornos + volatilidades m√≥viles.  
- **Divisas (FX):** EURUSD, EURBRL ‚Äî retornos o niveles seg√∫n correlaci√≥n.  
- **Commodities:** petr√≥leo, oro ‚Äî retornos o niveles seg√∫n relaci√≥n con el mercado.  
- **Macroecon√≥micos:** PIB, IPC, tipos BCE ‚Äî incluir rezagos (lags) temporales.  
- **Eventos:** impacto cuantificado (`Impact_Score` o similar).

üëâ Idea: mantener **3‚Äì8 variables por grupo** para conservar representatividad sin sobrecargar el modelo.

---

### 2.3 Selecci√≥n estad√≠stica autom√°tica (complementaria)
Aplicar m√©todos autom√°ticos sobre el conjunto de entrenamiento:

- **Correlaci√≥n con el target:** `corrwith(BBVA_Close)` o `corrwith(SANT_Close)` sobre retornos; mantener top N (p.ej. 50).  
- **VarianceThreshold:** eliminar columnas con varianza baja.  
- **Multicolinealidad:** eliminar features con alto VIF (Variance Inflation Factor).  
- **Importancia (√°rboles):** usar RandomForest o GradientBoost r√°pido para priorizar las m√°s influyentes.

‚ö†Ô∏è Importante: **filtrar siempre usando solo el conjunto de entrenamiento**, nunca con test.

---

### 2.4 Reducci√≥n de dimensionalidad
Opciones recomendadas:

- **PCA:** escalar datos y elegir componentes que expliquen 80‚Äì95% de la varianza (‚âà10‚Äì50 componentes).  
- **Autoencoder:** alternativa no lineal que puede capturar relaciones complejas.  
- **Agregaci√≥n / clustering:** promediar o sintetizar variables muy similares.  
- **H√≠brido:** combinar top features seleccionadas + PCA sobre el resto.

---

### 2.5 Recomendaciones num√©ricas
- N√∫mero final de variables:  
  - Interpretables: **30‚Äì60 features**.  
  - Compactas (post-PCA/AE): **10‚Äì30 componentes**.  
- Si el modelo predice m√∫ltiples outputs (BBVA, SANT), mantener suficiente diversidad (‚âà50 features).  
- Ajustar n√∫mero seg√∫n longitud de ventana temporal (60‚Äì120 d√≠as ‚Üí m√°s features = m√°s memoria).

---

### 2.6 Otros puntos clave
- **Imputaci√≥n:** aplicar antes de PCA; `forward-fill` o medianas para macro.  
- **Escalado:** `StandardScaler` o `RobustScaler`, ajustado solo con train.  
- **Lags:** crear lags relevantes (1, 3, 7, 30 d√≠as) para macro y FX.  
- **Pruebas controladas:**  
  - Baseline (pocas features manuales).  
  - Variante top-50.  
  - Variante PCA-20.  
  - Comparar rendimiento y coste.

---

### Checklist r√°pido (FASE 6)
- [ ] Eliminar columnas con >30% NaN  
- [ ] Eliminar columnas con varianza nula  
- [ ] Calcular retornos y volatilidades m√≥viles  
- [ ] Seleccionar top 50 correlaciones  
- [ ] Aplicar PCA/AE a resto y fijar n√∫mero de componentes  
- [ ] Guardar lista final de variables (`final_features_list.csv`)  
- [ ] Documentar transformaciones (scalers, imputers, PCA)


---
---
---
## Resumen del flujo recomendado antes del modelado RNN

### 1. Limpieza estructural
- Eliminar columnas con m√°s de 30‚Äì40% de valores nulos.  
- Eliminar columnas constantes o duplicadas.  
- Imputar los valores faltantes restantes (`forward-fill`, media o mediana seg√∫n el caso).  
- Escalar todas las variables (`StandardScaler` o `RobustScaler`).

---

### 2. Transformaciones de mercado
- Convertir precios a **retornos logar√≠tmicos**:  
  \[
  r_t = \log\left(\frac{P_t}{P_{t-1}}\right)
  \]
- Calcular **volatilidades m√≥viles** (rolling std) de 30 y 90 d√≠as para capturar din√°mica temporal.

---

### 3. Selecci√≥n de variables relevantes
- Calcular la **correlaci√≥n en valor absoluto** de todas las variables con los **retornos de BBVA y Santander**.  
- Seleccionar las **Top N** (por ejemplo 50‚Äì80) variables m√°s correlacionadas.  
- Este subconjunto representa las features m√°s informativas para el modelo.

---

### 4. Reducci√≥n de dimensionalidad (PCA)
- Aplicar **PCA** sobre las variables restantes (no seleccionadas en el paso anterior).  
- Conservar las componentes que expliquen entre **90‚Äì95% de la varianza total** (‚âà10‚Äì30 componentes).  
- Combinar:
  - Las variables seleccionadas por correlaci√≥n.  
  - Las componentes principales del PCA.

üì¶ **Resultado:**  
Un dataset limpio, compacto y optimizado con unas **~60 variables finales**, que combinan la relevancia estad√≠stica (correlaci√≥n) y la representaci√≥n comprimida (PCA), ideal para la siguiente fase de modelado RNN.


## Libreries


## 1. Limpieza

In [None]:
# ============================
# üßπ FASE 6.1 ‚Äî LIMPIEZA INICIAL (optimizada con NumPy)
# ============================

import pandas as pd
import numpy as np
from pathlib import Path

# ============================
# CONFIG
# ============================
DATA_PATH = Path("../../data/processed/data.csv.gz")

# ============================
# CARGA
# ============================

data = pd.read_csv(
    DATA_PATH,
    compression="gzip",
    parse_dates=["Date"],
    index_col="Date",
    dtype=float  # convierte todas las columnas a float directo
)
print(f"Dataset cargado con {data.shape[0]} filas y {data.shape[1]} columnas.")
display(data.head())

# ============================
# 1Ô∏è‚É£ Conversi√≥n de tipos
# ============================
for col in data.select_dtypes(include='object').columns:
    data[col] = pd.to_numeric(data[col], errors='coerce')

In [None]:
# ============================
# 2Ô∏è‚É£ Eliminaci√≥n de columnas duplicadas exactas
# ============================
data = data.loc[:, ~data.columns.duplicated()]

In [None]:
# ============================
# 3Ô∏è‚É£ Eliminaci√≥n de columnas altamente correlacionadas (>0.98) usando NumPy
# ============================
# Convertir a numpy array
arr = data.to_numpy()
# Calcular correlaci√≥n
corr_matrix = np.corrcoef(arr, rowvar=False)
# Mantener la matriz superior triangular
upper_tri = np.triu(corr_matrix, k=1)

# Columnas a eliminar
to_drop = [data.columns[i] for i in range(len(data.columns)) if any(upper_tri[:, i] > 0.98)]
print(f"Columnas eliminadas por alta correlaci√≥n: {len(to_drop)}")

# Eliminar columnas
data = data.drop(columns=to_drop)

In [None]:
# ============================
# 4Ô∏è‚É£ Comprobaciones finales
# ============================
print(f"Dataset limpio ‚Üí {data.shape[0]} filas y {data.shape[1]} columnas.")
print(f"Nulos restantes: {data.isna().sum().sum()}")
display(data.head())

In [None]:
# ============================
# 5Ô∏è‚É£ Guardar dataset limpio temporal
# ============================
output_path = Path("../../data/processed/data_clean.csv.gz")
data.to_csv(output_path, compression="gzip")
print(f"‚úÖ Dataset limpio guardado en: {output_path}")