# Fase 6




## Resumen del flujo recomendado antes del modelado RNN

### 1. Limpieza estructural
- Eliminar columnas con m√°s de 30‚Äì40% de valores nulos.  
- Eliminar columnas constantes o duplicadas.  
- Imputar los valores faltantes restantes (`forward-fill`, media o mediana seg√∫n el caso).  
- Escalar todas las variables (`StandardScaler` o `RobustScaler`).

---

### 2. Transformaciones de mercado
- Convertir precios a **retornos logar√≠tmicos**:  
  \[
  r_t = \log\left(\frac{P_t}{P_{t-1}}\right)
  \]
- Calcular **volatilidades m√≥viles** (rolling std) de 30 y 90 d√≠as para capturar din√°mica temporal.

---

### 3. Selecci√≥n de variables relevantes
- Calcular la **correlaci√≥n en valor absoluto** de todas las variables con los **retornos de BBVA y Santander**.  
- Seleccionar las **Top N** (por ejemplo 50‚Äì80) variables m√°s correlacionadas.  
- Este subconjunto representa las features m√°s informativas para el modelo.

---

### 4. Reducci√≥n de dimensionalidad (PCA)
- Aplicar **PCA** sobre las variables restantes (no seleccionadas en el paso anterior).  
- Conservar las componentes que expliquen entre **90‚Äì95% de la varianza total** (‚âà10‚Äì30 componentes).  
- Combinar:
  - Las variables seleccionadas por correlaci√≥n.  
  - Las componentes principales del PCA.

üì¶ **Resultado:**  
Un dataset limpio, compacto y optimizado con unas **~60 variables finales**, que combinan la relevancia estad√≠stica (correlaci√≥n) y la representaci√≥n comprimida (PCA), ideal para la siguiente fase de modelado RNN.


## Libreries


In [None]:
import pandas as pd
import numpy as np
from pathlib import Path
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

## 1. Limpieza

In [None]:
# ============================
# CONFIG
# ============================
DATA_PATH = Path("../../data/processed/data.csv.gz")

# ============================
# CARGA
# ============================
data = pd.read_csv(
    DATA_PATH,
    compression="gzip",
    parse_dates=["Date"],
    index_col="Date"
)
print(f"Dataset cargado con {data.shape[0]} filas y {data.shape[1]} columnas.")
display(data.head())

# ============================
# 1Ô∏è‚É£ CONVERTIR SOLO COLUMNAS NUM√âRICAS
# ============================
num_cols = data.select_dtypes(include=['int64','float64','object']).columns
for col in num_cols:
    data[col] = pd.to_numeric(data[col], errors='coerce')


Dataset cargado con 44630 filas y 305 columnas.


  data = pd.read_csv(


Unnamed: 0_level_0,BKT.MC_Close,BKT.MC_High,BKT.MC_Low,BKT.MC_Open,BKT.MC_Volume,BBVA.MC_Close,BBVA.MC_High,BBVA.MC_Low,BBVA.MC_Open,BBVA.MC_Volume,...,MSCI_Financials.csv_Low,MSCI_Financials.csv_Open,MSCI_Financials.csv_Volume,VIX.csv_Close,VIX.csv_High,VIX.csv_Low,VIX.csv_Open,VIX.csv_Volume,Event_Name,Impact_Score
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1913-01-01,,,,,,,,,,,...,,,,,,,,,,
1913-01-02,,,,,,,,,,,...,,,,,,,,,,
1913-01-03,,,,,,,,,,,...,,,,,,,,,,
1913-01-04,,,,,,,,,,,...,,,,,,,,,,
1913-01-05,,,,,,,,,,,...,,,,,,,,,,


In [4]:
# ============================
# 2Ô∏è‚É£ Eliminaci√≥n de columnas duplicadas exactas
# ============================
data = data.loc[:, ~data.columns.duplicated()]
print(f"Despu√©s de eliminar columnas duplicadas, el dataset tiene {data.shape[1]} columnas.")

Despu√©s de eliminar columnas duplicadas, el dataset tiene 305 columnas.


In [5]:
# ============================
# 3Ô∏è‚É£ Eliminaci√≥n de columnas altamente correlacionadas (>0.98) usando NumPy
# ============================
# Convertir a numpy array
arr = data.to_numpy()
# Calcular correlaci√≥n
corr_matrix = np.corrcoef(arr, rowvar=False)
# Mantener la matriz superior triangular
upper_tri = np.triu(corr_matrix, k=1)

# Columnas a eliminar
to_drop = [data.columns[i] for i in range(len(data.columns)) if any(upper_tri[:, i] > 0.98)]
print(f"Columnas eliminadas por alta correlaci√≥n: {len(to_drop)}")

# Eliminar columnas
data = data.drop(columns=to_drop)

Columnas eliminadas por alta correlaci√≥n: 0


In [6]:
# ============================
# 4Ô∏è‚É£ Comprobaciones finales
# ============================
print(f"Dataset limpio ‚Üí {data.shape[0]} filas y {data.shape[1]} columnas.")
print(f"Nulos restantes: {data.isna().sum().sum()}")
display(data.head())

Dataset limpio ‚Üí 44630 filas y 305 columnas.
Nulos restantes: 11573266


Unnamed: 0_level_0,BKT.MC_Close,BKT.MC_High,BKT.MC_Low,BKT.MC_Open,BKT.MC_Volume,BBVA.MC_Close,BBVA.MC_High,BBVA.MC_Low,BBVA.MC_Open,BBVA.MC_Volume,...,MSCI_Financials.csv_Low,MSCI_Financials.csv_Open,MSCI_Financials.csv_Volume,VIX.csv_Close,VIX.csv_High,VIX.csv_Low,VIX.csv_Open,VIX.csv_Volume,Event_Name,Impact_Score
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1913-01-01,,,,,,,,,,,...,,,,,,,,,,
1913-01-02,,,,,,,,,,,...,,,,,,,,,,
1913-01-03,,,,,,,,,,,...,,,,,,,,,,
1913-01-04,,,,,,,,,,,...,,,,,,,,,,
1913-01-05,,,,,,,,,,,...,,,,,,,,,,


In [7]:
# ============================
# 5Ô∏è‚É£ Guardar dataset limpio temporal
# ============================
output_path = Path("../../data/processed/data_clean.csv.gz")
data.to_csv(output_path, compression="gzip")
print(f"‚úÖ Dataset limpio guardado en: {output_path}")

‚úÖ Dataset limpio guardado en: ..\..\data\processed\data_clean.csv.gz


## 2. Selecci√≥n de variables relevantes 

**Objetivo:** reducir las ~300 columnas a un set manejable y relevante para la RNN.  
Se har√° en dos pasos:

1. **Top correlacionadas:** identificar las variables m√°s correlacionadas (en valor absoluto) con los retornos de BBVA y Santander y seleccionarlas directamente.  
2. **PCA:** aplicar reducci√≥n de dimensionalidad al resto de variables para capturar la mayor parte de la varianza con un n√∫mero reducido de componentes.  


In [None]:
# Cargar dataset limpio
data_path = "../../data/processed/data_clean.csv.gz"
data = pd.read_csv(data_path, parse_dates=['Date'], index_col='Date')

# Seleccionar columnas de precios para crear retornos log
price_cols = ['BBVA.MC_Close', 'SAN.MC_Close']
returns = np.log(data[price_cols] / data[price_cols].shift(1)).dropna()

In [11]:
# Calcular correlaci√≥n absoluta de todas las columnas con los retornos
corr_df = data.corr().abs()  # correlaci√≥n de Pearson

# Solo nos interesa correlaci√≥n con BBVA y SANT
corr_bbva = corr_df['BBVA.MC_Close'].sort_values(ascending=False)
corr_sant = corr_df['SAN.MC_Close'].sort_values(ascending=False)

In [13]:
# Seleccionar top N correlacionadas (ejemplo: top 50)
top_n = 50
top_bbva = corr_bbva.index[1:top_n+1].tolist()  # excluyendo BBVA_Close
top_sant = corr_sant.index[1:top_n+1].tolist()  # excluyendo SANT_Close

# Combinar top variables
top_features = list(set(top_bbva + top_sant))
print(f"Total features top correlacionadas: {len(top_features)}")
print(top_features[:50])  # mostrar primeras 10 para revisi√≥n

Total features top correlacionadas: 68
['BKT.MC_Low', 'SAN.MC_Open', 'BKT.MC_Close', 'EURJPY.csv_Close', 'SAB.MC_Close', 'ECB_M3_USD', 'BBVA.MC_Open', 'BKT.MC_Open', 'STOXX50E_Open', 'ECB_M3_SKK', 'MSCI_Financials.csv_Open', 'JPM_High', 'FTSE_High', 'UNI.MC_Close', 'IBEX_Low', 'ECB_M3_HKD', 'MSCI_Financials.csv_Close', 'FTSE_Open', 'GDAXI_Low', 'IBEX_Open', 'URTH_Open', 'URTH_High', 'FTSE_Low', 'GDAXI_High', 'CABK.MC_Open', 'SAN.MC_Low', 'MSCI_Financials.csv_Low', 'N225_Open', 'BKT.MC_High', 'SAN.MC_High', 'STOXX50E_High', 'UNI.MC_Low', 'HSBC_Open', 'HSBC_High', 'EURJPY.csv_Low', 'EURJPY.csv_Open', 'CABK.MC_High', 'JPM_Close', 'N225_Close', 'ECB_M3_JPY', 'SAN.MC_Close', 'STOXX50E_Close', 'JPM_Low', 'CABK.MC_Low', 'IBEX_Close', 'BBVA.MC_High', 'URTH_Low', 'GDAXI_Open', 'UNI.MC_High', 'IBEX_High']


## 3. PCA para el resto de variables

**Objetivo:** reducir dimensionalidad de las columnas que **no est√°n entre las top 50 correlacionadas** con BBVA y Santander.  
Esto permitir√°:

- Mantener la mayor parte de la informaci√≥n de las ~250 columnas restantes.  
- Generar un set compacto y manejable para la RNN.  
- Combinar estas componentes con las top 50 variables para formar el dataset final.

**Pasos:**
1. Separar las columnas top 50 de las restantes.  
2. Escalar las restantes con `StandardScaler`.  
3. Aplicar PCA y conservar suficientes componentes que expliquen ~90‚Äì95% de la varianza.  
4. Combinar PCA + top 50 y guardar lista de features finales (`final_features_list.csv`).


In [None]:
# Separar variables restantes (no top 50)
remaining_features = [col for col in data.columns if col not in top_features]

# Escalado
scaler = StandardScaler()
X_scaled = pd.DataFrame(
    scaler.fit_transform(data[remaining_features].fillna(0)),  # rellenar NaN con 0 temporalmente para el scaler
    index=data.index,
    columns=remaining_features
)

# Forward-fill y backward-fill para mantener integridad temporal
X_scaled = X_scaled.fillna(method='ffill').fillna(method='bfill')

# PCA
pca = PCA(n_components=0.95)  # conservar 95% de la varianza
X_pca = pca.fit_transform(X_scaled)

print(f"N√∫mero de componentes PCA seleccionadas: {X_pca.shape[1]}")

# Crear DataFrame de componentes PCA
pca_cols = [f'PCA_{i+1}' for i in range(X_pca.shape[1])]
pca_df = pd.DataFrame(X_pca, index=data.index, columns=pca_cols)

  X_scaled = X_scaled.fillna(method='ffill').fillna(method='bfill')


N√∫mero de componentes PCA seleccionadas: 22


In [24]:
# Combinar top_features + PCA
final_data = pd.concat([data[top_features], pca_df], axis=1)

# Lista de features finales
final_features = list(final_data.columns)

# Mostrar columnas y primeras filas
print(final_features)
display(final_data.head())

# Guardar lista de features finales
pd.Series(final_features).to_csv('../../data/processed/final_features_list.csv.gz', index=False)
print("Set final de features listo guardado en ../../data/processed/final_features_list.csv.gz.")

['BKT.MC_Low', 'SAN.MC_Open', 'BKT.MC_Close', 'EURJPY.csv_Close', 'SAB.MC_Close', 'ECB_M3_USD', 'BBVA.MC_Open', 'BKT.MC_Open', 'STOXX50E_Open', 'ECB_M3_SKK', 'MSCI_Financials.csv_Open', 'JPM_High', 'FTSE_High', 'UNI.MC_Close', 'IBEX_Low', 'ECB_M3_HKD', 'MSCI_Financials.csv_Close', 'FTSE_Open', 'GDAXI_Low', 'IBEX_Open', 'URTH_Open', 'URTH_High', 'FTSE_Low', 'GDAXI_High', 'CABK.MC_Open', 'SAN.MC_Low', 'MSCI_Financials.csv_Low', 'N225_Open', 'BKT.MC_High', 'SAN.MC_High', 'STOXX50E_High', 'UNI.MC_Low', 'HSBC_Open', 'HSBC_High', 'EURJPY.csv_Low', 'EURJPY.csv_Open', 'CABK.MC_High', 'JPM_Close', 'N225_Close', 'ECB_M3_JPY', 'SAN.MC_Close', 'STOXX50E_Close', 'JPM_Low', 'CABK.MC_Low', 'IBEX_Close', 'BBVA.MC_High', 'URTH_Low', 'GDAXI_Open', 'UNI.MC_High', 'IBEX_High', 'JPM_Open', 'GDAXI_Close', 'EURJPY.csv_High', 'HSBC_Close', 'STOXX50E_Low', 'UNI.MC_Open', 'SAB.MC_Open', 'HSBC_Low', 'SAB.MC_Low', 'FTSE_Close', 'BBVA.MC_Low', 'MSCI_Financials.csv_High', 'N225_High', 'BBVA.MC_Close', 'ECB_M3_CZK',

Unnamed: 0_level_0,BKT.MC_Low,SAN.MC_Open,BKT.MC_Close,EURJPY.csv_Close,SAB.MC_Close,ECB_M3_USD,BBVA.MC_Open,BKT.MC_Open,STOXX50E_Open,ECB_M3_SKK,...,PCA_13,PCA_14,PCA_15,PCA_16,PCA_17,PCA_18,PCA_19,PCA_20,PCA_21,PCA_22
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1913-01-01,,,,,,,,,,,...,-0.168185,-0.094069,0.133188,0.159825,-0.137894,-0.004433,-0.204037,-0.06017,0.13358,-0.002773
1913-01-02,,,,,,,,,,,...,-0.168185,-0.094069,0.133188,0.159825,-0.137894,-0.004433,-0.204037,-0.06017,0.13358,-0.002773
1913-01-03,,,,,,,,,,,...,-0.168185,-0.094069,0.133188,0.159825,-0.137894,-0.004433,-0.204037,-0.06017,0.13358,-0.002773
1913-01-04,,,,,,,,,,,...,-0.168185,-0.094069,0.133188,0.159825,-0.137894,-0.004433,-0.204037,-0.06017,0.13358,-0.002773
1913-01-05,,,,,,,,,,,...,-0.168185,-0.094069,0.133188,0.159825,-0.137894,-0.004433,-0.204037,-0.06017,0.13358,-0.002773


Set final de features listo guardado en ../../data/processed/final_features_list.csv.gz.
