# Identificación de Regímenes de Mercado

**Notebook 1 de 3** | Análisis de Regímenes con K-Means y GMM

En este notebook:
1. Descargamos datos históricos del SPY
2. Construimos features de momentum y volatilidad (metodología Oliva)
3. Exploramos features alternativas
4. Identificamos regímenes con K-Means
5. Analizamos la dinámica temporal (matriz de transición)
6. Comparamos con Gaussian Mixture Models

---

## 0. Setup y Configuración

In [None]:
# Para Google Colab: descomentar y ejecutar
# !pip install -q yfinance statsmodels networkx

# Si ejecutas desde Colab, clona el repo o sube los archivos src/
# !git clone https://github.com/tu-usuario/blog_regimenes.git
# %cd blog_regimenes

In [None]:
import sys
sys.path.append("..")

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from config import *
from src.data import download_spy_data, train_test_split, get_data_summary
from src.features import compute_oliva_features, compute_alternative_features, compute_all_features
from src.regimes import (
    standardize_features, fit_kmeans, fit_gmm, 
    evaluate_k_range, compute_transition_matrix, get_regime_statistics
)
from src.plotting import (
    setup_plotting_style, plot_correlation_heatmap, plot_elbow_silhouette,
    plot_centroids_radar, plot_transition_graph, plot_regime_timeseries
)

setup_plotting_style()

# Toggle para guardar figuras
SAVE_FIGURES = True
FIGURES_PATH = "../figures/post1/"

print(f"Configuración cargada: {TICKER} desde {START_DATE} hasta {END_DATE}")
print(f"Split IS/OOS: {TRAIN_END}")
print(f"Random state: {RANDOM_STATE}")

---
## 1. Descarga y Preparación de Datos

In [None]:
# TODO: Descargar datos con yfinance
# df = download_spy_data()
# df_train, df_test = train_test_split(df)

In [None]:
# TODO: Mostrar resumen de datos
# summary = get_data_summary(df)
# pd.DataFrame([summary]).T

---
## 2. Features de Oliva (Momentum y Volatilidad)

In [None]:
# TODO: Calcular features de Oliva
# features_oliva = compute_oliva_features(df_train)
# features_oliva.head()

In [None]:
# TODO: Visualizar distribución de features

---
## 3. Features Alternativas (Downside Deviation, Sortino)

In [None]:
# TODO: Calcular features alternativas
# features_alt = compute_alternative_features(df_train)
# features_alt.head()

---
## 4. Análisis de Correlación entre Features

In [None]:
# TODO: Calcular todos los features y analizar correlación
# features_all = compute_all_features(df_train)
# 
# save_path = f"{FIGURES_PATH}correlacion_features.png" if SAVE_FIGURES else None
# plot_correlation_heatmap(features_all, save_path=save_path)

### Justificación del set de features seleccionado

TODO: Explicar qué features se seleccionan y por qué (alta correlación entre ventanas similares, etc.)

---
## 5. Estandarización y Preparación para Clustering

In [None]:
# TODO: Estandarizar features
# features_scaled, scaler = standardize_features(features_oliva)

---
## 6. Selección de K (Método del Codo y Silhouette)

In [None]:
# TODO: Evaluar rango de K
# eval_results = evaluate_k_range(features_scaled, k_range=range(2, 11))
# 
# save_path = f"{FIGURES_PATH}seleccion_k.png" if SAVE_FIGURES else None
# plot_elbow_silhouette(eval_results, save_path=save_path)

---
## 7. Entrenamiento K-Means y Asignación de Regímenes

In [None]:
# TODO: Entrenar K-Means con K seleccionado
# model_kmeans, labels_kmeans = fit_kmeans(features_scaled, k=K_REGIMES)

---
## 8. Análisis de Centroides

In [None]:
# TODO: Tabla de centroides
# centroids_df = pd.DataFrame(
#     model_kmeans.cluster_centers_,
#     columns=features_scaled.columns,
#     index=[REGIME_NAMES[i] for i in range(K_REGIMES)]
# )
# centroids_df.round(2)

In [None]:
# TODO: Radar chart de centroides
# save_path = f"{FIGURES_PATH}centroides_radar.png" if SAVE_FIGURES else None
# plot_centroids_radar(model_kmeans.cluster_centers_, features_scaled.columns.tolist(), save_path=save_path)

---
## 9. Interpretación Económica de los Regímenes

In [None]:
# TODO: Estadísticas de retornos por régimen
# regime_stats = get_regime_statistics(df_train, labels_kmeans, k=K_REGIMES)
# regime_stats

### Interpretación

TODO: Describir cada régimen en términos económicos:
- **Régimen 0 (Bull Tranquilo):** ...
- **Régimen 1 (Bear Volátil):** ...
- **Régimen 2 (Neutro):** ...
- **Régimen 3 (Bull Volátil):** ...

---
## 10. Matriz de Transición

In [None]:
# TODO: Calcular matriz de transición
# trans_matrix = compute_transition_matrix(labels_kmeans, k=K_REGIMES)
# 
# trans_df = pd.DataFrame(
#     trans_matrix,
#     index=[REGIME_NAMES[i] for i in range(K_REGIMES)],
#     columns=[REGIME_NAMES[i] for i in range(K_REGIMES)]
# )
# trans_df.round(3)

In [None]:
# TODO: Visualizar como grafo
# save_path = f"{FIGURES_PATH}grafo_transiciones.png" if SAVE_FIGURES else None
# plot_transition_graph(trans_matrix, save_path=save_path)

---
## 11. Serie Temporal Coloreada por Régimen

In [None]:
# TODO: Visualizar serie temporal con colores
# save_path = f"{FIGURES_PATH}serie_temporal_regimenes.png" if SAVE_FIGURES else None
# plot_regime_timeseries(df_train, labels_kmeans, save_path=save_path)

---
## 12. Alternativa: Gaussian Mixture Models

In [None]:
# TODO: Entrenar GMM
# model_gmm, labels_gmm = fit_gmm(features_scaled, k=K_REGIMES)

In [None]:
# TODO: Comparar asignaciones K-Means vs GMM
# from sklearn.metrics import adjusted_rand_score
# ari = adjusted_rand_score(labels_kmeans, labels_gmm)
# print(f"Adjusted Rand Index (K-Means vs GMM): {ari:.3f}")

### Comparación de Momentos: GMM vs Datos Reales

TODO: Comparar media, varianza, skewness, kurtosis de cada componente GMM vs los datos asignados a ese régimen.

In [None]:
# TODO: Tabla comparativa de momentos

---
## 13. Conclusiones del Notebook 1

TODO: Resumir hallazgos principales:
- K óptimo encontrado
- Interpretación de regímenes
- Patrones en matriz de transición
- Diferencias K-Means vs GMM

**Siguiente notebook:** Análisis de limitaciones del modelo Markoviano.