# Análisis Exploratorio y Correlacional entre el Precio del Oro y el Índice S&P 500  
### Proyecto de Ciencia de Datos  
### Equipo DJI  


## 1. Introducción

El análisis de series financieras es fundamental para comprender la relación entre distintos activos y evaluar su comportamiento en escenarios de volatilidad. El oro (Gold) y el índice S&P 500 representan dos clases de activos relevantes para inversionistas, instituciones y analistas: uno es considerado activo refugio, mientras que el otro es un indicador del rendimiento del mercado accionario estadounidense.

### Contexto

El oro históricamente ha funcionado como **activo de protección** ante caídas bursátiles, mientras que el S&P 500 refleja el comportamiento agregado de las 500 empresas más grandes de Estados Unidos. Analizar su relación permite:

- Identificar comportamientos defensivos del oro.
- Explorar si existe una correlación estable o variable a lo largo del tiempo.
- Detectar patrones de riesgo o *hedging*.

### Relevancia del problema

Este tipo de análisis es útil para:

- Estrategias de **diversificación de portafolios**.
- Evaluación de **riesgo sistémico**.
- Modelos futuros de predicción o cobertura.

### Alcance del proyecto

Este informe cubre:

- Descarga de datos financieros históricos (yfinance).
- Limpieza y estandarización.
- Generación de nuevas variables (*lags*).
- Análisis correlacional.
- Visualizaciones descriptivas.
- Dataset final listo para modelado futuro.
- Modelos predictivos.
- MLflow, pipelines o despliegue.
- API o interfaces gráficas.

### Resumen del dataset

- Fuente: **Yahoo Finance** vía yfinance.
- Activos analizados:
  - `GC=F` → Gold Futures.
  - `^GSPC` → S&P 500.
- Periodo descargado: ~5 años.
- Frecuencia: diaria.
- Variables principales: Open, High, Low, Close, Volume, Adj Close.


## 2. Antecedentes

Diversos estudios han analizado la relación entre activos refugio y mercados accionarios:

- Baur & Lucey (2010): el oro actúa como *hedge* y *safe haven* en crisis financieras.
- Ibrahim (2012): relación dinámica y dependiente del periodo entre oro y acciones.
- Hood & Malik (2013): el oro reduce riesgo en portafolios durante estrés económico.
- Estudios y artículos de finanzas de portafolio y diversificación basados en datos históricos.

**Brecha identificada**  
Este proyecto busca replicar y visualizar esta relación de manera práctica mediante un EDA claro y reproducible, preparando un dataset final para futuros modelos de predicción.


## 3. Objetivos

### Objetivo general

Analizar y comprender el comportamiento conjunto del precio del oro y el índice S&P 500 mediante un análisis exploratorio y correlacional basado en series de tiempo financieras.

### Objetivos específicos

1. Descargar y procesar datos históricos con herramientas reproducibles (`yfinance`, `pandas`).
2. Realizar un EDA completo para detectar patrones, tendencias y puntos atípicos.
3. Evaluar la correlación entre ambos activos y su evolución temporal.
4. Generar un dataset limpio con variables transformadas y *lags* para modelado futuro.

### Criterios de éxito

- Dataset limpio sin valores faltantes.
- EDA con gráficas relevantes y hallazgos claros.
- Análisis de correlación correctamente interpretado.
- Archivo final con *lags* para uso posterior en series de tiempo.

### Riesgos

- Ventanas con valores faltantes por días sin trading.
- Correlaciones inestables a lo largo del tiempo.
- Alta volatilidad en ambos activos.

## 4. Planteamiento del problema

### Pregunta central

¿Existe una correlación significativa y estable entre el precio del oro y el índice S&P 500 en el periodo analizado?

### Variables clave

- **Entradas**: precios históricos de Oro y S&P 500.
- **Salida**: proyecto no predictivo.
- **Auxiliares**: *lags*, retornos diarios.

### Supuestos

- Los datos de Yahoo Finance son fiables.
- Los mercados operan en días similares para ambos activos.
- Las series requieren sincronización temporal.

### Impacto esperado

Comprensión de patrones que permitan:

- Análisis de portafolios.
- Evaluaciones de riesgo.
- Construcción futura de modelos predictivos.

### Riesgos

- Periodos donde la correlación cambia de signo.
- Pérdida de datos por fines de semana, feriados y horarios desalineados.

## 5. Análisis Exploratorio (EDA)

### Metodología aplicada
- Revisión de estructuras y tipos de datos.
- Gráficas de tendencia temporal.
- Distribuciones de precios y retornos.
- Cálculo y visualización de correlaciones.
- Análisis comparado entre ambas series.
- Identificación de *outliers* asociados a eventos económicos.

### Hallazgos clave

1. **Tendencias**  
   - El oro muestra una tendencia positiva más estable.
   - El S&P 500 presenta incrementos con episodios de alta volatilidad.

2. **Volatilidad**  
   - El S&P 500 es más volátil que el oro.
   - Se observan picos asociados a eventos macroeconómicos.

3. **Correlación inicial**  
   - La correlación global es moderada, pero no estable.
   - En ventanas específicas se observan periodos de correlación positiva y otros de relación inversa.

4. **Visualizaciones incluidas en `01_eda_inicial.ipynb`**  
   - Gráfico de líneas Oro vs S&P 500.
   - Gráficos de retornos diarios.
   - Diagramas de dispersión entre ambos activos.
   - Mapas de calor de correlaciones.

### Riesgos detectados
- Faltantes en fines de semana y días festivos bursátiles.
- Movimientos extremos que pueden sesgar medidas simples de correlación.


## 6. Data Wrangling

### Transformaciones aplicadas
- Descarga de datos con `yfinance` para ambos activos.
- Renombrado y selección de columnas relevantes.
- Sincronización temporal de las dos series (unión por fecha).
- Eliminación de valores nulos y filas incompletas.
- Cálculo de retornos (simples o logarítmicos) como variables más estables.
- Creación de variables rezagadas (*lags*) para series de tiempo, por ejemplo:
  - `lag_1`, `lag_2`, `lag_3`, `lag_5`, `lag_7`, `lag_14`, `lag_30`.

### Justificación
- Los *lags* permiten capturar memoria temporal para futuros modelos.
- Los retornos son más adecuados para análisis estadístico que los niveles de precio.
- La sincronización de fechas evita problemas de *data leakage* y comparaciones incorrectas.

### Evidencia antes/después
En `02_data_wrangling.ipynb` se muestra cómo cambia la estructura del dataset tras cada paso de limpieza y transformación (tablas de ejemplo y resúmenes de columnas).

### Resultado final
- **Dataset procesado**: limpio, alineado y con nuevas características.
- **Filas totales**: depende del rango final tras eliminar valores nulos y crear *lags*.
- **Formato final sugerido**: CSV o Parquet compatible con futuros modelos.



## 7. Carpeta src

Esta sección resume los componentes de backend y frontend que conforman la arquitectura del proyecto de predicción del precio del oro y relación con el S&P 500. Cada archivo se explica de forma individual, destacando su rol dentro del flujo completo del sistema.

### **Pipelines**

#### `train_pipeline.py`

Este archivo contiene el pipeline completo de **entrenamiento del modelo** encargado de predecir el precio del oro. Su objetivo es centralizar todo el flujo: cargar datos, procesarlos, entrenar, evaluar y registrar el modelo final.

#### Funcionalidades principales

##### 1. **Carga de Datos**
- Lee los archivos procesados de oro y del S&P 500.
- Los combina y sincroniza por fecha.
- Elimina valores faltantes y garantiza la integridad temporal.

##### 2. **Ingeniería de Características**
Utiliza funciones del módulo `preprocessing` para:
- Crear *lags* (lag1, lag2).
- Generar medias móviles (MA_5).
- Calcular volatilidad de 5 días.
- Crear retornos rezagados del S&P 500.
- Alinear todas las features con la fecha de predicción.

Este paso asegura consistencia entre entrenamiento y producción.

##### 3. **Escalamiento y División de Datos**
- Ajusta un `StandardScaler`.
- Divide en train y test respetando temporalidad (sin leakage).
- Guarda el scaler y las columnas de features como artefactos.

##### 4. **Entrenamiento del Modelo**
Dependiendo de los parámetros, este pipeline:
- Entrena modelos tipo **MLP**, **CNN**, **LSTM** o **GRU**.
- Define su arquitectura.
- Compila, ajusta y entrena con early stopping.
- Guarda métricas clave: MAE, RMSE, R².

##### 5. **Evaluación**
- Evalúa rendimiento sobre el conjunto de prueba.
- Guarda las predicciones y gráficos (opcional).
- Compara varios modelos si el pipeline se ejecuta en modo exploratorio.

##### 6. **Registro en MLflow**
- Registra:
  - El modelo final
  - Las métricas
  - El scaler
  - Las columnas de features
  - Metadata del modelo (tipo, fecha, hiperparámetros)
- Publica como modelo en **Databricks Model Registry**.

Este archivo es el **núcleo del entrenamiento automático** del proyecto y permite reproducir modelos de forma controlada y trazable.

### **Backend**

#### `Dockerfile`

Este archivo define la imagen Docker para el backend. Sus funciones principales son:

- Crear un entorno liviano basado en python:3.11-slim.

- Instalar dependencias del sistema necesarias para TensorFlow y otros paquetes.

- Copiar e instalar las dependencias indicadas en requirements.txt.

- Copiar el código del backend y los artefactos para inferencia (scaler, columnas de características, metadata).

- Establecer variables de entorno y PYTHONPATH.

- Exponer el puerto 8000, donde corre la API.

- Incluir un healthcheck automático para verificar si la API está activa.

- Ejecutar Uvicorn para servir la aplicación FastAPI.

Este contenedor empaqueta todo lo necesario para ejecutar la API de predicción.

#### `api.py`



Implementa la API REST usando FastAPI. Sus responsabilidades principales son:

**Endpoints**

- `/health` \
Verifica si el modelo, el scaler y las columnas de features fueron cargados correctamente.

- `/predict` \
Realiza todo el proceso de inferencia:

     1. Descarga datos recientes de oro y S&P 500 desde Yahoo Finance.

     2. Genera features del día más reciente.

     3. Escala las variables.

     4. Ajusta la forma según el tipo de modelo (MLP, CNN, LSTM).

     5. Devuelve la predicción del precio del oro para el día siguiente.

**Startup**

En el arranque del servidor, carga simultáneamente:

- El modelo "champion" desde Databricks Model Registry.

- El StandardScaler.

- Las columnas de features.

- Metadata del modelo (tipo, nombre, configuración).

**Modelos Pydantic**
Define:

- PredictionRequest

- PredictionResponse

- HealthResponse

Para garantizar estructura, validación y documentación automática.

Este archivo constituye el corazón del servicio de predicción.

#### `data_fetcher.py`

Contiene todas las funciones responsables de obtener datos en vivo desde Yahoo Finance.

**Funciones principales:**

- `fetch_recent_gold_prices()` \
    Descarga precios recientes del oro (“GC=F”) con columnas:

    - Date, Close, High, Low, Open, Volume

- `fetch_recent_sp500_prices()` \
    Descarga precios del S&P 500 (“^GSPC”) con columnas equivalentes.

- `fetch_live_data_for_prediction()` \
Llama ambas funciones y regresa un par (gold_df, sp500_df).

Incluye lógica para:

- Manejar días sin mercado (buffer de 10 días).

- Eliminar timezones.

- Ordenar por fecha.

- Validar que los datos no vengan vacíos.

Es el módulo que permite a la API trabajar con datos recientes y no estáticos.

#### `model_utils.py`

Utilidades para cargar modelos desde Databricks / MLflow Model Registry.

Funciones clave:

- `load_champion_model()` \
Carga la versión marcada como @champion en Unity Catalog.

- `load_model_by_version()` \
Carga un modelo especificando un número de versión.

- `load_model_by_alias()` \
Carga un modelo por alias (por ejemplo champion o challenger).

Estas funciones también configuran:

- `mlflow.set_tracking_uri("databricks")`

- `mlflow.set_registry_uri("databricks-uc")`

Este archivo desacopla completamente el backend del sistema de modelos, permitiendo reemplazar o versionar modelos sin modificar la API.

#### `preprocessing.py`

Contiene todas las funciones reutilizables de preprocesamiento, usadas tanto en entrenamiento como en inferencia (consistencia garantizada).

**Funcionalidades principales:** \
**1. Preparación de datos**

- `load_and_prepare_data()` \
Une los dataframes de oro y S&P 500, alineados por fecha.

**2. Ingeniería de características**

- `create_features()` \
Genera:

    - Lags de oro y SP500 (lag1, lag2)

    - Medias móviles de 5 días

    - Volatilidad 5D

    - Retornos del SP500 (lag)

Esta ingeniería replica exactamente la usada durante entrenamiento.

**3. Columnas de input del modelo**

- `get_feature_columns()` \
Devuelve solo las columnas usadas como features, excluyendo variables originales como `Close_gold`.

**4. Guardado y carga de artefactos**

- `save/load_scaler()`

- `save/load_feature_columns()`

- `save/load_model_metadata()`

Estos artefactos permiten que la API produzca inferencias consistentes con el pipeline de entrenamiento.

**5. Procesamiento para predicción**

- `prepare_features_for_prediction()` \
Aplica el pipeline completo a los datos más recientes:

    - Merge → Features → Filtrado → Scaling → Output ordenado

Devuelve:

- La matriz `X_scaled` lista para el modelo

- La fecha del último registro disponible

### **Frontend**

#### `app.py`

Este archivo implementa la **interfaz visual del proyecto**, generalmente construida con Streamlit. Permite que el usuario interactúe fácilmente con el modelo de predicción.

#### Funciones y componentes principales

##### 1. **Interfaz de Usuario**
- Presenta el título y la descripción del proyecto.
- Explica brevemente qué hace el modelo.
- Muestra diseño limpio con cards, botones y gráficos.

##### 2. **Llamada al Backend**
- Envía una solicitud `POST` al endpoint `/predict` del backend.
- Recibe:
  - Predicción del precio del oro del siguiente día.
  - Fecha utilizada para la predicción.
  - Tipo de modelo utilizado.
- Maneja errores en caso de que el backend esté caído.

##### 3. **Visualización de Resultados**
- Muestra la predicción en formato numérico.
- Presenta gráficos si se incluyen (por ejemplo: últimos precios del oro o tendencia reciente).
- Despliega un mensaje interpretativo (ej. “El modelo sugiere un precio mayor/menor”).

##### 4. **Estilo y Layout**
- Maneja columnas, contenedores y espaciado para que la presentación sea clara.
- Puede incluir:
  - Barra lateral con opciones.
  - Botón de “Obtener predicción”.
  - Un spinner mientras el backend responde.

##### 5. **Opciones Avanzadas (si están habilitadas)**
- Mostrar la metadata del modelo.
- Comparar diferentes modelos (champion vs challenger).
- Permitir escoger manualmente un modelo.

En resumen, este archivo provee la **capa interactiva** del sistema: el usuario final solo ve `app.py`, mientras todo el trabajo pesado lo hace el backend.

## 8. Conclusiones

- El oro y el S&P 500 muestran comportamientos distintos: el oro actúa como activo más defensivo, mientras que el S&P 500 refleja el apetito por riesgo y crecimiento.
- La correlación entre ambos no es constante; cambia según el periodo económico, con etapas donde se mueven en la misma dirección y otras donde se comportan de forma opuesta.
- Los picos de volatilidad del S&P 500 no siempre se replican en el oro, lo que refuerza su papel como activo refugio en contextos de incertidumbre.
- El dataset final generado permite avanzar hacia tareas más avanzadas como:
  - Modelos de predicción de precios o retornos.
  - Análisis de cointegración y relaciones de largo plazo.
  - Evaluación de estrategias de cobertura y diversificación de portafolios.

En resumen, este proyecto construye una base de datos sólida y un entendimiento exploratorio inicial que puede ser aprovechado en futuras etapas de modelado y toma de decisiones financieras.


## 9. Referencias

- Baur, D. G., & Lucey, B. M. (2010). *Is Gold a Hedge or a Safe Haven?* 
- Hood, M., & Malik, F. (2013). *Is gold the best hedge and a safe haven?* 
- Ibrahim, M. (2012). Estudios sobre riesgo financiero y oro.
- Yahoo Finance — https://finance.yahoo.com  
- Documentación de `yfinance` — https://pypi.org/project/yfinance/  
- Pandas User Guide — https://pandas.pydata.org/  
- Matplotlib documentation — https://matplotlib.org/  
