# **Trabajo de Fin de Grado**
## **Predicci√≥n del Precio del Oro mediante Modelos de Aprendizaje Autom√°tico**

**Autor:** Sebasti√°n Malbaceda Leyva
**Tutor:** Alberto Rubio
**Grado en Ingenier√≠a Inform√°tica ‚Äì Universitat Aut√≤noma de Barcelona**
**Campus Bellaterra, Septiembre 2025**

---

## **Descripci√≥n General del Proyecto**

El presente **Trabajo de Fin de Grado (TFG)** tiene como prop√≥sito el dise√±o e implementaci√≥n de un **sistema predictivo del precio del oro a corto plazo**, empleando t√©cnicas de **Machine Learning (ML)** y **an√°lisis de series temporales**.

El proyecto se enmarca en la l√≠nea de *modelizaci√≥n financiera* y an√°lisis cuantitativo de activos, buscando **comparar la eficacia de distintos modelos predictivos** ‚Äîlineales, basados en √°rboles y estad√≠sticos cl√°sicos‚Äî para determinar su viabilidad, precisi√≥n y robustez en el contexto del mercado del oro.

Hist√≥ricamente, el oro ha sido considerado un **activo refugio**, especialmente en per√≠odos de inestabilidad econ√≥mica o pol√≠tica. Sin embargo, su valor est√° condicionado por una gran cantidad de factores interrelacionados, como la **pol√≠tica monetaria**, las **expectativas de inflaci√≥n**, la **fortaleza del d√≥lar estadounidense**, el **comportamiento de los mercados burs√°tiles** y los **indicadores de riesgo global**.

Predecir su precio representa, por tanto, un reto de gran complejidad anal√≠tica:
- Es un activo **altamente vol√°til**, afectado por variables de distinta naturaleza y frecuencia temporal.
- Combina **movimientos especulativos de corto plazo** con **factores macroecon√≥micos estructurales**.
- Requiere integrar datos **heterog√©neos y multiescalares** (diarios, mensuales, anuales).

Este TFG busca abordar esa complejidad construyendo un pipeline reproducible de *Machine Learning* que permita **capturar relaciones causales y patrones din√°micos**, generando una herramienta predictiva aplicable a la toma de decisiones en el √°mbito financiero.

---

## **Estructura del Proyecto**

El desarrollo del proyecto se organiza en siete etapas principales:

1. **Definici√≥n del problema y recopilaci√≥n de datos.**
2. **Preprocesamiento y armonizaci√≥n temporal de las series.**
3. **An√°lisis exploratorio (EDA) y selecci√≥n de caracter√≠sticas.**
4. **Ingenier√≠a de caracter√≠sticas (Feature Engineering).**
5. **Entrenamiento de modelos predictivos.**
6. **Evaluaci√≥n y validaci√≥n temporal.**
7. **Interpretabilidad de resultados y conclusiones.**

---

# **1) Definici√≥n del Problema y Datos**

---

## üéØ **Contexto del Problema**

El objetivo principal de este trabajo es **predecir el precio spot del oro (XAU/USD)** utilizando t√©cnicas de *Machine Learning* y *series temporales multivariadas*.
El sistema propuesto debe ser capaz de **estimar movimientos futuros del oro a corto plazo**, integrando informaci√≥n de los mercados financieros, variables macroecon√≥micas y factores de sentimiento global.

El precio del oro se ve afectado por una amplia gama de determinantes:

- **Pol√≠tica monetaria y tasas de inter√©s** (FED Funds Rate, rendimientos de bonos).
- **√çndice del d√≥lar (DXY)** y otros tipos de cambio.
- **Indicadores burs√°tiles** (S&P 500, VIX, √≠ndices de commodities).
- **Variables macroecon√≥micas** (PIB, inflaci√≥n, desempleo, oferta monetaria).
- **Flujos de inversi√≥n** en ETFs y posiciones en futuros (CFTC, SPDR Gold Shares).
- **Riesgo e incertidumbre geopol√≠tica** (EPU, GPR).
- **Factores sociales y de comportamiento** (Google Trends, confianza del consumidor).

Por la naturaleza del activo, el proyecto se clasifica como un **problema de regresi√≥n de series temporales**, donde el objetivo es predecir un valor num√©rico continuo en funci√≥n de un conjunto amplio de variables hist√≥ricas y ex√≥genas.

---

## üìÇ **Datos Utilizados**

Durante la fase inicial se recolectaron **m√°s de 60 variables v√°lidas**, verificadas y documentadas, provenientes de fuentes oficiales y plataformas financieras reconocidas.
Estas variables representan una visi√≥n completa del entorno econ√≥mico, financiero y de mercado del oro.

### üî∏ Principales categor√≠as y ejemplos de variables

| Categor√≠a | Ejemplos de Variables | Fuente | Frecuencia |
|------------|----------------------|---------|-------------|
| **Precio del Oro (Target)** | Oro spot (XAU/USD), Oro futuros (GCZ5) | Investing.com | Diaria |
| **Metales Preciosos** | Plata (XAG/USD), Platino (XPT/USD), Paladio (XPD/USD), Cobre (PCOPPUSDM) | FRED / Investing | Diaria / Mensual |
| **√çndices Financieros** | S&P 500, DXY, VIX, CRB, Bloomberg Commodity Index | FRED / Investing | Diaria |
| **Energ√≠a y Materias Primas** | WTI, Brent (spot y futuros) | FRED / Investing | Diaria |
| **Macroeconom√≠a** | Inflaci√≥n (CPI), PIB, M2, Producci√≥n Industrial, Desempleo, Ventas minoristas | FRED | Mensual / Trimestral |
| **Bonos y Tasas de Inter√©s** | DGS2, DGS10, T10YIE, DFII10 (TIPS), Credit Spread | FRED | Diaria |
| **Riesgo Global** | EPU, GPR, Financial Stress Index | policyuncertainty.com / Matteo Iacoviello / FRED | Diaria / Semanal |
| **Sentimiento del Consumidor** | UMCSENT, CCI, Google Trends ‚ÄúGold‚Äù | FRED / OECD / Google Trends | Mensual |
| **Flujos e Inversi√≥n** | ETF holdings (GLD), posiciones CFTC, balance de la FED | SPDR / CFTC / FRED | Diaria / Semanal |
| **Divisas y Criptoactivos** | USD/CNY, EUR/USD, USD/JPY, Bitcoin | Investing / FRED | Diaria |

El conjunto final se organiza en tres niveles de frecuencia:
- **‚âà40 variables diarias**
- **‚âà13 variables mensuales**
- **1 variable anual (d√©ficit fiscal)**

---

## üßÆ **Preprocesamiento de los Datos**

Dada la naturaleza heterog√©nea de las fuentes, fue necesario aplicar un proceso de **armonizaci√≥n temporal, imputaci√≥n y normalizaci√≥n** antes del an√°lisis exploratorio y modelado.

### üîπ Pasos principales

1. **Conversi√≥n de frecuencias:**
   Todas las series se alinearon en una misma escala temporal (diaria), manteniendo la coherencia temporal mediante:
   - *Forward-fill* para series diarias.
   - *Interpolaci√≥n lineal* o spline para series mensuales, trimestrales y anuales.

2. **Tratamiento de valores faltantes:**
   Aplicaci√≥n de m√©todos de imputaci√≥n dependientes de la naturaleza de cada serie, y creaci√≥n de indicadores binarios en casos relevantes (*missingness informative*).

3. **Normalizaci√≥n y escalado:**
   Uso de `StandardScaler` o `RobustScaler` para asegurar comparabilidad entre magnitudes.

4. **Control de colinealidad:**
   Evaluaci√≥n mediante correlaciones de Pearson/Spearman y **Variance Inflation Factor (VIF)**, eliminando redundancias o combinando variables.

5. **Homogeneizaci√≥n de unidades y formatos:**
   Conversi√≥n de todas las magnitudes a d√≥lares estadounidenses (USD) y ajuste de porcentajes, rendimientos y tasas.

6. **Consolidaci√≥n final:**
   Obtenci√≥n de un **dataset multivariado limpio, sincronizado y sin valores nulos**, preparado para el EDA y el modelado.

---

## üéØ **Objetivo del Modelo**

El objetivo del modelo es **predecir el precio spot del oro a corto plazo** (1‚Äì5 d√≠as), integrando variables hist√≥ricas del propio oro y determinantes externos.
El enfoque busca capturar tanto relaciones lineales como no lineales y medir la influencia relativa de cada grupo de factores.

### Tipo de problema
- **Regresi√≥n supervisada multivariante de series temporales.**

### Variable objetivo (Target)
- `gold_spot` ‚Äî precio spot del oro (USD/oz).

### M√©tricas de evaluaci√≥n
- **RMSE (Root Mean Squared Error)**: penaliza errores grandes.
- **MAE (Mean Absolute Error)**: magnitud media del error en unidades monetarias.
- **R¬≤ (Coeficiente de determinaci√≥n)**: porcentaje de varianza explicada.

### Validaci√≥n
- **Cross-validation temporal (TimeSeriesSplit)** para evaluar el rendimiento a lo largo del tiempo, evitando *data leakage*.

---

## ‚öôÔ∏è **Metodolog√≠a General y Gu√≠a de Trabajo**

El pipeline metodol√≥gico adoptado sigue una estructura coherente con las mejores pr√°cticas de la ciencia de datos moderna (seg√∫n la *Gu√≠a Definitiva ML*):

1. **Obtenci√≥n de datos** ‚Äî consolidaci√≥n de fuentes externas (FRED, Investing, WGC, CFTC, SPDR).
2. **Preprocesamiento** ‚Äî imputaci√≥n, limpieza y homogeneizaci√≥n temporal.
3. **Selecci√≥n de caracter√≠sticas** ‚Äî combinaci√≥n de m√©todos univariados y multivariados:
   - Correlaciones (Pearson/Spearman).
   - Informaci√≥n mutua y F-test.
   - Importancia de √°rboles (Random Forest, XGBoost).
   - Reducci√≥n de dimensionalidad con PCA.
   - C√°lculo de VIF para multicolinealidad.
4. **Feature Engineering temporal** ‚Äî creaci√≥n de variables derivadas:
   - Lags, medias m√≥viles, volatilidad, retornos logar√≠tmicos.
   - Variables estacionales (d√≠a, mes).
   - Indicadores t√©cnicos derivados (RSI, curva 10Y‚àí2Y).
5. **Modelado** ‚Äî comparaci√≥n de modelos:
   - *Lineales:* Regresi√≥n, Ridge, Lasso.
   - *Basados en √°rboles:* RandomForest, XGBoost, LightGBM, CatBoost.
   - *Series temporales:* ARIMA, SARIMA.
6. **Evaluaci√≥n y validaci√≥n temporal:**
   MSE, RMSE, MAE, an√°lisis de tendencia y direccionalidad.
7. **Interpretabilidad:**
   SHAP values, permutation importance, an√°lisis de sensibilidad.

---

## üåç **Fuentes de los Datos**

| Fuente | Descripci√≥n | Enlace |
|--------|--------------|--------|
| FRED (Federal Reserve Economic Data) | Datos macroecon√≥micos y financieros (PIB, inflaci√≥n, tasas, producci√≥n industrial, empleo). | https://fred.stlouisfed.org |
| Investing.com | Precios spot y futuros de metales, √≠ndices, commodities y divisas. | https://www.investing.com |
| World Gold Council (WGC) | Datos estructurales sobre demanda, reservas y oferta de oro. | https://www.gold.org |
| CFTC (Commitments of Traders Reports) | Posiciones netas de traders en los mercados de futuros. | https://www.cftc.gov/MarketReports |
| SPDR Gold Shares (ETF GLD) | Flujos de ETFs respaldados por oro f√≠sico. | https://www.spdrgoldshares.com |
| Economic Policy Uncertainty Index (EPU) | Nivel de incertidumbre econ√≥mica global. | https://www.policyuncertainty.com |
| Geopolitical Risk Index (GPR) | Medici√≥n del riesgo geopol√≠tico mundial. | https://www.matteoiacoviello.com/gpr.htm |
| Google Trends | Inter√©s de b√∫squeda del t√©rmino ‚ÄúGold‚Äù. | https://trends.google.com |

---

## üìö **Conclusi√≥n del Punto 1**

En este primer bloque se ha establecido el **contexto, los objetivos y la base de datos del proyecto**.
El oro, como activo multifactorial, requiere un tratamiento anal√≠tico riguroso y la integraci√≥n de fuentes heterog√©neas de informaci√≥n.
El conjunto de datos recolectado y preprocesado constituir√° el punto de partida para el **An√°lisis Exploratorio de Datos (EDA)**, donde se identificar√°n patrones, correlaciones y variables clave antes del entrenamiento de los modelos predictivos.

---

> üí° **A continuaci√≥n:**
> Se proceder√° con el **EDA (Etapa 2)**, donde se analizar√°n las distribuciones, correlaciones y relaciones entre variables utilizando herramientas visuales y estad√≠sticas avanzadas.
