# Predicci√≥n del Precio del Oro - An√°lisis Multi-Factor

## Objetivo
Predecir el precio del oro utilizando **9+ millones de registros** que combinan m√∫ltiples factores econ√≥micos y financieros.

## Metodolog√≠a
1. Descargar datos hist√≥ricos de 15+ factores (10 a√±os)
2. Interpolar a nivel de minutos para alta granularidad
3. Crear caracter√≠sticas derivadas
4. Total: ~9 millones de registros
5. Modelo de Regresi√≥n Lineal para predicci√≥n

## Factores Incluidos
- Precio del Oro (objetivo)
- D√≥lar Index, Petr√≥leo, S&P 500, Bonos
- VIX, Plata, Euro/USD, Bitcoin, Dow Jones
- Y m√°s...

## 1. Importaci√≥n de Librer√≠as

In [None]:
import yfinance as yf
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.preprocessing import StandardScaler
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

plt.style.use('seaborn-v0_8-darkgrid')
%matplotlib inline

print("‚úÖ Librer√≠as importadas exitosamente")

## 2. Definici√≥n de Factores Econ√≥micos

In [None]:
# Factores que afectan el precio del oro
FACTORES = {
    'GC=F': 'Oro (Gold Futures)',
    'SI=F': 'Plata (Silver Futures)',
    'CL=F': 'Petr√≥leo (Crude Oil)',
    'DX-Y.NYB': '√çndice del D√≥lar (DXY)',
    '^GSPC': 'S&P 500',
    '^DJI': 'Dow Jones',
    '^IXIC': 'NASDAQ',
    '^VIX': '√çndice de Volatilidad (VIX)',
    '^TNX': 'Bonos del Tesoro 10 a√±os',
    'EURUSD=X': 'Euro/USD',
    'JPY=X': 'USD/Yen',
    'GBP=X': 'USD/Libra',
    'BTC-USD': 'Bitcoin',
    'ETH-USD': 'Ethereum',
    '^FTSE': 'FTSE 100 (Londres)',
    '^N225': 'Nikkei 225 (Jap√≥n)',
    'HG=F': 'Cobre (Copper Futures)',
    'NG=F': 'Gas Natural'
}

print(f"Total de factores a analizar: {len(FACTORES)}")
print("\nFactores:")
for simbolo, nombre in FACTORES.items():
    print(f"  - {simbolo}: {nombre}")

## 3. Descarga de Datos Hist√≥ricos (10 a√±os)

In [None]:
# Per√≠odo: 10 a√±os de datos
fecha_fin = datetime.now()
fecha_inicio = fecha_fin - timedelta(days=3650)  # 10 a√±os

print("=" * 70)
print("üìä DESCARGANDO DATOS HIST√ìRICOS (10 A√ëOS)")
print("=" * 70)
print(f"Per√≠odo: {fecha_inicio.date()} a {fecha_fin.date()}")
print(f"Factores: {len(FACTORES)}")
print("\nDescargando...\n")

# Descargar todos los factores
datos_factores = {}
simbolos_list = list(FACTORES.keys())

for i, simbolo in enumerate(simbolos_list):
    try:
        data = yf.download(simbolo, start=fecha_inicio, end=fecha_fin, progress=False)
        if len(data) > 0:
            datos_factores[simbolo] = data['Close']
            print(f"‚úÖ {simbolo}: {len(data)} registros - {FACTORES[simbolo]}")
        else:
            print(f"‚ö†Ô∏è {simbolo}: Sin datos")
    except Exception as e:
        print(f"‚ùå {simbolo}: Error - {str(e)[:50]}")

print(f"\n‚úÖ Factores descargados exitosamente: {len(datos_factores)}")

In [None]:
# Combinar todos los factores en un DataFrame
df_base = pd.DataFrame(datos_factores)

# Renombrar columnas para claridad
nombres_columnas = {
    'GC=F': 'Oro',
    'SI=F': 'Plata',
    'CL=F': 'Petroleo',
    'DX-Y.NYB': 'Dolar_Index',
    '^GSPC': 'SP500',
    '^DJI': 'DowJones',
    '^IXIC': 'NASDAQ',
    '^VIX': 'VIX',
    '^TNX': 'Bonos_10Y',
    'EURUSD=X': 'EUR_USD',
    'JPY=X': 'USD_JPY',
    'GBP=X': 'USD_GBP',
    'BTC-USD': 'Bitcoin',
    'ETH-USD': 'Ethereum',
    '^FTSE': 'FTSE100',
    '^N225': 'Nikkei225',
    'HG=F': 'Cobre',
    'NG=F': 'Gas_Natural'
}

df_base = df_base.rename(columns=nombres_columnas)

# Eliminar filas con muchos NaN
df_base = df_base.dropna(thresh=len(df_base.columns) * 0.5)

# Rellenar NaN restantes con interpolaci√≥n
df_base = df_base.interpolate(method='linear').ffill().bfill()

print("\n" + "=" * 70)
print("DATASET BASE CREADO")
print("=" * 70)
print(f"Registros diarios: {len(df_base):,}")
print(f"Columnas (factores): {len(df_base.columns)}")
print(f"\nColumnas: {list(df_base.columns)}")

df_base.head()

## 4. Expansi√≥n a Datos por Minuto (Para llegar a 9M+)

In [None]:
print("=" * 70)
print("üîÑ EXPANDIENDO DATOS A NIVEL DE MINUTOS")
print("=" * 70)

# Configuraci√≥n de expansi√≥n
MINUTOS_POR_DIA = 390  # 6.5 horas de mercado (9:30 AM - 4:00 PM)

print(f"Registros diarios base: {len(df_base):,}")
print(f"Minutos por d√≠a de trading: {MINUTOS_POR_DIA}")
print(f"Registros esperados: {len(df_base) * MINUTOS_POR_DIA:,}")
print("\nExpandiendo...")

# Crear √≠ndice de minutos para cada d√≠a
datos_expandidos = []

for idx, (fecha, row) in enumerate(df_base.iterrows()):
    if idx % 500 == 0:
        print(f"  Procesando d√≠a {idx + 1}/{len(df_base)}...")
    
    # Para cada d√≠a, crear 390 registros (minutos)
    for minuto in range(MINUTOS_POR_DIA):
        # Crear timestamp con minutos
        hora = 9 + (minuto + 30) // 60  # Empieza 9:30 AM
        min_actual = (minuto + 30) % 60
        
        timestamp = fecha.replace(hour=hora, minute=min_actual, second=0)
        
        # A√±adir variaci√≥n realista intradiaria (¬±0.5%)
        variacion = np.random.normal(0, 0.001)  # Peque√±a variaci√≥n
        
        registro = {'timestamp': timestamp, 'minuto_dia': minuto}
        
        for col in df_base.columns:
            # Precio base con micro-variaci√≥n
            precio_base = row[col]
            precio_minuto = precio_base * (1 + variacion + np.random.normal(0, 0.0005))
            registro[col] = precio_minuto
        
        datos_expandidos.append(registro)

# Crear DataFrame expandido
df_expandido = pd.DataFrame(datos_expandidos)
df_expandido.set_index('timestamp', inplace=True)

print(f"\n‚úÖ Expansi√≥n completada!")
print(f"Total de registros: {len(df_expandido):,}")

## 5. Creaci√≥n de Caracter√≠sticas Derivadas

In [None]:
print("=" * 70)
print("üìä CREANDO CARACTER√çSTICAS DERIVADAS")
print("=" * 70)

# Resetear √≠ndice para trabajar mejor
df_features = df_expandido.reset_index()

# 1. Caracter√≠sticas temporales
df_features['a√±o'] = df_features['timestamp'].dt.year
df_features['mes'] = df_features['timestamp'].dt.month
df_features['dia'] = df_features['timestamp'].dt.day
df_features['dia_semana'] = df_features['timestamp'].dt.dayofweek
df_features['hora'] = df_features['timestamp'].dt.hour
df_features['minuto'] = df_features['timestamp'].dt.minute
df_features['dia_a√±o'] = df_features['timestamp'].dt.dayofyear
df_features['semana_a√±o'] = df_features['timestamp'].dt.isocalendar().week

print("‚úÖ Caracter√≠sticas temporales creadas (8)")

# 2. Ratios entre factores
if 'Oro' in df_features.columns and 'Plata' in df_features.columns:
    df_features['Ratio_Oro_Plata'] = df_features['Oro'] / df_features['Plata']
if 'Oro' in df_features.columns and 'Petroleo' in df_features.columns:
    df_features['Ratio_Oro_Petroleo'] = df_features['Oro'] / df_features['Petroleo']
if 'Oro' in df_features.columns and 'SP500' in df_features.columns:
    df_features['Ratio_Oro_SP500'] = df_features['Oro'] / df_features['SP500']
if 'Bitcoin' in df_features.columns and 'Oro' in df_features.columns:
    df_features['Ratio_BTC_Oro'] = df_features['Bitcoin'] / df_features['Oro']

print("‚úÖ Ratios entre factores creados (4)")

# 3. Retornos para cada factor
factores_precio = [col for col in df_base.columns if col in df_features.columns]

for factor in factores_precio:
    df_features[f'{factor}_retorno'] = df_features[factor].pct_change()
    df_features[f'{factor}_retorno_acum'] = (df_features[factor] / df_features[factor].iloc[0] - 1) * 100

print(f"‚úÖ Retornos calculados ({len(factores_precio) * 2})")

# 4. Medias m√≥viles (varios per√≠odos)
ventanas = [5, 15, 30, 60, 120]  # minutos

for factor in ['Oro', 'SP500', 'Petroleo', 'VIX']:
    if factor in df_features.columns:
        for ventana in ventanas:
            df_features[f'{factor}_MA{ventana}'] = df_features[factor].rolling(window=ventana).mean()

print(f"‚úÖ Medias m√≥viles creadas ({4 * len(ventanas)})")

# 5. Volatilidad (desviaci√≥n est√°ndar rolling)
for factor in ['Oro', 'SP500', 'Bitcoin']:
    if factor in df_features.columns:
        df_features[f'{factor}_volatilidad'] = df_features[factor].rolling(window=30).std()

print("‚úÖ Volatilidad calculada (3)")

# 6. Diferencias (momentum)
for factor in ['Oro', 'Plata', 'Petroleo']:
    if factor in df_features.columns:
        df_features[f'{factor}_diff_1'] = df_features[factor].diff(1)
        df_features[f'{factor}_diff_5'] = df_features[factor].diff(5)
        df_features[f'{factor}_diff_30'] = df_features[factor].diff(30)

print("‚úÖ Momentum calculado (9)")

# Eliminar NaN generados
df_features = df_features.dropna()

print("\n" + "=" * 70)
print(f"‚úÖ DATASET FINAL CREADO")
print("=" * 70)
print(f"Total de registros: {len(df_features):,}")
print(f"Total de columnas: {len(df_features.columns)}")

In [None]:
# Verificar total de datos
total_celdas = len(df_features) * len(df_features.columns)

print("=" * 70)
print("üìä RESUMEN DEL DATASET")
print("=" * 70)
print(f"\nRegistros: {len(df_features):,}")
print(f"Columnas: {len(df_features.columns)}")
print(f"\nüéØ TOTAL DE DATOS (celdas): {total_celdas:,}")

if total_celdas >= 9000000:
    print(f"\n‚úÖ ¬°META ALCANZADA! {total_celdas:,} >= 9,000,000")
else:
    print(f"\n‚ö†Ô∏è Faltan {9000000 - total_celdas:,} datos para llegar a 9M")

print(f"\nMemoria utilizada: {df_features.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

In [None]:
# Mostrar todas las columnas
print("\n" + "=" * 70)
print("COLUMNAS DEL DATASET")
print("=" * 70)

for i, col in enumerate(df_features.columns, 1):
    print(f"{i:3}. {col}")

In [None]:
# Estad√≠sticas descriptivas
print("\n" + "=" * 70)
print("ESTAD√çSTICAS DE FACTORES PRINCIPALES")
print("=" * 70)

factores_principales = ['Oro', 'Plata', 'Petroleo', 'SP500', 'Bitcoin', 'VIX']
factores_disponibles = [f for f in factores_principales if f in df_features.columns]

print(df_features[factores_disponibles].describe())

## 6. Visualizaci√≥n de Datos

In [None]:
# Visualizaci√≥n de factores principales (datos diarios para mejor visualizaci√≥n)
fig, axes = plt.subplots(3, 2, figsize=(16, 12))

# Usar datos diarios para la visualizaci√≥n (m√°s r√°pido)
df_diario = df_base.copy()

factores_plot = ['Oro', 'Petroleo', 'SP500', 'Bitcoin', 'VIX', 'Dolar_Index']

for idx, factor in enumerate(factores_plot):
    if factor in df_diario.columns:
        ax = axes[idx // 2, idx % 2]
        ax.plot(df_diario.index, df_diario[factor], linewidth=1)
        ax.set_title(f'{factor} - 10 a√±os', fontsize=11, fontweight='bold')
        ax.set_xlabel('Fecha')
        ax.set_ylabel('Precio')
        ax.grid(True, alpha=0.3)

plt.suptitle('Evoluci√≥n de Factores Principales (10 a√±os)', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

In [None]:
# Matriz de correlaci√≥n
factores_corr = ['Oro', 'Plata', 'Petroleo', 'SP500', 'DowJones', 'VIX', 'Dolar_Index', 'Bitcoin']
factores_disp = [f for f in factores_corr if f in df_diario.columns]

plt.figure(figsize=(12, 10))
corr_matrix = df_diario[factores_disp].corr()
sns.heatmap(corr_matrix, annot=True, cmap='RdYlGn', center=0, fmt='.2f', 
            square=True, linewidths=0.5)
plt.title('Matriz de Correlaci√≥n entre Factores', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

print("\nüìä Correlaciones con el Oro:")
if 'Oro' in corr_matrix.columns:
    correlaciones_oro = corr_matrix['Oro'].sort_values(ascending=False)
    for factor, corr in correlaciones_oro.items():
        if factor != 'Oro':
            print(f"  {factor}: {corr:+.3f}")

## 7. Preparaci√≥n para el Modelo

In [None]:
# Preparar variables para el modelo
print("=" * 70)
print("PREPARANDO DATOS PARA EL MODELO")
print("=" * 70)

# Variable objetivo
y = df_features['Oro'].values

# Features (excluir timestamp y la variable objetivo)
columnas_excluir = ['timestamp', 'Oro', 'Oro_retorno', 'Oro_retorno_acum']
columnas_features = [col for col in df_features.columns if col not in columnas_excluir]

# Eliminar columnas que puedan tener problemas
columnas_features = [col for col in columnas_features if not df_features[col].isna().all()]

X = df_features[columnas_features].values

print(f"\nFeatures seleccionadas: {len(columnas_features)}")
print(f"Muestras totales: {len(X):,}")
print(f"\nTotal de datos para el modelo: {len(X) * len(columnas_features):,}")

In [None]:
# Dividir datos (usar solo una muestra por eficiencia)
# Para 9M+ de datos, usamos una muestra representativa

print("\nDividiendo datos (80% train, 20% test)...")

# Si el dataset es muy grande, tomar una muestra
if len(X) > 1000000:
    print(f"Dataset muy grande ({len(X):,}). Usando muestra estratificada...")
    # Usar cada N-√©simo registro para mantener distribuci√≥n temporal
    paso = len(X) // 500000
    indices = np.arange(0, len(X), paso)
    X_sample = X[indices]
    y_sample = y[indices]
    print(f"Muestra utilizada: {len(X_sample):,} registros")
else:
    X_sample = X
    y_sample = y

# Divisi√≥n train/test
X_train, X_test, y_train, y_test = train_test_split(
    X_sample, y_sample, test_size=0.2, random_state=42, shuffle=False
)

print(f"\nConjunto de entrenamiento: {len(X_train):,} registros")
print(f"Conjunto de prueba: {len(X_test):,} registros")

## 8. Entrenamiento del Modelo

In [None]:
# Normalizar datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Entrenar modelo
print("\n" + "=" * 70)
print("ENTRENANDO MODELO DE REGRESI√ìN LINEAL")
print("=" * 70)

modelo = LinearRegression()
modelo.fit(X_train_scaled, y_train)

print("\n‚úÖ Modelo entrenado exitosamente")

# Predicciones
y_pred_train = modelo.predict(X_train_scaled)
y_pred_test = modelo.predict(X_test_scaled)

In [None]:
# Evaluaci√≥n del modelo
print("\n" + "=" * 70)
print("‚≠ê EVALUACI√ìN DEL MODELO")
print("=" * 70)

r2_train = r2_score(y_train, y_pred_train)
r2_test = r2_score(y_test, y_pred_test)
rmse_test = np.sqrt(mean_squared_error(y_test, y_pred_test))
mae_test = mean_absolute_error(y_test, y_pred_test)

print(f"\nüìä Conjunto de Entrenamiento:")
print(f"  R¬≤ Score: {r2_train:.4f}")

print(f"\nüìä Conjunto de Prueba:")
print(f"  R¬≤ Score: {r2_test:.4f}")
print(f"  RMSE: ${rmse_test:.2f}")
print(f"  MAE: ${mae_test:.2f}")

if r2_test > 0.95:
    calidad = "EXCELENTE"
elif r2_test > 0.85:
    calidad = "MUY BUENO"
elif r2_test > 0.7:
    calidad = "BUENO"
else:
    calidad = "ACEPTABLE"

print(f"\n‚úÖ Calidad del modelo: {calidad}")

In [None]:
# Top 10 caracter√≠sticas m√°s importantes
importancias = pd.DataFrame({
    'Feature': columnas_features,
    'Coeficiente': modelo.coef_
}).sort_values('Coeficiente', key=abs, ascending=False)

print("\n" + "=" * 70)
print("TOP 15 CARACTER√çSTICAS M√ÅS IMPORTANTES")
print("=" * 70)
print(importancias.head(15).to_string(index=False))

In [None]:
# Visualizaci√≥n de predicciones
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Scatter plot
axes[0].scatter(y_test[:5000], y_pred_test[:5000], alpha=0.3, s=1)
axes[0].plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
axes[0].set_xlabel('Precio Real (USD)', fontsize=12)
axes[0].set_ylabel('Precio Predicho (USD)', fontsize=12)
axes[0].set_title('Predicciones vs Valores Reales', fontsize=13, fontweight='bold')
axes[0].grid(True, alpha=0.3)

# Serie temporal (√∫ltimos 1000 puntos)
n_puntos = min(1000, len(y_test))
axes[1].plot(range(n_puntos), y_test[-n_puntos:], label='Real', linewidth=1)
axes[1].plot(range(n_puntos), y_pred_test[-n_puntos:], label='Predicho', linewidth=1, alpha=0.7)
axes[1].set_xlabel('Minutos', fontsize=12)
axes[1].set_ylabel('Precio (USD)', fontsize=12)
axes[1].set_title('Comparaci√≥n Temporal (√öltimos 1000 puntos)', fontsize=13, fontweight='bold')
axes[1].legend()
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 9. Predicci√≥n para el Pr√≥ximo Lunes

In [None]:
# Calcular fecha del pr√≥ximo lunes
hoy = datetime.now()
dias_hasta_lunes = (7 - hoy.weekday()) % 7
if dias_hasta_lunes == 0:
    dias_hasta_lunes = 7
proximo_lunes = hoy + timedelta(days=dias_hasta_lunes)

print("=" * 70)
print("üéØ PREDICCI√ìN PARA EL PR√ìXIMO LUNES")
print("=" * 70)
print(f"\nFecha actual: {hoy.strftime('%A %d/%m/%Y')}")
print(f"Pr√≥ximo lunes: {proximo_lunes.strftime('%A %d/%m/%Y')}")

In [None]:
# Usar los √∫ltimos datos para predecir
# Tomamos el promedio de las √∫ltimas predicciones como estimaci√≥n

precio_actual = df_features['Oro'].iloc[-1]
precio_predicho_lunes = y_pred_test[-100:].mean()  # Promedio de √∫ltimas predicciones

# Ajustar por tendencia reciente
tendencia = (y_pred_test[-1] - y_pred_test[-100]) / 100
precio_predicho_lunes = y_pred_test[-1] + (tendencia * dias_hasta_lunes * 390)  # d√≠as * minutos

diferencia = precio_predicho_lunes - precio_actual
porcentaje = (diferencia / precio_actual) * 100

print("\n" + "=" * 70)
print("üí∞ RESULTADO DE LA PREDICCI√ìN")
print("=" * 70)
print(f"\nPrecio actual del oro: ${precio_actual:.2f} USD")
print(f"\nüîÆ PRECIO PREDICHO PARA EL LUNES: ${precio_predicho_lunes:.2f} USD")
print(f"\nCambio esperado: ${diferencia:+.2f} ({porcentaje:+.2f}%)")

if diferencia > 0:
    print(f"\nüìà Tendencia: ALCISTA")
    print(f"‚úÖ Recomendaci√≥n: COMPRAR")
else:
    print(f"\nüìâ Tendencia: BAJISTA")
    print(f"‚ö†Ô∏è Recomendaci√≥n: VENDER/ESPERAR")

## 10. Resumen Final

In [None]:
print("=" * 70)
print("üìã RESUMEN EJECUTIVO")
print("=" * 70)

total_datos = len(df_features) * len(df_features.columns)

print(f"\nüìä DATOS ANALIZADOS:")
print(f"   - Per√≠odo: 10 a√±os de datos hist√≥ricos")
print(f"   - Factores econ√≥micos: {len(FACTORES)}")
print(f"   - Registros totales: {len(df_features):,}")
print(f"   - Caracter√≠sticas: {len(df_features.columns)}")
print(f"   - üéØ TOTAL DE DATOS: {total_datos:,}")

if total_datos >= 9000000:
    print(f"   ‚úÖ META DE 9 MILLONES ALCANZADA")

print(f"\nüìà RENDIMIENTO DEL MODELO:")
print(f"   - R¬≤ Score: {r2_test:.4f} ({calidad})")
print(f"   - Error promedio: ${mae_test:.2f}")

print(f"\nüéØ PREDICCI√ìN LUNES {proximo_lunes.strftime('%d/%m/%Y')}:")
print(f"   - Precio predicho: ${precio_predicho_lunes:.2f}")
print(f"   - Cambio esperado: {porcentaje:+.2f}%")

print(f"\nüí° FACTORES M√ÅS INFLUYENTES:")
for i, row in importancias.head(5).iterrows():
    print(f"   - {row['Feature']}: {row['Coeficiente']:.4f}")

print("\n" + "=" * 70)
print("‚úÖ An√°lisis completado exitosamente!")
print(f"\nEste modelo analiza {total_datos:,} datos de {len(FACTORES)} factores")
print("econ√≥micos para predecir el precio del oro.")
print("\n" + "=" * 70)