In [None]:
# ================================================================
# FET445 - Data Mining Project
# Proje Başlığı: Altın Fiyatları Tahmini (2004-2024)
# ================================================================

# 1. KÜTÜPHANELERİN YÜKLENMESİ
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Modelleme Kütüphaneleri
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import mean_squared_error, mean_absolute_error
from sklearn.ensemble import RandomForestRegressor 

In [None]:
# İstatistiksel Model (ARIMA için)
from statsmodels.tsa.arima.model import ARIMA
!pip install tensorflow

In [None]:
# Derin Öğrenme (LSTM için)
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense

import warnings
warnings.filterwarnings('ignore')

In [None]:
# ================================================================
# 2. VERİ YÜKLEME VE HAZIRLIK
# ================================================================

# Veriyi okuma (Dosya adını kontrol ediniz)
veri_seti = pd.read_csv('D:\XAU_15m_data_2004_to_2024-20-09.csv')

In [None]:
# Tarih formatı ve İndeksleme
veri_seti['Date'] = pd.to_datetime(veri_seti['Date'])
veri_seti = veri_seti.sort_values('Date')
veri_seti.set_index('Date', inplace=True)

In [None]:
# Eksik verileri doldurma (Forward Fill)
veri_seti.fillna(method='ffill', inplace=True)

In [None]:
# --- ÖZELLİK MÜHENDİSLİĞİ (Feature Engineering) ---
# Modelin öğrenmesi için geçmiş verileri sütun olarak ekliyoruz
veri_seti['Lag_1'] = veri_seti['Close'].shift(1)       # Dünkü fiyat
veri_seti['Lag_7'] = veri_seti['Close'].shift(7)       # Geçen haftaki fiyat
veri_seti['MA_30'] = veri_seti['Close'].rolling(window=30).mean() # 30 günlük ortalama

In [None]:
# NaN oluşan ilk satırları temizle
veri_seti.dropna(inplace=True)

In [None]:
# Özellikler (X) ve Hedef (y)
ozellikler = ['Lag_1', 'Lag_7', 'MA_30']
X = veri_seti[ozellikler]
y = veri_seti['Close']

In [None]:
# --- EĞİTİM ve TEST AYRIMI (Time Series Split) ---
# Son %20'lik kısmı test için ayırıyoruz
train_size = int(len(X) * 0.8)
X_egitim, X_test = X.iloc[:train_size], X.iloc[train_size:]
y_egitim, y_test = y.iloc[:train_size], y.iloc[train_size:]

print(f"Eğitim Verisi: {X_egitim.shape}, Test Verisi: {X_test.shape}")

In [None]:
# ================================================================
# 3. BASELINE MODEL: RANDOM FOREST REGRESSOR
# ================================================================
print("\n--- Baseline Model: Random Forest Eğitiliyor ---")

# Modeli tanımla ve eğit
baseline_model = RandomForestRegressor(n_estimators=100, random_state=42)
baseline_model.fit(X_egitim, y_egitim)

In [None]:
# Tahmin yap
rf_tahmin = baseline_model.predict(X_test)

In [None]:
# Başarıyı Ölç (RMSE)
rf_rmse = np.sqrt(mean_squared_error(y_test, rf_tahmin))
print(f"Baseline (Random Forest) RMSE Değeri: {rf_rmse:.2f}")

In [None]:
# ================================================================
# 4. ADAY MODEL 1: ARIMA (İstatistiksel Yöntem)
# ================================================================
print("\n--- Aday Model 1: ARIMA Eğitiliyor ---")

# ARIMA sadece hedef değişken (y) ile çalışır
# Order=(5,1,0) örnek parametrelerdir
arima_model = ARIMA(y_egitim, order=(5,1,0))
arima_sonuc = arima_model.fit()

In [None]:
# Test seti uzunluğu kadar tahmin yap
arima_tahmin = arima_sonuc.forecast(steps=len(y_test))
arima_rmse = np.sqrt(mean_squared_error(y_test, arima_tahmin))
print(f"ARIMA RMSE Değeri: {arima_rmse:.2f}")

In [None]:
# ================================================================
# 5. ADAY MODEL 2: LSTM (Derin Öğrenme)
# ================================================================
print("\n--- Aday Model 2: LSTM Hazırlanıyor ---")

# LSTM için veriyi 0-1 arasına sıkıştırma (Scaling)
scaler = MinMaxScaler(feature_range=(0, 1))
y_egitim_scaled = scaler.fit_transform(y_egitim.values.reshape(-1, 1))
y_test_scaled = scaler.transform(y_test.values.reshape(-1, 1))

In [None]:
# LSTM veri yapısını hazırlayan fonksiyon
def create_lstm_dataset(dataset, look_back=1):
    dataX, dataY = [], []
    for i in range(len(dataset)-look_back-1):
        a = dataset[i:(i+look_back), 0]
        dataX.append(a)
        dataY.append(dataset[i + look_back, 0])
    return np.array(dataX), np.array(dataY)

look_back = 60 # Geçmiş 60 güne bak
X_train_lstm, y_train_lstm = create_lstm_dataset(y_egitim_scaled, look_back)
X_test_lstm, y_test_lstm = create_lstm_dataset(y_test_scaled, look_back)

In [None]:
# 3 Boyutlu hale getirme [Samples, Time Steps, Features]
X_train_lstm = np.reshape(X_train_lstm, (X_train_lstm.shape[0], X_train_lstm.shape[1], 1))
X_test_lstm = np.reshape(X_test_lstm, (X_test_lstm.shape[0], X_test_lstm.shape[1], 1))

In [None]:
# Modeli Kurma
lstm_model = Sequential()
lstm_model.add(LSTM(50, return_sequences=True, input_shape=(look_back, 1)))
lstm_model.add(LSTM(50))
lstm_model.add(Dense(1))
lstm_model.compile(loss='mean_squared_error', optimizer='adam')

In [None]:
# Eğitme (Epoch sayısını artırabilirsiniz)
lstm_model.fit(X_train_lstm, y_train_lstm, epochs=5, batch_size=32, verbose=0)

In [None]:
# Tahmin ve Geri Dönüştürme (Inverse Transform)
lstm_tahmin_scaled = lstm_model.predict(X_test_lstm)
lstm_tahmin = scaler.inverse_transform(lstm_tahmin_scaled)
# Gerçek değerleri de (y_test_lstm) geri dönüştür ki karşılaştırabilelim
y_test_lstm_real = scaler.inverse_transform(y_test_lstm.reshape(-1, 1))

lstm_rmse = np.sqrt(mean_squared_error(y_test_lstm_real, lstm_tahmin))
print(f"LSTM RMSE Değeri: {lstm_rmse:.2f}")

In [None]:
# ================================================================
# 6. SONUÇLARIN KARŞILAŞTIRILMASI
# ================================================================

print("\n--- SONUÇ TABLOSU ---")
print(f"Baseline (Random Forest): {rf_rmse:.2f}")
print(f"ARIMA                   : {arima_rmse:.2f}")
print(f"LSTM                    : {lstm_rmse:.2f}")

In [None]:
# Görselleştirme
plt.figure(figsize=(14, 7))
plt.plot(y_test.index, y_test, label='Gerçek Fiyat (Actual)', color='black', alpha=0.6)
plt.plot(y_test.index, rf_tahmin, label='Baseline (Random Forest)', color='blue', linestyle='--')
plt.plot(y_test.index, arima_tahmin, label='ARIMA', color='red', linestyle=':')
# LSTM grafiği biraz daha kısa olabilir (look_back nedeniyle), çizimde hata vermemesi için basit tutuyoruz
plt.title('Modellerin Karşılaştırılması: RF vs ARIMA')
plt.legend()
plt.show()