<a href="https://colab.research.google.com/github/GOE84/Gold-Price-Prediction/blob/main/Gold_Price_Prediction_MODEL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Gold Price Prediction

**# นำเข้าไลบรารีที่จำเป็นสำหรับการวิเคราะห์ข้อมูล**


*   `import yfinance as yf` : ดึงข้อมูลทางการเงินจาก Yahoo Finance
*   `import pandas as pd` : สำหรับการจัดการและวิเคราะห์ข้อมูลในรูปแบบตาราง `(DataFrame)`
*   `import matplotlib.pyplot as plt` : นำเข้าโมดูล pyplot จากไลบรารี matplotlib ซึ่งใช้สำหรับสร้างกราฟและภาพข้อมูล โดยตั้งชื่อย่อว่า `plt`


In [None]:
import sys
!{sys.executable} -m pip install yfinance

In [None]:
import yfinance as yf
import pandas as pd
import matplotlib.pyplot as plt

# Retrieve gold price data.


---



`yfinance` เพื่อดาวน์โหลดข้อมูล`ราคาทองคำ` โดยใช้สัญลักษณ์ `'GC=F'` ซึ่งเป็นสัญลักษณ์สำหรับทองคำ และกำหนดช่วงเวลาเริ่มต้นที่ 1 มกราคม 2010 และสิ้นสุดที่ 31 ธันวาคม 2024 ค่ะ ข้อมูลที่ดาวน์โหลดมาจะถูกเก็บไว้ในตัวแปรชื่อ `gold_data`\

In [None]:
gold_data = yf.download("GC=F", start="2010-01-01", end="2024-12-31")

In [None]:
plt.figure(figsize=(12, 6))
plt.plot(gold_data.index, gold_data['Close'], label='Gold Close Price')
plt.title('Gold Price (GC=F) Over Time')
plt.xlabel('Date')
plt.ylabel('Price (USD)')
plt.legend()
plt.grid(True)
plt.show()

In [None]:
print(gold_data.head())



> เซลล์นี้จะแสดงข้อมูล 5 แถวแรกของ DataFrame ที่ชื่อว่า gold_data



In [None]:
fig, axes = plt.subplots(1, 2, figsize=(13, 8))


axes[0].plot(gold_data.index, gold_data['Volume'], label='Gold Trading Volume', color='orange')
axes[0].set_title('Gold Trading Volume (GC=F) Over Time')
axes[0].set_xlabel('Date')
axes[0].set_ylabel('Volume')
axes[0].legend()
axes[0].grid(True)

gold_monthly = gold_data['Close'].resample('ME').mean()

axes[1].plot(gold_monthly, label='Monthly Average Price', color='blue') # Changed color for distinction
axes[1].set_title('Monthly Average Gold Price')
axes[1].set_xlabel('Date')
axes[1].set_ylabel('Price (USD)')
axes[1].legend()
axes[1].grid(True)

plt.tight_layout()
plt.show()

# Model format

**ARIMA (AutoRegressive Integrated Moving Average)**
> (Traditional): ใช้โมเดล ARIMA

**โมเดลนี้ประกอบด้วย 3 ส่วนหลักที่เราต้องหาค่าที่ดีที่สุด (p, d, q):**
*   p (AR): การเอาค่าในอดีตมาทำนายอนาคต
*   d (I): การทำให้ข้อมูล "นิ่ง" (Stationary) โดยการลบค่าปัจจุบันด้วยค่าก่อนหน้า
*   q (MA): การเอาความผิดพลาด (Error) ในอดีตมาช่วยปรับจูน



พยากรณ์ข้อมูลอนุกรมเวลา `(Time Series)`









In [None]:
from statsmodels.tsa.arima.model import ARIMA
from statsmodels.tsa.stattools import adfuller

In [None]:
# 1. เช็คความนิ่งของข้อมูล (Stationarity Check)
def check_stationarity(series):
    result = adfuller(series)
    print(f'ADF Statistic: {result[0]}')
    print(f'p-value: {result[1]}')
    if result[1] <= 0.05:
        print("ข้อมูลนิ่งแล้ว (Stationary)")
    else:
        print("ข้อมูลยังไม่นิ่ง (Non-Stationary) ต้องทำการ Diff")

check_stationarity(gold_monthly.dropna())

**สร้างและฝึกสอนโมเดล ARIMA**

> หมายเหตุ: (5,1,0) เป็นค่าเริ่มต้นทั่วไป p=5, d=1, q=0



In [None]:
model = ARIMA(gold_monthly, order=(2, 1, 1))
model_fit = model.fit()

In [None]:

forecast_steps = 12
forecast = model_fit.get_forecast(steps=forecast_steps)
forecast_mean = forecast.predicted_mean
conf_int = forecast.conf_int()

In [None]:
plt.figure(figsize=(12, 6))
plt.plot(gold_monthly, label='Historical Price')
plt.plot(forecast_mean, color='red', label='Forecast (Next 12 Months)')
plt.fill_between(conf_int.index, conf_int.iloc[:, 0], conf_int.iloc[:, 1], color='pink', alpha=0.3)
plt.title('Gold Price Prediction with ARIMA')
plt.legend()
plt.show()

# "ค่าที่ดีที่สุด" (Optimal Parameters) (2,1,1)



In [None]:
!pip install pmdarima

In [None]:
pip install --upgrade statsmodels

In [None]:
pip install --upgrade scipy

In [None]:
pip install --upgrade pmdarima

In [None]:
pip install statsmodels==0.14.0 scipy==1.10.1

In [None]:
import pmdarima as pm

# ใช้ auto_arima เพื่อค้นหาค่า p, d, q ที่ดีที่สุด
# stepwise=True ช่วยให้หาเจอไวขึ้นโดยไม่ต้องรันทุกความเข้มข้น
auto_model = pm.auto_arima(gold_monthly,
                          seasonal=False, # เบื้องต้นลองแบบไม่คิดฤดูกาลก่อน
                          trace=True,      # แสดงค่าที่โมเดลกำลังทดสอบ
                          error_action='ignore',
                          suppress_warnings=True,
                          stepwise=True)

print(f"ค่า (p, d, q) ที่ดีที่สุดคือ: {auto_model.order}")

# Backtesting


> การเอาโมเดลไปลองทำนายในอดีต `(เช่น ทำนายปี 2024 โดยแกล้งทำเป็นว่าเราไม่รู้ราคาจริง)` แล้วเอามาเทียบกับราคาที่เกิดขึ้นจริง เพื่อดูว่าถ้าเราเชื่อ AI ตัวนี้ เราจะทายถูกหรือผิดกี่เปอร์เซ็นต์

1.   Train Set: ข้อมูลในอดีต (เช่น 2004 - 2023) ให้โมเดลเรียนรู้
2.   Test Set: ข้อมูลล่าสุดที่เรา "แกล้งทำเป็นไม่รู้" (เช่น ปี 2024 ทั้งปี) เพื่อเอามาเทียบกับค่าที่โมเดลทาย









In [None]:
import numpy as np
from sklearn.metrics import mean_absolute_error, mean_squared_error

 แบ่งข้อมูล `(ย้อนหลัง 12 เดือนสุดท้ายเป็น Test set)`

In [None]:
train_data = gold_monthly[:-12]
test_data = gold_monthly[-12:]

 สร้างโมเดลจากข้อมูล Train` (ใช้ค่าที่หาได้จาก auto_arima)`

สมมติใช้ค่าที่ระบบหาให้ ถ้าเป็นค่าอื่นให้แก้ที่ order=(p, d, q)

In [None]:
model_bt = ARIMA(train_data, order=auto_model.order)
model_bt_fit = model_bt.fit()

`ทำนายผล 12 เดือน`

In [None]:
predictions = model_bt_fit.forecast(steps=12)
predictions.index = test_data.index

#  วัดผลความแม่นยำ(Measuring accuracy)

In [None]:
mae = mean_absolute_error(test_data, predictions)
rmse = np.sqrt(mean_squared_error(test_data, predictions))

print(f"--- ผลการวัดความแม่นยำ ---")
print(f"ค่าเฉลี่ยความผิดพลาด (MAE): ${mae:.2f}")
print(f"Root Mean Squared Error (RMSE): ${rmse:.2f}")

In [None]:
# 5. พล็อตกราฟเปรียบเทียบ
plt.figure(figsize=(12, 6))
plt.plot(train_data.tail(24), label='Training Data (Last 2 years)') # ดูย้อนหลัง 2 ปีพอให้เห็นภาพ
plt.plot(test_data, label='Actual Price', color='blue', marker='o')
plt.plot(predictions, label='Backtest Prediction', color='red', linestyle='--', marker='x')
plt.title('Gold Price Backtesting: Actual vs Predicted')
plt.legend()
plt.grid(True)
plt.show()

**Backtesting เอาไม่อยู่**


> นี่คือเหตุการณ์ปกติของโมเดล ARIMA เมื่อเจอกับสภาวะตลาดที่เปลี่ยนไปแบบฉับพลัน (Structural Break) หรือมีปัจจัยภายนอกที่ไม่เคยเกิดขึ้นมาก่อนในอดีตมาขับเคลื่อนราคาครับ






**วิเคราะห์จากกราฟ**


*  ` Underestimation: โมเดล ARIMA` พยายามพยากรณ์โดยอิงจากค่าเฉลี่ยและแนวโน้มเดิม ทำให้มันไม่สามารถจับ "การพุ่งขึ้นอย่างรุนแรง" (Bull Run) ของทองคำในปี 2024 ได้
*   `Lagging/Flat Effect`: เส้นสีแดงมีลักษณะเกือบแบนราบ แสดงว่าค่าความสัมพันธ์ในอดีต (p, d, q) ที่เราใช้อาจจะยังไม่พอที่จะรับมือกับความผันผวนระดับนี้ หรือข้อมูลรายเดือนอาจจะน้อยเกินไปสำหรับ ARIMA ในการเรียนรู้รอบวงจรรูปแบบใหม่



# AI (LSTM Model)


*   `Non-linear Relationships`: สามารถเรียนรู้ความสัมพันธ์ที่ซับซ้อนและไม่เป็นเส้นตรงได้ดีกว่า
*   `Multi-input`: เราสามารถใส่ปัจจัยอื่นนอกจากราคาทองเข้าไปได้ `(เช่น ดัชนีค่าเงินดอลลาร์)` เพื่อช่วยให้มันเข้าใจว่าทำไมราคาถึงพุ่ง
*   `Memory Gate`: มันสามารถเลือกว่าจะ "ลืม" ข้อมูลเก่าที่ใช้ไม่ได้แล้ว หรือ "จำ" รูปแบบการพุ่งของราคาในอดีตมาใช้ได้









In [None]:
import sys
!{sys.executable} -m pip install tensorflow --only-binary :all:

In [None]:
from sklearn.preprocessing import MinMaxScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout

In [None]:
# 1. เตรียมข้อมูลและทำ Scaling (AI ชอบเลข 0 ถึง 1)
scaler = MinMaxScaler(feature_range=(0, 1))
scaled_data = scaler.fit_transform(gold_monthly.values.reshape(-1, 1))

In [None]:
# 2. สร้างโครงสร้างข้อมูลสำหรับ LSTM (ใช้ข้อมูล 12 เดือน ย้อนหลังเพื่อทายเดือนถัดไป)
def create_sequences(data, seq_length):
    x, y = [], []
    for i in range(len(data) - seq_length):
        x.append(data[i:i+seq_length])
        y.append(data[i+seq_length])
    return np.array(x), np.array(y)

In [None]:
X, y = create_sequences(scaled_data, 12)

In [None]:
# แบ่งข้อมูล Train/Test
train_size = int(len(X) * 0.8)
X_train, X_test = X[:train_size], X[train_size:]
y_train, y_test = y[:train_size], y[train_size:]

print(f"เตรียมข้อมูลเสร็จแล้ว! พร้อมสร้างโมเดล LSTM")

**Step 3: สร้างและเทรนโมเดล LSTM**

In [None]:
# 1. นิยามโครงสร้างโมเดล LSTM
model_lstm = Sequential([
    # Layer แรก: รับ Input 12 เดือนย้อนหลัง
    LSTM(units=50, return_sequences=True, input_shape=(X_train.shape[1], 1)),
    Dropout(0.2), # ป้องกัน Overfitting

    # Layer ที่สอง
    LSTM(units=50, return_sequences=False),
    Dropout(0.2),

    # Output Layer: ทายออกมาเป็น 1 ค่า (ราคาทองเดือนถัดไป)
    Dense(units=1)
])

In [None]:
# 2. Compile โมเดล
model_lstm.compile(optimizer='adam', loss='mean_squared_error')

In [None]:
# 3. เริ่มเทรน (Training)
# เราจะรัน 50 รอบ (epochs) เพื่อให้ AI ได้เรียนรู้
history = model_lstm.fit(X_train, y_train, epochs=50, batch_size=32, validation_data=(X_test, y_test), verbose=1)

In [None]:
# 4. พล็อตกราฟดูค่า Loss (ความผิดพลาด)
plt.plot(history.history['loss'], label='train')
plt.plot(history.history['val_loss'], label='test')
plt.title('Model Loss (Training vs Validation)')
plt.legend()
plt.show()

In [None]:
# ทำนายผลจากข้อมูล Test set
predictions_lstm = model_lstm.predict(X_test)

# แปลงค่ากลับเป็นหน่วย USD (Inverse Transform)
predictions_usd = scaler.inverse_transform(predictions_lstm)
actual_usd = scaler.inverse_transform(y_test.reshape(-1, 1))

# พล็อตกราฟเปรียบเทียบ
plt.figure(figsize=(12, 6))
plt.plot(actual_usd, label='Actual Gold Price', color='blue', marker='o')
plt.plot(predictions_usd, label='LSTM Prediction', color='green', linestyle='--', marker='s')
plt.title('Gold Price Prediction: LSTM vs Actual')
plt.ylabel('Price (USD)')
plt.legend()
plt.grid(True)
plt.show()

In [None]:
# 1. ดึงข้อมูล 12 เดือนล่าสุดเพื่อใช้เป็นตัวเริ่มต้นการพยากรณ์
last_12_months = scaled_data[-12:].reshape(1, 12, 1)

# 2. สร้าง List เก็บผลพยากรณ์
future_predictions = []
current_batch = last_12_months

# 3. ทายล่วงหน้า 3 เดือน (ปรับเลข 3 เป็นจำนวนเดือนที่ต้องการได้)
for i in range(3):
    # ทายเดือนถัดไป
    next_pred = model_lstm.predict(current_batch)[0]
    future_predictions.append(next_pred)

    # อัปเดต batch โดยเอาค่าที่ทายได้ใส่เข้าไปแทนที่อันเก่าเพื่อทายเดือนถัดไป (Recursive)
    current_batch = np.append(current_batch[:, 1:, :], [[next_pred]], axis=1)

# 4. แปลงค่ากลับเป็น USD
future_predictions_usd = scaler.inverse_transform(future_predictions)

# 5. แสดงผลลัพธ์
import datetime
current_date = gold_monthly.index[-1]
for i, price in enumerate(future_predictions_usd):
    future_date = current_date + pd.DateOffset(months=i+1)
    print(f"เดือน {future_date.strftime('%m/%Y')}: คาดการณ์ราคาประมาณ ${price[0]:.2f}")

# **Project Overview: Gold Price Prediction Analysis**


> โปรเจคนี้มุ่งเน้นการศึกษาและเปรียบเทียบประสิทธิภาพระหว่างโมเดลทางสถิติแบบดั้งเดิม `(ARIMA) `และโมเดลโครงข่ายประสาทเทียม `(LSTM)` ในการพยากรณ์ราคาทองคำรายเดือน โดยใช้ข้อมูลย้อนหลังตั้งแต่ปี 2004 จนถึงปัจจุบัน



**การเตรียมข้อมูล (Data Preprocessing)**


*   `Source`: ดึงข้อมูลราคาทองคำ `(Gold Futures: GC=F`) ผ่าน yfinance API
*   `Resampling`: แปลงข้อมูลรายวัน `(Daily)` ให้เป็นรายเดือน `(Monthly Average)` เพื่อลดสัญญาณรบกวน `(Noise)` ของราคา
*   `Scaling`: สำหรับ LSTM มีการใช้ MinMaxScaler เพื่อปรับระดับข้อมูลให้อยู่ในช่วง `$[0, 1]$` ช่วยให้โมเดลประมวลผลได้แม่นยำขึ้น



**เปรียบเทียบโมเดล (Model Comparison)**



> ARIMA `(Traditional Stat)`

*   วิเคราะห์ความสัมพันธ์ของราคาและ Error ในอดีต
*   ทายราคาออกมาเป็นเส้นตรงที่มีความชันเล็กน้อย `(Flat/Linear)`
*   ไม่สามารถจับจังหวะการพุ่งขึ้นรุนแรง `(Bull Run)` ใน 2024 ได้ปี

> LSTM `(Deep Learning)`

*   เลียนแบบการทำงานของสมองมนุษย์ที่มีหน่วยความจำระยะยาว
*   พยายามโค้งตามทิศทางความผันผวนของราคาจริงได้ดีกว่า
*   มีอาการ Time Lag `(ทายตามหลังราคาจริง 1 จังหวะ)`




**ผลการทดสอบ `(Backtesting Results)`**


*   ARIMA: ให้ผลลัพธ์ที่ค่อนข้าง Conservative เกินไปเมื่อเจอสภาวะตลาดผิดปกติ `(Structural Break)`
*   LSTM: แสดงศักยภาพในการเรียนรู้รูปแบบที่ไม่เป็นเส้นตรง `(Non-linear)` ได้ดีกว่า แต่ยังต้องการการปรับจูน `(Tuning) `เพิ่มเติมเพื่อลดความคลาดเคลื่อนในช่วงที่ราคาทำ New High










# Next Steps for Portfolio

**แผนการพัฒนาในอนาคต**


1.   `Multi-Variate Input`: เพิ่มปัจจัยดัชนีค่าเงินดอลลาร์ `(DXY)` และอัตราดอกเบี้ย เพื่อเพิ่มมิติการตัดสินใจให้กับ AI
2.   `Sentiment Analysis`: นำ AI ไปอ่านข่าวเศรษฐกิจเพื่อประเมินความเชื่อมั่นตลาด (Fear & Greed Index)
3.   `Deployment`: พัฒนา Web Dashboard อย่างง่ายด้วย Streamlit เพื่อแสดงผลการทำนายแบบ `Real-time `

