In [2]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error
import joblib  # เอาไว้เซฟโมเดล

# --- 1. โหลดข้อมูลสอน (Training Data) ---
print("1. กำลังโหลดข้อมูลสอน...")
train_df = pd.read_csv('zeus_train.csv')

# เลือก Feature (ตัวแปรต้น) และ Target (สิ่งที่อยากทำนาย)
# เราเลือกตามผล EDA ที่วิเคราะห์มา
feature_cols = ['humidity', 'pressure', 'rain', 'uv', 'wind_speed', 'hour', 'is_day']
target_col = 'temp'

X_train = train_df[feature_cols]
y_train = train_df[target_col]

print(f"   - จำนวนข้อมูลสอน: {len(X_train)} แถว")
print(f"   - ตัวแปรที่ใช้เรียน: {feature_cols}")

# --- 2. สร้างและเทรนโมเดล (The Training) ---
print("\n2. กำลังปลุกเสก 'The Oracle' (Training Random Forest)...")
# n_estimators=100 คือสร้างต้นไม้ 100 ต้น
# random_state=42 คือล็อคผลให้เหมือนเดิมทุกครั้งที่รัน (เพื่อความชัวร์)
model = RandomForestRegressor(n_estimators=100, random_state=42, n_jobs=-1) 

model.fit(X_train, y_train) # <-- คำสั่งสอน AI อยู่ตรงนี้!
print("   ✅ เทรนเสร็จเรียบร้อย!")

# --- 3. บันทึกโมเดล (Save Model) ---
print("\n3. กำลังบันทึกโมเดลเก็บไว้...")
model_filename = 'zeus_oracle_model.pkl'
joblib.dump(model, model_filename)
print(f"   ✅ บันทึกไฟล์โมเดลชื่อ '{model_filename}' สำเร็จ! (เอาไฟล์นี้ไปใช้ทำเว็บต่อ)")

# --- 4. ตรวจสอบความฉลาดเบื้องต้น (Feature Importance) ---
print("\n4. ปัจจัยที่ส่งผลต่ออุณหภูมิ (Feature Importance):")
importances = model.feature_importances_
indices = np.argsort(importances)[::-1] # เรียงจากมากไปน้อย

for i in range(len(feature_cols)):
    curr_idx = indices[i]
    print(f"   อันดับ {i+1}: {feature_cols[curr_idx]} \t({importances[curr_idx]*100:.2f}%)")

print("-" * 30)
print("พร้อมสำหรับขั้นตอนต่อไป: Model Evaluation (สอบวัดผลกับข้อมูล Unseen)")

1. กำลังโหลดข้อมูลสอน...
   - จำนวนข้อมูลสอน: 39207 แถว
   - ตัวแปรที่ใช้เรียน: ['humidity', 'pressure', 'rain', 'uv', 'wind_speed', 'hour', 'is_day']

2. กำลังปลุกเสก 'The Oracle' (Training Random Forest)...
   ✅ เทรนเสร็จเรียบร้อย!

3. กำลังบันทึกโมเดลเก็บไว้...
   ✅ บันทึกไฟล์โมเดลชื่อ 'zeus_oracle_model.pkl' สำเร็จ! (เอาไฟล์นี้ไปใช้ทำเว็บต่อ)

4. ปัจจัยที่ส่งผลต่ออุณหภูมิ (Feature Importance):
   อันดับ 1: humidity 	(44.72%)
   อันดับ 2: uv 	(32.53%)
   อันดับ 3: pressure 	(12.66%)
   อันดับ 4: hour 	(7.65%)
   อันดับ 5: wind_speed 	(1.22%)
   อันดับ 6: rain 	(0.73%)
   อันดับ 7: is_day 	(0.49%)
------------------------------
พร้อมสำหรับขั้นตอนต่อไป: Model Evaluation (สอบวัดผลกับข้อมูล Unseen)
