In [2]:
import pandas as pd
import numpy as np
import lightgbm as lgb
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report
import joblib

# --- 1. Завантажуємо та готуємо дані ---
try:
    df = pd.read_csv("data/EURUSD_15m_history.csv", parse_dates=['ts'])
    print(f"Дані успішно завантажено. Кількість рядків: {len(df)}")
except FileNotFoundError:
    print("Помилка: файл 'data/EURUSD_15m_history.csv' не знайдено.")
    exit()

# --- 2. Створюємо "ціль" для прогнозу (Target Engineering) ---
# Наше завдання - спрогнозувати, чи буде ціна закриття через N свічок вищою за поточну.
# Це і є симуляція виграшу/програшу для опціону "CALL".
EXPIRATION_CANDLES = 1 # Прогноз на 1 свічку (15 хвилин) вперед
df['target'] = np.where(df['Close'].shift(-EXPIRATION_CANDLES) > df['Close'], 1, 0)
print(f"Цільова змінна (target) створена для прогнозу на {EXPIRATION_CANDLES} свічку вперед.")

# --- 3. Визначаємо характеристики (Features) та ціль (Target) ---
df.dropna(inplace=True) # Видаляємо останні рядки, де ми не можемо знати майбутнє
features = ['ATR', 'ADX', 'RSI', 'EMA50', 'EMA200']
X = df[features]
y = df['target']
print(f"Кількість прикладів для тренування: {len(df)}")

# --- 4. Розділяємо дані на тренувальні та тестові ---
# Важливо! Для часових рядів не можна перемішувати дані.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=False)
print("Дані розділено на тренувальну (80%) та тестову (20%) вибірки.")

# --- 5. Масштабування даних ---
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
print("Характеристики масштабовано.")

# --- 6. Тренування моделі LightGBM ---
print("\nПочинаємо тренування моделі LightGBM...")
lgbm = lgb.LGBMClassifier(random_state=42)
lgbm.fit(X_train_scaled, y_train)
print("Модель успішно натренована.")

# --- 7. Оцінка точності моделі на тестових даних ---
y_pred = lgbm.predict(X_test_scaled)
accuracy = accuracy_score(y_test, y_pred)
print("\n--- Оцінка якості моделі на даних, яких вона не бачила ---")
print(f"Точність (Accuracy): {accuracy:.2%}")
print("\nДетальний звіт:")
print(classification_report(y_test, y_pred))

# --- 8. Зберігаємо фінальну модель та скейлер ---
joblib.dump(lgbm, 'lgbm_model.pkl')
joblib.dump(scaler, 'lgbm_scaler.pkl') # Зберігаємо скейлер, він потрібен для нових даних
print("\nНатренована модель та скейлер збережені у файли 'lgbm_model.pkl' та 'lgbm_scaler.pkl'.")

Дані успішно завантажено. Кількість рядків: 13800
Цільова змінна (target) створена для прогнозу на 1 свічку вперед.
Кількість прикладів для тренування: 13800
Дані розділено на тренувальну (80%) та тестову (20%) вибірки.
Характеристики масштабовано.

Починаємо тренування моделі LightGBM...
[LightGBM] [Info] Number of positive: 5555, number of negative: 5485
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.001848 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 1275
[LightGBM] [Info] Number of data points in the train set: 11040, number of used features: 5
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.503170 -> initscore=0.012681
[LightGBM] [Info] Start training from score 0.012681
Модель успішно натренована.

--- Оцінка якості моделі на даних, яких вона не бачила ---
Точність (Accuracy): 51.20%

Детальний звіт:




              precision    recall  f1-score   support

           0       0.53      0.44      0.48      1419
           1       0.50      0.59      0.54      1341

    accuracy                           0.51      2760
   macro avg       0.51      0.51      0.51      2760
weighted avg       0.51      0.51      0.51      2760


Натренована модель та скейлер збережені у файли 'lgbm_model.pkl' та 'lgbm_scaler.pkl'.
