# 🤖 BNBUSDT 1m XGBOOST 모델 훈련
## 암호화폐 트레이딩 신호 최적화
- 심볼: BNBUSDT
- 타임프레임: 1m
- 모델: XGBOOST
- 생성 시간: 2025-08-29 15:53:31

In [None]:
# 📦 필요한 라이브러리 설치
%pip install pandas==2.0.3 numpy==1.24.3 scikit-learn==1.1.2 xgboost==2.1.4 lightgbm==4.6.0 tensorflow==2.13.0 pandas-ta==0.3.14b0 supabase

In [None]:
# 🔧 라이브러리 임포트
import pandas as pd
import numpy as np
import pandas_ta as ta
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import classification_report, accuracy_score
import xgboost as xgb
import lightgbm as lgb
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateau
from supabase import create_client
import joblib
import warnings
warnings.filterwarnings('ignore')

print('✅ 라이브러리 로드 완료')

In [None]:
# 🔑 Supabase 연결 설정
SUPABASE_URL = 'https://yyvnfhezxkufzqdbqdni.supabase.co'
SUPABASE_KEY = 'eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6Inl5dm5maGV6eGt1ZnpxZGJxZG5pIiwicm9sZSI6ImFub24iLCJpYXQiOjE3NTY0MzMzODgsImV4cCI6MjA3MjAwOTM4OH0.4J9nwFo27szlzY8M1aMxs1UlDlGYmucGnD5u5P-UFBY'

supabase = create_client(SUPABASE_URL, SUPABASE_KEY)
print('✅ Supabase 연결 완료')

In [None]:
# 📊 데이터 수집
symbol = 'bnbusdt'
timeframe = '1m'
data_limit = 3000

response = supabase.table('crypto_ohlcv').select('*').eq('symbol', symbol.upper()).eq('timeframe', timeframe).order('timestamp', desc=True).limit(data_limit).execute()

if response.data:
    df = pd.DataFrame(response.data)
    df['datetime'] = pd.to_datetime(df['timestamp'], unit='ms')
    df = df.sort_values('datetime')
    print(f'✅ 데이터 수집 완료: {len(df)}개')
    print(f'📅 기간: {{df["datetime"].min()}} ~ {{df["datetime"].max()}}')
else:
    print('❌ 데이터가 없습니다')

In [None]:
# 🧮 고급 기술적 지표 계산
def calculate_advanced_features(df):
    # 기본 지표들
    df['sma_5'] = ta.sma(df['close'], length=5)
    df['sma_10'] = ta.sma(df['close'], length=10)
    df['sma_20'] = ta.sma(df['close'], length=20)
    df['ema_9'] = ta.ema(df['close'], length=9)
    df['ema_21'] = ta.ema(df['close'], length=21)
    
    # MACD
    macd = ta.macd(df['close'], fast=6, slow=13, signal=4)
    df['macd'] = macd['MACD_6_13_4']
    df['macd_signal'] = macd['MACDs_6_13_4']
    df['macd_histogram'] = macd['MACDh_6_13_4']
    
    # RSI
    df['rsi'] = ta.rsi(df['close'], length=9)
    df['rsi_14'] = ta.rsi(df['close'], length=14)
    
    # 볼린저 밴드
    bb = ta.bbands(df['close'], length=10, std=2)
    df['bb_upper'] = bb['BBU_10_2.0']
    df['bb_lower'] = bb['BBL_10_2.0']
    df['bb_width'] = (df['bb_upper'] - df['bb_lower']) / df['close']
    df['bb_position'] = (df['close'] - df['bb_lower']) / (df['bb_upper'] - df['bb_lower'])
    
    # 스토캐스틱
    stoch = ta.stoch(df['high'], df['low'], df['close'], k=5, d=3)
    df['stoch_k'] = stoch['STOCHk_5_3_3']
    df['stoch_d'] = stoch['STOCHd_5_3_3']
    
    # ATR
    df['atr'] = ta.atr(df['high'], df['low'], df['close'], length=7)
    df['atr_ratio'] = df['atr'] / df['close']
    
    # ADX
    adx = ta.adx(df['high'], df['low'], df['close'], length=7)
    df['adx'] = adx['ADX_7']
    df['di_plus'] = adx['DMP_7']
    df['di_minus'] = adx['DMN_7']
    
    # Williams %R
    df['williams_r'] = ta.willr(df['high'], df['low'], df['close'], length=9)
    
    # Momentum
    df['momentum'] = ta.mom(df['close'], length=10)
    df['momentum_5'] = ta.mom(df['close'], length=5)
    
    # OBV
    df['obv'] = ta.obv(df['close'], df['volume'])
    df['obv_sma'] = ta.sma(df['obv'], length=20)
    
    # CCI
    df['cci'] = ta.cci(df['high'], df['low'], df['close'], length=9)
    
    # Parabolic SAR
    df['psar'] = ta.psar(df['high'], df['low'], df['close'])
    
    # 가격 변화율
    df['price_change'] = df['close'].pct_change()
    df['price_change_5'] = df['close'].pct_change(5)
    df['price_change_10'] = df['close'].pct_change(10)
    
    # 볼륨 지표
    df['volume_sma'] = ta.sma(df['volume'], length=20)
    df['volume_ratio'] = df['volume'] / df['volume_sma']
    
    # 변동성 지표
    df['volatility'] = df['close'].rolling(20).std()
    df['volatility_ratio'] = df['volatility'] / df['close']
    
    # 추세 지표
    df['trend_strength'] = abs(df['ema_9'] - df['ema_21']) / df['close']
    df['trend_direction'] = np.where(df['ema_9'] > df['ema_21'], 1, -1)
    
    # 크로스오버 지표
    df['ema_cross'] = np.where(df['ema_9'] > df['ema_21'], 1, 0)
    df['ema_cross_change'] = df['ema_cross'].diff()
    
    df['macd_cross'] = np.where(df['macd'] > df['macd_signal'], 1, 0)
    df['macd_cross_change'] = df['macd_cross'].diff()
    
    # 시간 기반 특성
    df['hour'] = df['datetime'].dt.hour
    df['day_of_week'] = df['datetime'].dt.dayofweek
    df['is_weekend'] = df['day_of_week'].isin([5, 6]).astype(int)
    
    return df

# 지표 계산
df = calculate_advanced_features(df)
print('✅ 고급 지표 계산 완료')

In [None]:
# 🎯 목표 변수 생성
def create_target_variable(df, lookforward=5):
    # 미래 가격 변화율 계산
    df['future_return'] = df['close'].shift(-lookforward) / df['close'] - 1
    
    # 목표 변수 생성
    df['target'] = np.where(df['future_return'] > 0.01, 1,  # 1% 이상 상승 시 LONG
                      np.where(df['future_return'] < -0.01, -1, 0))  # 1% 이상 하락 시 SHORT
    
    # 신호 강도 계산
    df['signal_strength'] = abs(df['future_return']) * 100
    
    return df

# 목표 변수 생성
df = create_target_variable(df)
print('✅ 목표 변수 생성 완료')
print(f'📊 타겟 분포:\n{{df["target"].value_counts()}}')

In [None]:
# 🔧 특성 준비
feature_columns = [
    'sma_5', 'sma_10', 'sma_20', 'ema_9', 'ema_21',
    'macd', 'macd_signal', 'macd_histogram',
    'rsi', 'rsi_14',
    'bb_upper', 'bb_lower', 'bb_width', 'bb_position',
    'stoch_k', 'stoch_d',
    'atr', 'atr_ratio',
    'adx', 'di_plus', 'di_minus',
    'williams_r', 'momentum', 'momentum_5',
    'obv', 'obv_sma', 'cci', 'psar',
    'price_change', 'price_change_5', 'price_change_10',
    'volume_ratio', 'volatility_ratio',
    'trend_strength', 'trend_direction',
    'ema_cross', 'ema_cross_change',
    'macd_cross', 'macd_cross_change',
    'hour', 'day_of_week', 'is_weekend'
]

# NaN 값 처리
df = df.dropna()

# 특성과 타겟 분리
X = df[feature_columns]
y = df['target']

print(f'✅ 특성 준비 완료: {len(feature_columns)}개 특성')
print(f'📊 데이터 크기: {X.shape}')

In [None]:
# 🎯 모델 훈련
model_type = 'xgboost'

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# 특성 스케일링
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 라벨 인코딩
label_encoder = LabelEncoder()
y_train_encoded = label_encoder.fit_transform(y_train)
y_test_encoded = label_encoder.transform(y_test)

print('✅ 데이터 전처리 완료')

# 모델 선택 및 훈련
if model_type == 'random_forest':
    model = RandomForestClassifier(n_estimators=100, random_state=42)
elif model_type == 'xgboost':
    model = xgb.XGBClassifier(n_estimators=100, random_state=42)
elif model_type == 'lightgbm':
    model = lgb.LGBMClassifier(n_estimators=100, random_state=42)
elif model_type == 'lstm':
    # LSTM 모델은 별도 처리
    pass
else:
    model = RandomForestClassifier(n_estimators=100, random_state=42)

if model_type != 'lstm':
    # 모델 훈련
    model.fit(X_train_scaled, y_train_encoded)
    
    # 예측
    y_pred = model.predict(X_test_scaled)
    accuracy = accuracy_score(y_test_encoded, y_pred)
    
    print(f'✅ {model_type.upper()} 모델 훈련 완료')
    print(f'📊 정확도: {accuracy:.4f}')
    
    # 교차 검증
    cv_scores = cross_val_score(model, X_train_scaled, y_train_encoded, cv=5)
    print(f'📊 교차 검증 평균: {cv_scores.mean():.4f} (±{cv_scores.std():.4f})')
    
    # 분류 리포트
    print('\n📋 분류 리포트:')
    print(classification_report(y_test_encoded, y_pred))

In [None]:
# 🧠 LSTM 모델 훈련 (LSTM인 경우)
if model_type == 'lstm':
    sequence_length = 60
    
    # 시계열 데이터로 변환
    X_sequences = []
    y_sequences = []
    
    for i in range(sequence_length, len(X)):
        X_sequences.append(X.iloc[i-sequence_length:i].values)
        y_sequences.append(y.iloc[i])
    
    X_sequences = np.array(X_sequences)
    y_sequences = np.array(y_sequences)
    
    # 데이터 분할
    split_idx = int(len(X_sequences) * 0.8)
    X_train, X_test = X_sequences[:split_idx], X_sequences[split_idx:]
    y_train, y_test = y_sequences[:split_idx], y_sequences[split_idx:]
    
    # 특성 스케일링
    scaler = StandardScaler()
    X_train_reshaped = X_train.reshape(-1, X_train.shape[-1])
    X_test_reshaped = X_test.reshape(-1, X_test.shape[-1])
    
    X_train_scaled = scaler.fit_transform(X_train_reshaped)
    X_test_scaled = scaler.transform(X_test_reshaped)
    
    X_train_scaled = X_train_scaled.reshape(X_train.shape)
    X_test_scaled = X_test_scaled.reshape(X_test.shape)
    
    # 라벨 인코딩
    label_encoder = LabelEncoder()
    y_train_encoded = label_encoder.fit_transform(y_train)
    y_test_encoded = label_encoder.transform(y_test)
    
    # 원-핫 인코딩
    y_train_onehot = tf.keras.utils.to_categorical(y_train_encoded, num_classes=3)
    y_test_onehot = tf.keras.utils.to_categorical(y_test_encoded, num_classes=3)
    
    # LSTM 모델 구축
    model = Sequential([
        LSTM(128, return_sequences=True, input_shape=(sequence_length, len(feature_columns))),
        Dropout(0.2),
        LSTM(64, return_sequences=False),
        Dropout(0.2),
        Dense(32, activation='relu'),
        Dropout(0.2),
        Dense(3, activation='softmax')
    ])
    
    model.compile(
        optimizer=Adam(learning_rate=0.001),
        loss='categorical_crossentropy',
        metrics=['accuracy']
    )
    
    # 콜백 설정
    callbacks = [
        EarlyStopping(patience=10, restore_best_weights=True),
        ReduceLROnPlateau(factor=0.5, patience=5)
    ]
    
    # 모델 훈련
    history = model.fit(
        X_train_scaled, y_train_onehot,
        validation_data=(X_test_scaled, y_test_onehot),
        epochs=100,
        batch_size=32,
        callbacks=callbacks,
        verbose=1
    )
    
    # 모델 평가
    y_pred = model.predict(X_test_scaled)
    y_pred_classes = np.argmax(y_pred, axis=1)
    accuracy = accuracy_score(y_test_encoded, y_pred_classes)
    
    print(f'✅ LSTM 모델 훈련 완료')
    print(f'📊 정확도: {accuracy:.4f}')
    
    # 분류 리포트
    print('\n📋 분류 리포트:')
    print(classification_report(y_test_encoded, y_pred_classes))

In [None]:
# 💾 모델 저장
import joblib
from google.colab import files

# 모델 파일명
model_filename = f'{bnbusdt}_{1m}_{xgboost}_model'

if model_type == 'lstm':
    # LSTM 모델 저장
    model.save(f'{model_filename}.h5')
    joblib.dump(scaler, f'{model_filename}_scaler.pkl')
    joblib.dump(label_encoder, f'{model_filename}_encoder.pkl')
    
    # 파일 다운로드
    files.download(f'{model_filename}.h5')
    files.download(f'{model_filename}_scaler.pkl')
    files.download(f'{model_filename}_encoder.pkl')
else:
    # 일반 모델 저장
    joblib.dump(model, f'{model_filename}.pkl')
    joblib.dump(scaler, f'{model_filename}_scaler.pkl')
    joblib.dump(label_encoder, f'{model_filename}_encoder.pkl')
    
    # 파일 다운로드
    files.download(f'{model_filename}.pkl')
    files.download(f'{model_filename}_scaler.pkl')
    files.download(f'{model_filename}_encoder.pkl')

print('✅ 모델 저장 및 다운로드 완료')
print(f'📁 저장된 파일: {model_filename}')

In [None]:
# 📊 훈련 결과 요약
print('🎉 훈련 완료!')
print(f'📈 심볼: {symbol.upper()}')
print(f'⏰ 타임프레임: {1m}')
print(f'🤖 모델: {model_type.upper()}')
print(f'📊 데이터 크기: {len(df)}개')
print(f'🔧 특성 수: {len(feature_columns)}개')

if model_type != 'lstm':
    print(f'🎯 정확도: {accuracy:.4f}')
    print(f'📊 교차 검증: {cv_scores.mean():.4f} (±{cv_scores.std():.4f})')
else:
    print(f'🎯 정확도: {accuracy:.4f}')

print('\n🚀 다음 단계:')
print('1. 다운로드된 모델 파일을 로컬로 이동')
print('2. 실시간 트레이딩 시스템에 모델 로드')
print('3. 백테스팅으로 성능 검증')
print('4. 실시간 신호 생성 시작')