# 1. 데이터 전처리

1) 누적 거래량이 상위 30퍼인 ETF들에 대해 수익률 계산, 일주일 단위로 데이터를 묶음

2) 일주일 단위로 묶인 데이터 내 각 컬럼의 최대, 최소, 평균값, 전주 대비 증감 가격(증감율), 수익률 계산


In [None]:
import pandas as pd
import os
import unicodedata
import sys
import numpy as np

from tqdm import tqdm

In [None]:
path = '/content/drive/MyDrive/NH_CONTEST_STK_DT_QUT_30.csv'
df = pd.read_csv(path)

# 'BSE_DT' 컬럼을 날짜 형식으로 변환
df['bse_dt'] = pd.to_datetime(df['bse_dt'], format='%Y%m%d')
# 'BSE_DT' 컬럼을 일주일 단위로 변환하여 'Week' 컬럼을 생성
df['Week'] = df['bse_dt'].dt.to_period('W')

df_sorted = df.sort_values(by=['Week', 'tck_iem_cd', 'bse_dt'])

# 'tck_iem_cd'별로 데이터를 묶어 처리
grouped = df_sorted.groupby('tck_iem_cd')

output_rows = []

# tck_iem_cd별로 데이터를 일주일 단위로 묶어 처리
for tck_iem_cd, data in tqdm(grouped):
    week_grouped = data.groupby('Week')

    for week, week_data in week_grouped:
        week_data = week_data.sort_values(by='bse_dt')  # 주간 데이터 정렬

        # 주간 요약 정보
        open_price = week_data.iloc[0]['iem_ong_pr']  # 종목 시가 (첫 날)
        close_price = week_data.iloc[-1]['iem_end_pr']  # 종목 종가 (마지막 날)
        high_price = week_data['iem_hi_pr'].max()  # 주간 고가
        low_price = week_data['iem_low_pr'].min()  # 주간 저가
        volume_high = week_data['acl_trd_qty'].max()  # 주간 거래량 최대
        volume_low = week_data['acl_trd_qty'].min()  # 주간 거래량 최소
        volume_mean = week_data['acl_trd_qty'].mean()  # 주간 거래량 평균
        cost_high = week_data['trd_cst'].max()  # 거래대금 최대
        cost_low = week_data['trd_cst'].min()  # 거래대금 최소
        cost_mean = week_data['trd_cst'].mean()  # 거래대금 평균
        sll_high = week_data['sll_cns_sum_qty'].max()  # 매도체결합계수량 최대
        sll_low = week_data['sll_cns_sum_qty'].min()  # 매도체결합계수량 최소
        sll_mean = week_data['sll_cns_sum_qty'].mean()  # 매도체결합계수량 평균
        byn_high = week_data['byn_cns_sum_qty'].max()  # 매수체결합계수량 최대
        byn_low = week_data['byn_cns_sum_qty'].min()  # 매수체결합계수량 최소
        byn_mean = week_data['byn_cns_sum_qty'].mean()  # 매수체결합계수량 평균
        rt_high = week_data['sby_bse_xcg_rt'].max()  # 환율 최대
        rt_low = week_data['sby_bse_xcg_rt'].min()  # 환율 최소
        rt_mean = week_data['sby_bse_xcg_rt'].mean()  # 환율 평균
        yield_rate = (close_price - open_price) / open_price * 100 # 수익률

        # 전주대비 증감 가격과 증감율
        prev_week_data = df_sorted[(df_sorted['Week'] == week - 1) & (df_sorted['tck_iem_cd'] == tck_iem_cd)]
        if not prev_week_data.empty:
            prev_close_price = prev_week_data.iloc[-1]['iem_end_pr']
            price_change = close_price - prev_close_price  # 전주대비 증감 가격
            price_change_rate = (price_change / prev_close_price) * 100  # 전주대비 증감 비율
        else:
            price_change = None
            price_change_rate = None

        # 출력 리스트에 데이터 추가
        output_rows.append({
            'ETF_tck_name': tck_iem_cd,
            'week': f'Week: {str(week)}',
            '종목시가': open_price,
            '종목종가': close_price,
            '종목고가': high_price,
            '종목저가': low_price,
            '전주대비증감가격': price_change,
            '전주대비증감률': price_change_rate,
            '누적거래수량(고)': volume_high,
            '누적거래수량(저)': volume_low,
            '누적거래수량(평균)': volume_mean,
            '거래대금(고)': cost_high,
            '거래대금(저)': cost_low,
            '거래대금(평균)': cost_mean,
            '매도수량(고)': sll_high,
            '매도수량(저)': sll_low,
            '매도수량(평균)': sll_mean,
            '매수수량(고)': byn_high,
            '매수수량(저)': byn_low,
            '매수수량(평균)': byn_mean,
            '환율(고)': rt_high,
            '환율(저)': rt_low,
            '환율(평균)': rt_mean,
            '수익률': yield_rate
        })

df_output = pd.DataFrame(output_rows)

df_output.to_csv('/content/drive/MyDrive/grouped_by_week_etf.csv', index=False)

  price_change_rate = (price_change / prev_close_price) * 100  # 전주대비 증감 비율
100%|██████████| 1629/1629 [04:32<00:00,  5.97it/s]


3)학습/평가 데이터 분리

- '2024-08-19/2024-08-25'주차의 데이터를 평가 데이터로 사용

In [None]:
# train/test data 분리
path = '/content/drive/MyDrive/grouped_by_week_etf.csv'
df = pd.read_csv(path)

# total 데이터 확인
print(df['ETF_tck_name'].value_counts()) # 1629

# 'Week: 2024-08-26/2024-09-01'을 제거
df_train = df[df['week'] != 'Week: 2024-08-26/2024-09-01']

# 'Week: 2024-08-19/2024-08-25'인 행을 테스트 데이터로 분리
df_test = df_train[df_train['week'] == 'Week: 2024-08-19/2024-08-25']

# Test 데이터에서 해당 행을 제거한 나머지를 Train 데이터로 사용
df_train = df_train[df_train['week'] != 'Week: 2024-08-19/2024-08-25']

# 분리된 데이터 확인
print(df_test['ETF_tck_name'].value_counts()) # 1629
print(df_train['ETF_tck_name'].value_counts()) # 1629

# 각각의 데이터셋을 CSV 파일로 저장
df_train.to_csv('/content/drive/MyDrive/total_train_data.csv', index=False)
df_test.to_csv('/content/drive/MyDrive/total_test_data.csv', index=False)

ETF_tck_name
AAN             14
OFG             14
ONTF            14
ONL             14
ONEW            14
                ..
FCFS            14
ZYXI            14
RSSL            13
ONIT            12
KCSH             6
Name: count, Length: 1629, dtype: int64
ETF_tck_name
AAN             1
OFLX            1
ONTO            1
ONTF            1
ONL             1
               ..
FCPT            1
FCNCA           1
FCN             1
FCFS            1
ZYXI            1
Name: count, Length: 1629, dtype: int64
ETF_tck_name
AAN             12
OFG             12
ONTF            12
ONL             12
ONEW            12
                ..
FCFS            12
ZYXI            12
RSSL            11
ONIT            10
KCSH             4
Name: count, Length: 1629, dtype: int64


# 2. 데이터셋
- 모델의 입력인 텐서 형태가 되도록 데이터를 불러오는 역할

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from transformers import BertTokenizer
import numpy as np
import pandas as pd
import sys
import json

In [None]:
class NHDataset(torch.utils.data.Dataset):
    def __init__(self, phase):
        self.phase = phase

        path = f'/content/drive/MyDrive/total_{self.phase}_data.csv'
        df = pd.read_csv(path)
        df.replace([np.inf, -np.inf], np.nan, inplace=True)  # inf 값을 NaN으로 변환
        df = df.dropna()
        self.df = df

        # ETF 이름 encoding
        self.label_encoder = LabelEncoder()
        self.df['ETF_tck_name_encoded'] = self.label_encoder.fit_transform(df['ETF_tck_name'])

        self.names = df['ETF_tck_name'].values
        self.encoded_names = df['ETF_tck_name_encoded'].values
        self.weeks = df['week'].values

        self.scaler = MinMaxScaler()
        self.scaled_etf = self.scaler.fit_transform(df.drop(['week', 'ETF_tck_name'], axis=1))

    def __len__(self):
        return len(self.names)

    def __getitem__(self, index):

        # ETF 이름을 숫자로 인코딩한 값 추가
        etf_encoded = self.encoded_names[index]
        x = self.scaled_etf[index, :-1]  # features
        y = self.scaled_etf[index, -1]   # ETF 수익률

        # ETF 이름 + features
        x_with_etf = np.append(x, etf_encoded)

        x_tensor = torch.tensor(x_with_etf, dtype=torch.float32)
        y_tensor = torch.tensor(y, dtype=torch.float32)

        input_dic = {'ETF_tck_name': self.names[index],
                     'week': self.weeks[index],
                     'input': x_tensor,
                     'label': y_tensor
        }

        return input_dic

# 3. 모델링

- LSTM 기반 모델 구성

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader
from transformers import BertTokenizer, BertModel

import sys

In [None]:
class ETFPredictionModel(nn.Module):
    def __init__(self):
        super(ETFPredictionModel, self).__init__()

        self.input_size = 23 # 하드 코딩 (# of features)
        self.hidden_size = 128
        self.num_layers = 4

        self.lstm = nn.LSTM(self.input_size, self.hidden_size, self.num_layers, batch_first=True)
        self.fc = nn.Linear(self.hidden_size, 1)

    def reset_hidden_state(self):
        self.hidden = (
                torch.zeros(self.layers, self.seq_len, self.hidden_dim),
                torch.zeros(self.layers, self.seq_len, self.hidden_dim))

    def forward(self, x):
        out, _ = self.lstm(x)
        out = self.fc(out[:, -1, :])  # (batch, 1)

        return out

# 4. 모델 학습

In [None]:
# gpu
device = torch.device(f'cuda' if torch.cuda.is_available() else 'cpu')

In [None]:
lr = 1e-2
batch_size = 16
log_dir = '/content/drive/MyDrive'
ckpt_dir = '/content/drive/MyDrive/NH_model'

if not os.path.exists(ckpt_dir):
    os.makedirs(ckpt_dir)

In [None]:
## Dataloader ##
# 데이터셋 생성
train_dataset = NHDataset(phase='train')
loader_train = DataLoader(train_dataset, batch_size=batch_size, shuffle=True, num_workers=8)

## model ##
model = ETFPredictionModel()
model.to(device)

## optimization ##
criterion = nn.MSELoss() # loss
optimizer = torch.optim.Adam(model.parameters(), lr=lr)



In [None]:
st_epoch = 0
num_epoch = 50
best_val_accuracy = 0.0
best_loss = float('inf')  # 가장 좋은 loss를 추적
patience = 10  # early stopping을 위한 patience
verbose = 10
counter = 0  # patience 확인을 위한 카운터

In [None]:
for epoch in range(st_epoch+1, num_epoch+1):
    # ---------------------------------- Training ---------------------------------- #
    model.train()
    loss_list = []

    for i, data in enumerate(tqdm(loader_train, 0)):
        # forward pass
        name = data['ETF_tck_name']
        input, label = data['input'].to(device), data['label'].to(device)
        label = label.view(-1, 1)  # (batch, 1)

        input = input.unsqueeze(1)
        output = model(input)

        # backward pass
        loss = criterion(output, label)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        loss_list.append(loss.item())

    train_loss = np.mean(loss_list)

    if epoch % verbose == 0:
        print('TRAIN: EPOCH %04d/%04d | LOSS %.4f' % (epoch, num_epoch, train_loss))

    # Early stopping
    if train_loss < best_loss:  # 현재 epoch의 loss가 이전까지의 가장 좋은 loss보다 낮은 경우
        best_loss = train_loss
        counter = 0  # 카운터 초기화
        torch.save(model.state_dict(), f'{ckpt_dir}/{epoch}.pth')
        print(f'Saving the model - epoch : {epoch}')
    else:
        counter += 1  # loss가 개선되지 않으면 카운터 증가
        if counter >= patience:
            print(f'\nEarly Stopping at epoch {epoch} | Best Loss: {best_loss:.4f}')
            break  # patience 만큼 epoch 동안 loss 개선이 없으면 학습 중단


100%|██████████| 1120/1120 [00:07<00:00, 145.93it/s]


Saving the model - epoch : 1


100%|██████████| 1120/1120 [00:08<00:00, 135.77it/s]


Saving the model - epoch : 2


100%|██████████| 1120/1120 [00:07<00:00, 154.45it/s]


Saving the model - epoch : 3


100%|██████████| 1120/1120 [00:08<00:00, 134.69it/s]


Saving the model - epoch : 4


100%|██████████| 1120/1120 [00:09<00:00, 116.72it/s]
100%|██████████| 1120/1120 [00:08<00:00, 139.08it/s]
100%|██████████| 1120/1120 [00:10<00:00, 111.54it/s]
100%|██████████| 1120/1120 [00:06<00:00, 169.84it/s]
100%|██████████| 1120/1120 [00:08<00:00, 128.41it/s]
100%|██████████| 1120/1120 [00:06<00:00, 165.45it/s]


TRAIN: EPOCH 0010/0050 | LOSS 0.0844


100%|██████████| 1120/1120 [00:08<00:00, 128.50it/s]
100%|██████████| 1120/1120 [00:07<00:00, 155.06it/s]
100%|██████████| 1120/1120 [00:08<00:00, 128.73it/s]
100%|██████████| 1120/1120 [00:06<00:00, 167.96it/s]


Early Stopping at epoch 14 | Best Loss: 0.0120





# 5. 모델 추론 및 평가

In [None]:
test_dataset = NHDataset(phase='test')
loader_test = DataLoader(test_dataset, batch_size=batch_size, shuffle=False, num_workers=8)



In [None]:
# 가장 마지막으로 저장된 epoch
load_path = '/content/drive/MyDrive/NH_model/4.pth'
model.load_state_dict(torch.load(load_path))

  model.load_state_dict(torch.load(load_path))


<All keys matched successfully>

In [None]:
# 평가 metric
def MAE(true, pred):
    return np.mean(np.abs(true - pred))

In [None]:
pred, true = [], []
result, etf = [], []

In [None]:
# ---------------------------------- Inference ---------------------------------- #
model.eval()

for i, data in enumerate(tqdm(loader_test, 0)):
    # forward pass
    etf_tck_name, week = data['ETF_tck_name'], data['week']
    input, label = data['input'].to(device), data['label'].to(device)
    input = input.unsqueeze(1)

    output = model(input)

    b, _, _ = input.shape

    for idx in range(b):
        etf.append((etf_tck_name[idx], week[idx], output[idx].item()))

    pred.extend(output.detach().cpu().numpy())
    true.extend(label.detach().cpu().numpy())

pred = np.array(pred)
true = np.array(true)

# 모델 평가 결과 출력 및 저장
mae_score = MAE(true, pred)
result.append(mae_score.item())
print(f"MAE: {mae_score}")
header_result= ['MAE']
mae_score_df = pd.DataFrame(result)
mae_score_df.to_csv(f'{ckpt_dir}/result.csv', index=False, header=header_result)

# 모델 예측 결과 저장
header_etf = ['ETF_tck_name', 'week', 'pred']
etf_df = pd.DataFrame(etf)
etf_df.to_csv(f'{ckpt_dir}/output.csv', index=False, header=header_etf)

100%|██████████| 102/102 [00:01<00:00, 67.52it/s]


MAE: 0.3102095425128937


In [None]:
# 모델 예측 결과 확인
output_path = '/content/drive/MyDrive/NH_model/output.csv'
output_df = pd.read_csv(output_path)

pred_PROK = round(output_df[output_df['ETF_tck_name'] == 'PROK']['pred'].values[0], 3)
print(f'ETF 이름: PROK, 예측된 수익률: {pred_PROK}')
pred_BUCK = round(output_df[output_df['ETF_tck_name'] == 'BUCK']['pred'].values[0], 3)
print(f'ETF 이름: BUCK, 예측된 수익률: {pred_BUCK}')
pred_HYLN = round(output_df[output_df['ETF_tck_name'] == 'HYLN']['pred'].values[0], 3)
print(f'ETF 이름: HYLN, 예측된 수익률: {pred_HYLN}')

ETF 이름: PROK, 예측된 수익률: 0.633
ETF 이름: BUCK, 예측된 수익률: 0.125
ETF 이름: HYLN, 예측된 수익률: 0.365


# 6. 생성형 AI를 활용한 ETF 추천

In [None]:
import google.generativeai as genai

In [None]:
corr_path = '/content/drive/MyDrive/상관계수추가_최종교집합ETF.csv'
corr_df = pd.read_csv(corr_path)

In [None]:
# NaN이 아닌 값들만 출력
non_nan_values = corr_df['inter_금_pos_7'].dropna()
print(non_nan_values)

0    HYLN
1    MOND
2    RDVT
Name: inter_금_pos_7, dtype: object


In [None]:
GOOGLE_API_KEY = 'AIzaSyCorQViKYbN59xDJ7vtwVaeopFHI0OR2Bk'

genai.configure(api_key=GOOGLE_API_KEY)

# Set up the model
generation_config = {
  "temperature": 0.9,
  "top_p": 1,
  "top_k": 1,
  "max_output_tokens": 1024,
}

model = genai.GenerativeModel('gemini-pro',
                             generation_config=generation_config)

In [None]:
prompt = f"아래 예시를 참고해서, 금의 상승세와 밀접하게 관련있는 ETF 종목을 추천해줘. \n 예시: - 종목: HYLN - 형식: 금의 상승세와 가장 밀접하게 관련이 있는 종목은 HYLN이며, 이 종목은 적극 투자 권유합니다.\n - 종목: {non_nan_values[1]}"

In [None]:
response = model.generate_content(prompt)
print(response.text)

- 종목: GDX - 형식: 금의 상승세와 밀접하게 관련이 있는 ETF 중에서 가장 주목해야 할 종목은 GDX이며, 이 종목은 적극 투자 권유합니다.
