In [None]:
import pandas as pd
import numpy as np

STOCK = 'XOM' # BTC, AAPL, XOM, BRKb
# CSV 파일 읽기
data = pd.read_csv(f'/Data/{STOCK}/{STOCK}.csv')[:3406] #[:3303]
data['OT'] = (data['close'].shift(-4) >= data['close']).astype(int)
print('상승 하락 갯수: ', data['OT'].value_counts())

data.to_csv(f"/Data/{STOCK}/{STOCK}_train.csv", index=False)
#:3303 test

#hyperparameter 
drop_cols = ['date', 'MA5', 'MA20', 'MA50', 'MA200']
df = data.drop(columns=[col for col in drop_cols if col in data.columns])

# 데이터 분할 (80% TRAIN, 20% TEST)
#Timestamp 추가 안함
series_length = 16
columns = ["close", "v", "RSI" "OT"]
data_rows = []

for i in range(0, len(df) - series_length, 4):
    close_series = df["close"][i : i + series_length].tolist()
    volume_series = df["v"][i : i + series_length].tolist()
    rsi_series = df["RSI"][i : i + series_length].tolist()
    label = df["OT"][i + series_length]  # 레이블
    
    # 각 시계열 데이터를 ':'로 구분하여 한 줄로 생성
    row = (
        ",".join(map(str, close_series))
        + ":" + ",".join(map(str, volume_series))
        + ":" + ",".join(map(str, rsi_series))
        + ":" + str(label)
    )

    data_rows.append(row)

def save_to_ts(filename, data, problem_name=f"{STOCK}"):
    with open(filename, "w") as f:
        # 헤더 정보 작성
        f.write(f"# {STOCK} dataset converted from CSV\n")
        f.write(f"@problemName {problem_name}\n")
        f.write(f"@timeStamps false\n")
        f.write(f"@missing false\n")
        f.write(f"@univariate false\n")
        f.write(f"@dimensions {len(columns)}\n")  # Date, Open, High, Low, Close, Volume
        f.write(f"@equalLength true\n")
        f.write(f"@seriesLength {series_length}\n")  # 시계열 길이
        f.write(f"@classLabel true 0 1\n")  # OT 레이블 사용 여부
        f.write("@data\n")
        # 데이터 내용 작성
        f.write("\n".join(data))

# OT 값 추출
ots = [int(row.split(":")[-1]) for row in data_rows]

# OT 분포 확인
print("OT 분포:")
print("0 (하락):", ots.count(0))
print("1 (상승):", ots.count(0) / ots.count(1))


print("TRAIN.ts 파일이 생성되었습니다!")
# TRAIN.ts와 TEST.ts 파일로 저장

save_to_ts(f"/Experiment/Baseline/Time-Series-Library/dataset/{STOCK}/{STOCK}_TRAIN.ts", data_rows)
print('train 데이터 수: ', len(data_rows))

In [None]:
import pandas as pd
import numpy as np

# CSV 파일 읽기
data = pd.read_csv(f'/Data/{STOCK}/{STOCK}.csv')[3410:]
data = data.reset_index(drop=True)
data['OT'] = (data['close'].shift(-4) >= data['close']).astype(int)
print('상승 하락 갯수: ', data['OT'].value_counts())

data.to_csv(f"/Data/{STOCK}/{STOCK}_test.csv", index=False)
#:3303 test

#hyperparameter 
drop_cols = ['date', 'MA5', 'MA20', 'MA50', 'MA200']
df = data.drop(columns=[col for col in drop_cols if col in data.columns])

# 데이터 분할 (80% TRAIN, 20% TEST)
#Timestamp 추가 안함
series_length = 16
columns = ["close", "v", "RSI" "OT"]
data_rows = []

for i in range(0, len(df) - series_length, 4):
    #date_series = df["date"][i : i + series_length].tolist()
    close_series = df["close"][i : i + series_length].tolist()
    volume_series = df["v"][i : i + series_length].tolist()
    rsi_series = df["RSI"][i : i + series_length].tolist()
    label = df["OT"][i + series_length]  # 레이블
    
    # 각 시계열 데이터를 ':'로 구분하여 한 줄로 생성
    row = (
        ",".join(map(str, close_series))
        + ":" + ",".join(map(str, volume_series))
        + ":" + ",".join(map(str, rsi_series))
        + ":" + str(label)
    )

    data_rows.append(row)

def save_to_ts(filename, data, problem_name=f"{STOCK}"):
    with open(filename, "w") as f:
        # 헤더 정보 작성
        f.write(f"# {STOCK} dataset converted from CSV\n")
        f.write(f"@problemName {problem_name}\n")
        f.write(f"@timeStamps false\n")
        f.write(f"@missing false\n")
        f.write(f"@univariate false\n")
        f.write(f"@dimensions {len(columns)}\n")  # Date, Open, High, Low, Close, Volume
        f.write(f"@equalLength true\n")
        f.write(f"@seriesLength {series_length}\n")  # 시계열 길이
        f.write(f"@classLabel true 0 1\n")  # OT 레이블 사용 여부
        f.write("@data\n")
        # 데이터 내용 작성
        f.write("\n".join(data))

# OT 값 추출
ots = [int(row.split(":")[-1]) for row in data_rows]

# OT 분포 확인
print("OT 분포:")
print("0 (하락):", ots.count(0))
print("1 (상승):", ots.count(0) / ots.count(1))


print("TEST.ts 파일이 생성되었습니다!")
# TRAIN.ts와 TEST.ts 파일로 저장
save_to_ts(f"/Experiment/Baseline/Time-Series-Library/dataset/{STOCK}/{STOCK}_TEST.ts", data_rows)
print('test 데이터 수: ', len(data_rows))

상승 하락 갯수:  OT
1    525
0    421
Name: count, dtype: int64
           date   close      v        RSI  OT
0    2021-08-06   57.86  14.89  61.739944   0
1    2021-08-09   57.20  17.83  55.772812   0
2    2021-08-10   58.18  16.34  52.116935   0
3    2021-08-11   58.35  18.28  56.567797   0
4    2021-08-12   57.35  19.23  51.494696   0
..          ...     ...    ...        ...  ..
941  2025-05-07  104.61  12.34  51.191827   1
942  2025-05-08  106.07  19.20  47.400612   0
943  2025-05-09  107.31  10.99  56.117353   0
944  2025-05-12  109.16  14.24  52.882038   0
945  2025-05-13  109.46  13.35  57.312806   0

[946 rows x 5 columns]
OT 분포:
0 (하락): 106
1 (상승): 0.8346456692913385
TEST.ts 파일이 생성되었습니다!
test 데이터 수:  233
