In [1]:
from datasets import load_dataset
import polars as pl

# 데이터셋 로드
data = load_dataset('chuyin0321/timeseries-daily-stocks')['train']

# Dataset을 딕셔너리 리스트로 변환
data_list = data.to_pandas().to_dict('records')

# 딕셔너리 리스트를 Polars DataFrame으로 변환
df = pl.DataFrame(data_list)

  from .autonotebook import tqdm as notebook_tqdm
Generating train split: 100%|██████████| 8405823/8405823 [00:08<00:00, 982397.22 examples/s] 


In [2]:
import polars as pl

# 'date' 칼럼을 날짜 형식으로 변환하고 필터링
df_filtered = df.with_columns(
    pl.col('date').str.strptime(pl.Date, format='%Y-%m-%d')
).filter(
    pl.col('date').dt.year().is_in([2020,2021,2022,2023])
)


In [3]:
df_filtered

symbol,date,open,high,low,close,adj_close,volume
str,date,f64,f64,f64,f64,f64,f64
"""A""",2020-01-02,85.900002,86.349998,85.199997,85.949997,83.948051,1.4105e6
"""A""",2020-01-03,84.669998,85.330002,84.5,84.57,82.600189,1.1183e6
"""A""",2020-01-06,84.0,84.82,83.599998,84.82,82.844376,1.9932e6
"""A""",2020-01-07,83.959999,85.260002,83.940002,85.080002,83.09832,1.6847e6
"""A""",2020-01-08,85.959999,86.470001,85.199997,85.919998,83.918747,1.8476e6
…,…,…,…,…,…,…,…
"""ZYNE""",2023-09-01,1.31,1.33,1.31,1.32,1.32,670100.0
"""ZYNE""",2023-09-05,1.32,1.33,1.32,1.33,1.33,784600.0
"""ZYNE""",2023-09-06,1.33,1.33,1.32,1.32,1.32,558400.0
"""ZYNE""",2023-09-07,1.32,1.33,1.32,1.32,1.32,480400.0


In [4]:
import polars as pl

# volume 열 제거
# df_filtered = df_filtered.drop('volume')

# 각 증가율 계산 함수 정의
def calculate_increase(n):
    return (
        (pl.col('close') / pl.col('close').shift(n) - 1) * 100
    ).alias(f'inc-{n}')

# 데이터프레임 정렬 및 증가율 계산
df_result = df_filtered.sort(['symbol', 'date']).with_columns([
    calculate_increase(5),
    calculate_increase(10),
    calculate_increase(15),
    calculate_increase(20),
    calculate_increase(25),
    calculate_increase(30)
])

# NaN 값 채우기
# df_result = df_result.fill_null(float('nan'))


In [5]:
df_result_cleaned = df_result.drop_nulls()

In [6]:
df_result_cleaned

symbol,date,open,high,low,close,adj_close,volume,inc-5,inc-10,inc-15,inc-20,inc-25,inc-30
str,date,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64
"""A""",2020-02-14,85.720001,85.860001,85.120003,85.82,83.821083,1.9654e6,3.186248,3.948646,-2.764561,-4.068857,-1.661507,-0.151247
"""A""",2020-02-18,85.660004,86.080002,84.529999,84.790001,82.815079,2.8725e6,0.42639,3.213632,-2.044821,-5.914338,-3.196706,0.260141
"""A""",2020-02-19,84.699997,85.839996,83.449997,85.349998,83.36203,4.7413e6,0.305561,2.191093,-2.099108,-4.753937,-2.412533,0.62485
"""A""",2020-02-20,84.900002,84.989998,83.360001,84.339996,82.375557,2.5436e6,-1.275903,-0.694694,-3.324166,-6.424055,-4.148201,-0.869777
"""A""",2020-02-21,83.900002,85.089996,83.400002,85.07,83.088554,1.7625e6,-0.468002,0.294742,0.817733,-4.49085,-4.005871,-0.98929
…,…,…,…,…,…,…,…,…,…,…,…,…,…
"""ZYNE""",2023-09-01,1.31,1.33,1.31,1.32,1.32,670100.0,-0.377358,0.0,289.380531,273.937677,266.666667,266.666667
"""ZYNE""",2023-09-05,1.32,1.33,1.32,1.33,1.33,784600.0,0.757576,4.724409,-1.481481,288.888889,264.383562,269.444444
"""ZYNE""",2023-09-06,1.33,1.33,1.32,1.32,1.32,558400.0,0.0,1.538462,-2.222222,281.50289,271.830986,270.786517
"""ZYNE""",2023-09-07,1.32,1.33,1.32,1.32,1.32,480400.0,0.0,1.538462,2.325581,295.209581,257.723577,262.637363


In [7]:
import polars as pl
import random

# 1. 고정 간격으로 연속된 행 추출 함수
def extract_fixed_interval_sequence(df, interval, num_samples=10):
    symbols = df['symbol'].unique().to_list()
    selected_symbol = random.choice(symbols)
    symbol_data = df.filter(pl.col('symbol') == selected_symbol)

    total_length = symbol_data.height
    required_length = (num_samples - 1) * interval + 1  # 필요한 총 데이터 길이 계산

    if total_length < required_length:
        return None

    max_start_idx = total_length - required_length
    start_idx = random.randint(0, max_start_idx)

    indices = [start_idx + i * interval for i in range(num_samples)]
    sequence = symbol_data.with_row_count().filter(pl.col('row_nr').is_in(indices)).select(pl.exclude('row_nr'))
    return sequence

# 2. 시장 상태 및 변동성 레이블링 함수
def label_market_state(sequence, return_threshold, volatility_threshold):
    close_prices = sequence['close'].to_list()
    high_prices = sequence['high'].to_list()
    low_prices = sequence['low'].to_list()

    returns = (close_prices[-1] - close_prices[0]) / close_prices[0] * 100
    volatility = (max(high_prices) - min(low_prices)) / min(low_prices) * 100

    if returns > return_threshold:
        market_state = '상승장'
    elif returns < -return_threshold:
        market_state = '하락장'
    else:
        market_state = '횡보장'
    if volatility < volatility_threshold['low']:
        volatility_state = '변동성 낮음'
    elif volatility_threshold['low'] <= volatility < volatility_threshold['high']:
        volatility_state = '변동성 중간'
    else:
        volatility_state = '변동성 높음'

    return market_state, volatility_state

# 레이블별 리스트 초기화
labels = {
    '1일': [], '7일': [], '30일': []
}

# 각 간격에 대한 threshold 설정
thresholds = {
    1: {'return': 0.5, 'volatility': {'low': 5, 'high': 10}},
    7: {'return': 2, 'volatility': {'low': 15, 'high': 25}},
    30: {'return': 5, 'volatility': {'low': 25, 'high': 50}}
}

# 원하는 샘플 수 설정
desired_samples = 200  # 원하는 샘플 수로 변경 가능

# 각 간격에 대해 고정 간격 추출 및 레이블링 수행
for interval in [1, 7, 30]:
    while len(labels[f'{interval}일']) < desired_samples:
        sample = extract_fixed_interval_sequence(df_result_cleaned, interval)
        if sample is not None and sample.height == 10:
            market_state, volatility_state = label_market_state(
                sample,
                return_threshold=thresholds[interval]['return'],
                volatility_threshold=thresholds[interval]['volatility']
            )
            labels[f'{interval}일'].append({
                'data': sample,
                'market_state': market_state,
                'volatility_state': volatility_state
            })

# 결과 확인
for period, samples in labels.items():
    print(f"{period} 샘플 수: {len(samples)}")
    for i, sample_info in enumerate(samples):
        print(f"샘플 {i+1} - 시장 상태: {sample_info['market_state']}, 변동성 상태: {sample_info['volatility_state']}")


  sequence = symbol_data.with_row_count().filter(pl.col('row_nr').is_in(indices)).select(pl.exclude('row_nr'))


1일 샘플 수: 200
샘플 1 - 시장 상태: 하락장, 변동성 상태: 변동성 높음
샘플 2 - 시장 상태: 횡보장, 변동성 상태: 변동성 높음
샘플 3 - 시장 상태: 상승장, 변동성 상태: 변동성 중간
샘플 4 - 시장 상태: 하락장, 변동성 상태: 변동성 중간
샘플 5 - 시장 상태: 횡보장, 변동성 상태: 변동성 낮음
샘플 6 - 시장 상태: 상승장, 변동성 상태: 변동성 중간
샘플 7 - 시장 상태: 상승장, 변동성 상태: 변동성 높음
샘플 8 - 시장 상태: 하락장, 변동성 상태: 변동성 중간
샘플 9 - 시장 상태: 상승장, 변동성 상태: 변동성 높음
샘플 10 - 시장 상태: 상승장, 변동성 상태: 변동성 중간
샘플 11 - 시장 상태: 상승장, 변동성 상태: 변동성 중간
샘플 12 - 시장 상태: 상승장, 변동성 상태: 변동성 높음
샘플 13 - 시장 상태: 하락장, 변동성 상태: 변동성 중간
샘플 14 - 시장 상태: 상승장, 변동성 상태: 변동성 낮음
샘플 15 - 시장 상태: 하락장, 변동성 상태: 변동성 중간
샘플 16 - 시장 상태: 하락장, 변동성 상태: 변동성 높음
샘플 17 - 시장 상태: 하락장, 변동성 상태: 변동성 높음
샘플 18 - 시장 상태: 상승장, 변동성 상태: 변동성 중간
샘플 19 - 시장 상태: 횡보장, 변동성 상태: 변동성 낮음
샘플 20 - 시장 상태: 하락장, 변동성 상태: 변동성 높음
샘플 21 - 시장 상태: 상승장, 변동성 상태: 변동성 높음
샘플 22 - 시장 상태: 하락장, 변동성 상태: 변동성 높음
샘플 23 - 시장 상태: 하락장, 변동성 상태: 변동성 높음
샘플 24 - 시장 상태: 상승장, 변동성 상태: 변동성 높음
샘플 25 - 시장 상태: 상승장, 변동성 상태: 변동성 중간
샘플 26 - 시장 상태: 상승장, 변동성 상태: 변동성 높음
샘플 27 - 시장 상태: 하락장, 변동성 상태: 변동성 높음
샘플 28 - 시장 상태: 하락장, 변동성 상태: 변동성 높음
샘플 29 - 시장 상태: 상

In [8]:
len(labels['1일'])

200

In [9]:
def polars_to_markdown(df):
    headers = df.columns
    markdown = "| | " + " | ".join(headers) + " |\n"
    markdown += "|---:|" + "|".join([":------------" if col == 'date' else "-------:" for col in headers]) + "|\n"
    
    for i, row in enumerate(df.iter_rows()):
        markdown += f"| {i} | " + " | ".join(str(value) for value in row) + " |\n"
    
    return markdown
polars_to_markdown(labels['7일'][0]['data'])

def round_numeric_columns(df, decimal_places=1):
    for col in df.columns:
        if df[col].dtype in [pl.Float32, pl.Float64]:
            df = df.with_columns(pl.col(col).round(decimal_places).alias(col))
    return df


In [10]:
new_dict = {}

for interval in labels.keys():
    new_dict[interval]=[]
    for data in labels[interval]:
        data = pl.DataFrame(data['data'])
        temp_dict = {}
        temp_dict['data_df'] = data
        data = data.drop(['symbol','volume'])
        data = round_numeric_columns(data)
        data_str = polars_to_markdown(data)
        temp_dict['data_str'] = data_str
        new_dict[interval].append(temp_dict)
        
        
        

In [11]:
new_dict

{'1일': [{'data_df': shape: (10, 14)
   ┌────────┬────────────┬───────────┬───────────┬───┬────────────┬───────────┬───────────┬───────────┐
   │ symbol ┆ date       ┆ open      ┆ high      ┆ … ┆ inc-15     ┆ inc-20    ┆ inc-25    ┆ inc-30    │
   │ ---    ┆ ---        ┆ ---       ┆ ---       ┆   ┆ ---        ┆ ---       ┆ ---       ┆ ---       │
   │ str    ┆ date       ┆ f64       ┆ f64       ┆   ┆ f64        ┆ f64       ┆ f64       ┆ f64       │
   ╞════════╪════════════╪═══════════╪═══════════╪═══╪════════════╪═══════════╪═══════════╪═══════════╡
   │ DGLY   ┆ 2021-02-04 ┆ 53.0      ┆ 55.599998 ┆ … ┆ -7.457631  ┆ -24.79338 ┆ 9.199996  ┆ 2.247183  │
   │        ┆            ┆           ┆           ┆   ┆            ┆ 9         ┆           ┆           │
   │ DGLY   ┆ 2021-02-05 ┆ 55.200001 ┆ 55.200001 ┆ … ┆ -7.931031  ┆ -3.260868 ┆ 12.658227 ┆ 0.754721  │
   │ DGLY   ┆ 2021-02-08 ┆ 54.200001 ┆ 56.200001 ┆ … ┆ -10.163936 ┆ 4.182512  ┆ 17.094017 ┆ 5.791506  │
   │ DGLY   ┆ 2021-02-09 ┆ 5

# 여기부터 GPT 레이블링~~~

In [None]:
OPENAI_API_KEY = "sk-XXX"
GPT_PROMPT = """
다음 표는 주식 A에 대한 {} 분석 결과입니다.먼저 표를 바탕으로 향후 주가가 상승할지 하락할지 3문장 안으로 예측하고 그 뒤 [증가] 혹은 [감소] 라고 답변하세요.
"""

In [54]:
import openai

def gpt_chat(prompt, api_key):
    client = openai.OpenAI(api_key=api_key)
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": "당신은 주식 분석가입니다. 질문에 대한 분석적이고 실용적인 답변을 제공해주세요."},
            {"role": "user", "content": prompt}
        ],
    )
    return response.choices[0].message.content

In [55]:
new_dict.keys()

dict_keys(['1일', '7일', '30일'])

In [57]:
def labeler(data:dict):
    res_list = []
    for interval in data.keys():
        if interval =='1일':
            interval_kor = '일일'
        elif interval =='7일':
            interval_kor = '주간'
        elif interval =='30일':
            interval_kor = '월간'

        for table in data[interval]:
            table_str = table['data_str']
            prompt = GPT_PROMPT.format(interval_kor)+'\n'+table_str
            answer = gpt_chat(prompt,api_key=OPENAI_API_KEY)
            print(answer)
            res_dict = {
                'question':prompt,
                'answer':answer,
            }
            res_list.append(res_dict)
    return res_list

In [59]:
label_list = labeler(new_dict)

표의 데이터를 분석해 보면 주식 A는 최근 일일 종가가 전반적으로 하락하고 있는 추세입니다. 또한 최근 5일, 10일, 15일 등의 증가율(`inc-5`, `inc-10`, `inc-15`) 모두 음수로 기록되어 주가가 지속적으로 하락하고 있음을 보여줍니다. 이러한 경향은 가까운 미래에도 이어질 가능성이 높습니다. [감소]
표에서 주목할 점은 최근 며칠 동안 주식 A의 주가가 어느 정도 회복세를 보이고 있다는 것입니다. 7월 19일과 20일에 주가는 89.3까지 올랐고, 연관된 inc-5 및 inc-10 지표도 양수로 변한 것이 눈에 띕니다. 그러나 장기적 증감률인 inc-25와 inc-30에서는 여전히 하락세를 보이고 있어서, 향후에도 단기적 반등 이후 하락이 이어질 가능성이 있습니다. [증가]
주식 A의 최근 데이터를 분석해보면, "inc-5", "inc-10", "inc-15" 지표에서 모두 양의 값이 나타나고 있어 단기적으로 상승세를 보이고 있음을 알 수 있습니다. 또한, 마지막 날인 2020-02-03의 "close" 가격이 전일보다 상승한 것을 보면, 주가가 단기적인 긍정적 추세를 지속하고 있음을 확인할 수 있습니다. 다만, "inc-25", "inc-30"에서 음의 값을 관찰할 수 있어, 중장기적으로는 불확실성이 존재할 수 있으나 단기적으로는 상승할 가능성이 높아 보입니다. 

[증가]
표에 따르면 주식 A의 과거 10 거래일 동안 지속적인 하락세를 보이고 있습니다. 모든 'inc' 지표는 음수이며 예외 없이 전 기간 동안 감소를 나타냅니다. 이런 하락 추세는 시장의 부정적인 감정이나 주식의 내부 가치 하락에 의해 지속될 가능성이 있습니다. 따라서 향후 주가가 하락할 가능성이 높습니다. [감소]
해당 표의 데이터를 분석해보면, 단기적으로는 주가의 변동성이 꾸준히 존재하며, 5일과 10일 지표에서는 증가 추세를 보여줍니다. 특히, 최근 며칠 간의 inc-5 지표와 inc-10 지표에서 주가가 증가하는 경향을 확인할 수 있기에 단기적인 상승 가능성이 

In [60]:
from datasets import Dataset

table_data = Dataset.from_list(label_list)
table_data.push_to_hub("overfit-brothers/table_predict",private=True,token = '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')

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

CommitInfo(commit_url='https://huggingface.co/datasets/overfit-brothers/table_predict/commit/42476aff0e96b186c60ddfe0d4775dd06723d02c', commit_message='Upload dataset', commit_description='', oid='42476aff0e96b186c60ddfe0d4775dd06723d02c', pr_url=None, repo_url=RepoUrl('https://huggingface.co/datasets/overfit-brothers/table_predict', endpoint='https://huggingface.co', repo_type='dataset', repo_id='overfit-brothers/table_predict'), pr_revision=None, pr_num=None)

In [3]:
from datasets import load_dataset

data = load_dataset("overfit-brothers/korean_econ_fin_exams_cot")
data['train'][-1]

{'question': '국제결제은행이 일반 은행에 권고하는 자기자본비율을 ‘이것’ 비율이라 한다. 은행 경영의 건전성을 보여주는 지표인 이것은?\n###선택지:\nA:실질성장률\nB:잠재성장률\nC:총요소생산성\nD:한계효용',
 'answer': "풀이: 국제결제은행이 일반 은행에 권고하는 자기자본비율은 은행 경영의 건전성을 보여주는 지표이다. 이 지표는 은행의 자본과 위험을 측정하는 것으로, 실질성장률이나 잠재성장률, 한계효용과는 직접적인 관련이 없다. 반면, 총요소생산성은 기업의 생산능력을 나타내는 지표로, 은행의 자본과 위험을 측정하는데 사용될 수 있다. 따라서 정답은 'C 총요소생산성'이다. \n\n정답: C 총요소생산성"}