In [2]:
from datasets import load_dataset
import polars as pl

# 데이터셋 로드
data = load_dataset('chuyin0321/timeseries-daily-stocks')['train']

# Dataset을 딕셔너리 리스트로 변환
data_list = data.to_pandas().to_dict('records')

# 딕셔너리 리스트를 Polars DataFrame으로 변환
df = pl.DataFrame(data_list)

  from .autonotebook import tqdm as notebook_tqdm


In [3]:
df.head()

symbol,date,open,high,low,close,adj_close,volume
str,str,f64,f64,f64,f64,f64,f64
"""A""","""1999-11-18""",32.546494,35.765381,28.612303,31.473534,26.794756,62546380.0
"""A""","""1999-11-19""",30.713518,30.758226,28.478184,28.880545,24.58724,15234146.0
"""A""","""1999-11-22""",29.551144,31.473534,28.657009,31.473534,26.794756,6577870.0
"""A""","""1999-11-23""",30.400572,31.205294,28.612303,28.612303,24.358868,5975611.0
"""A""","""1999-11-24""",28.701717,29.998213,28.612303,29.372318,25.005905,4843231.0


In [4]:
import polars as pl

# 'date' 칼럼을 날짜 형식으로 변환하고 필터링
df_filtered = df.with_columns(
    pl.col('date').str.strptime(pl.Date, format='%Y-%m-%d')
).filter(
    pl.col('date').dt.year().is_in([2020,2021,2022,2023])
)


In [5]:
import polars as pl
import random

# 1. 고정 간격으로 연속된 행 추출 함수
def extract_fixed_interval_sequence(df, interval, num_samples=10):
    symbols = df['symbol'].unique().to_list()
    selected_symbol = random.choice(symbols)
    symbol_data = df.filter(pl.col('symbol') == selected_symbol)

    total_length = symbol_data.height
    required_length = (num_samples - 1) * interval + 1  # 필요한 총 데이터 길이 계산

    if total_length < required_length:
        return None

    max_start_idx = total_length - required_length
    start_idx = random.randint(0, max_start_idx)

    indices = [start_idx + i * interval for i in range(num_samples)]

    def round_numeric(x):
        if x.dtype == pl.Utf8:
            return x
        return pl.round(x, 2)

    sequence = (symbol_data
        .with_row_count()
        .filter(pl.col('row_nr').is_in(indices))
        .select(pl.exclude('row_nr'))
        .with_columns([
            pl.col('^.*$')
            .exclude(['symbol', 'date'])  # symbol과 date 컬럼 제외
            .cast(pl.Float64)
            .round(2)
        ]))
    return sequence

In [6]:
sample = extract_fixed_interval_sequence(df_filtered,interval=1,num_samples=5)
sample

  sequence = (symbol_data


symbol,date,open,high,low,close,adj_close,volume
str,date,f64,f64,f64,f64,f64,f64
"""KRUS""",2020-01-21,24.24,24.85,23.31,23.42,23.42,63200.0
"""KRUS""",2020-01-22,23.5,23.94,22.27,22.76,22.76,68700.0
"""KRUS""",2020-01-23,22.74,23.42,22.7,22.96,22.96,48800.0
"""KRUS""",2020-01-24,23.08,23.46,22.6,23.1,23.1,57700.0
"""KRUS""",2020-01-27,23.03,23.65,22.65,23.48,23.48,67300.0


In [7]:
GPT_API_KEY = "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"
import openai
client = openai.OpenAI(api_key=GPT_API_KEY)
from pydantic import BaseModel
class QuestionModel(BaseModel):
    question: str
    A: str
    B: str
    C: str
    D: str
    answer: str


In [8]:
def polars_to_markdown(df):
    headers = df.columns
    markdown = "| | " + " | ".join(headers) + " |\n"
    markdown += "|---:|" + "|".join([":------------" if col == 'date' else "-------:" for col in headers]) + "|\n"
    
    for i, row in enumerate(df.iter_rows()):
        markdown += f"| {i} | " + " | ".join(str(value) for value in row) + " |\n"
    
    return markdown

In [62]:
def generate_quiz_prompt(data, answer):
    prompt = f"""
당신은 금융 데이터분석 문제 생성 전문가입니다.

입력 데이터:{data}
정답 위치: {answer}

다음 요구사항에 맞춰 객관식 문제와 선택지를 생성해주세요:

1. 문제 요구사항:
   - 코드를 활용하여 금융 데이터를 분석하고 복잡한 금융 계산을 수행하는 능력을 평가하기 위한 문제를 작성해야 합니다.
   - 주어진 금융 데이터프레임을 기반으로 계산 가능한 문제를 작성해야 합니다.
   - 데이터프레임의 칼럼에 대한 이해가 필요한 문제를 작성해야 합니다.
   - 단순 계산이 아닌 금융 전문가가 데이터를 활용하여 문제를 해결하기 위한 문제를 작성해야 합니다. 두개 이상의 칼럼을 활용해도 좋습니다.

2. 선택지 요구사항:
   - 총 4개의 파이썬 코드 선택지(코드블럭 문법을 활용하세요) 필요
   - {answer}번이 정답이 되도록 구성, 나머지는 오답으로 구성
   - 오답은 파이썬 코드이지만 문제의 요구와 다른 코드로 구성
   - 선택지 간 중복되는 내용 없도록 작성

출력 형식 (JSON):
{{
    "question": "문제 내용",
    "A": "첫 번째 선택지",
    "B": "두 번째 선택지",
    "C": "세 번째 선택지",
    "D": "네 번째 선택지",
    "answer": "{answer}"
}}
문제 예시 : 
주어진 데이터프레임을 보고 질문에 요구에 알맞는 코드를 선택하시요.
### df.head()
|    | Symbol    | Series   | Date        |   Prev Close |   Open Price |   High Price |   Low Price |   Last Price |   Close Price |   Average Price |   Total Traded Quantity |    Turnover |   No. of Trades |   Deliverable Qty |   % Dly Qt to Traded Qty |
|---:|:----------|:---------|:------------|-------------:|-------------:|-------------:|------------:|-------------:|--------------:|----------------:|------------------------:|------------:|----------------:|------------------:|-------------------------:|
|  0 | GODREJIND | EQ       | 15-May-2017 |       564.6  |       581    |       584    |      568.5  |       578.9  |        578.55 |          578.09 |                  797171 | 4.60836e+08 |           21649 |            360927 |                    45.28 |
|  1 | GODREJIND | EQ       | 16-May-2017 |       578.55 |       581.45 |       589    |      572.25 |       583.8  |        584.8  |          583.6  |                  500223 | 2.9193e+08  |           17204 |            210364 |                    42.05 |
|  2 | GODREJIND | EQ       | 17-May-2017 |       584.8  |       583    |       594    |      576.85 |       584.9  |        588.6  |          588.74 |                  504155 | 2.96815e+08 |            8567 |            261667 |                    51.9  |
|  3 | GODREJIND | EQ       | 18-May-2017 |       588.6  |       582    |       588.85 |      571.2  |       572.25 |        574.6  |          580.9  |                  223583 | 1.29879e+08 |            7144 |             99785 |                    44.63 |
|  4 | GODREJIND | EQ       | 19-May-2017 |       574.6  |       581    |       585.8  |      567.55 |       579.85 |        578    |          577.31 |                  245436 | 1.41692e+08 |            4969 |             68041 |                    27.72 |

### 질문:
"종가" 열의 평균 값을 계산합니다.

### 선택지:
a) ```python
df['Close Price'].mean()
```
b) ```python
df['Close_Price'].mean()
```
c) ```python
df['Total Traded Quantity'].median()
```
d) ```python
sum(df['Close Price']) / len(df['Close_Price'])
```
주의사항:
- 모든 선택지는 실행 가능한 파이썬 스크립트로 작성해야 합니다.
"""
    return prompt


In [63]:

def augment(data, num_samples):
    res_list = []
    import random
    import json
    for i in range(num_samples):
        sampled_data = polars_to_markdown(extract_fixed_interval_sequence(data,interval=1,num_samples=5))
        random_answer = random.choice(["A","B","C","D"])
        prompt = generate_quiz_prompt(sampled_data,random_answer)
        response = client.beta.chat.completions.parse(
                model="gpt-4o",
                messages=[
                    {"role": "system", "content": "You are a helpful assistant who is good at extracting information from text with json format."},
                    {"role": "user", "content": prompt},
                ],
                response_format=QuestionModel,
                )
        answer_json  = json.loads(response.choices[0].message.content)
        question = answer_json["question"].replace("\n","")
        A,B,C,D = answer_json["A"],answer_json["B"],answer_json["C"],answer_json["D"]
        answer = answer_json["answer"]
        question_str = f"{question}\n### 선택지\na) {A}\n b) {B}\nc) {C}\nd) {D}"
        print(question)
        res_list.append({"data":sampled_data,"question":question,"question_full":question_str,"answer":answer})
    return res_list
    

In [64]:
qa_dict = augment(df_filtered, 1000)

import json

with open('gpt_agent_raw.json', 'w', encoding='utf-8') as f:
    json.dump(qa_dict, f, ensure_ascii=False, indent=4)


  sequence = (symbol_data


주어진 데이터프레임에서 'adj_close' 열이 'close' 열보다 낮게 마감된 날의 개수를 계산하는 코드를 작성하세요.
주어진 데이터프레임을 보고 2021년 7월 13일부터 2021년 7월 19일까지 'adj_close' 컬럼의 표준편차를 구하는 코드를 선택하세요.
주어진 데이터프레임을 보고 가장 높은 종가 상승률을 계산하는 코드를 선택하세요.
다음 데이터프레임의 'close' 칼럼의 표준편차를 계산하는 코드를 선택하세요.
해당 데이터프레임에서 'close' 열의 표준편차를 계산하는 코드를 선택하세요.
주어진 데이터프레임에서 2022년 10월 3일부터 10월 7일까지 기간 중 거래량(Volume)의 총합을 계산하는 코드를 찾으세요.
주어진 데이터프레임에서 `close`와 `adj_close`의 차이를 일별 평균으로 계산하는 코드를 선택하세요.
주어진 데이터프레임을 기반으로 종가 열과 거래량 열을 활용하여 가중평균 종가를 계산하는 코드를 선택하십시오.
주어진 데이터프레임에서 각 행의 주어진 'open' 과 'close' 값의 차이의 평균을 계산하기 위한 코드를 선택하세요.
주어진 데이터프레임에서 'close' 열과 'volume' 열을 활용하여 거래된 총 금액을 계산하려면 어떤 코드를 사용해야 할까요?
다음 데이터프레임을 기반으로 전 거래일 대비 '종가'가 상승한 날의 거래량 평균을 계산할 수 있는 코드를 선택하세요.
주어진 데이터프레임을 사용하여 주어진 기간 동안 'close' 가격의 변동율(%)을 계산할 수 있는 코드를 선택하세요. 변동율은 (마지막 날 종가 - 첫 날 종가) / 첫 날 종가 * 100 으로 계산합니다.
주어진 금융 데이터프레임에서 각 날짜별로 'close'와 'adj_close'의 차이를 평균하여 그 값을 구하는 코드를 작성하세요.
주어진 데이터프레임을 사용하여 매일 주어진 주식의 'Open' 가격과 'Close' 가격의 차이의 평균을 계산하는 코드를 선택하세요.
주어진 금융 데이터프레임에서 'adj_close' 열의 표준편차를 계산하

In [59]:
len(qa_dict)

1

In [61]:
qa_dict

[{'data': '| | symbol | date | open | high | low | close | adj_close | volume |\n|---:|-------:|:------------|-------:|-------:|-------:|-------:|-------:|-------:|\n| 0 | TTNP | 2020-04-01 | 6.9 | 6.9 | 6.6 | 6.6 | 6.6 | 105543.0 |\n| 1 | TTNP | 2020-04-02 | 6.6 | 7.2 | 6.6 | 6.6 | 6.6 | 117300.0 |\n| 2 | TTNP | 2020-04-03 | 6.9 | 6.9 | 6.3 | 6.6 | 6.6 | 84580.0 |\n| 3 | TTNP | 2020-04-06 | 6.9 | 6.9 | 6.3 | 6.9 | 6.9 | 109053.0 |\n| 4 | TTNP | 2020-04-07 | 6.9 | 6.9 | 6.6 | 6.6 | 6.6 | 95507.0 |\n',
  'question': "주어진 데이터프레임에서 'open'과 'close' 가격의 차이의 평균 값을 계산하는 코드를 선택하시요.",
  'question_full': "주어진 데이터프레임에서 'open'과 'close' 가격의 차이의 평균 값을 계산하는 코드를 선택하시요.\n### 선택지\na) ```python\n(df['high'] - df['low']).mean()\n```\n b) ```python\n(df['close'] - df['open']).mean()\n```\nc) ```python\n(df['adj_close'] * df['volume']).sum()\n```\nd) ```python\n(df['close'] + df['open']).mean()\n```",
  'answer': 'B'}]

In [65]:
qa_dict_filtered = [i for i in qa_dict if '|' not in i['question'] and len(i['question'])>0]

In [69]:
len(qa_dict_filtered)

980

In [53]:
for d in qa_dict_filtered:
    d['question'] = d['question'].replace('### 질문:', '')

주어진 데이터프레임을 보고, 'Volume' 열의 총합을 계산하는 코드를 선택하시오.


In [66]:
print(len(qa_dict),len(qa_dict_filtered))

1000 980


In [67]:
res_list = []
for data in qa_dict_filtered:
    question = data['question_full']
    answer = data['answer']
    dataframe = data['data']
    prompt = f"""
    주어진 문제, 정답을 바탕으로 생각의 사슬 형식으로 풀이를 생성해 주세요.
    문제: {question}
    정답: {answer}
    
    지시사항 : 
    1. 문제를 풀이하는 과정을 설명을 참고해 총 3문장 이하의 생각의 사슬 형식으로 작성해 주세요.
    2. '따라서 정답은 {answer}입니다' 로 마무리해 주세요.
    다른 설명은 없이 풀이만 작성해 주세요.
    """
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": prompt},
        ],
        )
    response_txt  = response.choices[0].message.content
    print(f"### LABEL_ANSER = {answer}")
    print(response_txt.split('따라서')[-1])
    
    final_question = f"### df.head()\n{dataframe}\n{question}"
    answer_dict = {
        'question':final_question,
        'answer':response_txt
    }    
    res_list.append(answer_dict)

### LABEL_ANSER = D
 정답은 D입니다.
### LABEL_ANSER = B
 정답은 B입니다.
### LABEL_ANSER = D
 정답은 D입니다.
### LABEL_ANSER = D
 정답은 D입니다.
### LABEL_ANSER = D
 정답은 D입니다.
### LABEL_ANSER = B
 정답은 B입니다.
### LABEL_ANSER = A
 정답은 A입니다.


### LABEL_ANSER = B
 정답은 B입니다.
### LABEL_ANSER = C
 정답은 C입니다.
### LABEL_ANSER = B
 정답은 B입니다.
### LABEL_ANSER = C
, 정답은 C입니다.
### LABEL_ANSER = C
 정답은 C입니다.
### LABEL_ANSER = C
 정답은 C입니다.
### LABEL_ANSER = C
 정답은 C입니다.
### LABEL_ANSER = C
 정답은 C입니다.
### LABEL_ANSER = B
 정답은 B입니다.
### LABEL_ANSER = B
 정답은 B입니다.
### LABEL_ANSER = D
 정답은 D입니다.
### LABEL_ANSER = A
 정답은 A입니다.
### LABEL_ANSER = C
 정답은 C입니다.
### LABEL_ANSER = B
 정답은 B입니다.
### LABEL_ANSER = C
 정답은 C입니다.
### LABEL_ANSER = B
 정답은 B입니다.
### LABEL_ANSER = C
 정답은 C입니다.
### LABEL_ANSER = B
 정답은 B입니다.
### LABEL_ANSER = A
 정답은 A입니다.
### LABEL_ANSER = A
 정답은 A입니다.
### LABEL_ANSER = D
 정답은 D입니다.
### LABEL_ANSER = B
 정답은 B입니다.
### LABEL_ANSER = B
 정답은 B입니다.
### LABEL_ANSER = B
 정답은 B입니다.
### LABEL_ANSER = D
 정답은 D입니다.
### LABEL_ANSER = B
 정답은 B입니다.
### LABEL_ANSER = B
 정답은 B입니다.
### LABEL_ANSER = A
 정답은 A입니다.
### LABEL_ANSER = D
 정답은 D입니다.
### LABEL_ANSER = B
 정답은 B입니다.
### LABEL_ANSER = A
 정답은 A입니다.
### LABEL_ANSER = B
 정답은 B입니다.
### LAB

In [70]:
len(res_list)

980

In [68]:
with open('gpt_cot.json', 'w', encoding='utf-8') as f:
    json.dump(res_list, f,ensure_ascii=False, indent=4)
res_list

[{'question': "### df.head()\n| | symbol | date | open | high | low | close | adj_close | volume |\n|---:|-------:|:------------|-------:|-------:|-------:|-------:|-------:|-------:|\n| 0 | BXC | 2022-03-28 | 79.46 | 80.16 | 76.16 | 78.96 | 78.96 | 118400.0 |\n| 1 | BXC | 2022-03-29 | 80.88 | 82.9 | 77.85 | 78.31 | 78.31 | 144600.0 |\n| 2 | BXC | 2022-03-30 | 77.68 | 78.83 | 74.03 | 74.59 | 74.59 | 149900.0 |\n| 3 | BXC | 2022-03-31 | 74.65 | 75.31 | 71.28 | 71.88 | 71.88 | 153100.0 |\n| 4 | BXC | 2022-04-01 | 72.61 | 74.35 | 69.85 | 71.67 | 71.67 | 123400.0 |\n\n주어진 데이터프레임에서 'adj_close' 열이 'close' 열보다 낮게 마감된 날의 개수를 계산하는 코드를 작성하세요.\n### 선택지\na) ```python\nlen(df[df['adj_close'] < df['close']])\n```\n b) ```python\ndf['adj_close'].sum() < df['close'].sum()\n```\nc) ```python\ndf[df['adj_close'] - df['close'] < 0].shape[0]\n```\nd) ```python\nsum(df['adj_close'] < df['close'])\n```",
  'answer': "'adj_close' 열이 'close' 열보다 낮은지를 비교하여 불리언 시리즈를 생성한 뒤 이를 sum 함수로 합산하면 true의 개수를 구할 수 있습니다. 's

In [81]:
from datasets import Dataset

data = Dataset.from_list(res_list)

In [82]:
data.push_to_hub("overfit-brothers/finance-agent", private=True)

Creating parquet from Arrow format: 100%|██████████| 1/1 [00:00<00:00, 107.65ba/s]
Uploading the dataset shards: 100%|██████████| 1/1 [00:02<00:00,  2.44s/it]


CommitInfo(commit_url='https://huggingface.co/datasets/overfit-brothers/finance-agent/commit/18e88cc6deed48b25f275cad39c2f20edd0b4660', commit_message='Upload dataset', commit_description='', oid='18e88cc6deed48b25f275cad39c2f20edd0b4660', pr_url=None, repo_url=RepoUrl('https://huggingface.co/datasets/overfit-brothers/finance-agent', endpoint='https://huggingface.co', repo_type='dataset', repo_id='overfit-brothers/finance-agent'), pr_revision=None, pr_num=None)

In [13]:
import random

numbers = [round(random.uniform(-13, 11), 1) for _ in range(7)]
print(numbers)


[-2.3, 10.9, 4.5, -9.1, 9.9, -10.4, 5.8]


In [3]:
63.7-71.5

-7.799999999999997