# `korquanttools` 사용법

## 1. 라이브러리 import

In [1]:
import pandas as pd
import numpy as np

from pathlib import Path

import FinanceDataReader as fdr

from korquanttools.pricevolume.loader import KRXPriceDM
from korquanttools.pricevolume.utils import DateUtil

from tqdm import tqdm

## 2. `korquantools`로 주가 데이터 불러오기

- 출처: KRX 한국거래소
- 가져오는 데이터: 
    - [조정안된] 가격 (시가/고가/저가/종가)
    - [조정안된] 거래량
    - 거래대금
    - 시가총액

In [2]:
# 시작날짜와 끝 날짜를 아래 형식과 같이 정해줍니다.

START = 20140101
END = 20220520

In [3]:
# KRX 가격 거래량 데이터 모듈(DM)을 다음과 같이 시작해줍니다. 

pricevolume = KRXPriceDM(START, END)

In [4]:
# 아래와 같이 DM의 정보와 불러올 수 있는 데이터를 볼 수 있습니다.

pricevolume.get_info()


        * DM name: KRX_pricevolume
        * DM description: Basic price-volume data imported from KRX website & NAVER finance. Has KOSPI, KOSDAQ, KONEX stocks.
        * birthday: 20211203
        * DM period: 19990101 ~ 
        * Available data: ['lv1', 'open', 'high', 'low', 'close', 'adj_close', 'return', 'volume', 'dollarvolume', 'marketcap']
        


In [6]:
# ** 코드 실행 전 꼭 아래 사항을 읽어보세요!

# 아래 코드를 실행하면,
# 1. 정해놓은 기간동안의 모든 KRX 가격-거래량 등의 데이터를 불러와 저장하고 (cache)
# 2. 그 중 close(종가) 데이터를 column은 종목코드, index는 날짜로 하여 pd.DataFrame을 만들어줍니다. 

# 2014년 1월 ~ 2022년 5월 데이터를 생성하는데 40분가량 걸리고 1.5GB 정도의 캐시 파일이 생기니 돌리기 전에 참고하세요.
# 한 번 데이터를 생성한 뒤에는 새로 다운받지 않고 cache된 파일을 사용하기 때문에 data load에 오랜 시간이 걸리지 않습니다.


close_df = pricevolume.get_data("close")
close_df

ISU_SRT_CD,000020,000040,000050,000060,000070,000075,000080,000087,000100,000105,...,37550L,388050,389140,405640,412930,413600,415580,419270,389260,399720
trdDd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2014-01-01,,,,,,,,,,,...,,,,,,,,,,
2014-01-02,4440,438,111500,15500,73500,32600,21750,16850,182500,93300,...,,,,,,,,,,
2014-01-03,4540,440,114000,15400,71800,33400,21450,16850,180500,93000,...,,,,,,,,,,
2014-01-04,,,,,,,,,,,...,,,,,,,,,,
2014-01-05,,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2022-05-20,11850,780,15050,39100,80800,62800,35550,20900,58500,56900,...,38200,22900,27000,2185,2195,2445,2165,2215,20100,27100
2022-05-21,,,,,,,,,,,...,,,,,,,,,,
2022-05-22,,,,,,,,,,,...,,,,,,,,,,
2022-05-23,12100,779,15000,39750,80800,62600,35350,20900,59600,57200,...,38000,25700,26150,2190,2200,2460,2170,2215,18950,26500


In [None]:
# 나머지 거래량, 거래대금, 시가총액 데이터도 아래와 같이 불러올 수 있습니다. 
# 이미 위에서 한 번 데이터를 다운받았다면 또 전체 데이터를 다운받지 않습니다. 

volume_df = pricevolume.get_data('volume')
dollarvolume_df = pricevolume.get_data('dollarvolume')
marketcap_df = pricevolume.get_data('marketcap')

## 3. `FinanceDatareader`으로 부족한 데이터 보충하기

- 출처: 네이버 금융 (`FinanceDatareader`는 default로 네이버에서 데이터를 가져옵니다.)
- 가져오는 데이터: 
    - 수정 가격 (시가/고가/저가/종가)
    - 수정 거래량
    - 수익률

In [7]:
# KRX 거래소 데이터는 주식분할/배당을 반영한 수정주가, 수정거래량를 제공하지 않습니다.  
# 따라서 FinanceDatareader를 통해 부족한 데이터를 보충해줍니다. 

# fdr로 다운받는데 20분가량 걸리며, 아래 파일들을 pickle로 저장할 시 약 430MB 정도 차지합니다. 

adjOpen_df = close_df.copy()
adjHigh_df = close_df.copy()
adjLow_df = close_df.copy()
adjClose_df = close_df.copy()
adjVolume_df = close_df.copy()
return_df = close_df.copy()

for ii in tqdm(close_df.columns):
    ii_df = fdr.DataReader(ii, DateUtil.numdate2stddate(START), DateUtil.numdate2stddate(END))

    adjOpen_df.loc[:, ii] = ii_df['Open']
    adjHigh_df.loc[:, ii] = ii_df['High']
    adjLow_df.loc[:, ii] = ii_df['Low']
    adjClose_df.loc[:, ii] = ii_df['Close']
    adjVolume_df.loc[:, ii] = ii_df['Volume']
    return_df.loc[:, ii] = ii_df['Change']
    

In [None]:
# 아래와 같이 원하는 경로를 설정하고, 경로를 생성해줍니다. 

cwd = Path('.').resolve()
cache_path = cwd / 'cache'
cache_path.mkdir(parents=True, exist_ok=True)

In [None]:
# FinanceDatareader는 캐시를 생성해주지 않기 때문에 아래와 같이 직접 pickle 파일을 생성하고,
# 추후 read_pickle로 불러오면 다시 다운로드 받지 않을 수 있습니다. 

adjOpen_df.to_pickle(cache_path / f"temp_adjOpen_{START}_{END}")
adjHigh_df.to_pickle(cache_path / f"temp_adjHigh_{START}_{END}")
adjLow_df.to_pickle(cache_path / f"temp_adjLow_{START}_{END}")
adjClose_df.to_pickle(cache_path / f"temp_adjClose_{START}_{END}")
adjVolume_df.to_pickle(cache_path / f"temp_adjVolume_{START}_{END}")
return_df.to_pickle(cache_path / f"temp_return_{START}_{END}")

In [None]:
adjOpen_df = pd.read_pickle(cache_path / f"temp_adjOpen_{START}_{END}")
adjHigh_df = pd.read_pickle(cache_path / f"temp_adjHigh_{START}_{END}")
adjLow_df = pd.read_pickle(cache_path / f"temp_adjLow_{START}_{END}")
adjClose_df = pd.read_pickle(cache_path / f"temp_adjClose_{START}_{END}")
adjVolume_df = pd.read_pickle(cache_path / f"temp_adjVolume_{START}_{END}")
return_df = pd.read_pickle(cache_path / f"temp_return_{START}_{END}")

혹시 사용 중 오류나 궁금한 점이 있으시면 언제든 편하게 연락주세요. 

감사합니다. 