## 01) PYKRX 모듈 설치
한국거래소(Korea Exchange, KRX)는 증권 및 파생 상품 거래의 안정성 및 효율성 도모하는 기관으로 상장공시, 시장감시, 거래 규정 관리 등의 일을 담당합니다. 특히 ‘KRX 정보데이터 시스템’은 시장에 상장된 종목들의 통계 정보를 제공해주고 있어 금융 데이터 분석 분야에서도 유용하게 사용할 수 있습니다.

PYKRX 모듈은 그림 9.1.1과 같이 한국 거래소의 정보 데이터 시스템과 네이버 금융 웹사이트에서 제공하는 데이터를 웹 스크래핑한 후 이를 파이썬 함수 형태로 제공합니다. 여러분이 웹 스크래핑 라이브러리를 사용하는 경우 해당 웹사이트에서 직접 데이터를 다운로드하지 않고도 파이썬 함수로 쉽게 데이터를 얻을 수 있습니다.

PYKRX 모듈은 오픈 소스로 깃허브(https://github.com/sharebook-kr/pykrx)를 통해 유지, 개발되고 있습니다. PYKRX 모듈은 아나콘다 배포판에 포함되지 않은 라이브러리입니다. 따라서 그림 9.1.2과 같이 pip 명령으로 사용자가 직접 설치해야 합니다. 만약 다른 책이나 블로그 글을 보시고 이미 설치를 한 경우에는 "-U" 옵션을 사용하면 구버전은 삭제한 후 최신 버전으로 자동 업데이트가 진행됩니다.

In [1]:
# PYKRX 모듈 설치

!pip install pykrx

Collecting pykrx
  Downloading pykrx-1.0.32-py3-none-any.whl (92 kB)
Collecting deprecated
  Downloading Deprecated-1.2.13-py2.py3-none-any.whl (9.6 kB)
Collecting datetime
  Downloading DateTime-4.4-py2.py3-none-any.whl (51 kB)
Installing collected packages: deprecated, datetime, pykrx
Successfully installed datetime-4.4 deprecated-1.2.13 pykrx-1.0.32


In [6]:
import pykrx
print(pykrx.__version__)

1.0.32


In [None]:
# 모듈에 정의된 함수의 최신 사용법은 PYKRX 깃허브의 첫 페이지(https://github.com/sharebook-kr/pykrx)에서 확인할 수 있습니다. 
# 본 도서에서는 모듈의 일부 기능에 관해서만 설명하니 도움말을 참고해서 다양한 기능을 사용해 보세요. 
# 모듈과 관련한 문의 사항은 그림 9.1.3과 같이 깃허브 페이지 상단의 ISSUES 탭에 질문을 남겨주세요.

In [None]:
## 02) 주식 기본 통계 데이터

In [28]:
## 03) 티커 조회
# 티커(ticker)는 종목을 구분하기 위한 약어로, 종목마다 고유한 값을 갖습니다. 
# 미국은 약어로 표현해서 마이크로소프트는 MSFT, 애플은 AAPL로 사용하며, 
# 한국은 6자리의 숫자 코드를 사용해서 삼성전자는 005930, LG전자는 066570입니다. 
# HTS나 MTS에서는 주로 종목명을 사용해서 종목을 조회하지만 파이썬 함수에서는 종목명보다 티커를 사용합니다.

# get_market_ticker_list 함수는 지정한 일자의 코스피 시장에 상장된 모든 종목에 대한 ticker를 파이썬 리스트로 반환합니다. 
# 날짜는 YYYYMMDD 포맷으로 지정할 수 있으며 YYYY는 4자리 연도, MM은 두 자리 월과 DD는 두 자리 일을 의미합니다. 
# KRX의 정보데이터시스템은 1995년 5월 2일 이후의 데이터를 제공하기 때문에 PYKRX의 함수 또한 해당일 이후의 값만 조회할 수 있습니다. 
# 함수마다 데이터의 유효 기간은 다를 수 있습니다. 다음 코드는 2019년 2월 25일의 티커를 조회합니다.

from pykrx import stock

tickers = stock.get_market_ticker_list('20190225') # 코스피 시장에 상장된 모든 종목의 ticker 조회
print(len(tickers))

tickers = stock.get_market_ticker_list('20220328') # 코스피 시장에 상장된 모든 종목의 ticker 조회
print(len(tickers))

tickers = stock.get_market_ticker_list() # 만약 날짜를 지정하지 않으면 최근 영업일을 기준으로 티커를 조회
print(len(tickers))

stock.get_market_ticker_name("005930")

901
940
940


'삼성전자'

In [27]:
# get_market_ticker_list 함수에 market 옵션을 추가하면 시장을 지정할 수 있습니다. 
# KOSPI, KOSDAQ, KONEX 시장을 조회할 수 있으며, ALL이라고 입력하면 언급한 세 시장을 모두 조회합니다. 
# market 파라미터를 입력하지 않으면 기본적으로 코스피 시장을 조회합니다. 다음 코드는 코스닥 시장에 상장된 종목을 조회합니다.

tickers = stock.get_market_ticker_list(market='KOSDAQ')
len(tickers)


'삼성전자'

In [17]:
# 1995-05-02와 2021-09-30에 상장된 종목이 얼마나 변경됐는지 확인해 보겠습니다. 
# 다음 코드는 집합형 자료구조 set을 활용해서 교집합과 차집합을 구하고 데이터의 개수를 출력합니다.

t0 = stock.get_market_ticker_list("19950502")
t1 = stock.get_market_ticker_list("20210930")
print(len(t0), len(t1))

intersection = set(t0) & set(t1)
print(len(intersection))

complement = set(t1) - set(t0)
print(len(complement))

# 코스피 시장에서 1995-05-02에는 927개, 2021-09-30에는 938개의 종목이 상장돼 있습니다. 
# 1995-05-02에 상장된 종목 중에서 2021-09-30까지 상장이 유지된 회사는 449개입니다. 새롭게 상장된 종목은 489개입니다.1

927 938
449
489


In [20]:
# 개별 종목뿐만 아니라 지수 정보를 조회할 수도 있습니다. 
# get_index_ticker_list 함수는 코스피 시장의 인덱스를 리스트로 조회합니다. 
# get_market_ticker_list와 사용법이 같아서 날짜를 입력하지 않으면 가까운 영업일,
# market 옵션을 추가하면 해당 시장의 티커를 조회합니다.

tickers = stock.get_index_ticker_list('20190225')
len(tickers)

47

In [23]:
# 1001은 코스피 지수, 1002는 코스피 대형주입니다. 
# 코스피 지수가 코스피 시장의 전 종목의 시가총액 가중평균이라면 코스피 대형주는 시가총액 상위 100개 종목만으로 지수를 계산한 지표
# 입니다. 해당 티커는 공식적으로 사용되는 값이 아니라 PYKRX 모듈 내부에서 정의한 독자적인 값입니다.

# get_index_ticker_name 함수에 티커를 넣으면 티커의 이름을 얻을 수 있습니다. 다음 코드는 5개의 티커와 지수 이름을 출력합니다.

for t in tickers[:5]:
# for idx, t in enumerate(tickers):    
    name = stock.get_index_ticker_name(t)
    print(idx, t, name)


46 1001 코스피
46 1002 코스피 대형주
46 1003 코스피 중형주
46 1004 코스피 소형주
46 1005 음식료품


## 04) OHLCL 조회

In [24]:
# get_market_ohlcv 함수는 시작일, 종료일, 티커 세 개의 파라미터를 입력받아 OHLCV를 일자별로 정렬하여 데이터프레임으로 반환합니다.

from pykrx import stock

df = stock.get_market_ohlcv('20190501','20190531','005930') # 삼성전자 5월 OHLCV
df.head()

# 데이터는 오름차순으로 정렬돼서 과거 일자가 데이터프레임 위쪽에 위치합니다. 
# 데이터는 2019-05-01을 시작일로 요청했지만, 해당일은 휴일이라서 2019-05-02부터 데이터가 조회됐습니다.

Unnamed: 0_level_0,시가,고가,저가,종가,거래량
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019-05-02,45500,46150,45400,45900,8625126
2019-05-03,45900,46050,45300,45300,6562916
2019-05-07,45250,45300,44400,44850,12014907
2019-05-08,44300,44850,44200,44250,10398754
2019-05-09,43900,44250,42450,42450,23029718


In [26]:
stock.get_market_ticker_name("005930")

'삼성전자'

In [31]:
# 삼성전자는 2018년 5월 4일에 50:1의 액면 분할해서 주식 가격이 250만 원에서 5만 원으로 변경되었습니다. 
# 그림 9.4.3의 삼성전자 가격정보로 수익률을 계산하면 98%의 손실이 발생하는 잘못된 결과를 얻게 됩니다. 
# 이러한 혼란을 줄이기 위해 증권 시장에서는 수정주가를 사용합니다. 
# 현재 주가의 수준을 고려해서 과거 주가를 조정함으로써 가격의 연속성을 보장합니다. 
# 수정주가는 그림 9.4.4와 같이 액면 분할하기 전의 가격이 250만 원이 아니라 5만 원대에 맞게 스케일된 것을 알 수 있습니다.

# get_market_ohlcv 함수는 네이버에서 OHLCV를 스크래핑해서 수정주가를 반환합니다. 
# 만약 수정주가를 반영하지 않은 데이터를 얻기 위해서는 adjusted 옵션을 False로 설정해야 합니다.

df = stock.get_market_ohlcv('20180101','20190531', '005930', adjusted=False)
df

Unnamed: 0_level_0,시가,고가,저가,종가,거래량,거래대금,등락률
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2018-01-02,2569000,2570000,2539000,2551000,169485,432677351468,0.12
2018-01-03,2627000,2628000,2571000,2581000,200270,518345810160,1.18
2018-01-04,2606000,2609000,2532000,2554000,233909,600531577700,-1.05
2018-01-05,2565000,2606000,2560000,2606000,189623,490792925116,2.04
2018-01-08,2620000,2626000,2575000,2601000,167673,435974098536,-0.19
...,...,...,...,...,...,...,...
2019-05-27,42500,43000,42350,42650,8066669,344043547350,-0.12
2019-05-28,42550,42950,42150,42550,24506881,1042865612000,-0.23
2019-05-29,41850,42100,41300,41800,14930618,623333158995,-1.76
2019-05-30,42200,42700,42150,42550,11766018,499609785843,1.79


In [35]:
# 특정 일자의 전 종목 OHLCV를 조회할 때는 get_market_ohlcv 함수에 하나의 날짜를 입력합니다. 
# 다음 코드는 2021년 1월 4일의 OHLCV 데이터를 조회합니다.

df = stock.get_market_ohlcv("20210104")
df.head()

Unnamed: 0_level_0,시가,고가,저가,종가,거래량,거래대금,등락률
티커,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
95570,4615,4650,4530,4580,344232,1575110755,-0.76
6840,25900,25900,25200,25250,92861,2353486200,0.4
27410,4895,4990,4845,4990,541483,2669964780,1.94
282330,134000,134000,132000,132000,47745,6345111000,-2.58
138930,5650,5660,5510,5560,2067437,11474411600,-2.11


In [36]:
# 조회 일자가 휴일이라면 기본적으로 다음 영업일을 탐색합니다. 
# 만약 이전 영업일을 찾고 싶다면 prev 파라미터를 사용할 수 있습니다. 
# 다음 코드는 2021년 1월 1일 이전의 영업일을 탐색하여, 2020년 12월 마지막 영업일의 OHLCV를 조회합니다.

df = stock.get_market_ohlcv("20210101", prev=True)
df.head()

Unnamed: 0_level_0,시가,고가,저가,종가,거래량,거래대금,등락률
티커,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
95570,4660,4695,4600,4615,120954,560421850,-0.97
6840,25300,25350,25000,25150,89368,2252587900,0.2
27410,4925,4930,4835,4895,469185,2291176695,-1.21
282330,133500,135500,132500,135500,25983,3485099000,1.5
138930,5680,5690,5560,5680,1947256,10955767300,0.18


In [37]:
df = stock.get_market_ohlcv("20210101")
df.head()

Unnamed: 0_level_0,시가,고가,저가,종가,거래량,거래대금,등락률
티커,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
95570,4615,4650,4530,4580,344232,1575110755,-0.76
6840,25900,25900,25200,25250,92861,2353486200,0.4
27410,4895,4990,4845,4990,541483,2669964780,1.94
282330,134000,134000,132000,132000,47745,6345111000,-2.58
138930,5650,5660,5510,5560,2067437,11474411600,-2.11


In [None]:
# 티커 조회와 get_market_ohlcv 함수를 조합하면 시장에 상장된 모든 종목의 OHLCV 데이터를 가져올 수 있습니다. 
# 짧은 시간에 많은 데이터를 요청하면 KRX 서버가 여러분들을 차단할 수 있습니다. 
# 차단되면 일정 시간 동안 서비스를 이용할 수 없으니 반드시 time 모듈로 쉬면서 데이터를 가져와야 합니다. 
# 다음 코드는 2021년 1월 1일부터 2021년 1월 31까지의 전 종목의 OHLCV 데이터를 엑셀 파일로 저장합니다.

import time 

tickers = stock.get_market_ticker_list()
for t in tickers:
    df = stock.get_market_ohlcv("20210101", "20210131", t)
    df.to_excel(f"{t}.xlsx")
    time.sleep(1)

In [None]:
# get_index_ohlcv 함수를 사용하면 지수의 OHLCV 데이터를 조회할 수 있습니다. 
# 기존 함수 이름에서 market이 index로 변경된 것을 눈여겨보세요.

import time 

tickers = stock.get_index_ticker_list()
for t in tickers:
    df = stock.get_index_ohlcv("20210101", "20210131", t)
    df.to_excel(f"{t}.xlsx")
    time.sleep(1)

## 05) BPS/PER/PBR/EPS/DIV/DPS 조회

In [38]:
# get_market_fundamental 함수는 특정 종목의 
# 주가수익배수(book-value per share, BPS), 
# 주가수익비율(price earning ratio, PER), 
# 주가순자산비율(price book-value ratio, PBR), 
# 주당순이익(earning per share, EPS), 
# 배당수익률(dividen yield, DIV), 
# 주당배당금(dividend per share, DPS)
# 을 조회합니다. 
# 2002년 5월 이전은 일부 데이터를 KRX 웹서버가 제공하지 않습니다. 
# 다음 코드는 2021년 1월 8일의 전 종목 BPS/PER/PBR/EPS/DIV/DPS 정보를 조회합니다.

from pykrx import stock

df = stock.get_market_fundamental("20210108")
df.head()

Unnamed: 0_level_0,BPS,PER,PBR,EPS,DIV,DPS
티커,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
95570,6802,4.621094,0.669922,982,6.609375,300
6840,62448,11.6875,0.409912,2168,2.960938,750
27410,15699,17.453125,0.310059,281,2.240234,110
282330,36022,16.09375,3.910156,8763,1.910156,2700
138930,25415,3.509766,0.22998,1647,6.230469,360


In [39]:
# 현재 주가를 주당순이익(EPS)으로 나눠서 계산한 PER을 기준으로 정렬해 보겠습니다. 
# PER이 높다는 것은 이익(당기순이익)보다 주가가 상대적으로 높아서 고평가됐다고 판단할 수 있습니다. 그래서 저평가된 낮은 PER의 종목을 찾는 겁니다.

df.sort_values("PER")

# 결과를 보면 상위의 종목은 EPS가 0으로 이익이 없어서 PER도 0으로 표시되는 것을 알 수 있습니다.

Unnamed: 0_level_0,BPS,PER,PBR,EPS,DIV,DPS
티커,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
003280,276,0.0,0.930176,0,0.000000,0
009320,775,0.0,3.699219,0,0.000000,0
105840,5704,0.0,0.770020,0,2.259766,100
049800,5263,0.0,1.160156,0,0.000000,0
016880,917,0.0,1.200195,0,0.000000,0
...,...,...,...,...,...,...
013000,1387,1025.0,2.220703,3,0.000000,0
017550,1859,1030.0,1.660156,3,0.320068,10
071090,63833,1241.0,0.310059,16,0.500000,100
012200,5425,1248.0,0.919922,4,0.700195,35


In [41]:
# 안전한 투자를 위해 순이익이 없는 종목을 제외하고 지표를 정렬하는 것이 좋아 보입니다. 
# query 메서드로 데이터를 필터링한 후에 값을 정렬해 봅시다.

df.query('PER != 0').sort_values('PER')

Unnamed: 0_level_0,BPS,PER,PBR,EPS,DIV,DPS
티커,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
097230,2943,1.389648,2.439453,5185,0.000000,0
003960,34643,1.440430,0.509766,12182,0.859863,150
084670,45514,2.019531,0.540039,12104,19.218750,4700
018500,1363,2.240234,0.580078,350,0.000000,0
015020,1141,2.279297,0.609863,307,0.000000,0
...,...,...,...,...,...,...
013000,1387,1025.000000,2.220703,3,0.000000,0
017550,1859,1030.000000,1.660156,3,0.320068,10
071090,63833,1241.000000,0.310059,16,0.500000,100
012200,5425,1248.000000,0.919922,4,0.700195,35


In [43]:
# 특정 종목의 일자별 주요 기술지표를 조회할 수도 있습니다. 
# get_market_fundamental 함수로 두 개의 날짜를 입력하면 날짜별로 정렬된 데이터를 조회합니다. 
# 다음 코드는 2021-01-04에서 2021-01-08까지의 삼성전자의 BPS/PER/PBR/EPS/DIV/DPS를 조회합니다. 

stock.get_market_fundamental('20210104','20210108','005930')

Unnamed: 0_level_0,BPS,PER,PBR,EPS,DIV,DPS
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2021-01-04,37528,26.22,2.21,3166,1.71,1416
2021-01-05,37528,26.5,2.24,3166,1.69,1416
2021-01-06,37528,25.96,2.19,3166,1.72,1416
2021-01-07,37528,26.18,2.21,3166,1.71,1416
2021-01-08,37528,28.05,2.37,3166,1.59,1416


## 06) 다양한 PYKRX 함수

In [46]:
# get_market_price_change 함수는 입력된 기간의 전 종목 가격 등락폭을 티커별로 정리해서 반환합니다. 
# 이 함수는 9.2절에서 설명한 12002 화면에서 제공하는 데이터를 스크래핑합니다. 
# 다음 코드는 2019-01-01부터 2019-12-31까지의 전 종목의 가격 등락폭을 조회합니다.

from pykrx import stock

df = stock.get_market_price_change('20190101', '20191231')
df.head()


Unnamed: 0_level_0,종목명,시가,종가,변동폭,등락률,거래량,거래대금
티커,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
95570,AJ네트웍스,4505,4970,465,10.32,18521726,94103477810
68400,AJ렌터카,12300,11800,-500,-4.07,32564489,374842155180
6840,AK홀딩스,54000,34600,-19400,-35.93,6710371,280920153450
27410,BGF,8070,5600,-2470,-30.61,48088894,347248681930
282330,BGF리테일,204000,169500,-34500,-16.91,6382079,1240477289536


In [47]:
# 시가총액을 조회할 때는 get_market_cap 함수를 사용합니다. 다음 코드는 2019-01-02의 시가 총액을 조회합니다.

df = stock.get_market_cap('20190102')
df.head()

Unnamed: 0_level_0,종가,시가총액,거래량,거래대금,상장주식수
티커,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
5930,38750,231329073812500,7847664,304682623050,5969782550
660,60600,44116943319000,1934295,117458798300,728002365
68270,214500,26910340528500,1045357,228573134000,125456133
5935,31600,26003219720000,944879,30203996650,822886700
207940,374000,24745710000000,148344,56542769500,66165000


In [49]:
# 조회를 요청한 일자가 휴일이라면 기본적으로 가까운 다음 영업일을 조회합니다. 
# 2019-01-01은 휴일이라서 다음 영업일 2019-01-02의 데이터를 조회합니다.

df = stock.get_market_cap('20190101')
df.head()

Unnamed: 0_level_0,종가,시가총액,거래량,거래대금,상장주식수
티커,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
5930,38750,231329073812500,7847664,304682623050,5969782550
660,60600,44116943319000,1934295,117458798300,728002365
68270,214500,26910340528500,1045357,228573134000,125456133
5935,31600,26003219720000,944879,30203996650,822886700
207940,374000,24745710000000,148344,56542769500,66165000


In [50]:
# prev 파라미터를 추가하면 이전 영업일을 조회할 수 있습니다. 다음 코드는 2019-12-30의 시가총액을 조회합니다.

df = stock.get_market_cap('20190101', prev=True)
df.head()

Unnamed: 0_level_0,종가,시가총액,거래량,거래대금,상장주식수
티커,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
5930,38700,231030584685000,9900267,382575637240,5969782550
660,60500,44044143082500,1647462,100586317600,728002365
68270,222500,27913989592500,1098718,243957028500,125456133
5935,31750,26126652725000,863411,27222988450,822886700
207940,386500,25572772500000,256133,99632653500,66165000


In [52]:
# 2000년도와 2019년도의 시가 총액 TOP 5를 비교할 수 있습니다. 
# 다음 코드는 연도별로 시가총액을 조회한 뒤에 시가총액 상위 5개씩 선정해서 연결(concat)합니다. 
# concat의 keys 파라미터는 컬럼 이름을 추가해서 기존 이름과 함께 멀티 컬럼으로 변경해 줍니다.

import pandas as pd

df = stock.get_market_cap('20000104')
s0 = df['시가총액'].sort_values(ascending=False).iloc[:5]

df = stock.get_market_cap('20190102')
s1 = df['시가총액'].sort_values(ascending=False).iloc[:5]

# data = [s0.reset_index(), s1.reset_index()]
df = pd.concat([s0.reset_index(), s1.reset_index()], keys=['2000년도', '2019년도'], axis=1)
df.head()

# 2000년도에는 KT(030200)가 시가총액이 52조로 1위이며, 삼성전자(005930)는 45조로 2위입니다. 
# 약 20년이 지난 2019년도 연말에는 삼성전자가 231조로 시가총액을 역전한 것을 알 수 있습니다.

Unnamed: 0_level_0,2000년도,2000년도,2019년도,2019년도
Unnamed: 0_level_1,티커,시가총액,티커,시가총액
0,30200,52761742371000,5930,231329073812500
1,5930,45775746373500,660,44116943319000
2,32390,32953692333000,68270,26910340528500
3,17670,31675945000000,5935,26003219720000
4,15760,23036081220000,207940,24745710000000


## 07) FinanceDataReader
FinanceDataReader는 국내 주식뿐만 아니라 해외 주식 데이터 및 암호화폐 데이터도 제공하는 파이썬 모듈입니다. 백테스팅에 필요한 데이터에 따라 두 라이브러리를 선택적으로 사용하면 됩니다.

In [53]:
# 먼저 FinanceDataReader 라이브러리를 설치해봅시다. 
# 라이브러리 이름과 설치에 사용되는 이름이 다르기 때문에 주의해서 다음 명령어를 입력하기 바랍니다. 
# 주피터 노트북에서는 명령어 앞에 느낌표를 사용하고 일반 명령 프롬프트에서는 느낌표를 생략합니다.

!pip install finance-datareader

Collecting finance-datareader
  Downloading finance_datareader-0.9.33-py3-none-any.whl (48 kB)
Collecting requests-file
  Downloading requests_file-1.5.1-py2.py3-none-any.whl (3.7 kB)
Installing collected packages: requests-file, finance-datareader
Successfully installed finance-datareader-0.9.33 requests-file-1.5.1


In [54]:
# FinanceDataReader 라이브러리를 사용해서 삼성전자의 일봉 데이터를 얻어오려면 다음과 같이 입력합니다. 
# 모듈의 이름이 길고 영어 대소문자로 구성되어 있어서 간단히 fdr로 축약해서 사용합니다.

import FinanceDataReader as fdr

df = fdr.DataReader(symbol='005930')
df

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1998-02-11,1488,1488,1396,1471,576190,
1998-02-12,1452,1523,1416,1507,745520,0.024473
1998-02-13,1537,1541,1470,1498,596350,-0.005972
1998-02-14,1470,1477,1377,1387,226076,-0.074099
1998-02-16,1396,1416,1352,1398,390959,0.007931
...,...,...,...,...,...,...
2022-03-23,70600,71200,70300,70500,12398025,0.002845
2022-03-24,69600,70300,69600,69800,37943357,-0.009929
2022-03-25,70100,70200,69600,69800,12986010,0.000000
2022-03-28,69500,69900,69200,69700,12619289,-0.001433


In [55]:
# 이번에는 해외주식 애플(APPL)의 2017년 이후 일봉 데이터를 얻어와 보겠습니다. 
# 함수의 symbol 파라미터에 애플 티커를 입력했고 start 파라미터에 조회 시작 연도를 전달했습니다.

df = fdr.DataReader(symbol="AAPL", start="2017")
df

Unnamed: 0_level_0,Close,Open,High,Low,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2017-01-03,29.04,28.95,29.08,28.69,115130000.0,0.0031
2017-01-04,29.00,28.96,29.13,28.94,84470000.0,-0.0014
2017-01-05,29.15,28.98,29.22,28.95,88770000.0,0.0052
2017-01-06,29.48,29.20,29.54,29.12,127010000.0,0.0113
2017-01-09,29.75,29.49,29.86,29.48,134250000.0,0.0092
...,...,...,...,...,...,...
2022-03-22,168.82,165.51,169.42,164.91,80940000.0,0.0208
2022-03-23,170.21,167.99,172.64,167.65,97300000.0,0.0082
2022-03-24,174.07,171.06,174.14,170.21,89680000.0,0.0227
2022-03-25,174.72,173.88,175.28,172.75,80550000.0,0.0037


In [None]:
# 코스피와 코스닥 지수 데이터 역시 티커와 기간만 입력하면 쉽게 데이터를 얻어올 수 있습니다. 
# 2000년 이후의 코스피/코스닥 지수 데이터는 다음과 같이 얻어올 수 있습니다.

kospi = fdr.DataReader(symbol="KS11", start="2000")
kosdaq = fdr.DataReader(symbol="KQ11", start="2000")

# 이것으로 FinanceDataReader에 대한 기본 사용법을 알아봤습니다. 
# 웹 스크래핑 모듈의 특성상 보다 자세한 사용법은 다음 개발 페이지를 참고하시기 바랍니다. (https://github.com/FinanceData/FinanceDataReader)

## 10) 할로윈 투자 전략
할로윈 투자 전략은 11월 초에 매수한 후 다음 연도 4월 말에 매도하는 전략입니다. 
이 기간에만 주식에 투자하고 나머지 기간은 현금을 보유하거나 단기 채권 등에 투자합니다.

In [70]:
# 2000년 이후의 코스피 지수 데이터를 엑셀 파일로부터 읽어 데이터프레임으로 가져옵니다. 
# head 메서드를 호출하여 데이터프레임의 앞부분을 확인합니다.

import pandas as pd

kospi = pd.read_excel("data/kospi2000.xlsx", index_col=0, parse_dates=True)
kospi.head()

  warn("Workbook contains no default style, apply openpyxl's default")


Unnamed: 0_level_0,종가,대비,등락률,시가,고가,저가,거래량,거래대금,상장시가총액
일자,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2019-01-08,2025.27,-11.83,-0.58,2038.68,2042.7,2023.59,397831.0,4826642.0,1333996000.0
2019-01-07,2037.1,26.85,1.34,2034.24,2048.06,2030.9,440191.0,5301385.0,1342382000.0
2019-01-04,2010.25,16.55,0.83,1992.4,2011.56,1984.53,408991.0,5490148.0,1323719000.0
2019-01-03,1993.7,-16.3,-0.81,2011.81,2014.72,1991.65,427976.0,5358519.0,1312759000.0
2019-01-02,2010.0,-31.04,-1.52,2050.55,2053.45,2004.27,326368.0,4295872.0,1323645000.0


In [74]:
# loc 속성을 사용하여 2000년 11월 데이터만 추출해 봅시다. 
# 따라서 다음과 같이 바로 특정 월을 조회할 수 있습니다.

kospi = pd.read_excel("data/kospi2000.xlsx", index_col=0, parse_dates=True)
kospi.loc['2000-11']

Unnamed: 0_level_0,Close,Open,High,Low,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2000-11-01,548.76,524.69,550.06,522.78,366440000.0,0.0666
2000-11-02,558.1,543.94,563.98,540.93,461060000.0,0.017
2000-11-03,560.41,563.5,567.07,556.38,406520000.0,0.0041
2000-11-06,556.66,557.64,581.47,555.41,423810000.0,-0.0067
2000-11-07,553.35,560.55,564.38,550.39,346590000.0,-0.0059
2000-11-08,558.09,549.21,562.89,545.77,354230000.0,0.0086
2000-11-09,560.66,549.44,562.66,548.14,323910000.0,0.0046
2000-11-10,565.18,557.94,567.34,555.11,322180000.0,0.0081
2000-11-13,538.94,552.44,552.44,536.45,272840000.0,-0.0464
2000-11-14,552.99,543.53,552.99,543.53,253050000.0,0.0261


In [75]:
kospi.loc['2021-04']

Unnamed: 0_level_0,Close,Open,High,Low,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2021-04-01,3087.4,3073.77,3090.88,3069.68,922680000.0,0.0085
2021-04-02,3112.8,3104.72,3121.58,3101.6,792700000.0,0.0082
2021-04-05,3120.83,3121.23,3127.2,3101.86,1080000000.0,0.0026
2021-04-06,3127.08,3123.8,3139.29,3110.19,1280000000.0,0.002
2021-04-07,3137.41,3129.07,3146.19,3125.33,1980000000.0,0.0033
2021-04-08,3143.26,3137.25,3145.81,3122.09,1360000000.0,0.0019
2021-04-09,3131.88,3146.51,3156.04,3125.24,1820000000.0,-0.0036
2021-04-12,3135.59,3134.88,3147.27,3127.91,1050000000.0,0.0012
2021-04-13,3169.08,3138.21,3173.26,3136.99,1740000000.0,0.0107
2021-04-14,3182.38,3169.95,3188.32,3162.12,1780000000.0,0.0042


In [77]:
# 2000년부터 2021년까지 약 21년 동안 매년 11월에 사서 다음 해 4월에 파는 것을 백테스팅하기 앞서 
# 해당 기간의 매수 월과 매도 월을 만들고 이를 문자열로 출력해 봅시다.

누적수익률 = 1

for year in range(2000, 2021):
    buy_mon = str(year) + '-11'
    sell_mon = str(year) + '-04'
    print(buy_mon, sell_mon)

2000-11 2000-04
2001-11 2001-04
2002-11 2002-04
2003-11 2003-04
2004-11 2004-04
2005-11 2005-04
2006-11 2006-04
2007-11 2007-04
2008-11 2008-04
2009-11 2009-04
2010-11 2010-04
2011-11 2011-04
2012-11 2012-04
2013-11 2013-04
2014-11 2014-04
2015-11 2015-04
2016-11 2016-04
2017-11 2017-04
2018-11 2018-04
2019-11 2019-04
2020-11 2020-04


In [89]:
# 이번에는 매수 월 데이터프레임을 필터링한 후, 매수 월의 첫 번째 거래일의 시가를 매수가로 설정합니다. 
# 마찬가지로 매도 월을 필터링한 후 매도 월의 마지막 거래일의 종가를 매도가로 설정합니다. 
# 해당 연도의 수익률은 매도가를 매수가로 나누면 됩니다. 투자 기간의 누적 수익률은 매년 수익률을 누적해서 곱합니다.

누적수익률 = 1

for year in range(2000, 2021):
    buy_mon = str(year) + '-11'
    sell_mon = str(year) + '-04'
    # print(buy_mon, sell_mon)

    # 매수가
    매수가 = kospi.loc[buy_mon].iloc[0]['Open']

    # 매도가
    매도가 = kospi.loc[sell_mon].iloc[-1]['Close']

    # 수익률
    수익률 = 매도가 / 매수가
    누적수익률 = 누적수익률 * 수익률
    print(buy_mon, sell_mon, 매수가, 매도가, 수익률, 누적수익률)

print('최종 누적수익률 = ', 누적수익률)

2000-11 2000-04 524.69 725.39 1.3825115782652613 1.3825115782652613
2001-11 2001-04 540.63 577.36 1.0679392560531233 1.4764383863774326
2002-11 2002-04 652.34 842.34 1.2912591593340896 1.9064645896023036
2003-11 2003-04 783.08 599.35 0.7653751851662666 1.4591606882797936
2004-11 2004-04 832.52 862.84 1.036419545476385 1.5123026573239526
2005-11 2005-04 1165.77 911.3 0.7817150895974334 1.1821898072684303
2006-11 2006-04 1372.03 1419.73 1.0347660036588122 1.223289822433335
2007-11 2007-04 2085.33 1542.24 0.7395663995626591 0.9047040495986662
2008-11 2008-04 1117.13 1825.47 1.6340712361139704 1.4783508646450074
2009-11 2009-04 1543.24 1369.36 0.8873279593582333 1.311782055940934
2010-11 2010-04 1889.57 1741.56 0.9216700095788989 1.2090301800645085
2011-11 2011-04 1891.22 2192.36 1.1592305495923267 1.4015447201098898
2012-11 2012-04 1903.57 1981.99 1.041196278571316 1.459283146829694
2013-11 2013-04 2037.25 1963.95 0.9640201251687324 1.4067783218633834
2014-11 2014-04 1959.66 1961.79 1.001

In [90]:
# 투자 기간은 21년이므로 연평균수익률(CAGR)을 계산해 봅시다.

CAGR = (누적수익률 ** (1/21)) -1  # 투자기간 21년
CAGR * 100

1.7024058080909787