## Pair-Trading 전략 구현을 위한 기본 setting
- 1) os, datetime, numpy, pandas, matplotlib, matplotlib.pyplot 라이브러리 import
- 2) 엑셀 파일로 된 raw data 불러와서 dataframe 형태로 저장
- 3) 전체 기간에 na 값 있는 종목들은 drop (dropna)
- 4) 종목코드(key)와 종목명(value)을 dictionary로 저장함
- 5) 기간에 따라 train 데이터와 test 데이터로 나눔

## 1. 데이터 읽기 / 함수 정의

In [5]:
'''
시각화를 위해 아래 4개 install 필요함 (순서대로)
1. pyecharts / pyecharts-snapshot 패키지
 > anaconda prompt 에서 -pip install 라이브러리명 으로 설치
3. nodejs: 
 > https://nodejs.org/en/download/ 에서 다운로드
4. phantomjs 패키지
 > 설치 안되면 참고 (https://pythonspot.com/selenium-phantomjs/)
'''

import os
import datetime as dt
import numpy as np
import pandas as pd
import pyecharts as pch
import matplotlib
import matplotlib.pyplot as plt
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# 현재 setting 파일이 있는 폴더 경로 + '1_RawData' 폴더를 경로로 설정
rawPath = os.path.abspath(os.path.join(os.getcwd(), '1_RawData'))

# Raw 데이터 엑셀 파일을 변수 선언
# 2015년 ~ 2018년 KOSPI 종목 일별 주가 / 수익률
wkbRaw = pd.ExcelFile(rawPath + '/All_KOSPI_Daily_20150102~.xlsx')

# train 데이터와 test 데이터 각각의 수정주가, 수익률을 df형태로 저장
# 종목코드를 header로 하고 날짜를 index로 함
allPrice = wkbRaw.parse('Comp_price',index_col=0, header =7, skiprows= range(9,14)) 
allReturn = wkbRaw.parse('Comp_return',index_col=0, header =7, skiprows= range(9,14)) 

'\n시각화를 위해 아래 4개 install 필요함 (순서대로)\n1. pyecharts / pyecharts-snapshot 패키지\n > anaconda prompt 에서 -pip install 라이브러리명 으로 설치\n3. nodejs: \n > https://nodejs.org/en/download/ 에서 다운로드\n4. phantomjs 패키지\n > 설치 안되면 참고 (https://pythonspot.com/selenium-phantomjs/)\n'

In [7]:
def drop_stock_name(df : pd.DataFrame):
    if 'Name' in df.index:
        df = df.drop("Name",0)
    return df
        
def conversion_index(df : pd.DataFrame):
    if type(df.index[0]) == dt.datetime: 
        dateList = df.index
        df.index = [x.year*10000 + x.month*100 + x.day for x in dateList]
    return df

## 2. 데이터 가공

In [8]:
# 해당 기간에 na값 있는 종목들 전부 제거
allPrice = allPrice.dropna(axis = 1)
allReturn = allReturn.dropna(axis = 1)

# 종목명있는 행 drop하기 전에 종목명과 종목코드 dictionary로 만듬
dicCodeName = dict(zip(allPrice.keys(),allPrice.iloc[0]))

# 종목명 있는 행 drop 함
# 데이터 가공 편하게 하기 위함
allPrice = drop_stock_name(allPrice)
allReturn = drop_stock_name(allReturn)

# datetime으로 되어 있는 index를 integer 형식으로 바꿈
allPrice = conversion_index(allPrice)
allReturn = conversion_index(allReturn)

In [9]:
# train 데이터 기간: 2015/01/02 ~ 2017/12/28 KOSPI 
# test 데이터 기간: 2018/01/02 ~ 2018/12/28 KOSPI 
trainPrice = allPrice[(allPrice.index >= 20150101) & (allPrice.index <= 20171231)]
testPrice = allPrice[(allPrice.index >= 20180101) & (allPrice.index <= 20181231)]

trainReturn = allReturn[(allReturn.index >= 20150101) & (allReturn.index <= 20171231)]
testReturn = allReturn[(allReturn.index >= 20180101) & (allReturn.index <= 20181231)]

In [10]:
trainPrice

Unnamed: 0,A000020,A000040,A000050,A000060,A000070,A000080,A000100,A000120,A000140,A000150,...,A175330,A180640,A181710,A183190,A185750,A192400,A192820,A200880,A204320,A900140
20150102,5530,1566,18750,12600,89800,22600,148433,187500,11950,101500,...,6000,30567,89846,119941,58834,160200,98485,13600,36500,17761
20150105,5500,1581,18550,12400,88700,23050,147555,182500,11800,102000,...,5990,30910,91296,118466,59290,160200,97218,13200,36400,17620
20150106,5470,1566,18000,12550,89500,22650,146677,181500,11750,100000,...,5980,30470,88395,117975,59927,155700,97315,13350,35800,16589
20150107,5540,1543,17550,12600,88100,22700,145359,183500,11700,101500,...,5900,30665,88395,117975,58743,162000,96828,13950,35500,16215
20150108,5500,1528,17650,12900,86600,22850,144042,184500,11900,101500,...,5910,30665,84043,117975,58834,157950,97315,13900,36200,15933
20150109,5540,1551,16950,12800,87800,23150,146677,188000,12000,104000,...,5880,31008,80948,117483,56011,158400,96925,14050,35200,16074
20150112,5560,1558,16550,12650,88800,23000,148433,190500,11900,102000,...,5850,29932,80561,115517,53279,161100,101898,14550,34900,15558
20150113,5600,1686,17000,12550,88800,22750,145798,192000,11700,102000,...,5730,29296,77757,113059,55009,161100,100923,14550,34000,15605
20150114,5720,1656,16950,12550,89000,22650,147116,183500,11550,102500,...,5750,30127,79111,115025,54098,157500,101898,14050,34200,15793
20150115,5750,1678,17050,12600,88900,22900,146237,182000,11600,102500,...,5800,30127,81045,111093,53916,158400,107261,14000,33700,15699


## 3. 불러온 library, 함수, 변수 display

In [32]:
print('[imported modules list]\n: os \n  datetime as dt\n  numpy as np\n  pandas as pd\n  pyecharts as pch\n  matplotlib\n  matplotlib.pyplot as plt \n')
print('[변수명]\n: dd')

[imported modules list]
: os 
  datetime as dt
  numpy as np
  pandas as pd
  pyecharts as pch
  matplotlib
  matplotlib.pyplot as plt 

[변수명]
: dd


In [None]:
import sys
modulenames = set(sys.modules) & set(globals())
allmodules = [sys.modules[name] for name in modulenames]
modulenames