# ROC (Rate of Charge)
    ROC는 주식의 추세를 확인해 볼 수 있게 도와주는 관련 지표중 하나이다
    공식은 다음과 같다 ((금일 종가 - N일 전 종가) / N일 전 종가) * 100
    주가는 추세가 존재한다고 가정 즉, 오르는 주식은 계속 오르는 경향이 있고, 내리는 주식은 계속 내리는 경향이 있다고 가정할 때
    ROC는 그러한 추세를 확인하는데 도움을 주는 지표이다. ROC가 0이상이면 상승추세 미만이면 하락 추세를 나타낸다
    ROC의 단점은 횡보장에서는 별 영향을 끼치지 못한다는 점이다. 따라서 시황을 잘 보고 상황에 맞게 사용하는것이 좋다

In [2]:
import pandas as pd

df1 = pd.read_csv("./dataset/KODEX 200 2020 1 1 ~ 2020 6 1.csv", encoding='cp949')

#### row, column 확인

In [3]:
df1.shape

(101, 17)

#### 수치형 데이터들에 대한 분석
mean과 50% 구간이 차이가 많이 난다면 이상치 문제를 고려해볼 수 있다

In [4]:
df1.describe()

Unnamed: 0,조회날짜,코드1,종가,전일대비 등락,전일대비 등락률,시가,고가,저가,체결수량의 누적합,체결가격 * 체결수량 누적합,종가*상장좌수,상장좌수,기초지수 종가,순자산총액
count,101.0,101.0,101.0,101.0,101.0,101.0,101.0,101.0,101.0,101.0,101.0,101.0,101.0,101.0
mean,20200310.0,69500.0,26989.356436,-25.049505,-0.058713,26990.841584,27270.39604,26687.623762,12825830.0,329357000000.0,6834044000000.0,250790100.0,266.863465,6816202000000.0
std,140.4157,0.0,2686.742234,575.327513,2.397627,2693.60122,2578.506708,2807.630281,9544429.0,207806000000.0,1627408000000.0,39483070.0,26.600844,1622378000000.0
min,20200100.0,69500.0,20240.0,-1600.0,-7.33,20230.0,21020.0,19945.0,2968338.0,88507320000.0,4980016000000.0,189200000.0,199.28,4961423000000.0
25%,20200210.0,69500.0,25180.0,-345.0,-1.2,25085.0,25420.0,24855.0,6612638.0,193986100000.0,5346314000000.0,224150000.0,249.4,5348175000000.0
50%,20200320.0,69500.0,26705.0,55.0,0.18,26605.0,26870.0,26300.0,9081063.0,256510600000.0,6050544000000.0,245650000.0,263.74,6124754000000.0
75%,20200420.0,69500.0,29535.0,290.0,1.01,29725.0,29880.0,29410.0,14879120.0,381194600000.0,8245744000000.0,271800000.0,292.02,8169393000000.0
max,20200530.0,69500.0,31020.0,1905.0,9.29,30935.0,31135.0,30850.0,58833340.0,1212637000000.0,9814320000000.0,327100000.0,306.08,9781775000000.0


#### 결측치 검사

In [5]:
df1.isnull().sum()

조회날짜               0
코드1                0
종목 코드              0
종목 명칭              0
종가                 0
전일대비 등락            0
전일대비 등락률           0
시가                 0
고가                 0
저가                 0
체결수량의 누적합          0
체결가격 * 체결수량 누적합    0
종가*상장좌수            0
상장좌수               0
기초지수 명칭            0
기초지수 종가            0
순자산총액              0
dtype: int64

#### 데이터 샘플 확인

In [6]:
df1.head()

Unnamed: 0,조회날짜,코드1,종목 코드,종목 명칭,종가,전일대비 등락,전일대비 등락률,시가,고가,저가,체결수량의 누적합,체결가격 * 체결수량 누적합,종가*상장좌수,상장좌수,기초지수 명칭,기초지수 종가,순자산총액
0,20200529,69500,KR7069500007,KODEX 200,26775,-50,-0.19,26650,26950,26520,8025387,214767801550,5127412500000,191500000,코스피 200,268.32,5260021146651
1,20200528,69500,KR7069500007,KODEX 200,26825,80,0.3,26940,27110,26510,11259761,302448800590,5147717500000,191900000,코스피 200,268.29,5146663609010
2,20200527,69500,KR7069500007,KODEX 200,26745,15,0.06,26605,26885,26555,9678327,258904588175,5114981250000,191250000,코스피 200,267.64,5145057155373
3,20200526,69500,KR7069500007,KODEX 200,26730,475,1.81,26295,26730,26280,8550753,227638934175,5057316000000,189200000,코스피 200,267.31,5121475661890
4,20200525,69500,KR7069500007,KODEX 200,26255,325,1.25,26070,26260,25885,7870015,205857149325,5077717000000,193400000,코스피 200,262.76,4980286743861


#### 조회날짜를 index 및 datetime으로 변경

In [7]:
def make_datetime(x) :
    
    x = str(x)
    
    str_val = ''
    str_val += x[0:4] + "-"
    str_val += x[4:6] + "-"
    str_val += x[6:]
    
    return str_val

df1['조회날짜'] = pd.to_datetime(df1['조회날짜'].apply(make_datetime))
df1 = df1.set_index('조회날짜')

#### ROC를 계산하기 위해 n일전 데이터를 다루기 위한 map 선언 및 초기화

In [8]:
datetime_num_map = {}
num_datetime_map = {}

for num, index in enumerate(df1.index) :
    datetime_num_map[index] = num
    num_datetime_map[num] = index

#### 5월 1일부터 2월 1일까지를 계산하기 위해 데이터 초기화

In [9]:
df2 = df1.loc['2020-05-01':'2020-02-01']

#### 날짜 map을 바탕으로 n일전 데이터를 가져와 ROC 계산

In [10]:
now_day_list = []
roc_data_list = []

for index in df2.index :
    origin_index = datetime_num_map[index]
    
    # 현재 날짜
    now_day = index
    
    # 영업일 기준 14일 전 날짜
    prev_day = num_datetime_map[origin_index+14]
    
    # Rate of Charge = ((금일 종가 - 14일 전 종가) / 14일 전 종가) * 100
    now_price = df1.loc[now_day]['종가']
    prev_price = df1.loc[prev_day]['종가']
      
    roc = ((now_price - prev_price)/prev_price) * 100
    now_day_list.append(now_day)
    roc_data_list.append(roc)   

#### 계산된 ROC를 바탕으로 새로운 데이터 프레임 정의

In [11]:
roc_df = pd.DataFrame(data = list(zip(now_day_list, roc_data_list)), columns = ['날짜', 'ROC'])
roc_df = roc_df.set_index('날짜')

In [12]:
roc_df

Unnamed: 0_level_0,ROC
날짜,Unnamed: 1_level_1
2020-04-29,5.130293
2020-04-28,2.908726
2020-04-27,5.623472
2020-04-24,7.690678
2020-04-23,9.044801
...,...
2020-02-07,-1.630789
2020-02-06,0.214168
2020-02-05,-3.259089
2020-02-04,-3.274642


#### 만들어진 roc_df를 csv로 출력

In [13]:
roc_df.to_csv("roc_data 2020 05 01 ~ 2020 02 01.csv", mode='w')

#### 잘 만들어졌는지 확인

In [14]:
df_test = pd.read_csv("roc_data 2020 05 01 ~ 2020 02 01.csv")

In [15]:
df_test.head()

Unnamed: 0,날짜,ROC
0,2020-04-29,5.130293
1,2020-04-28,2.908726
2,2020-04-27,5.623472
3,2020-04-24,7.690678
4,2020-04-23,9.044801
