# 시계열 데이터 다루기


###  Datetime

In [3]:
'''
데이터프레임 생성
'''
from pandas import DataFrame

data = [
     [9450, 9490, 9160, 9220, 145794],
     [9380, 9570, 9330, 9490, 57571],
     [9220, 9400, 9100, 9380, 131427],
     [9200, 9250, 9030, 9230, 66893],
     [9350, 9600, 9070, 9200, 138861]
]

columns = ["시가", "고가", "저가", "종가", "거래량"]
index = ["2019-06-07", "2019-06-05", "2019-06-04", "2019-06-03", "2019-05-31"]
df = DataFrame(data=data, columns=columns, index=index)
print(df.index)
df

Index(['2019-06-07', '2019-06-05', '2019-06-04', '2019-06-03', '2019-05-31'], dtype='object')


Unnamed: 0,시가,고가,저가,종가,거래량
2019-06-07,9450,9490,9160,9220,145794
2019-06-05,9380,9570,9330,9490,57571
2019-06-04,9220,9400,9100,9380,131427
2019-06-03,9200,9250,9030,9230,66893
2019-05-31,9350,9600,9070,9200,138861


In [7]:
'''
문자열을 datatime타입으로 변환하는 이유

시간을 다루는 데이터타입을 사용하면,
뺄셈 연산을 사용해서 쉽게 시간 차이를 계산할 수 있습니다
'''
import pandas as pd

dates = ["2019-06-07", "2019-06-05", "2019-06-04", "2019-06-03", "2019-05-31"]
index = pd.to_datetime(dates)
print(index)

DatetimeIndex(['2019-06-07', '2019-06-05', '2019-06-04', '2019-06-03',
               '2019-05-31'],
              dtype='datetime64[ns]', freq=None)


|판다스 자료형|파이썬 자료형|	설명|
|--------|--------|--------|
|object|string|문자열|
|int64|	int|	정수|
|float64|float|	실수|
|datetime64|datetime|날짜 및 시간을 위한 자료형|

In [24]:
'''
문자열로표현된 날짜는 다양한 포맷을 가질 수 있습니다.
출력을 보면 datetime 객체로 변경된 것 같지만,
잘못된 데이터로 변경된 것을 알 수 있습니다.
'''
import pandas as pd

dates=["19/06/07", "19/06/05", "19/06/04", "19/06/03", "19/05/31"]
# index = pd.to_datetime(dates)

index = pd.to_datetime(dates, format="%y/%m/%d")
print(index)

DatetimeIndex(['2019-06-07', '2019-06-05', '2019-06-04', '2019-06-03',
               '2019-05-31'],
              dtype='datetime64[ns]', freq=None)


- to_datetime() 함수의 format 인자로
사용자가 사용한 날짜 포맷을 지정

- 예를 들어 %Y는 네 자리의 연도를 의미하고 %y는 2자리의 연도를 의미합니다
%m과 %d는 각각 2라리로 구성된 [빈 칸]을 의미

In [29]:
'''
DatetimeIndex를 이용한 데이터프레임 생성
'''
import pandas as pd
from pandas import DataFrame
data = [
     [9450, 9490, 9160, 9220, 145794],
     [9380, 9570, 9330, 9490, 57571],
     [9220, 9400, 9100, 9380, 131427],
     [9200, 9250, 9030, 9230, 66893],
     [9350, 9600, 9070, 9200, 138861]
]

columns = ["시가", "고가", "저가", "종가", "거래량"]
index = ["2019-06-07", "2019-06-05", "2019-06-04", "2019-06-03", "2019-05-31"]

df = DataFrame(data=data, index=pd.to_datetime(index),columns=columns)
print(df.index)
df

DatetimeIndex(['2019-06-07', '2019-06-05', '2019-06-04', '2019-06-03',
               '2019-05-31'],
              dtype='datetime64[ns]', freq=None)


Unnamed: 0,시가,고가,저가,종가,거래량
2019-06-07,9450,9490,9160,9220,145794
2019-06-05,9380,9570,9330,9490,57571
2019-06-04,9220,9400,9100,9380,131427
2019-06-03,9200,9250,9030,9230,66893
2019-05-31,9350,9600,9070,9200,138861


In [44]:

'''
인덱스를 Datetimeindex로 변경해주면 좋은 점

다음 코드와 같이 df.loc['2019-06']이라고 입력하면
데이터프레임에서 2019-06월의 데이터만 추출해줍니다

인덱스가 문자열일 때는
칼럼의 이름이 '2019-06'인 칼럼을 인덱싱하기 때문에 에러가 발생하지만,
인덱스를 DatetimeIndex로 변경해주면
특정 시간을 샘플링하는 기능을 사용할 수 있습니다.

이는 시계열 데이터를 다룰 때 매우 중요한 부분으로
항상 인덱스를 문자열이 아니라
DatetimeIndex로 저장해야 한다는 것을 기억하시기 바랍니다
'''
print(df.loc['2019-05'])
print(df.loc['2019-06'])
df.loc['2019']

              시가    고가    저가    종가     거래량
2019-05-31  9350  9600  9070  9200  138861
              시가    고가    저가    종가     거래량
2019-06-07  9450  9490  9160  9220  145794
2019-06-05  9380  9570  9330  9490   57571
2019-06-04  9220  9400  9100  9380  131427
2019-06-03  9200  9250  9030  9230   66893


Unnamed: 0,시가,고가,저가,종가,거래량
2019-06-07,9450,9490,9160,9220,145794
2019-06-05,9380,9570,9330,9490,57571
2019-06-04,9220,9400,9100,9380,131427
2019-06-03,9200,9250,9030,9230,66893
2019-05-31,9350,9600,9070,9200,138861


## pykrx 모듈
- pykrx 모듈은 Naver(http://www.naver.com)와 한국 거래소(http://www.krx.co.kr)에서 유가 증권 데이터를 스크래핑 후 데이터 프레임으로 값을 반환합니다. 

In [45]:
'''
pykrx 설치
'''
!pip install  pykrx

Collecting pykrx
  Downloading pykrx-1.0.14-py3-none-any.whl (81 kB)
Collecting datetime
  Using cached DateTime-4.3-py2.py3-none-any.whl (60 kB)
Collecting deprecated
  Downloading Deprecated-1.2.12-py2.py3-none-any.whl (9.5 kB)
Installing collected packages: datetime, deprecated, pykrx
Successfully installed datetime-4.3 deprecated-1.2.12 pykrx-1.0.14


In [49]:
'''
get_market_ohlcv_by_date(시작일, 종료일, 종목코드)
'''
from pykrx import stock
df = stock.get_market_ohlcv_by_date("20190501","20190531","005930")
df.head()

Unnamed: 0_level_0,시가,고가,저가,종가,거래량
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019-05-02,45500,46150,45400,45900,8625126
2019-05-03,45900,46050,45300,45300,6562916
2019-05-07,45250,45300,44400,44850,12014907
2019-05-08,44300,44850,44200,44250,10398754
2019-05-09,43900,44250,42450,42450,23029718


In [50]:
df

Unnamed: 0_level_0,시가,고가,저가,종가,거래량
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019-05-02,45500,46150,45400,45900,8625126
2019-05-03,45900,46050,45300,45300,6562916
2019-05-07,45250,45300,44400,44850,12014907
2019-05-08,44300,44850,44200,44250,10398754
2019-05-09,43900,44250,42450,42450,23029718
2019-05-10,42600,43450,42450,42900,14579512
2019-05-13,42500,43200,42350,42650,7635079
2019-05-14,41300,43100,41300,42650,11563730
2019-05-15,42700,43050,42550,42550,7670185
2019-05-16,42350,42400,41350,41550,13687828


In [51]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 21 entries, 2019-05-02 to 2019-05-31
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   시가      21 non-null     int32
 1   고가      21 non-null     int32
 2   저가      21 non-null     int32
 3   종가      21 non-null     int32
 4   거래량     21 non-null     int32
dtypes: int32(5)
memory usage: 588.0 bytes


In [52]:
df.describe() # 수치형 데이터 통계정보

Unnamed: 0,시가,고가,저가,종가,거래량
count,21.0,21.0,21.0,21.0,21.0
mean,43123.809524,43573.809524,42602.380952,43023.809524,12932620.0
std,1290.60248,1204.950108,1252.644821,1205.779732,4703902.0
min,41300.0,42050.0,40850.0,41200.0,6562916.0
25%,42350.0,42800.0,42150.0,42500.0,10398750.0
50%,42600.0,43200.0,42350.0,42650.0,12014910.0
75%,43900.0,44000.0,42550.0,43500.0,14579510.0
max,45900.0,46150.0,45400.0,45900.0,24506880.0


In [54]:
print(df.loc["2019-05-31"]["종가"])#loc property
print(df.iloc[4][3]) #iloc property
print(df.loc["2019.05.31","종가"])#loc property
print(df.iloc[4,3])#iloc property

42500
42450
42500
42450


In [55]:
cond = df["종가"]> df["시가"]
df[cond]

Unnamed: 0_level_0,시가,고가,저가,종가,거래량
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019-05-02,45500,46150,45400,45900,8625126
2019-05-10,42600,43450,42450,42900,14579512
2019-05-13,42500,43200,42350,42650,7635079
2019-05-14,41300,43100,41300,42650,11563730
2019-05-20,41650,42100,41550,42000,15752397
2019-05-21,42600,43950,42350,43150,18812133
2019-05-27,42500,43000,42350,42650,8066669
2019-05-30,42200,42700,42150,42550,11766018


## 칼럼 시프트

In [61]:
'''
거래량 칼럼의 데이터를 모두 한 로우씩 밑으로 시프트 시킨 후
이를 '전날거래량'이라는 이름으로 추가

거래량과거래량을 하나 밑으로 시프트한 '전날거래량'이라는 칼럼을 미리 준비해두면
데이터프레임에서 로우 단위로 비교 연산을 통해 쉽게 비교할 수 있습니다.
'''

from pykrx import stock
df = stock.get_market_ohlcv_by_date('20190101',"20190630","005930")
df["전날거래량"] = df["거래량"].shift(1)
#n개만큼 아래로 쉬프트(음수면 위로 쉬프트)
df.head()

Unnamed: 0_level_0,시가,고가,저가,종가,거래량,전날거래량
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2019-01-02,39400,39400,38550,38750,7847664,
2019-01-03,38300,38550,37450,37600,12471493,7847664.0
2019-01-04,37450,37600,36850,37450,14108958,12471493.0
2019-01-07,38000,38900,37800,38750,12748997,14108958.0
2019-01-08,38000,39200,37950,38100,12756554,12748997.0


In [63]:
'''
거래량이 전날거래량보다 증가한 데이터 출력
'''
from pykrx import stock

df = stock.get_market_ohlcv_by_date("20180101","20180531","005930")
df["전날거래량"] = df["거래량"].shift(1)
cond = df["거래량"]>df["전날거래량"]
df[cond].head()

Unnamed: 0_level_0,시가,고가,저가,종가,거래량,전날거래량
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-01-03,52540,52560,51420,51620,200270,169485.0
2018-01-04,52120,52180,50640,51080,233909,200270.0
2018-01-09,51460,51720,49980,50400,360272,167673.0
2018-01-10,50500,50520,48640,48840,371336,360272.0
2018-01-11,48200,49260,48020,48240,502476,371336.0


In [67]:
'''
조회한 기간 동안, 전일 대비 거래량이 증가한 날은 며칠인지 알아봅시다
'''
print("상승일:", len(df[cond]))
print("영업일:", len(df))

상승일: 48
영업일: 102


In [72]:
'''
거래량이 전날보다 하락한 데이터만 출력해보세요
하락일이 전체 기간 중 며칠인지도 출력해보세요
'''
conds = df["거래량"]<df["전날거래량"]
print("하락일:",len(df[conds]))
print("영업일:", len(df))
df[cond].head()

하락일: 51
영업일: 102


Unnamed: 0_level_0,시가,고가,저가,종가,거래량,전날거래량
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-01-03,52540,52560,51420,51620,200270,169485.0
2018-01-04,52120,52180,50640,51080,233909,200270.0
2018-01-09,51460,51720,49980,50400,360272,167673.0
2018-01-10,50500,50520,48640,48840,371336,360272.0
2018-01-11,48200,49260,48020,48240,502476,371336.0


## 이동평균
- 이동평균을 계산하기 위해서는 각 거래일의 종가를 시프트한 후 로우 단위로 연산을 적용하면 됩니다.

In [75]:
'''
5일 이동평균 구하기
'''
from pykrx import stock
df = stock.get_market_ohlcv_by_date("20180101","20180531","005930")
df['5일이동평균'] = df['종가'].rolling(window=5).mean()
#n개의 데이터 묶음에 대해 mean()메서드를 적용
df

Unnamed: 0_level_0,시가,고가,저가,종가,거래량,5일이동평균
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-01-02,51380,51400,50780,51020,169485,
2018-01-03,52540,52560,51420,51620,200270,
2018-01-04,52120,52180,50640,51080,233909,
2018-01-05,51300,52120,51200,52120,189623,
2018-01-08,52400,52520,51500,52020,167673,51572.0
...,...,...,...,...,...,...
2018-05-25,51000,52800,50800,52700,15207266,51080.0
2018-05-28,52500,53000,52000,52300,9787820,51640.0
2018-05-29,52200,52500,51300,51300,8480437,51900.0
2018-05-30,51300,51500,49100,49500,20498098,51440.0


In [79]:
'''
주어진 기간 동안 시가가 5일 이동평균선을 돌파한 횟수 구하기

당일 종가까지 포함해서 계산한 5일 이동편균을
다음날의 시가와 비교해야 합니다

다음날의 시가를 shift(-1) 하거나
5일 이동평균을 shift(1)해서
두 값을 같은 로우에 위치시킵니다.
'''
from pykrx import stock
df = stock.get_market_ohlcv_by_date("20180101","20180531","005930")
df['5일이동평균'] = df['종가'].rolling(window=5).mean()
print(df.head(15))
print()
cond = df['5일이동평균'].shift(1)<df['시가']
print(df[cond].head(15))
print()
print("상승일:",len(df[cond]))
print("영업일:",len(df))

               시가     고가     저가     종가     거래량   5일이동평균
날짜                                                     
2018-01-02  51380  51400  50780  51020  169485      NaN
2018-01-03  52540  52560  51420  51620  200270      NaN
2018-01-04  52120  52180  50640  51080  233909      NaN
2018-01-05  51300  52120  51200  52120  189623      NaN
2018-01-08  52400  52520  51500  52020  167673  51572.0
2018-01-09  51460  51720  49980  50400  360272  51448.0
2018-01-10  50500  50520  48640  48840  371336  50892.0
2018-01-11  48200  49260  48020  48240  502476  50324.0
2018-01-12  48240  48480  46760  48200  545409  49540.0
2018-01-15  48800  48980  47920  48540  201920  48844.0
2018-01-16  48760  50140  48620  50000  407793  48764.0
2018-01-17  50020  50020  49060  49620  221061  48920.0
2018-01-18  50020  50640  49820  49900  296977  49252.0
2018-01-19  50380  50380  49040  49320  184399  49476.0
2018-01-22  48640  48680  47960  48240  250418  49416.0

               시가     고가     저가     종가     거래량 

## 데이터 샘플링

In [80]:
'''
데이터프레임 생성
'''
from pykrx import stock
df = stock.get_market_ohlcv_by_date("20180101","20180531","005930")
df

Unnamed: 0_level_0,시가,고가,저가,종가,거래량
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-01-02,51380,51400,50780,51020,169485
2018-01-03,52540,52560,51420,51620,200270
2018-01-04,52120,52180,50640,51080,233909
2018-01-05,51300,52120,51200,52120,189623
2018-01-08,52400,52520,51500,52020,167673
...,...,...,...,...,...
2018-05-25,51000,52800,50800,52700,15207266
2018-05-28,52500,53000,52000,52300,9787820
2018-05-29,52200,52500,51300,51300,8480437
2018-05-30,51300,51500,49100,49500,20498098


In [93]:
'''
월 단위로 데이터를 집계
resample('M'): 월 단위 집계
resample('W'): 주 단위 집계

resample().first(): 첫 번째 데이터를 대표값으로 선택
resample().last: 마지막 데이터를 대표값으로 선택
'''
mon = df.resample('M').first() - 마지막 날짜
monlast = df.resample('M').last()


mon

Unnamed: 0_level_0,시가,고가,저가,종가,거래량
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-01-31,51380,51400,50780,51020,169485
2018-02-28,50620,50960,49720,49820,552189
2018-03-31,46580,46800,46000,46020,265310
2018-04-30,49000,49220,48500,48540,142313
2018-05-31,0,0,0,53000,0


In [106]:
'''
인덱스는 해당 월의 마지막 일자로 표시되는데
시작일로 변경하고 싶다면 resamlple('MS')로  'S'옵션을 추가해야 합니다
'''
mon = df.resample('MS').first() #첫번째날짜
mons = df.resample('M').last()
week = df.resample('W-mon').first() #week는 W-monday
weeks= df.resample('W-sun').last()
print(mon)
print(mons)
print(week)
print(weeks)
mon

               시가     고가     저가     종가     거래량
날짜                                            
2018-01-01  51380  51400  50780  51020  169485
2018-02-01  50620  50960  49720  49820  552189
2018-03-01  46580  46800  46000  46020  265310
2018-04-01  49000  49220  48500  48540  142313
2018-05-01      0      0      0  53000       0
               시가     고가     저가     종가       거래량
날짜                                              
2018-01-31  50020  54140  49600  49900   1293626
2018-02-28  47380  48100  47000  47060    303247
2018-03-31  49080  49900  49080  49220    155542
2018-04-30      0      0      0  53000         0
2018-05-31  50400  50800  49850  50700  63491109
               시가     고가     저가     종가       거래량
날짜                                              
2018-01-08  51380  51400  50780  51020    169485
2018-01-15  51460  51720  49980  50400    360272
2018-01-22  48760  50140  48620  50000    407793
2018-01-29  48660  49160  48300  49160    270654
2018-02-05  50440  50640  49780  4

Unnamed: 0_level_0,시가,고가,저가,종가,거래량
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-01-01,51380,51400,50780,51020,169485
2018-02-01,50620,50960,49720,49820,552189
2018-03-01,46580,46800,46000,46020,265310
2018-04-01,49000,49220,48500,48540,142313
2018-05-01,0,0,0,53000,0


In [109]:
'''
각 칼럼에 대해 다른 값을 선택할 수 있습니다.
'''
from pykrx import stock
df = stock.get_market_ohlcv_by_date("20180101","20180531","005930")
how = {
    "시가":"first",
    "종가":"last",
    "고가":"max",
    "저가":"min",
    "거래량":"sum" # 딕셔너리로 각각의 칼럼에 적용될 기준을 명시합니다. 
}
mon = df.resample('MS').apply(how)
print(mon)
mon

               시가     종가     고가     저가        거래량
날짜                                               
2018-01-01  51380  49900  54140  46760    6970987
2018-02-01  50620  47060  50960  44420    6331708
2018-03-01  46580  49220  52020  45080    5282296
2018-04-01  49000  53000  53639      0    5244033
2018-05-01      0  50700  53900      0  321498280


Unnamed: 0_level_0,시가,종가,고가,저가,거래량
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-01-01,51380,49900,54140,46760,6970987
2018-02-01,50620,47060,50960,44420,6331708
2018-03-01,46580,49220,52020,45080,5282296
2018-04-01,49000,53000,53639,0,5244033
2018-05-01,0,50700,53900,0,321498280


- apply() 메서드를 사용한 결과
- 일별로 저장된 데이터 프레임이 월별 그룹핑된 후에 가공해서 OHLCV로 출력됩니다. 
- 삼성전자(005930)는 액면 분할을 위해 2018/04/30부터 2018/05/03까지 거래 정지돼서 해당 기간의 일부 데이터가 0입니다. 
- 백테스팅할 때 이러한 내용을 주의해야 합니다.

## 수익률 계산

In [110]:
'''
데이터프레임 생성
'''
import pandas as pd
data = {'삼성전자': [52200, 52300, 52900, 52000, 51700],
        'LG전자': [68200, 67800, 68800, 67500, 66300]
    }
df = pd.DataFrame(data=data)
df

Unnamed: 0,삼성전자,LG전자
0,52200,68200
1,52300,67800
2,52900,68800
3,52000,67500
4,51700,66300


In [111]:
df.pct_change()

Unnamed: 0,삼성전자,LG전자
0,,
1,0.001916,-0.005865
2,0.011472,0.014749
3,-0.017013,-0.018895
4,-0.005769,-0.017778


- 0번째 인덱스에는 NaN이 값이 있는데 이는 이전 거래일의 데이터가 없어서 수익률을 계산할 수 없었기 때문입니다.
- 1번째 인덱스에서 삼성전자는 0.001916이 나왔는데 이 값은 다음과 같이 계산되었습니다. 
- 각 거래일에서 하루 전 종가로부터의 수익률이 계산된 것을 알 수 있습니다.
- 이처럼 pct_change() 메소드는 기본적으로 바로 위에 로우의 데이터를 사용해서 수익률을 계산합니다.
- 일반적으로 수익률은 퍼센트로 표현합니다. 다음과 같이 100을 곱해주면 알아서 모든 값에 100이 곱해진 값이 출력됩니다.

In [112]:
df.pct_change()*100

Unnamed: 0,삼성전자,LG전자
0,,
1,0.191571,-0.58651
2,1.147228,1.474926
3,-1.701323,-1.889535
4,-0.576923,-1.777778


- 수익률 = (현재가 - 이전가)/현재가
- pct_change() 메소드는 기본적으로 바로 윗 행의 데이터를 사용해서 수익률을 계산합니다

In [114]:
'''
n일 수익률 구하기
'''
df.pct_change(periods=2)*100 # pct_change(periods-2) n일 전의 주가와 비교한 수익률 계산

Unnamed: 0,삼성전자,LG전자
0,,
1,,
2,1.340996,0.879765
3,-0.573614,-0.442478
4,-2.268431,-3.633721
