## 01) Timestamp
- 시계열 데이터란 일정 시간 간격으로 배치된 데이터 셋의 집합
- 판다스는 파이썬에서 날짜와 시간을 표현하기 위해 사용하는 Datetime 타입과 유사한 Timestamp 클래스를 제공
- 판다스에 정의된 to_datetime 함수를 사용해서 "2021-01-02"라는 문자열을 Timestamp 타입의 객체로 변환할 수 있습

In [1]:
import pandas as pd

ts = pd.to_datetime("2021-01-02")
print(type(ts))
print(ts)

<class 'pandas._libs.tslibs.timestamps.Timestamp'>
2021-01-02 00:00:00


In [2]:
# to_datetime함수에 시간 정보를 "시:분:초" 형태로 추가할 수 있음.\
# 다음 코드는 2021-01-02의 오전 9시를 가리킴.
ts = pd.to_datetime("2021-01-02 09:00:00")
print(ts)

2021-01-02 09:00:00


In [3]:
ts = pd.to_datetime("20210102 090000")
print(ts)

2021-01-02 09:00:00


In [4]:
# 날짜를 표현하는 방법은 나라마다 다를 수 있음
# 미국은 월/일/년 형태로 표현하며, 영국은 일/월/년 형태로 표기
# 영국식 표기법으로 표현된 문자열의 날짜를 to_datetime은 어떻게 해석될까?
# 영국식 표기법이라 2020-07-06을 의도했지만 이러한 사실을 알 수 없는 to_datetime 함수는 
# 다음과 같이 2020-06-07로 변경
print(pd.to_datetime("06/07/20"))

2020-06-07 00:00:00


In [5]:
# 이런 문제를 해결하려면 to_datetime 함수의 format 파라미터로 날짜가 표현된 형태를 알려줘야 함.
# %Y는 네 자리의 연도를, %y는 2자리의 연도, %m은 두 자리로 구성된 월, %d 일을 의미
# 따라서 '%y/%m/%d'라고 적으면 앞에서부터 두 자리의 연도, 두 자리 월, 두 자리 날짜가 '/'으로 구분돼 있음을 to_datetime 함수에 알려주는 겁니다.
# 다음 코드는 영국식 표기법으로 표현된 날짜를 Timestamp 객체로 변환합니다.

print(pd.to_datetime("06/07/20", format="%d/%m/%y"))

2020-07-06 00:00:00


In [6]:
# Timestamp 클래스에는 년/월/일/시/분/초를 저장하는 속성(attribute)이 정의돼 있어서 
# 필요에 따라 Timestamp 객체에서 값을 꺼내 올 수 있습니다. 
# 해당 데이터를 위한 속성의 이름이 직관적이라 별도의 설명 없이 다음 코드를 이해할 수 있습니다.

ts = pd.to_datetime("2021-08-14")
print(ts.year)
print(ts.month)
print(ts.day)
print(ts.hour)
print(ts.minute)
print(ts.second)

2021
8
14
0
0
0


In [7]:
# Timestamp 클래스는 여러 메서드도 제공합니다.
# weekday 메서드는 요일 정보를 숫자로 반환합니다. 
# 월요일 0, 화요일 1, 수요일 2, 목요일 3, 금요일 4, 토요일 5, 일요일 6을 의미합니다.

ts = pd.to_datetime("2021-08-14")
print(ts.weekday())

5


In [8]:
# Timestamp객체를 다시 문자열 타입으로 변경할 수도 있습니다. 
# strftime 메서드로 변경할 문자열의 format을 지정합니다. 
# %Y는 네 글자 연도, %m은 두 글자 월, %d는 두 글자 일을 의미했었죠? 
# 다음 코드는 Timestamp 객체를 ‘연-월-일’로 표현된 문자열을 반환합니다. 
# 구분자로 "-"를 사용했습니다.

print(ts.strftime("%Y-%m-%d"))

2021-08-14


In [9]:
# 2021년 8월 14일부터 100일 뒤의 날짜는 언제일까요? 
# 문자열로 데이터가 정의돼 있다면 월마다 다른 일자와 윤달을 고려해야 돼서 
# 계산하기 쉽지 않습니다. 판다스는 Timedelta 객체로 날짜의 차이를 표현할 수 있습니다. 
# 클래스의 초기화자로 표현할 시간 정보를 넣어 주면 됩니다. 
# 파라미터의 이름이 모두 복수 형태로 표현돼 s가 붙었음에 주의하세요.

diff = pd.Timedelta(days=100, hours=2, minutes=30, seconds=30 )
print(diff)


100 days 02:30:30


In [10]:
# Timedelta 객체를 사용하면 Timestamp 객체와 덧셈, 뺄셈 연산으로 쉽게 100일 뒤의 날짜를 계산할 수 있습니다. 
# 다음 코드는 ts를 기준으로 100일 2시간 30분 30초 뒤의 시간을 계산합니다. 
# 아쉽지만 Timedelta를 사용하는 경우에도 월이나 연 단위로 차이를 표현할 수는 없습니다. 
# 예를 들어, 오늘로부터 2달 후의 날짜를 구하는 것이 불가능합니다.

print(ts + diff)

2021-11-22 02:30:30


In [11]:
# 판다스의 to_datetime 함수는 리스트에 저장된 모든 문자열을 Timestamp 객체로 변경할 수 있습니다.
# 다음은 문자열로 표현된 세 개의 날짜가 들어 있는 리스트를 to_datetime 함수로 전달합니다.

candidates = [ "2021-01-01", "2021-01-02", "2021-01-03"]
idx = pd.to_datetime(candidates)
print(idx)

DatetimeIndex(['2021-01-01', '2021-01-02', '2021-01-03'], dtype='datetime64[ns]', freq=None)


In [12]:
# DatetimeIndex는 리스트와 비슷한 순서가 있는 자료구조로 정수를 사용한 인덱싱과 슬라이싱을 지원합니다. 
# 다음 코드를 실행하면 idx[0]에는 2021-01-01이 Timestamp 객체로 저장된 것을 알 수 있습니다. 
# idx[0:2]로 범위 슬라이싱하면, 2021-01-01과 2021-01-02 두 개의 Timestamp가 저장된 DatetimeIndex를 얻을 수 있습니다.

print(idx[0])
print(idx[0:2])


2021-01-01 00:00:00
DatetimeIndex(['2021-01-01', '2021-01-02'], dtype='datetime64[ns]', freq=None)


In [13]:
# DatetimeIndex에는 총 세 개의 Timestamp 객체가 저장돼 있습니다. 
# DatetimeIndex는 저장된 모든 Timestamp의 연/월/일/시/분/초 정보를 각각 한 번에 얻어올 수 있는 편의 기능을 제공합니다.

print(idx.year)
print(idx.month)
print(idx.day)

Int64Index([2021, 2021, 2021], dtype='int64')
Int64Index([1, 1, 1], dtype='int64')
Int64Index([1, 2, 3], dtype='int64')


In [14]:
# 특정 시스템에서는 시간 정보를 유닉스 시간(unix time)으로 저장합니다. 
# 유닉스 시간은 협정 세계시 (UTC)인 1970년 1월 1일부터 경과한 시간을 초(sec)로 환산하여 정수로 나타낸 것입니다. 
# 특정 시각을 하나의 정수로 나타내기 간편함 때문에 유닉스 계열의 운영체제나 파일 형식들에서 자주 사용됩니다. 
# 유닉스 시간은 에포크(epoch) 시간으로 부르기도 합니다.

# 연습을 위해 에포크로 표현된 1628899200이라는 숫자를 사람이 읽기 좋은 형태로 계산해 보겠습니다. 
# 다음 코드는 단위를 second에서 day, year로 변경합니다. 이때 윤달이 있을 수 있지만, 계산의 편의를 위해 단순히 365로 나눴습니다.

# 출력된 결과를 참고하면 대략 51년이 지났음을 알 수 있습니다. 
# 1970년에서 51년이 지났으니 2021년이며 0.65를 계산하면 8월 14일입니다.

day = 1628899200 / 60 / 60 / 24
year = day / 365
print(day, year)

18853.0 51.652054794520545


In [2]:
# to_datetime은 에포크 시간을 읽기 좋은 Timestamp 객체로 변환합니다. 
# 다만 입력하는 단위가 second라는 것을 unit 파라미터로 함수에 알려줘야 합니다.
import pandas as pd 

dt = pd.to_datetime(1628899200, unit='s')
print(dt)

2021-08-14 00:00:00


In [4]:
# Timestamp를 사용하는 이유를 실용적인 예제와 함께 알아봅시다. 
# 다음의 데이터프레임에는 시가/고가/저가/종가가 문자열로 된 인덱스와 함께 저장

data = [
    {'시가': 100, '고가': 110, '저가': 90, '종가': 105}, 
    {'시가': 100, '고가': 112, '저가': 80, '종가':  95}, 
    {'시가':  99, '고가': 115, '저가': 70, '종가':  85}, 
    {'시가':  70, '고가':  80, '저가': 60, '종가':  75}, 
]
df = pd.DataFrame(data, index=['20200615','20200616','20200717','20200718'])
df

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,100,112,80,95
20200717,99,115,70,85
20200718,70,80,60,75


In [17]:
print(df.iloc[[0,1]])
print(df.iloc[0:2])

cond = df.index.str[:6] == '202006'
print(df[cond])
print(df.loc[cond])

# 위와 같이 간단한 연산은 슬라이싱과 조건 비교로 구분할 수 있습니다. 
# 하지만 2020년 6월 이후의 모든 날짜를 선택하는 경우에는 문자열 비교 연산만으로 문제를 해결하기 어렵습니다.
# 이러한 이유로 날짜와 시간 데이터는 문자열로 저장하기보다 시간을 관리하는 Timestamp로 표현하는 것이 좋습니다.

           시가   고가  저가   종가
20200615  100  110  90  105
20200616  100  112  80   95
           시가   고가  저가   종가
20200615  100  110  90  105
20200616  100  112  80   95
           시가   고가  저가   종가
20200615  100  110  90  105
20200616  100  112  80   95
           시가   고가  저가   종가
20200615  100  110  90  105
20200616  100  112  80   95


In [20]:
# 위와 같이 간단한 연산은 슬라이싱과 조건 비교로 구분할 수 있습니다. 
# 하지만 2020년 6월 이후의 모든 날짜를 선택하는 경우에는 문자열 비교 연산만으로 문제를 해결하기 어렵습니다.
# 이러한 이유로 날짜와 시간 데이터는 문자열로 저장하기보다 시간을 관리하는 Timestamp로 표현하는 것이 좋습니다.
df.index = pd.to_datetime(df.index)
df


Unnamed: 0,시가,고가,저가,종가
2020-06-15,100,110,90,105
2020-06-16,100,112,80,95
2020-07-17,99,115,70,85
2020-07-18,70,80,60,75


In [21]:
# 날짜를 관리하는 객체로 인덱스를 표현하면 문자열에서는 불가능했던 슬라이싱을 사용할 수 있습니다. 
# 다음 코드는 2020년 6월의 모든 행을 선택합니다. 연도와 월 사이에 대시를 넣어줘야함에 주의하세요.

df.loc['2020-06']

Unnamed: 0,시가,고가,저가,종가
2020-06-15,100,110,90,105
2020-06-16,100,112,80,95


In [26]:
# 날짜로 변경한 DatetimeIndex를 컬럼에 저장할 경우 데이터 타입이 자동으로 변경됩니다. 
# 다음 코드를 실행하면 우변에 있는 DatetimeIndex가 date컬럼에 시리즈로 저장됩니다. 
# 시리즈에는 year 변수가 정의돼 있지 않아서 df[“date”].year 와 같은 형태로 전체 데이터의 연도를 한 번에 읽어올 수 없습니다.

df['date'] = df.index
df

Unnamed: 0,시가,고가,저가,종가,date
2020-06-15,100,110,90,105,2020-06-15
2020-06-16,100,112,80,95,2020-06-16
2020-07-17,99,115,70,85,2020-07-17
2020-07-18,70,80,60,75,2020-07-18


In [30]:
# 날짜가 저장된 시리즈에서는 dt 속성을 사용해 DatetimeIndex에 접근할 수 있습니다. 
# 다음 코드는 date 컬럼의 시리즈에 저장된 모든 연도를 Int64Index로 반환합니다. 
# 문자열에서는 str 속성, 날짜에는 dt 속성을 사용할 수 있습니다.

print(df['date'].dt.year)
print(df['date'].dt.month)
print(df['date'].dt.day)


2020-06-15    2020
2020-06-16    2020
2020-07-17    2020
2020-07-18    2020
Name: date, dtype: int64
2020-06-15    6
2020-06-16    6
2020-07-17    7
2020-07-18    7
Name: date, dtype: int64
2020-06-15    15
2020-06-16    16
2020-07-17    17
2020-07-18    18
Name: date, dtype: int64


## 02) 시계열 데이터의 활용

In [17]:
import pandas as pd

df = pd.read_excel("data/ss_ex_1.xlsx" , index_col=0)
df.head(3)

  warn("Workbook contains no default style, apply openpyxl's default")


Unnamed: 0_level_0,종가,대비,등락률,시가,고가,저가,거래량,거래대금,시가총액,상장주식수
일자,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2021/08/13,74400.0,-2600.0,-3.38,75800.0,76000.0,74100.0,61270643.0,4575268000000.0,444151800000000.0,5969783000.0
2021/08/12,77000.0,-1500.0,-1.91,77100.0,78200.0,76900.0,42365223.0,3276635000000.0,459673300000000.0,5969783000.0
2021/08/11,78500.0,-1700.0,-2.12,79600.0,79800.0,78500.0,30241137.0,2389977000000.0,468627900000000.0,5969783000.0


In [3]:
# 문자열을 Timestamp로 변경하고, 데이터를 읽기 좋게 최신 데이터를 아래로 가도록 정렬
df.index = pd.to_datetime(df.index)



In [4]:
df = df.sort_index()
df

Unnamed: 0_level_0,종가,대비,등락률,시가,고가,저가,거래량,거래대금,시가총액,상장주식수
일자,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2021-02-15,84200.0,2600.0,3.19,83800.0,84500.0,83300.0,23529706.0,1.978337e+12,5.026557e+14,5.969783e+09
2021-02-16,84900.0,700.0,0.83,84500.0,86000.0,84200.0,20483100.0,1.740792e+12,5.068345e+14,5.969783e+09
2021-02-17,83200.0,-1700.0,-2.00,83900.0,84200.0,83000.0,18307735.0,1.526409e+12,4.966859e+14,5.969783e+09
2021-02-18,82100.0,-1100.0,-1.32,83200.0,83600.0,82100.0,21327683.0,1.762034e+12,4.901191e+14,5.969783e+09
2021-02-19,82600.0,500.0,0.61,82300.0,82800.0,81000.0,25880879.0,2.121275e+12,4.931040e+14,5.969783e+09
...,...,...,...,...,...,...,...,...,...,...
2021-08-09,81500.0,0.0,0.00,81500.0,82300.0,80900.0,15522581.0,1.267668e+12,4.865373e+14,5.969783e+09
2021-08-10,80200.0,-1300.0,-1.60,82300.0,82400.0,80100.0,20362639.0,1.643108e+12,4.787766e+14,5.969783e+09
2021-08-11,78500.0,-1700.0,-2.12,79600.0,79800.0,78500.0,30241137.0,2.389977e+12,4.686279e+14,5.969783e+09
2021-08-12,77000.0,-1500.0,-1.91,77100.0,78200.0,76900.0,42365223.0,3.276635e+12,4.596733e+14,5.969783e+09


In [18]:
# read_excel 함수의 parse_dates 파라미터를 사용하면, 날짜 컬럼을 DatetimeIndex로 읽을 수 있습니다. 
# parse_dates 파라미터에는 컬럼의 이름을 리스트로 지정합니다.

df = pd.read_excel("data/ss_ex_1.xlsx", parse_dates=['일자'])
df = df.sort_values('일자')
df

  warn("Workbook contains no default style, apply openpyxl's default")


Unnamed: 0,일자,종가,대비,등락률,시가,고가,저가,거래량,거래대금,시가총액,상장주식수
126,2021-02-15,84200.0,2600.0,3.19,83800.0,84500.0,83300.0,23529706.0,1.978337e+12,5.026557e+14,5.969783e+09
125,2021-02-16,84900.0,700.0,0.83,84500.0,86000.0,84200.0,20483100.0,1.740792e+12,5.068345e+14,5.969783e+09
124,2021-02-17,83200.0,-1700.0,-2.00,83900.0,84200.0,83000.0,18307735.0,1.526409e+12,4.966859e+14,5.969783e+09
123,2021-02-18,82100.0,-1100.0,-1.32,83200.0,83600.0,82100.0,21327683.0,1.762034e+12,4.901191e+14,5.969783e+09
122,2021-02-19,82600.0,500.0,0.61,82300.0,82800.0,81000.0,25880879.0,2.121275e+12,4.931040e+14,5.969783e+09
...,...,...,...,...,...,...,...,...,...,...,...
4,2021-08-09,81500.0,0.0,0.00,81500.0,82300.0,80900.0,15522581.0,1.267668e+12,4.865373e+14,5.969783e+09
3,2021-08-10,80200.0,-1300.0,-1.60,82300.0,82400.0,80100.0,20362639.0,1.643108e+12,4.787766e+14,5.969783e+09
2,2021-08-11,78500.0,-1700.0,-2.12,79600.0,79800.0,78500.0,30241137.0,2.389977e+12,4.686279e+14,5.969783e+09
1,2021-08-12,77000.0,-1500.0,-1.91,77100.0,78200.0,76900.0,42365223.0,3.276635e+12,4.596733e+14,5.969783e+09


In [6]:
# 인덱스를 날짜 타입으로 변경하면 DatetimeIndex이지만 컬럼에 저장하면 datetime64 타입의 시리즈 객체로 변경

print(df['일자'].dtype)
print(type(df['일자'].iloc[0]))

datetime64[ns]
<class 'pandas._libs.tslibs.timestamps.Timestamp'>


In [7]:
# 시리즈 객체의 dt 속성을 사용하면 저장된 모든 Timestamp의 정보를 한 번에 가져올 수 있습니다. 
# dt 속성과 year, month, day, hour, minute, second, quarter 변수를 사용할 수 있습니다. 
# quarter는 날짜를 1분기/2분기/3분기/4분기로 구분
df['일자'].dt.quarter

126    1
125    1
124    1
123    1
122    1
      ..
4      3
3      3
2      3
1      3
0      3
Name: 일자, Length: 127, dtype: int64

In [8]:
# groupby를 응용해서 월별로 시가/고가/저가/종가를 정리
df = df[['일자', '시가', '저가', '고가', '종가']].copy()
df['year'] = df['일자'].dt.year
df['month'] = df['일자'].dt.month
df.head()

Unnamed: 0,일자,시가,저가,고가,종가,year,month
126,2021-02-15,83800.0,83300.0,84500.0,84200.0,2021,2
125,2021-02-16,84500.0,84200.0,86000.0,84900.0,2021,2
124,2021-02-17,83900.0,83000.0,84200.0,83200.0,2021,2
123,2021-02-18,83200.0,82100.0,83600.0,82100.0,2021,2
122,2021-02-19,82300.0,81000.0,82800.0,82600.0,2021,2


In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 127 entries, 126 to 0
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   일자      127 non-null    datetime64[ns]
 1   시가      127 non-null    float64       
 2   저가      127 non-null    float64       
 3   고가      127 non-null    float64       
 4   종가      127 non-null    float64       
 5   year    127 non-null    int64         
 6   month   127 non-null    int64         
dtypes: datetime64[ns](1), float64(4), int64(2)
memory usage: 7.9 KB


In [10]:
# groupby 메서드를 사용해서 year와 month의 이차원 인덱스로 데이터를 집계
# 특정 데이터를 확인하고 싶다면, get_group 메서드에 튜플로 year, month 정보를 차례로 전달

gb = df.groupby(['year','month'])
gb.get_group((2021,2)).head()

Unnamed: 0,일자,시가,저가,고가,종가,year,month
126,2021-02-15,83800.0,83300.0,84500.0,84200.0,2021,2
125,2021-02-16,84500.0,84200.0,86000.0,84900.0,2021,2
124,2021-02-17,83900.0,83000.0,84200.0,83200.0,2021,2
123,2021-02-18,83200.0,82100.0,83600.0,82100.0,2021,2
122,2021-02-19,82300.0,81000.0,82800.0,82600.0,2021,2


In [11]:
# 월별로 정리할 OHLCV 데이터에서 시가는 해당 월의 시작 가격, 종가는 마지막 날 가격, 고가는 가장 높은 값, 
# 저가는 가장 낮은 값이며, 거래량은 월 단위로 합산한 값이 필요

# 데이터프레임의 agg 메서드는 딕셔너리로 각 컬럼의 처리 방식을 지정할 수 있습니다
# 다음 코드에서 'first'와 'last'는 특수한 명령으로 그룹화한 데이터 중 각각 시작 값과 마지막 값을 선택

how = {'시가':'first', '저가':min, '고가':max, '종가':'last'}
gb.agg(how)

Unnamed: 0_level_0,Unnamed: 1_level_0,시가,저가,고가,종가
year,month,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2021,2,83800.0,81000.0,86000.0,82500.0
2021,3,85100.0,80600.0,85300.0,81400.0
2021,4,82500.0,81500.0,86200.0,81500.0
2021,5,81000.0,78400.0,83500.0,80500.0
2021,6,80500.0,79600.0,83000.0,80700.0
2021,7,80500.0,78100.0,81300.0,78500.0
2021,8,79200.0,74100.0,83300.0,74400.0


In [15]:
# 판다스에는 Grouper라는 클래스가 정의돼 있습니다. 
# 이를 사용하면 사용자가 groupby가 실행되는 규칙을 지정할 수 있습니다. 
# 앞의 예제에서는 year와 month 컬럼을 만든 후 이를 사용해서 groupby를 사용했습니다. 
# Grouper 클래스를 사용하면 훨씬 간단한 코드로 같은 결과를 얻을 수 있습니다. 
# 다음 코드에서 freq='m'은 월별로 데이터를 분류하라는 의미

df.groupby(pd.Grouper(key='일자', freq='m')).agg(how)

# 인덱스에는 각 월의 가장 마지막 영업일이 대푯값으로 사용됐습니다. 
# freq 파라미터에는 '3m'과 같이 숫자와 함께 집계 단위를 세분화할 수 있으며 월뿐만 아니라 
# 주를 의미하는 'w', 일을 의미하는 'd' 옵션을 사용할 수 있습니다.

Unnamed: 0_level_0,시가,저가,고가,종가
일자,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2021-02-28,83800.0,81000.0,86000.0,82500.0
2021-03-31,85100.0,80600.0,85300.0,81400.0
2021-04-30,82500.0,81500.0,86200.0,81500.0
2021-05-31,81000.0,78400.0,83500.0,80500.0
2021-06-30,80500.0,79600.0,83000.0,80700.0
2021-07-31,80500.0,78100.0,81300.0,78500.0
2021-08-31,79200.0,74100.0,83300.0,74400.0


In [16]:
df

Unnamed: 0,일자,시가,저가,고가,종가,year,month
126,2021-02-15,83800.0,83300.0,84500.0,84200.0,2021,2
125,2021-02-16,84500.0,84200.0,86000.0,84900.0,2021,2
124,2021-02-17,83900.0,83000.0,84200.0,83200.0,2021,2
123,2021-02-18,83200.0,82100.0,83600.0,82100.0,2021,2
122,2021-02-19,82300.0,81000.0,82800.0,82600.0,2021,2
...,...,...,...,...,...,...,...
4,2021-08-09,81500.0,80900.0,82300.0,81500.0,2021,8
3,2021-08-10,82300.0,80100.0,82400.0,80200.0,2021,8
2,2021-08-11,79600.0,78500.0,79800.0,78500.0,2021,8
1,2021-08-12,77100.0,76900.0,78200.0,77000.0,2021,8


## 03) 컬럼 시프트

In [19]:
# 일별 시세 데이터 중에서 거래량이 전일 거래량보다 증가한 경우를 찾는 것을 생각해봅시다. 
# 데이터프레임은 같은 로우에 존재하는 데이터에 대해서 연산이 브로드캐스팅되기 때문에 반복문을 
# 사용하지 않고도 여러 행에 대해서 동일한 연산을 적용할 수 있었습니다. 

# 데이터프레임 혹은 시리즈 객체의 shift 메서드는 지정한 수만큼 데이터를 이동합니다. 

import pandas as pd

df = pd.read_excel("data/ss_ex_1.xlsx" , index_col=0)
df.index = pd.to_datetime(df.index)
df = df.sort_index()

df["거래량"].shift(1)

# 코드를 실행하면 인덱스는 그대로인 채로 값만 전체적으로 아래로 한 칸 이동한 시리즈가 반환됩니다. 
# 시리즈 객체에서 첫 번째 데이터는 이전 값이 존재하지 않아 NaN(Not a number)으로 표기됩니다.

  warn("Workbook contains no default style, apply openpyxl's default")


일자
2021-02-15           NaN
2021-02-16    23529706.0
2021-02-17    20483100.0
2021-02-18    18307735.0
2021-02-19    21327683.0
                 ...    
2021-08-09    13342623.0
2021-08-10    15522581.0
2021-08-11    20362639.0
2021-08-12    30241137.0
2021-08-13    42365223.0
Name: 거래량, Length: 127, dtype: float64

In [20]:
# shift한 결과를 데이터프레임의 '전일거래량' 컬럼으로 추가합니다. 
# 이어서 보기 좋게 거래량과 전일거래량 컬럼만을 슬라이싱합니다.

df["전일거래량"] = df["거래량"].shift(1)
df[ ['거래량', '전일거래량'] ]

Unnamed: 0_level_0,거래량,전일거래량
일자,Unnamed: 1_level_1,Unnamed: 2_level_1
2021-02-15,23529706.0,
2021-02-16,20483100.0,23529706.0
2021-02-17,18307735.0,20483100.0
2021-02-18,21327683.0,18307735.0
2021-02-19,25880879.0,21327683.0
...,...,...
2021-08-09,15522581.0,13342623.0
2021-08-10,20362639.0,15522581.0
2021-08-11,30241137.0,20362639.0
2021-08-12,42365223.0,30241137.0


In [22]:
# 다음 코드는 전일 대비 거래량이 증가한 거래일을 선택합니다. 
# 특정 일자의 거래량과 전일거래량이 같은 행에 존재하기 때문에 브로드캐스팅으로 
# 전체 데이터를 한 번에 비교할 수 있습니다. 
# 이어서 비교로 얻은 불리언 조건으로 데이터프레임을 슬라이싱합니다.

df["전일거래량"] = df["거래량"].shift(1)
cond = df["거래량"] > df["전일거래량"]
df[cond]

                 종가      대비   등락률       시가       고가       저가         거래량  \
일자                                                                         
2021-02-18  82100.0 -1100.0 -1.32  83200.0  83600.0  82100.0  21327683.0   
2021-02-19  82600.0   500.0  0.61  82300.0  82800.0  81000.0  25880879.0   
2021-02-24  82000.0     0.0  0.00  81800.0  83600.0  81300.0  26807651.0   
2021-02-25  85300.0  3300.0  4.02  84000.0  85400.0  83000.0  34155986.0   
2021-02-26  82500.0 -2800.0 -3.28  82800.0  83400.0  82000.0  38520800.0   
...             ...     ...   ...      ...      ...      ...         ...   
2021-08-09  81500.0     0.0  0.00  81500.0  82300.0  80900.0  15522581.0   
2021-08-10  80200.0 -1300.0 -1.60  82300.0  82400.0  80100.0  20362639.0   
2021-08-11  78500.0 -1700.0 -2.12  79600.0  79800.0  78500.0  30241137.0   
2021-08-12  77000.0 -1500.0 -1.91  77100.0  78200.0  76900.0  42365223.0   
2021-08-13  74400.0 -2600.0 -3.38  75800.0  76000.0  74100.0  61270643.0   

           

Unnamed: 0_level_0,종가,대비,등락률,시가,고가,저가,거래량,거래대금,시가총액,상장주식수,전일거래량
일자,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2021-02-18,82100.0,-1100.0,-1.32,83200.0,83600.0,82100.0,21327683.0,1.762034e+12,4.901191e+14,5.969783e+09,18307735.0
2021-02-19,82600.0,500.0,0.61,82300.0,82800.0,81000.0,25880879.0,2.121275e+12,4.931040e+14,5.969783e+09,21327683.0
2021-02-24,82000.0,0.0,0.00,81800.0,83600.0,81300.0,26807651.0,2.208585e+12,4.895222e+14,5.969783e+09,20587314.0
2021-02-25,85300.0,3300.0,4.02,84000.0,85400.0,83000.0,34155986.0,2.880259e+12,5.092225e+14,5.969783e+09,26807651.0
2021-02-26,82500.0,-2800.0,-3.28,82800.0,83400.0,82000.0,38520800.0,3.175845e+12,4.925071e+14,5.969783e+09,34155986.0
...,...,...,...,...,...,...,...,...,...,...,...
2021-08-09,81500.0,0.0,0.00,81500.0,82300.0,80900.0,15522581.0,1.267668e+12,4.865373e+14,5.969783e+09,13342623.0
2021-08-10,80200.0,-1300.0,-1.60,82300.0,82400.0,80100.0,20362639.0,1.643108e+12,4.787766e+14,5.969783e+09,15522581.0
2021-08-11,78500.0,-1700.0,-2.12,79600.0,79800.0,78500.0,30241137.0,2.389977e+12,4.686279e+14,5.969783e+09,20362639.0
2021-08-12,77000.0,-1500.0,-1.91,77100.0,78200.0,76900.0,42365223.0,3.276635e+12,4.596733e+14,5.969783e+09,30241137.0


In [26]:
# 주어진 기간 동안 거래량이 증가한 날은 며칠이나 될까요? 
# 문제를 한 번에 해결하려면 어렵게 느껴질 수 있습니다. 
# 데이터프레임에 불리언 조건을 사용해서 조건을 충족하는 데이터를 가져오고 len 함수로 그 길이를 구하면 됩니다.

print('상승일:', len(df[cond]))
print('영업일:', len(df))

상승일: 66
영업일: 127


In [27]:
# 전일 데이터와의 비교 연산이 빈번하게 사용되기 때문에 판다스는 diff 메서드를 제공합니다. 
# 다음 코드는 거래량 시리즈를 전일거래량과 차이를 계산해서 시리즈로 반환합니다.

df['거래량'].diff()

일자
2021-02-15           NaN
2021-02-16    -3046606.0
2021-02-17    -2175365.0
2021-02-18     3019948.0
2021-02-19     4553196.0
                 ...    
2021-08-09     2179958.0
2021-08-10     4840058.0
2021-08-11     9878498.0
2021-08-12    12124086.0
2021-08-13    18905420.0
Name: 거래량, Length: 127, dtype: float64

In [33]:
# diff 메서드를 적용한 결과가 0보다 큰지 비교해서, 거래량 증가 유무를 판단할 수 있습니다. 
# 출력되는 결과는 shift 메서드를 사용한 것과 같습니다.

cond = df['거래량'].diff() > 0
len(df[cond])

66

In [35]:
# 간단한 절대 모멘텀(momentum) 투자 전략을 구현한다고 가정해 봅시다. 
# 오르는 추세의 자산은 그 추세를 유지하는 경향이 있다는 가정하에 상승으로 판단되면 시장에 편승해서 
# 시세 차익을 얻는 겁니다. 
# 하나의 예로 과거 6일 전의 종가 대비 당일 종가가 3% 높다면 강한 상승으로 판단하고 매수에 참여할 수 있습니다. 
# 이러한 조건을 판다스로 표현해 보겠습니다.

yeild = df['종가'] / df['종가'].shift(6)
cond = yeild >= 1.03
len(df[cond])

12

In [36]:
cond

일자
2021-02-15    False
2021-02-16    False
2021-02-17    False
2021-02-18    False
2021-02-19    False
              ...  
2021-08-09     True
2021-08-10    False
2021-08-11    False
2021-08-12    False
2021-08-13    False
Name: 종가, Length: 127, dtype: bool

In [45]:
# 비교 대상이 존재하지 않는 2021-02-15은 선택하지 않아야 하므로 NaN을 False로 치환합니다. 
# 이어서 치환된 조건으로 선택된 데이터의 수익률을 계산합니다.

cond_modified = cond.shift(1).fillna(False)
s = df.loc[cond_modified, '종가'] / df.loc[cond_modified, '시가']
s

일자
2021-04-05    0.995338
2021-04-06    0.997680
2021-04-07    0.994193
2021-04-08    0.988331
2021-04-09    0.987013
2021-06-04    0.993954
2021-06-07    0.990326
2021-08-04    1.008516
2021-08-05    0.985594
2021-08-06    0.995116
2021-08-09    1.000000
2021-08-10    0.974484
dtype: float64

In [46]:
s.cumprod()

일자
2021-04-05    0.995338
2021-04-06    0.993029
2021-04-07    0.987262
2021-04-08    0.975742
2021-04-09    0.963070
2021-06-04    0.957247
2021-06-07    0.947987
2021-08-04    0.956060
2021-08-05    0.942287
2021-08-06    0.937685
2021-08-09    0.937685
2021-08-10    0.913759
dtype: float64

In [48]:
s.cumprod().iloc[-1]

0.9137589546178475

## 04) 이동평균
- 이동평균선(이평선)은 특정 구간의 주가를 산술 평균해서 여러 구간의 평균값과 연결한 선
- 주가의 전반적인 흐름을 파악하는 용도로 사용할 수 있기 때문에 많은 기술적 분석 알고리즘에서 이동평균선을 사용

In [56]:
import pandas as pd

df = pd.read_excel("data/ss_ex_1.xlsx", index_col=0)
df.index = pd.to_datetime(df.index)
df = df.sort_index()[["종가"]] # DataFrame 으로 반환, df.sort_index()["종가"] # Series로 반환

df['종가D-1'] = df['종가'].shift(1)
df['종가D-2'] = df['종가'].shift(2)
df['ma3'] = (df['종가'] + df['종가D-1'] + df['종가D-2']) / 3
df.head()

  warn("Workbook contains no default style, apply openpyxl's default")


Unnamed: 0_level_0,종가,종가D-1,종가D-2,ma3
일자,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2021-02-15,84200.0,,,
2021-02-16,84900.0,84200.0,,
2021-02-17,83200.0,84900.0,84200.0,84100.0
2021-02-18,82100.0,83200.0,84900.0,83400.0
2021-02-19,82600.0,82100.0,83200.0,82633.333333


In [57]:
# 이동평균의 크기(탭수)가 작은 경우는 shift 메서드를 사용해도 문제없겠지만, 
# 100일 이동평균과 같이 큰 크기의 이동평균을 계산한다면 어떻게 해야 할까요?


In [64]:
# 판다스의 시리즈 객체는 이전의 데이터를 그룹화하는 rolling메서드를 제공합니다. 
# rolling 메서드는 파라미터로 몇 개의 데이터를 그룹화할지 지정할 수 있습니다. 
# rolling은 그룹화까지만 담당하며, 각 그룹에 어떤 연산을 적용할지를 뒤에 추가로 
# 기술해야 합니다. 
# 다음은 종가 시리즈에 대해 3일간의 데이터를 그룹해서 그룹 간 이동평균(mean)을 
# rolling3 컬럼에 저장합니다.

df['rolling3'] = df['종가'].rolling(3).mean()
df.head()

Unnamed: 0_level_0,종가,대비,등락률,시가,고가,저가,거래량,거래대금,시가총액,상장주식수,rolling3
일자,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2021-08-13,74400.0,-2600.0,-3.38,75800.0,76000.0,74100.0,61270643.0,4575268000000.0,444151800000000.0,5969783000.0,
2021-08-12,77000.0,-1500.0,-1.91,77100.0,78200.0,76900.0,42365223.0,3276635000000.0,459673300000000.0,5969783000.0,
2021-08-11,78500.0,-1700.0,-2.12,79600.0,79800.0,78500.0,30241137.0,2389977000000.0,468627900000000.0,5969783000.0,76633.333333
2021-08-10,80200.0,-1300.0,-1.6,82300.0,82400.0,80100.0,20362639.0,1643108000000.0,478776600000000.0,5969783000.0,78566.666667
2021-08-09,81500.0,0.0,0.0,81500.0,82300.0,80900.0,15522581.0,1267668000000.0,486537300000000.0,5969783000.0,80066.666667


In [65]:
# 시가가 5일 이동평균선을 돌파하는 경우 상승 추세라고 가정하고, 상승 추세일 때 투자 기회가 몇 번 있는지 확인해 봅시다. 
# 이동평균은 장이 끝나고 당일 종가와 과거 종가로 계산되므로 계산한 5일 이동평균을 다음날의 시가와 비교해서 
# 투자 여부를 결정합니다. 계산에 사용할 이동평균과 시가가 다른 로우에 저장돼 있기 때문에 shift 메서드로 두 값을 
# 같은 로우에 위치하도록 만들어야 합니다.

df = pd.read_excel("data/ss_ex_1.xlsx", index_col=0)
df.index = pd.to_datetime(df.index)

df['ma5'] = df['종가'].rolling(5).mean().shift(1)
cond = df['ma5'] < df['시가']
print("상승일:", len(df[cond]))
print("영업일:", len(df))


상승일: 76
영업일: 127


  warn("Workbook contains no default style, apply openpyxl's default")


In [62]:
# 이동평균은 가격 변화가 발생한 뒤에 해당 지표에 결과가 반영되는 후행지표입니다. 
# 가격이 상승하다 하락하고 있더라도 이동평균은 여전히 상승하고 있다고 잘못 판단할 
# 수 있는 문제가 존재합니다. 
# 이러한 단순이동평균의 후행성을 최소화하기 위해 최근 데이터에 높은 가중치를 부여하는 
# 지수이동평균(exponential moving average, EMA)을 사용할 수 있습니다.
# EMA(i) = k * price(i) + (1-k) * EMA(i-1)
# price : 현재가격, EMA(0)는 price(0), k = 2/(N+1)로 N은 이동평균의 탭수.
# 3일 지수이동평균에서는 N이 3으로 k는 0.5


일자
2021-08-13        NaN
2021-08-12        NaN
2021-08-11        NaN
2021-08-10        NaN
2021-08-09    78320.0
               ...   
2021-02-19    82820.0
2021-02-18    82180.0
2021-02-17    82420.0
2021-02-16    83000.0
2021-02-15    83400.0
Name: 종가, Length: 127, dtype: float64

In [66]:
# 판다스에서도 실습해 봅시다. 
# 지수이동평균은 rolling 대신 시리즈의 ewm 메서드를 사용합니다. 
# span 파라미터로 이동평균 탭 수를 넣어주고 adjust는 False로 설정합니다. 
# adjust가 True이면 가중치를 내부적으로 보정합니다.

data  = [84200, 84900, 83200, 82100, 82600]
index = ["2021-02-15", "2021-02-16", "2021-02-17", "2021-02-18", "2021-02-19"]
s = pd.Series(data, index)

s.ewm(span=3, adjust=False).mean()

2021-02-15    84200.00
2021-02-16    84550.00
2021-02-17    83875.00
2021-02-18    82987.50
2021-02-19    82793.75
dtype: float64

In [72]:

data  = [84200, 84900, 83200, 82100, 82600]
index = ["2021-02-15", "2021-02-16", "2021-02-17", "2021-02-18", "2021-02-19"]
df = pd.DataFrame(data, index)
df
df['ewm'] = df.ewm(span=3, adjust=False).mean()

## 05) 데이터 샘플링
- 종목의 일봉 데이터를 가진 상황에서 전체적인 흐름을 확인하기 위해 주 단위 혹은 월 단위로 데이터를 다운 샘플링(down-sampling)해야 하는 경우가 종종 생깁니다. 이번 절에서는 일봉을 주봉 혹은 월봉으로 정리하는 방법을 배워보겠습니다.

In [77]:
import pandas as pd

df = pd.read_excel("data/ss_ex_1.xlsx", index_col=0)
df.index = pd.to_datetime(df.index)
df = df.sort_index()[['시가', '저가', '고가', '종가', '거래량']]
df.head()

  warn("Workbook contains no default style, apply openpyxl's default")


Unnamed: 0_level_0,시가,저가,고가,종가,거래량
일자,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2021-02-15,83800.0,83300.0,84500.0,84200.0,23529706.0
2021-02-16,84500.0,84200.0,86000.0,84900.0,20483100.0
2021-02-17,83900.0,83000.0,84200.0,83200.0,18307735.0
2021-02-18,83200.0,82100.0,83600.0,82100.0,21327683.0
2021-02-19,82300.0,81000.0,82800.0,82600.0,25880879.0


In [74]:
# 데이터프레임의 resample 메서드는 입력된 파라미터에 따라 데이터를 샘플링합니다. 
# 다음 코드에서 resample('M')은 월 단위로 데이터를 그룹핑하고 first 메서드로 그룹핑한 데이터에서 
# 첫 번째 데이터를 대푯값으로 사용하겠다는 뜻입니다. 
# resample 메서드를 사용하기 위해서는 데이터프레임의 인덱스가 Timestamp 객체여야 합니다.

84550.0

In [76]:
0.5 * 83200 + 0.5 * 84550.0

83875.0