In [1]:
import pandas as pd
import numpy as np

## 5. 기간과 기간 연산
* 며칠, 몇 개월, 몊 분기, 몇 해 같은 기간은 Period 클래스로 표현 가능
* 문자열이나 정수, 이전에 본 빈도를 가지고 생성

In [2]:
p = pd.Period(2007, freq='A-DEC')

In [3]:
# Period 객체는 2007년 1월 1일부터 같은 해 12월 31일까지의 기간 표현
p

Period('2007', 'A-DEC')

In [4]:
# 이 기간에 정수를 더하거나 빼서 편리하게 정해진 빈도에 따라 기간 이동 가능
# 해당 경우에서는 연산에서 숫자는 '년'에 해당
p + 5

Period('2012', 'A-DEC')

In [5]:
p - 2

Period('2005', 'A-DEC')

In [6]:
# 두 기간이 같은 빈도를 가진다면 두 기간의 차는 둘 사이의 간격이 된다.
# 생성된 객체는 2014년 1월부터 12월까지를 의미하고 p는 2007년의 1월부터 12일까지를 의미
# 따라서 둘은 같은 빈도를 가진 객체로서 두 기간의 차이인 7년이 두 기간의 차가 된다
pd.Period('2014', freq='A-DEC') - p

<7 * YearEnds: month=12>

In [7]:
# 일반적인 기간의 범위는 period_range 함수로 생성할 수 있음
rng = pd.period_range('1997-04-29', '2020-08-30', freq='M')

In [8]:
rng # length 281.. 저는 281개월 입니다,,,

PeriodIndex(['1997-04', '1997-05', '1997-06', '1997-07', '1997-08', '1997-09',
             '1997-10', '1997-11', '1997-12', '1998-01',
             ...
             '2019-11', '2019-12', '2020-01', '2020-02', '2020-03', '2020-04',
             '2020-05', '2020-06', '2020-07', '2020-08'],
            dtype='period[M]', length=281, freq='M')

In [9]:
# PeriodIndex 클래스는 순차적인 기간 저장, 다른 pandas 자료구조에서 축 색인과 마찬가지로 사용
pd.Series(np.random.randn(len(rng)), index=rng) # 괄호 안 숫자는 인덱스 개수랑 일치해야겠지요? 저는 6개가 아니어서 len을 써주었읍니다.

1997-04   -0.595375
1997-05   -0.090695
1997-06   -0.075206
1997-07   -0.444652
1997-08    0.677597
             ...   
2020-04   -1.289535
2020-05   -0.216515
2020-06    0.089337
2020-07    0.293051
2020-08    0.274369
Freq: M, Length: 281, dtype: float64

In [10]:
# 문자열 배열을 이용해서 PeriodIndex 클래스를 생성하는 것도 가능
values = ['2001Q3', '2002Q2', '2003Q1']

In [11]:
index = pd.PeriodIndex(values, freq='Q-DEC')

In [12]:
index

PeriodIndex(['2001Q3', '2002Q2', '2003Q1'], dtype='period[Q-DEC]', freq='Q-DEC')

In [13]:
# MARK: Period의 빈도 변환
# 기간과 PeriodIndex 객체는 asfreq 메서드를 통해 다른 빈도로 변환할 수 있다
# 아래 코드는 새해 첫날부터 시작하는 연간 빈도를 월간 빈도로 변환
p = pd.Period('2007', freq='A-DEC')

In [14]:
# 'A-DEC'는 전체 기간에 대한 커서로 생각할 수도 있고 월간으로 다시 나눌 수도 있음
p

Period('2007', 'A-DEC')

In [15]:
p.asfreq('M', how='start')

Period('2007-01', 'M')

In [16]:
p.asfreq('M', how='end')

Period('2007-12', 'M')

In [17]:
# 회계 연도 마감이 12월이 아닌 경우 월간 빈도가 달라짐
p = pd.Period('2007', freq='A-JUN')

In [18]:
p

Period('2007', 'A-JUN')

In [19]:
# 빈도가 상위 단계에서 하위 단계로 변환되는 경우 상위 기간은 하위 기간이 어디에 속했는지에 따라 달라짐
# 즉, A-JUN 빈도의 경우 2006년 7월부터가 2007년으로 처리
p.asfreq('M', how='start') # 마지막이 JUN(6월)이라 처음이 전년도 7월이 되는구나!

Period('2006-07', 'M')

In [20]:
# 그럼 2007년 8월은? 2008년 기간에 속함!
p.asfreq('M', how='end')

Period('2007-06', 'M')

In [21]:
# 모든 PeriodIndex 객체나 시계열은 지금까지 살펴본 내용과 같은 방식으로 변환 가능
rng = pd.period_range('2006', '2009', freq='A-DEC')

In [22]:
ts = pd.Series(np.random.randn(len(rng)), index=rng)

In [23]:
ts

2006    1.311359
2007   -1.195061
2008   -1.482139
2009    0.262335
Freq: A-DEC, dtype: float64

In [25]:
# 해당 예제에서 연 빈도는 해당 빈도의 시작 월부터 시작하는 월 빈도로 치환
ts.asfreq('M', how='start')

2006-01    1.311359
2007-01   -1.195061
2008-01   -1.482139
2009-01    0.262335
Freq: M, dtype: float64

In [26]:
# 만일 매 해의 마지막 영업일을 대신 사용하고 싶다면 'B' 빈도를 사용하고 해당 기간의 종료 지점을 지정해서 변한할 수 있음
# 근데 왜 마지막 날을 반환 안 하고 마지막 "영업일"을 반환하는걸까?
ts.asfreq('B', how='end')

2006-12-29    1.311359
2007-12-31   -1.195061
2008-12-31   -1.482139
2009-12-31    0.262335
Freq: B, dtype: float64