# Chapter 11. 시계열

- 대부분의 시계열은 고정 빈도(Fixed Frequency)로 표현되는데 데이터가 존재하는 지점이 특정 규칙에 따라 고정 간격을 가지게 된다.
- 시계열은 또한 고정된 단위나 시간 혹은 단위들 간의 간격으로 존재하지 않고 불규칙적인 모습으로 표현될 수도 있다.
- 어떻게 시계열 데이터를 표시하고 참조할지는 애플리케이션에 의존적이며 다음 중 한 유형일 수 있다.
    - 시간 내에서 특정 순간의 타임 스탬프
    - 2007년 1월이나 2010년 전체 같은 고정된 기간
    - 시작과 끝 타임스탬프로 표시되는 시간 간격. 기간은 시간 간격의 특수한 경우로 생각할 수 있다.
- 가장 단순하고 널리 사용되는 시계열의 종류는 타임스탬프로 색인된 데이터다.
- pandas는 표준 시계열 도구와 데이터 알고리즘을 제공한다.

## 11.1 날짜, 시간 자료형, 도구
- 파이썬 표준 라이브러리는 `날짜와 시간을 위한 자료형`과 `달력 관련 기능`을 제공하는 자료형이 존재한다.  
- datetime, time 그리고 calendar 모듈은 처음 공부하기에 좋은 주제다.
- datetime.datetime 형이나 단순한 datetime이 널리 사용되고 있다.

In [13]:
from datetime import datetime

now = datetime.now()
now

datetime.datetime(2021, 10, 5, 17, 27, 40, 189807)

In [3]:
now.year, now.month, now.day

(2021, 10, 4)

> datetime은 날짜와 시간을 모두 저장하며 마이크로초까지 지원한다.  
> datetime.timedelta는 두 datetime 객체 간의 시간적인 차이를 표현할 수 있다.

In [6]:
delta = datetime(2011, 1, 7) - datetime(2008, 6, 24, 8, 15)
delta

datetime.timedelta(days=926, seconds=56700)

In [7]:
delta.days, delta.seconds

(926, 56700)

> timedelta를 더하거나 빼면 그만큼의 시간이 datetime 객체에 적용되어 새로운 객체를 만들 수 있다.

In [9]:
from datetime import timedelta

start = datetime(2011, 1, 7)

start - 2*timedelta(12)

datetime.datetime(2010, 12, 14, 0, 0)

#### datetime 모듈의 자료형

<details>
<summary>datetime 모듈의 자료형</summary>
<div markdown="1">

|자료형|설명|
|:--|:--|
|date|그레고리안 달력을 사용해서 날짜(연,월,일)를 저장한다.|
|time|하루의 시간을 시,분,초,마이크로초 단위로 저장한다.|
|datetime|날짜와 시간을 모두 저장한다.|
|timedelta|두 datetime 값 간의 차이(일, 초, 마이크로초)를 표현한다.|
|tzinfo|지역시간대를 저장하기 위한 기본 자료형|

    
</div>
</details>

### 11.1.1 문자열을 datetime으로 변환하기

> datetime 객체와 나중에 소개할 pandas의 Timestamp 객체는 str 메서드나 strftime 메서드에 포맷 규칙을 넘겨서 문자열로 나타낼 수 있다.

In [14]:
stamp = datetime(2011, 1, 3)

str(stamp)

'2011-01-03 00:00:00'

In [17]:
stamp.strftime("%Y-%m-%d")

'2011-01-03'

#### Datetime 포맷 규칙 (ISO C89 호환)

<details>
<summary>Datetime 포맷 규칙 (ISO C89 호환)</summary>
<div markdown="1">

|포맷|설명|
|:--|:--|
|%Y|4자리 연도|
|%y|2자리 연도|
|%m|2자리 월 [01,12]|
|%d|2자리 일 [01,31]|
|%H|시간(24시간 형식) [00,23]|
|%I|시간(12시간 형식) [01,12]|
|%M|2자리 분 [00,59]|
|%S|초 [00,61] (60,61은 윤초)|
|%w|정수로 나타낸 요일 [0(일요일), 6]|
|%U|연중 주차 [00,53]. 일요일을 그 주의 첫 번째 날로 간주하며, 그 해에서 첫 번째 일요일 앞에 있는 날은 0주차가 된다.|
|%W|연중 주차 [00,53]. 월요일을 그 주의 첫 번째 날로 간주하며, 그 해에서 첫 번째 월요일 앞에 있는 날은 0주차가 된다.|
|%z|UTC 시간대 오프셋을 +HHMM 또는 -HHMM으로 표현한다. 만약 시간대를 신경 쓰지 않는다면 비워둔다.|
|%F|%Y-%m-%d 형식에 대한 축약 (예:2012-4-18)|
|%D|%m/%d/%y 형식에 대한 축약 (예:04/18/12)|
    
</div>
</details>

> 이 포맷 코드는 datetime.strptime을 사용해서 문자열을 날자로 변환할 때 사용할 수 있다.

In [18]:
value = "2011-01-03"
datetime.strptime(value, '%Y-%m-%d')

datetime.datetime(2011, 1, 3, 0, 0)

In [19]:
datestrs = ['7/6/2011', '8/6/2011']

[datetime.strptime(x, '%m/%d/%Y') for x in datestrs]

[datetime.datetime(2011, 7, 6, 0, 0), datetime.datetime(2011, 8, 6, 0, 0)]

> datetime.strptime은 알려진 형식의 날자를 파싱하는 최적의 방법이다.  
> 하지만, 서드파티 패키지인 dateutil에 포함된 parser.parse 메서드를 사용하면 보다더 쉽게 변환할 수 있다. (pandas를 설치할 때 자동으로 함게 설치된다.)

In [20]:
from dateutil.parser import parse

parse('2011-01-03')

datetime.datetime(2011, 1, 3, 0, 0)

> dateutil은 거의 대부분의 사람이 인지하는 날자 표현 방식을 파싱할 수 있다.

In [21]:
parse("Jan 31, 1997 10:45 PM")

datetime.datetime(1997, 1, 31, 22, 45)

> 국제 로케일의 경우 날짜가 월 앞에 오는 경우가 매우 흔하다. 이런 경우에는 dayfirst = True를 넘겨주면 된다.

In [22]:
parse("6/12/2011", dayfirst= True)

datetime.datetime(2011, 12, 6, 0, 0)

> pandas는 일반적으로 DataFrame의 컬럼이나 축 색인으로 날짜가 담긴 배열을 사용한다.  
> to_datetime 메서드는 많은 종류의 날짜 표현을 처리한다. ISO 8601 같은 표준 날짜 형식은 매우 빠르게 처리할 수 있다.

In [25]:
datestrs = ['2011-07-06 12:00:00', '2011-08-06 00:00:00']

pd.to_datetime(datestrs)

DatetimeIndex(['2011-07-06 12:00:00', '2011-08-06 00:00:00'], dtype='datetime64[ns]', freq=None)

> 또한 누락된 값 (None, 빈 문자열 등)으로 간주되어야 할 값도 처리해 준다.  
> NaT (Not a Time)는 pandas에서 누락된 타임스탬프 데이터를 나타낸다.

In [26]:
idx = pd.to_datetime(datestrs + [None])
idx

DatetimeIndex(['2011-07-06 12:00:00', '2011-08-06 00:00:00', 'NaT'], dtype='datetime64[ns]', freq=None)

In [29]:
pd.isnull(idx)

array([False, False,  True])

> datetime 객체는 여러 나라 혹은 언어에서 사용하는 로케일에 맞는 다양한 포맷 옵션을 제공한다.  
> 예를 들어 독일과 프랑스에서는 각 월의 단축명이 영문 시스템과 다르다. 로케일 별 날짜 포맷을 확인할 필요가 있다.

#### 로케일별 날짜 포맷

<details>
<summary>로케일별 날짜 포맷</summary>
<div markdown="1">

|포맷|설명|
|:--|:--|
|%a|축약된 요일 이름|
|%A|요일 이름|
|%b|축약된 월 이름|
|%B|월 이름|
|%c|전체 날짜와 시간(예: 'Tue 01 May 2012 04:20:57 PM')|
|%p|해당 로케일에서 AM, PM에 대응되는 이름(AM은 오전, PM은 오후)|
|%x|로케일에 맞는 날짜 형식 (예:미국이라면 2012년 5월 1일은 '05/01/2012')|
|%X|로케일에 맞는 시간 형식 (예: '04:24:12 PM')|
    
</div>
</details>

## 11.2 시계열 기초

- pandas에서 찾아볼 수 있는 가장 기본적인 시계열 객체의 종류는 파이썬 문자열이나 datetime 객체로 표현되는 타임스탬프로 색인된 Series다.

In [14]:
from datetime import datetime

dates = [datetime(2011, 1, 2), datetime(2011, 1, 5),
         datetime(2011, 1, 7), datetime(2011, 1, 8),
         datetime(2011, 1, 10), datetime(2011, 1, 12)]

ts = pd.Series(np.random.randn(6), index = dates)
ts

2011-01-02    1.466517
2011-01-05   -0.022566
2011-01-07    0.461421
2011-01-08    0.555314
2011-01-10    0.178169
2011-01-12   -1.077623
dtype: float64

> 내부적으로 보면 이들 datetime 객체는 DatetimeIndex에 들어 있으며 ts 변수의 타입은 TimeSeries다.

In [38]:
ts.index

DatetimeIndex(['2011-01-02', '2011-01-05', '2011-01-07', '2011-01-08',
               '2011-01-10', '2011-01-12'],
              dtype='datetime64[ns]', freq=None)

> 다른 Series와 마찬가지로 서로 다르게 색인된 시계열 객체 간의 산술 연산은 자동으로 날짜에 맞춰진다.

In [39]:
ts + ts[::2]

2011-01-02    1.054187
2011-01-05         NaN
2011-01-07   -1.170364
2011-01-08         NaN
2011-01-10   -2.400915
2011-01-12         NaN
dtype: float64

> pandas는 NumPy의 datetime64 자료형을 사용해서 나노초의 정밀도를 가지는 타임스탬프를 저장한다.

In [40]:
ts.index.dtype

dtype('<M8[ns]')

> DatetimeIndex의 스칼라값은 pandas Timestamp 객체다.  
> Timestamp는 datetime 객체를 사용하는 어떤 곳에도 대체 사용이 가능하다.  
> 게다가 가능하다면 빈도에 관한 정보도 저장하며 시간대 변환을 하는 방법과 다른 종류의 조작을 하는 방법도 포함하고 있다.

In [42]:
stamp = ts.index[0]
stamp

Timestamp('2011-01-02 00:00:00')

### 11.2.1 색인, 선택, 부분 선택

> 시계열은 라벨에 기반해서 데이터를 선택하고 인덱싱할 때 pandas.Series와 동일하게 동작한다.

In [44]:
stamp = ts.index[2]
stamp

Timestamp('2011-01-07 00:00:00')

In [45]:
ts[stamp]

-0.5851821281381955

> 해석할 수 있는 날짜를 문자열로 넘겨서 편리하게 사용할 수 있다.

In [46]:
ts['1/10/2011']

-1.2004575143223382

In [49]:
ts['20110110']

-1.2004575143223382

> 긴 시계열에서는 연을 넘기거나 연, 월만 넘겨서 데이터의 일부 구간만 선택할 수도 있다.

In [51]:
longer_ts = pd.Series(np.random.randn(1000), index = pd.date_range('1/1/2000', periods = 1000))
longer_ts

2000-01-01    0.511902
2000-01-02    0.300940
2000-01-03    0.590463
2000-01-04   -1.085473
2000-01-05    0.950203
                ...   
2002-09-22    1.151353
2002-09-23    1.236167
2002-09-24    1.110303
2002-09-25   -0.151498
2002-09-26   -0.656942
Freq: D, Length: 1000, dtype: float64

In [52]:
longer_ts['2001']

2001-01-01    1.156484
2001-01-02   -0.839789
2001-01-03   -0.109572
2001-01-04    0.090570
2001-01-05   -0.128576
                ...   
2001-12-27    0.108491
2001-12-28   -0.177276
2001-12-29   -0.735996
2001-12-30    0.064573
2001-12-31   -1.574414
Freq: D, Length: 365, dtype: float64

> 연에 대해서도 마찬가지로 선택할 수 있다.

In [53]:
longer_ts['2001-05']

2001-05-01    1.355891
2001-05-02   -0.655497
2001-05-03   -1.522220
2001-05-04   -0.224103
2001-05-05    1.516159
2001-05-06   -0.784441
2001-05-07   -3.027601
2001-05-08    0.374262
2001-05-09   -0.319081
2001-05-10   -0.088985
2001-05-11    0.790988
2001-05-12   -0.829910
2001-05-13   -0.356047
2001-05-14   -0.383890
2001-05-15    0.470284
2001-05-16   -1.711977
2001-05-17    0.995628
2001-05-18    0.377491
2001-05-19   -0.716980
2001-05-20   -0.726000
2001-05-21    0.563092
2001-05-22   -0.636812
2001-05-23    0.751799
2001-05-24    1.596946
2001-05-25    0.310778
2001-05-26   -2.001816
2001-05-27    0.519565
2001-05-28    0.170625
2001-05-29   -0.925019
2001-05-30   -0.208023
2001-05-31   -1.436730
Freq: D, dtype: float64

> datetime 객체로 데이터를 잘라내는 작업은 일반적인 Series와 동일한 방식으로 할 수 있다.

In [54]:
ts[datetime(2011, 1, 7):]

2011-01-07   -0.585182
2011-01-08    0.487272
2011-01-10   -1.200458
2011-01-12   -0.376832
dtype: float64

> 대부분의 시계열 데이터는 연대순으로 정렬되기 때문에 범위를 지정하기 위해 시계열에 포함하지 않고 타임스탬프를 이용해서 Series를 나눌 수 있다.  
> 이런 방식으로 데이터를 나누면 NumPy 배열을 나누는 것처럼 원본 시계열에 대한 뷰를 생성한다는 사실을 기억하자.  
> 즉, 데이터 복사가 발생하지 않고 슬라이스에 대한 변경이 원본 데이터에도 반영된다.

In [56]:
ts['1/6/2011' : '1/11/2011']

2011-01-07   -0.585182
2011-01-08    0.487272
2011-01-10   -1.200458
dtype: float64

> 이와 동일한 인스턴스 메서드로 truncate가 있다. 이 메서드는 TimeSeries를 두 개의 날짜로 나눈다.

In [57]:
ts.truncate(after = '1/9/2011')

2011-01-02    0.527093
2011-01-05   -1.081817
2011-01-07   -0.585182
2011-01-08    0.487272
dtype: float64

> 위 방식은 DataFrame에서도 동일하게 적용되며 로우에 인덱싱된다.

In [6]:
dates = pd.date_range('1/1/2000', periods = 100, freq = 'W-WED')

long_df = pd.DataFrame(np.random.randn(100,4),
                       index = dates,
                       columns = ['Colorado', 'Texas', 'New York', 'Ohio'])

long_df.loc['05-2001']

Unnamed: 0,Colorado,Texas,New York,Ohio
2001-05-02,1.612461,-1.400783,1.216596,-0.360757
2001-05-09,-0.377931,-0.765961,-1.552703,-2.125842
2001-05-16,-0.004144,0.639612,0.152298,-1.29421
2001-05-23,-1.051125,1.48687,-1.708587,-1.344267
2001-05-30,0.786616,-1.047173,0.269552,0.877791


### 11.2.2 중복된 색인을 갖는 시계열

> 어떤 애플리케이션에서는 여러 데이터가 특정 타임스탬프에 몰려 있는 것을 발견할 수 있다.

In [7]:
dates = pd.DatetimeIndex(['1/1/2000','1/2/2000','1/2/2000',
                          '1/2/2000','1/3/2000'])

dup_ts = pd.Series(np.arange(5), index = dates)
dup_ts

2000-01-01    0
2000-01-02    1
2000-01-02    2
2000-01-02    3
2000-01-03    4
dtype: int32

> is_unique 속성을 통해 확인해보면 색인이 유일하지 않음을 알 수 있다.

In [8]:
dup_ts.index.is_unique

False

> 이 시계열 데이터를 인덱싱하면 타임스탬프의 중복 여부에 다라 스칼라값이나 슬라이스가 생성된다.

In [9]:
dup_ts['1/3/2000']  # 중복 없음

4

In [10]:
dup_ts['1/2/2000']  # 중복 있음

2000-01-02    1
2000-01-02    2
2000-01-02    3
dtype: int32

> 유일하지 않은 타임스탬프를 가지는 데이터를 집계한다고 할 때, 한 가지 방법은 groupby에 level=0 (단일 단계 인덱싱)을 넘기는 것이다.

In [11]:
grouped = dup_ts.groupby(level = 0)
grouped.mean()

2000-01-01    0
2000-01-02    2
2000-01-03    4
dtype: int32

In [12]:
grouped.count()

2000-01-01    1
2000-01-02    3
2000-01-03    1
dtype: int64

## 11.3 날짜 범위, 빈도, 이동

- pandas에서 일반적인 시계열은 불규칙적인 것으로 간주된다. 즉, 고정된 빈도를 갖지 않는다.
- 하지만 시계열 안에서 누락된 값이 발생할지라도 일별, 월별 혹은 매 15분 같은 상대적인 고정 빈도에서의 작업이 요구되는 경우가 종종 있다.
    - pandas에는 리샘플링, 표준 시계열 빈도 모음, 빈도 추론 그리고 고정된 빈도의 날짜 범위를 위한 도구가 있다.

> 예를 들어, 아래 예제 시계열을 고정된 일 빈도로 변환하려면 resample 메서드를 활용하면 된다.  
> 빈도 간 변환이나 `리샘플링`은 큰 주제이므로 11.6절 '리샘플링과 빈도 변환' 확인.  
> 여기서는 기본 빈도와 다중 빈도를 어떻게 사용하는지 살펴보기

In [15]:
ts

2011-01-02    1.466517
2011-01-05   -0.022566
2011-01-07    0.461421
2011-01-08    0.555314
2011-01-10    0.178169
2011-01-12   -1.077623
dtype: float64

In [18]:
resampler = ts.resample('D')  # 문자열 'D'는 일 빈도로 해석된다.

### 11.3.1 날짜 범위 생성하기

> 기본적으로 date_range는 일별 타임스탬프를 생성한다.

In [20]:
index = pd.date_range('2012-04-01', '2012-06-01')
index

DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
               '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
               '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
               '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
               '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20',
               '2012-04-21', '2012-04-22', '2012-04-23', '2012-04-24',
               '2012-04-25', '2012-04-26', '2012-04-27', '2012-04-28',
               '2012-04-29', '2012-04-30', '2012-05-01', '2012-05-02',
               '2012-05-03', '2012-05-04', '2012-05-05', '2012-05-06',
               '2012-05-07', '2012-05-08', '2012-05-09', '2012-05-10',
               '2012-05-11', '2012-05-12', '2012-05-13', '2012-05-14',
               '2012-05-15', '2012-05-16', '2012-05-17', '2012-05-18',
               '2012-05-19', '2012-05-20', '2012-05-21', '2012-05-22',
               '2012-05-23', '2012-05-24', '2012-05-25', '2012-05-26',
      

>  만약 시작 날짜나 종료 날짜만 넘긴다면 생성할 기간의 숫자를 함께 전달해야 한다.

In [21]:
pd.date_range(start = '2012-04-01', periods = 20)

DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
               '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
               '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
               '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
               '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20'],
              dtype='datetime64[ns]', freq='D')

In [22]:
pd.date_range(end = '2012-06-01', periods = 20)

DatetimeIndex(['2012-05-13', '2012-05-14', '2012-05-15', '2012-05-16',
               '2012-05-17', '2012-05-18', '2012-05-19', '2012-05-20',
               '2012-05-21', '2012-05-22', '2012-05-23', '2012-05-24',
               '2012-05-25', '2012-05-26', '2012-05-27', '2012-05-28',
               '2012-05-29', '2012-05-30', '2012-05-31', '2012-06-01'],
              dtype='datetime64[ns]', freq='D')

> 시작과 종료 날짜는 생성된 날짜 색인에 대해 엄격한 경계를 정의한다.  
> 예를 들어 날짜 색인이 각 월의 마지막 영업일을 포함하도록 하고 싶다면 빈도값으로 'BM' (월 영업마감일)을 전달할 것이다.  
> 그러면 이 기간 안에 들어오는 날짜들만 포함된다.

In [23]:
pd.date_range("2000-01-01", '2000-12-01', freq = 'BM')

DatetimeIndex(['2000-01-31', '2000-02-29', '2000-03-31', '2000-04-28',
               '2000-05-31', '2000-06-30', '2000-07-31', '2000-08-31',
               '2000-09-29', '2000-10-31', '2000-11-30'],
              dtype='datetime64[ns]', freq='BM')

#### 기본 시계열 빈도

<details>
<summary>기본 시계열 빈도</summary>
<div markdown="1">

|축약|오프셋 종류|설명|
|:--|:--|:--|
|D|Day|달력상의 일|
|B|BusinessDay|매 영업일|
|H|Hour|매시|
|T 또는 min|Minute|매분|
|S|Second|매초|
|L 또는 ms|Milli|밀리초(1/1000초)|
|U|Micro|마이크로초(1/1,000,000초)|
|M|MonthEnd|월 마지막 일|
|BM|BusinessMonthEnd|월 영업마감일|
|MS|MonthBegin|월 시작일|
|BMS|BusinessMonthBegin|월 영업시작일|
|W-MON, W-TUE, ...|Week|요일. MON, TUE, WED, THU, FRI, SAT, SUN|
|WOM-1MON, WOM-2MON, ...|WeekOfMonth|월별 주차와 요일. 예를 들어 WOM-3FRI는 매월 3째주 금요일이다.|
|Q-JAN, Q-FEB, ...|QuarterEnd|지정된 월을 해당년도의 마감으로 하며 지정된 월의 마지막 날짜를 가리키는 분기 주기(JAN, FEB, MAR, APR, MAY, JUN, JUL, AUG, SEP, OCT, NOV, DEC)|
|BQ-JAN, BQ-FEB, ...|BusinessQuarterEnd|지정된 월을 해당년도의 마감으로 하며 지정된 월의 마지막 영업일을 가리키는 분기 주기|
|QS-JAN, QS-FEB, ...|QuarterBegin|지정된 월을 해당년도의 마감으로 하며 지정된 월의 첫째 날을 가리키는 분기 주기|
|BQS-JAN, BQS-FEB, ...|BusinessQuarterBegin|지정된 월을 해당년도의 마감으로 하며 지정된 월의 첫 번째 영업일을 가리키는 분기 주기|
|A-JAN, A-FEB, ...|YearEnd|주어진 월의 마지막 일을 가리키는 연간 주기(JAN, FEB, MAR, APR, MAY, JUN, JUL, AUG, SEP, OCT, NOV, DEC)|
|BA-JAN, BA-FEB, ...|BusinessYearEnd|주어진 월의 영업 마감일을 가리키는 연간 주기|
|AS-JAN, AS-FEB, ...|YearBegin|주어진 월의 시작일을 가리키는 연간 주기|
|BAS-JAN, BAS-FEB, ...|BusinessYearBegin|주어진 월의 영업 시작일을 가리키는 연간 주기|
   
</div>
</details>

> date_range는 기본적으로 시작 시간이나 종료 시간의 타임스탬프(존재한다면)를 보존한다.

In [25]:
pd.date_range('2012-05-02 12:56:31', periods = 5)

DatetimeIndex(['2012-05-02 12:56:31', '2012-05-03 12:56:31',
               '2012-05-04 12:56:31', '2012-05-05 12:56:31',
               '2012-05-06 12:56:31'],
              dtype='datetime64[ns]', freq='D')

> 가끔은 시간 정보를 포함하여 시작 날짜와 종료 날짜를 갖고 있으나 관례에 따라 자정에 맞추어 타임스탬프를 `정규화`하고 싶을 때 normalize 옵션을 사용한다.

In [26]:
pd.date_range('2012-05-02 12:56:31', periods = 5, normalize = True)

DatetimeIndex(['2012-05-02', '2012-05-03', '2012-05-04', '2012-05-05',
               '2012-05-06'],
              dtype='datetime64[ns]', freq='D')

### 11.3.2 빈도와 날짜 오프셋

- pandas에서 빈도는 `기본 빈도`와 `배수의 조합`으로 이루어진다.  
- 기본 빈도는 보통 'M' (월별), 'H' (시간별)처럼 짧은 문자열로 참조된다.
- 각 기본 빈도에는 일반적으로 `날짜 오프셋`(date offset)이라고 불리는 객체를 사용할 수 있다.

> 예를 들어 시간별 빈도는 Hour 클래스를 사용해서 표현할 수 있다.

In [27]:
from pandas.tseries.offsets import Hour, Minute

In [30]:
hour = Hour()
hour

<Hour>

> 이 오프셋의 곱은 정수를 넘겨서 구할 수 있다.

In [32]:
four_hours = Hour(4)
four_hours

<4 * Hours>

In [34]:
pd.date_range('2000-01-01', '2000-01-03 23:59', freq = four_hours)

DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 04:00:00',
               '2000-01-01 08:00:00', '2000-01-01 12:00:00',
               '2000-01-01 16:00:00', '2000-01-01 20:00:00',
               '2000-01-02 00:00:00', '2000-01-02 04:00:00',
               '2000-01-02 08:00:00', '2000-01-02 12:00:00',
               '2000-01-02 16:00:00', '2000-01-02 20:00:00',
               '2000-01-03 00:00:00', '2000-01-03 04:00:00',
               '2000-01-03 08:00:00', '2000-01-03 12:00:00',
               '2000-01-03 16:00:00', '2000-01-03 20:00:00'],
              dtype='datetime64[ns]', freq='4H')

> 또는 '4H'처럼 문자열로 표현할 수 도 있다. 기본 빈도 앞에 정수를 두면 해당 빈도의 곱을 생성한다.

In [35]:
pd.date_range('2000-01-01', '2000-01-03 23:59', freq = '4H')

DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 04:00:00',
               '2000-01-01 08:00:00', '2000-01-01 12:00:00',
               '2000-01-01 16:00:00', '2000-01-01 20:00:00',
               '2000-01-02 00:00:00', '2000-01-02 04:00:00',
               '2000-01-02 08:00:00', '2000-01-02 12:00:00',
               '2000-01-02 16:00:00', '2000-01-02 20:00:00',
               '2000-01-03 00:00:00', '2000-01-03 04:00:00',
               '2000-01-03 08:00:00', '2000-01-03 12:00:00',
               '2000-01-03 16:00:00', '2000-01-03 20:00:00'],
              dtype='datetime64[ns]', freq='4H')

> 여러 오프셋을 덧셈으로 합칠 수 있다.

In [36]:
Hour(2) + Minute(30)

<150 * Minutes>

In [37]:
pd.date_range('2000-01-01','2000-01-02', freq = Hour(2) + Minute(30))

DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 02:30:00',
               '2000-01-01 05:00:00', '2000-01-01 07:30:00',
               '2000-01-01 10:00:00', '2000-01-01 12:30:00',
               '2000-01-01 15:00:00', '2000-01-01 17:30:00',
               '2000-01-01 20:00:00', '2000-01-01 22:30:00'],
              dtype='datetime64[ns]', freq='150T')

> 유사하게 빈도 문자열로 '1h30min'을 넘겨도 같은 표현으로 잘 해석된다.

In [38]:
pd.date_range('2000-01-01', periods = 10, freq = '1h30min')

DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 01:30:00',
               '2000-01-01 03:00:00', '2000-01-01 04:30:00',
               '2000-01-01 06:00:00', '2000-01-01 07:30:00',
               '2000-01-01 09:00:00', '2000-01-01 10:30:00',
               '2000-01-01 12:00:00', '2000-01-01 13:30:00'],
              dtype='datetime64[ns]', freq='90T')

> 어떤 빈도는 시간상에서 균일하게 자리 잡고 있지 않은 경우도 있다.  
> 예를 들어 'M' (월 마지막 일)은 월중 일수에 의존적이며 'BM' (월 영업마감일)은 월말이 주말인지 아닌지에 따라 다르다.  
> 이를 표현할 수 있는 적당한 용어가 없어서 저자는 앵커드(anchored) 오프셋이라 부른다.

#### 월별 주차
- 한 가지 유용한 빈도 클래스는 WOM으로 시작하는 '월별 주차'다. 월별 주차를 사용하면 매월 3째주 금요일 같은 날짜를 얻을 수 있다.

In [40]:
rng = pd.date_range('2012-01-01', '2012-09-01', freq = 'WOM-3FRI')
rng

DatetimeIndex(['2012-01-20', '2012-02-17', '2012-03-16', '2012-04-20',
               '2012-05-18', '2012-06-15', '2012-07-20', '2012-08-17'],
              dtype='datetime64[ns]', freq='WOM-3FRI')

### 11.3.3 데이터 시프트

- 시프트는 데이터를 시간 축에서 앞이나 뒤로 이동하는 것을 의미한다.  
- Series와 DataFrame은 색인은 변경하지 않고 데이터를 앞이나 뒤로 느슨한 시피트를 수행하는 shift 메서드를 가지고 있다.

In [42]:
ts = pd.Series(np.random.randn(4),
               index = pd.date_range('1/1/2000', periods = 4, freq = 'M'))
ts

2000-01-31   -2.246225
2000-02-29    0.510343
2000-03-31   -0.577378
2000-04-30   -0.686738
Freq: M, dtype: float64

In [43]:
ts.shift(2)

2000-01-31         NaN
2000-02-29         NaN
2000-03-31   -2.246225
2000-04-30    0.510343
Freq: M, dtype: float64

In [44]:
ts.shift(-2)

2000-01-31   -0.577378
2000-02-29   -0.686738
2000-03-31         NaN
2000-04-30         NaN
Freq: M, dtype: float64

> 이렇게 시프트를 하게 되면 시계열의 시작이나 끝에 결측치가 발생하게 된다.  
> 느슨한 시프트는 색인을 바꾸지 않기 때문에 어떤 데이터는 버려지기도 한다.  
> 그래서 만약 빈도를 알고 있다면 shift에 빈도를 넘겨서 타임스탬프가 확장되도록 할 수 있다.

In [45]:
ts.shift(2, freq = 'M')

2000-03-31   -2.246225
2000-04-30    0.510343
2000-05-31   -0.577378
2000-06-30   -0.686738
Freq: M, dtype: float64

> 다른 빈도를 넘겨도 되는데, 이를 통해 아주 유연하게 데이터를 밀거나 당기는 작업을 할 수 있다.

In [46]:
ts.shift(3, freq = 'D')

2000-02-03   -2.246225
2000-03-03    0.510343
2000-04-03   -0.577378
2000-05-03   -0.686738
dtype: float64

In [47]:
ts.shift(1, freq = '90T')

2000-01-31 01:30:00   -2.246225
2000-02-29 01:30:00    0.510343
2000-03-31 01:30:00   -0.577378
2000-04-30 01:30:00   -0.686738
dtype: float64

> shift는 일반적으로 한 시계열 내에서, 혹은 DataFrame의 컬럼으로 표현할 수 있는 여러 시계열에서의 퍼센트 변화를 계산할 때 흔히 사용된다. 코드는 아래와 같다

```python
ts/ts.shift(1) - 1
```


#### 오프셋만큼 날짜 시프트하기

> pandas의 날짜 오프셋은 datetime이나 Timestamp 객체에서도 사용할 수 있다.

In [48]:
from pandas.tseries.offsets import Day, MonthEnd

In [49]:
now = datetime(2011,11,17)
now + 3*Day()

Timestamp('2011-11-20 00:00:00')

> 만일 MonthEnd 같은 앵커드 오프셋을 추가한다면 빈도 규칙의 다음 날짜로 롤 포워드(roll forward)된다.

In [50]:
now + MonthEnd()

Timestamp('2011-11-30 00:00:00')

In [51]:
now + MonthEnd(2)

Timestamp('2011-12-31 00:00:00')

> 앵커드 오프셋은 rollforward와 rollback 메서드를 사용해서 명시적으로 각각 날짜를 앞으로 밀거나 뒤로 당길 수 있다.

In [52]:
offset = MonthEnd()

offset.rollforward(now)

Timestamp('2011-11-30 00:00:00')

In [53]:
offset.rollback(now)

Timestamp('2011-10-31 00:00:00')

> 이 메서드를 groupby와 함께 사용하면 날짜 오프셋을 영리하게 사용할 수 있다.

In [55]:
ts = pd.Series(np.random.randn(20), 
               index = pd.date_range('1/15/2000', periods = 20, freq = '4d'))
ts

2000-01-15    1.005632
2000-01-19    0.189992
2000-01-23    0.101208
2000-01-27    0.376477
2000-01-31    1.598759
2000-02-04    1.211136
2000-02-08   -0.973163
2000-02-12   -0.961817
2000-02-16    0.835879
2000-02-20   -0.254801
2000-02-24   -0.026768
2000-02-28   -0.448716
2000-03-03   -0.869599
2000-03-07   -0.159461
2000-03-11   -1.594881
2000-03-15    0.605714
2000-03-19    1.463431
2000-03-23   -0.196428
2000-03-27    0.723217
2000-03-31    0.710456
Freq: 4D, dtype: float64

In [56]:
ts.groupby(offset.rollforward).mean()

2000-01-31    0.654413
2000-02-29   -0.088321
2000-03-31    0.085306
dtype: float64

> 물론 가장 쉽고 빠른 방법은 resample을 사용하는 것이다.

In [58]:
ts.resample('M').mean()

2000-01-31    0.654413
2000-02-29   -0.088321
2000-03-31    0.085306
Freq: M, dtype: float64

## 11.4 시간대 다루기

- 시계열을 다루는 많은 사용자는 현재 국제표준이며 그리니치 표준시를 계승하는 국제표준시 (Coordinated Universal Time, UTC)를 선택한다.
- 시간대는 UTC로부터 떨어진 오프셋으로 표현되는데 예를 들면 뉴욕은 일광절약시간 (Daylight Saving Time, DST)일 때 UTC보다 4시간 늦으며 아닐 때는 5시간 늦다.
- 파이썬에서 시간대 정보는 전 세계의 시간대 정보를 모아둔 올슨 데이터베이스를 담고 있는 서드파티 라이브러리인 pytz에서 얻어온다.
- pandas는 pytz의 기능을 사용하고 있으므로 시간대 이름 외에 API의 다른 부분은 무시해도 상관없다.

In [4]:
pytz.common_timezones[-5:]

['US/Eastern', 'US/Hawaii', 'US/Mountain', 'US/Pacific', 'UTC']

> pytz에서 시간대 객체를 얻으려면 pytz.timezone을 사용하면 된다.  
> pandas의 메서드에서는 시간대 이름이나 객체를 모두 사용할 수 있지만 시간대 이름을 사용하기 권장한다.

In [7]:
tz = pytz.timezone('America/New_York')
tz

<DstTzInfo 'America/New_York' LMT-1 day, 19:04:00 STD>

### 11.4.1 시간대 지역화와 변환

> 기본적으로 pandas에서 시계열은 시간대를 엄격히 다루지 않는다.

In [9]:
rng = pd.date_range('3/9/2012 9:30', periods = 6, freq = 'D')
ts = pd.Series(np.random.randn(len(rng)), index = rng)
ts

2012-03-09 09:30:00   -0.827604
2012-03-10 09:30:00    1.550378
2012-03-11 09:30:00    0.183820
2012-03-12 09:30:00   -0.532628
2012-03-13 09:30:00    1.200241
2012-03-14 09:30:00    0.627737
Freq: D, dtype: float64

> 색인의 tz필드는 None이다.

In [10]:
print(ts.index.tz)

None


> 시간대를 지정해서 날짜 범위를 생성할 수 있다.

In [11]:
pd.date_range('3/9/2012 9:30', periods = 10, freq = 'D', tz = 'UTC')

DatetimeIndex(['2012-03-09 09:30:00+00:00', '2012-03-10 09:30:00+00:00',
               '2012-03-11 09:30:00+00:00', '2012-03-12 09:30:00+00:00',
               '2012-03-13 09:30:00+00:00', '2012-03-14 09:30:00+00:00',
               '2012-03-15 09:30:00+00:00', '2012-03-16 09:30:00+00:00',
               '2012-03-17 09:30:00+00:00', '2012-03-18 09:30:00+00:00'],
              dtype='datetime64[ns, UTC]', freq='D')

> `지역화` 시간으로의 변환은 tz_localize 메서드로 처리할 수 있다.

In [12]:
ts

2012-03-09 09:30:00   -0.827604
2012-03-10 09:30:00    1.550378
2012-03-11 09:30:00    0.183820
2012-03-12 09:30:00   -0.532628
2012-03-13 09:30:00    1.200241
2012-03-14 09:30:00    0.627737
Freq: D, dtype: float64

In [14]:
ts_utc = ts.tz_localize('UTC')
ts_utc

2012-03-09 09:30:00+00:00   -0.827604
2012-03-10 09:30:00+00:00    1.550378
2012-03-11 09:30:00+00:00    0.183820
2012-03-12 09:30:00+00:00   -0.532628
2012-03-13 09:30:00+00:00    1.200241
2012-03-14 09:30:00+00:00    0.627737
Freq: D, dtype: float64

In [16]:
ts_utc.index

DatetimeIndex(['2012-03-09 09:30:00+00:00', '2012-03-10 09:30:00+00:00',
               '2012-03-11 09:30:00+00:00', '2012-03-12 09:30:00+00:00',
               '2012-03-13 09:30:00+00:00', '2012-03-14 09:30:00+00:00'],
              dtype='datetime64[ns, UTC]', freq='D')

> 시계열이 특정 시간대로 지역화되고 나면 tz_convert를 이용해서 다른 시간대로 변환 가능하다.

In [17]:
ts_utc.tz_convert('America/New_York')

2012-03-09 04:30:00-05:00   -0.827604
2012-03-10 04:30:00-05:00    1.550378
2012-03-11 05:30:00-04:00    0.183820
2012-03-12 05:30:00-04:00   -0.532628
2012-03-13 05:30:00-04:00    1.200241
2012-03-14 05:30:00-04:00    0.627737
Freq: D, dtype: float64

> 위 시계열의 경우에는 America/New_York 시간대에서 일광절약시간을 사용하고 있는데, 동부 표준시 (EST)로 맞춘 다음 UTC 혹은 베를린 시간으로 변환할 수 있다.

In [26]:
ts_eastern = ts.tz_localize('America/New_York')
ts_eastern.tz_convert('UTC')

2012-03-09 14:30:00+00:00   -0.827604
2012-03-10 14:30:00+00:00    1.550378
2012-03-11 13:30:00+00:00    0.183820
2012-03-12 13:30:00+00:00   -0.532628
2012-03-13 13:30:00+00:00    1.200241
2012-03-14 13:30:00+00:00    0.627737
dtype: float64

In [27]:
ts_eastern.tz_convert('Europe/Berlin')

2012-03-09 15:30:00+01:00   -0.827604
2012-03-10 15:30:00+01:00    1.550378
2012-03-11 14:30:00+01:00    0.183820
2012-03-12 14:30:00+01:00   -0.532628
2012-03-13 14:30:00+01:00    1.200241
2012-03-14 14:30:00+01:00    0.627737
dtype: float64

> tz_localize와 tz_convert는 모두 DatetimeIndex의 인스턴스 메서드다.

In [28]:
ts.index.tz_localize('Asia/Shanghai')

DatetimeIndex(['2012-03-09 09:30:00+08:00', '2012-03-10 09:30:00+08:00',
               '2012-03-11 09:30:00+08:00', '2012-03-12 09:30:00+08:00',
               '2012-03-13 09:30:00+08:00', '2012-03-14 09:30:00+08:00'],
              dtype='datetime64[ns, Asia/Shanghai]', freq=None)

> 타임스탬프를 특정 시간대로 지역화하면 일광절약시간에 의한 모호하거나 존재하지 않는 시간을 체크한다.

### 11.4.2 시간대를 고려해서 Timestamp 객체 다루기

> 시계열이나 날짜 범위와 비슷하게 개별 Timestamp 객체도 시간대를 고려한 형태로 변환이 가능하다.

In [30]:
stamp = pd.Timestamp('2011-03-12 04:00')
stamp

Timestamp('2011-03-12 04:00:00')

In [31]:
stamp_utc = stamp.tz_localize('utc')
stamp_utc

Timestamp('2011-03-12 04:00:00+0000', tz='UTC')

In [32]:
stamp_utc.tz_convert('America/New_York')

Timestamp('2011-03-11 23:00:00-0500', tz='America/New_York')

> Timestamp 객체를 생성할 때 시간대를 직접 넘겨주는 것도 가능하다.

In [34]:
stamp_moscow = pd.Timestamp('2011-03-12 04:00', tz= 'Europe/Moscow')
stamp_moscow

Timestamp('2011-03-12 04:00:00+0300', tz='Europe/Moscow')

> 시간대를 고려한 Timestamp 객체는 내부적으로 UTC 타임스탬프 값을 유닉스 에포크 (Unix epoch; 1970년 1월 1일)부터 현재까지의 나노초로 저장하고 있다. 이 UTC 값은 시간대 변환 과정에서 변하지 않고 유지된다.

In [35]:
stamp_utc.value

1299902400000000000

In [36]:
stamp_utc.tz_convert('America/New_York').value

1299902400000000000

> pandas의 DateOffset 객체를 이용해서 시간 연산을 수행할 때는 가능하다면 일광절약시간을 고려한다.  
> DST로 전환되기 직전의 타임스탬프에 대한 예제를 살펴보자.  
> 먼저 DST 시행 30분 전의 Timestamp를 생성하자.

In [38]:
from pandas.tseries.offsets import Hour

In [40]:
stamp = pd.Timestamp('2012-03-12 01:30', tz = 'US/Eastern')
stamp

Timestamp('2012-03-12 01:30:00-0400', tz='US/Eastern')

In [41]:
stamp + Hour()

Timestamp('2012-03-12 02:30:00-0400', tz='US/Eastern')

> 그리고 DST 시행 90분 전의 Timestamp를 생성하자.

In [42]:
stamp = pd.Timestamp('2012-11-04 00:30', tz = 'US/Eastern')
stamp

Timestamp('2012-11-04 00:30:00-0400', tz='US/Eastern')

In [43]:
stamp + 2*Hour()

Timestamp('2012-11-04 01:30:00-0500', tz='US/Eastern')

### 11.4.3 다른 시간대 간의 연산

> 서로 다른 시간대를 갖는 두 시계열이 하나로 합쳐지면 결과는 UTC가 된다.  
> 타임스탬프는 내부적으로 UTC로 저장되므로 추가적인 변환이 불필요한 명료한 연산이다.

In [44]:
rng = pd.date_range('3/7/2012 9:30', periods = 10, freq = 'B')
ts = pd.Series(np.random.randn(len(rng)), index = rng)
ts

2012-03-07 09:30:00    2.158596
2012-03-08 09:30:00    0.612155
2012-03-09 09:30:00   -0.854017
2012-03-12 09:30:00   -0.326104
2012-03-13 09:30:00   -1.043511
2012-03-14 09:30:00    1.965302
2012-03-15 09:30:00    0.244759
2012-03-16 09:30:00    0.847342
2012-03-19 09:30:00    1.662439
2012-03-20 09:30:00    0.829872
Freq: B, dtype: float64

In [45]:
ts1 = ts[:7].tz_localize('Europe/London')
ts2 = ts1[2:].tz_convert('Europe/Moscow')
result = ts1 + ts2

result.index

DatetimeIndex(['2012-03-07 09:30:00+00:00', '2012-03-08 09:30:00+00:00',
               '2012-03-09 09:30:00+00:00', '2012-03-12 09:30:00+00:00',
               '2012-03-13 09:30:00+00:00', '2012-03-14 09:30:00+00:00',
               '2012-03-15 09:30:00+00:00'],
              dtype='datetime64[ns, UTC]', freq=None)

## 11.5 기간과 기간 연산

- 며칠, 몇 개월, 몇 분기, 몇 해 같은 기간은 Period 클래스로 표현할 수 있으며 문자열이나 정수 그리고 빈도를 가지고 생성한다.

> 아래의 Period 객체는 2007년 1월 1일부터 같은 해 12월 31일까지의 기간을 포현한다.  
> 이 기간에 정수를 더하거나 빼서 편리하게 정해진 빈도에 따라 기간을 이동시킬 수 있다.

In [6]:
p = pd.Period(2007, freq = "A-DEC")
p

Period('2007', 'A-DEC')

In [7]:
p + 5

Period('2012', 'A-DEC')

In [8]:
p - 2

Period('2005', 'A-DEC')

> 만약 두 기간이 같은 빈도를 가진다면 두 기간의 차는 둘 사이의 간격이 된다.

In [9]:
pd.Period("2014", freq = 'A-DEC') - p

<7 * YearEnds: month=12>

> 일반적인 기간 범위는 period_range 함수로 생성할 수 있다.

In [11]:
rng = pd.period_range('2000-01-01', '2000-06-30', freq = 'M')
rng

PeriodIndex(['2000-01', '2000-02', '2000-03', '2000-04', '2000-05', '2000-06'], dtype='period[M]', freq='M')

> PeriodIndex 클래스는 순차적인 기간을 저장하며 다른 pandas 자료구조에서 축 색인과 마찬가지로 사용된다.

In [12]:
pd.Series(np.random.randn(6), index = rng)

2000-01   -0.432292
2000-02   -0.793592
2000-03    0.835290
2000-04   -0.162653
2000-05    1.292410
2000-06    1.066385
Freq: M, dtype: float64

> 다음과 같은 문자열 배열을 이용해서 PeriodIndex 클래스를 생성하는 것도 가능하다.

In [13]:
values = ['2001Q3', '2002Q2', '2003Q1']

index = pd.PeriodIndex(values, freq = 'Q-DEC')
index

PeriodIndex(['2001Q3', '2002Q2', '2003Q1'], dtype='period[Q-DEC]', freq='Q-DEC')

### 11.5.1 Period의 빈도 변환 

> 기간과 PeriodIndex 객체는 asfreq 메서드를 통해 다른 빈도로 변환할 수 있다.  
> 예를 들어 새해 첫날부터 시작하는 연간 빈도를 월간 빈도로 변환해보자.

In [14]:
p = pd.Period('2007', freq = 'A-DEC')
p

Period('2007', 'A-DEC')

In [15]:
p.asfreq('M', how = 'start')

Period('2007-01', 'M')

In [16]:
p.asfreq('M', how = 'end')

Period('2007-12', 'M')

> Period('2007', 'A-DEC')는 전체 기간에 대한 커서로 생각할 수 있고 우러간으로 다시 나눌 수 있다.  
> 회계연도 마감이 12월이 아닌 경우에는 월간 빈도가 달라진다.

In [18]:
p = pd.Period('2007', freq = 'A-JUN')
p

Period('2007', 'A-JUN')

In [19]:
p.asfreq('M', how = 'start')

Period('2006-07', 'M')

In [20]:
p.asfreq('M', how = 'end')

Period('2007-06', 'M')

> 빈도가 상위 단계에서 하위 단계로 변환되는 경우 상위 기간은 하위 기간이 어디에 속했는지에 따라 결정된다.  
> 예를 들어 A-JUN 빈도일 경우 2007년 8월은 실제로 2008년 기간에 속하게 된다.

In [21]:
p = pd.Period('Aug-2007', 'M')

p.asfreq('A-JUN')

Period('2008', 'A-JUN')

> 모든 PeriodIndex 객체나 시계열은 지금까지 살펴본 내용과 같은 방식으로 변환할 수 잇다.

In [23]:
rng = pd.period_range('2006', '2009', freq = 'A-DEC')

ts = pd.Series(np.random.randn(len(rng)), index = rng)
ts

2006    0.608209
2007   -0.933070
2008   -0.545199
2009   -1.632759
Freq: A-DEC, dtype: float64

In [24]:
ts.asfreq('M', how = 'start')

2006-01    0.608209
2007-01   -0.933070
2008-01   -0.545199
2009-01   -1.632759
Freq: M, dtype: float64

> 위 예제에서 연 빈도는 해당 빈도의 시작 월부터 시작하는 월 빈도로 치환된다.  
> 만일 매 해의 마지막 영업일을 대신 사용하고 싶다면 'B' 빈도를 사용하고 해당 기간의 종료 지점을 지정해서 변환할 수 있다.

In [25]:
ts.asfreq('B', how = 'end')

2006-12-29    0.608209
2007-12-31   -0.933070
2008-12-31   -0.545199
2009-12-31   -1.632759
Freq: B, dtype: float64

### 11.5.2 분기 빈도

> 많은 분기 데이터는 일반적으로 회계연도의 끝인 12월의 마지막 날이나 마지막 업무일을 기준으로 보고하는데, 2012Q4는 회계연도의 끝이 어딘가에 따라 의미가 달라진다.  
> pandas는 12가지 모든 경우의 수를 지원하며 분기 빈도는 Q-JAN 부터 Q-DEC 까지다.

In [26]:
p = pd.Period('2012Q4', freq = 'Q-JAN')
p

Period('2012Q4', 'Q-JAN')

> 회계연도 마감이 1월인 경우라면 2012Q4는 11월부터 1월까지가 되고 일간 빈도로 검사할 수 있다.

In [27]:
p.asfreq('D', 'start')

Period('2011-11-01', 'D')

In [28]:
p.asfreq('D', 'end')

Period('2012-01-31', 'D')

> 분기 영업마감일의 오후 4시를 가리키는 타임스탬프는 다음과 같이 구할 수 있다.

In [29]:
p4pm = (p.asfreq('B', 'e') - 1).asfreq('T', 's') + 16*60
p4pm

Period('2012-01-30 16:00', 'T')

In [30]:
p4pm.to_timestamp()

Timestamp('2012-01-30 16:00:00')

> period_range를 사용해서 분기 범위를 생성할 수 있다.  
> 연산 역시 동일한 방법으로 수행할 수 있다.

In [34]:
rng = pd.period_range('2011Q3', '2012Q4', freq = 'Q-JAN')

ts = pd.Series(np.arange(len(rng)), index = rng)
ts

2011Q3    0
2011Q4    1
2012Q1    2
2012Q2    3
2012Q3    4
2012Q4    5
Freq: Q-JAN, dtype: int32

In [37]:
new_rng = (rng.asfreq('B','e') -1).asfreq('T','s') + 16*60
ts.index = new_rng.to_timestamp()
ts

2010-10-28 16:00:00    0
2011-01-28 16:00:00    1
2011-04-28 16:00:00    2
2011-07-28 16:00:00    3
2011-10-28 16:00:00    4
2012-01-30 16:00:00    5
dtype: int32

### 11.5.3 타임스탬프와 기간 서로 변환하기

> 타임스탬프로 색인된 Series와 DataFrame 객체는 to_period 메서드를 사용해서 기간으로 변환 가능하다.

In [39]:
rng = pd.date_range('2000-01-01', periods = 3, freq = 'M')

ts = pd.Series(np.random.randn(3), index = rng)
ts

2000-01-31    0.209581
2000-02-29    1.171133
2000-03-31    1.339138
Freq: M, dtype: float64

In [41]:
pts = ts.to_period()
pts

2000-01    0.209581
2000-02    1.171133
2000-03    1.339138
Freq: M, dtype: float64

> 여기서 말하는 기간은 겹치지 않는 시간상의 간격을 뜻하므로 주어진 빈도에서 타임스탬프는 하나의 기간에만 속한다.  
> 새로운 PeriodIndex의 빈도는 기본적으로 타임스탬프 값을 통해 추론되지만 원하는 빈도를 직접 지정할 수도 있다.  
> 결과에 중복되는 기간이 나오더라도 문제가 되지 않는다.

In [44]:
rng = pd.date_range('1/29/2000', periods = 6, freq = 'D')
ts2 = pd.Series(np.random.randn(6), index = rng)
ts2

2000-01-29   -2.056027
2000-01-30    0.647576
2000-01-31    0.368360
2000-02-01   -0.337033
2000-02-02   -0.582228
2000-02-03    0.782855
Freq: D, dtype: float64

In [45]:
ts2.to_period('M')

2000-01   -2.056027
2000-01    0.647576
2000-01    0.368360
2000-02   -0.337033
2000-02   -0.582228
2000-02    0.782855
Freq: M, dtype: float64

> 기간을 타임스탬프로 변환하려면 to_timestamp 메서드를 이용하면 된다.

In [47]:
pts = ts2.to_period()
pts

2000-01-29   -2.056027
2000-01-30    0.647576
2000-01-31    0.368360
2000-02-01   -0.337033
2000-02-02   -0.582228
2000-02-03    0.782855
Freq: D, dtype: float64

In [50]:
pts.to_timestamp(how = 'end')

2000-01-29 23:59:59.999999999   -2.056027
2000-01-30 23:59:59.999999999    0.647576
2000-01-31 23:59:59.999999999    0.368360
2000-02-01 23:59:59.999999999   -0.337033
2000-02-02 23:59:59.999999999   -0.582228
2000-02-03 23:59:59.999999999    0.782855
Freq: D, dtype: float64

### 11.5.4 배열로 PeriodIndex 생성하기

> 고정된 빈도를 갖는 데이터는 종종 여러 컬럼에 걸쳐 기간에 대한 정보를 함께 저장하기도 한다.

In [51]:
data = pd.read_csv('examples/macrodata.csv')
data.head(5)

Unnamed: 0,year,quarter,realgdp,realcons,realinv,realgovt,realdpi,cpi,m1,tbilrate,unemp,pop,infl,realint
0,1959.0,1.0,2710.349,1707.4,286.898,470.045,1886.9,28.98,139.7,2.82,5.8,177.146,0.0,0.0
1,1959.0,2.0,2778.801,1733.7,310.859,481.301,1919.7,29.15,141.7,3.08,5.1,177.83,2.34,0.74
2,1959.0,3.0,2775.488,1751.8,289.226,491.26,1916.4,29.35,140.5,3.82,5.3,178.657,2.74,1.09
3,1959.0,4.0,2785.204,1753.7,299.356,484.052,1931.3,29.37,140.0,4.33,5.6,179.386,0.27,4.06
4,1960.0,1.0,2847.699,1770.5,331.722,462.199,1955.5,29.54,139.6,3.5,5.2,180.007,2.31,1.19


In [52]:
data.year

0      1959.0
1      1959.0
2      1959.0
3      1959.0
4      1960.0
        ...  
198    2008.0
199    2008.0
200    2009.0
201    2009.0
202    2009.0
Name: year, Length: 203, dtype: float64

In [53]:
data.quarter

0      1.0
1      2.0
2      3.0
3      4.0
4      1.0
      ... 
198    3.0
199    4.0
200    1.0
201    2.0
202    3.0
Name: quarter, Length: 203, dtype: float64

> 이 배열을 PeriodIndex에 빈도값과 함께 전달하면 이를 조합해서 DataFrame에서 사용할 수 있는 색인을 만들어낸다.

In [55]:
index = pd.PeriodIndex(year = data.year,
                       quarter = data.quarter,
                       freq = 'Q-DEC')
index

PeriodIndex(['1959Q1', '1959Q2', '1959Q3', '1959Q4', '1960Q1', '1960Q2',
             '1960Q3', '1960Q4', '1961Q1', '1961Q2',
             ...
             '2007Q2', '2007Q3', '2007Q4', '2008Q1', '2008Q2', '2008Q3',
             '2008Q4', '2009Q1', '2009Q2', '2009Q3'],
            dtype='period[Q-DEC]', length=203, freq='Q-DEC')

In [57]:
data.index = index

data.infl

1959Q1    0.00
1959Q2    2.34
1959Q3    2.74
1959Q4    0.27
1960Q1    2.31
          ... 
2008Q3   -3.16
2008Q4   -8.79
2009Q1    0.94
2009Q2    3.37
2009Q3    3.56
Freq: Q-DEC, Name: infl, Length: 203, dtype: float64

## 리샘플링과 빈도 변환

- 리샘플링 : 시계열의 빈도를 변환하는 과정을 일컫는다. 
    - 다운샘플링 : 상위 빈도의 데이터를 하위 빈도로 집계하는 것 
    - 업샘플링 : 하위 빈도의 데이터를 상위 빈도로 집계하는 것
    - W-WED(수요일을 기준으로 한 주간)를 W-FRI로 변경하는 것은 업샘플링도 다운샘플링도 아니다.

> pandas 객체는 resample 메서드를 가지고 있는데, 빈도 변환과 관련된 모든 작업에서 유용하게 사용되는 메서드다.  
> resample은 groupby와 비슷한 API를 가지고 있는데 resample을 호출해서 데이터를 그룹 짓고 요약함수를 적용하는 식이다.

In [60]:
rng = pd.date_range('2000-01-01', periods = 100, freq = 'D')
ts = pd.Series(np.random.randn(len(rng)), index = rng)
ts

2000-01-01    0.851331
2000-01-02    0.967976
2000-01-03    0.640671
2000-01-04   -0.720144
2000-01-05   -0.492518
                ...   
2000-04-05    0.405581
2000-04-06   -0.260274
2000-04-07    0.492901
2000-04-08    0.628009
2000-04-09    0.768989
Freq: D, Length: 100, dtype: float64

In [61]:
ts.resample("M").mean()

2000-01-31    0.230538
2000-02-29   -0.069556
2000-03-31    0.210351
2000-04-30   -0.035208
Freq: M, dtype: float64

In [63]:
ts.resample("M", kind = 'period').mean()

2000-01    0.230538
2000-02   -0.069556
2000-03    0.210351
2000-04   -0.035208
Freq: M, dtype: float64

#### resample 메서드 인자

<details>
<summary>resample 메서드 인자</summary>
<div markdown="1">

|인자|설명|
|:--|:--|
|freq|원하는 리샘플링 빈도를 가리키는 문자열이나 DataOffset(예:'M','5min',Second(15))|
|axis|리샘플링을 수행할 축. 기본값은 axis=0 이다.|
|fill_method|업샘플링 시 사용할 보간 방법. 'ffill'과 'bfill'이 있다. 기본값은 None이다(보간을 수행하지 않음).|
|closed|다운샘플링 시 각 간격의 어느 쪽을 포함할지 가리킨다. 'right'와 'left'가 있고 기본값은 'right'다.|
|label|다운샘플링 시 집계된 결과의 라벨을 결정한다. 'right'와 'left'가 있다. 예를 들어 9:30에서 9:35까지 5분 간격이 있을 때 라벨은 9:30 혹은 9:35가 될 수 있다. 기본 값은 'right'다. (이 경우에는 9:35가 된다).|
|loffset|나뉜 그룹의 라벨에 맞추기 위한 오프셋. '-1s' /Second(-1)은 집계된 라벨을 1초 앞당긴다.|
|limit|보간법을 사용할 때 보간을 적용할 최대 기간|
|kind|기간('period')별 혹은 타임스탬프('timestamp')별로 집계할 것인지 구분. 기본값은 시계열 색인의 종류와 같다.|
|convention|기간을 리샘플링할 때 하위 빈도 기간에서 상위 빈도로 변환 시의 방식('start' 혹은 'end'). 기본값은 'end'다.|
   
</div>
</details>

### 11.6.1 다운샘플링

- resample을 사용해서 데이터를 다운샘플링할 때 고려해야 할 사항이 몇 가지 있다.
    - 각 간격의 양끝 중에서 어느 쪽을 닫아둘 것인가
    - 집계하려는 구간의 라벨을 간격의 시작으로 할지 끝으로 할지 여부


> 분 단위 데이터를 통해 좀 더 알아보자.

In [67]:
rng = pd.date_range('2000-01-01', periods = 12, freq = 'T')
ts = pd.Series(np.arange(12), index = rng)
ts

2000-01-01 00:00:00     0
2000-01-01 00:01:00     1
2000-01-01 00:02:00     2
2000-01-01 00:03:00     3
2000-01-01 00:04:00     4
2000-01-01 00:05:00     5
2000-01-01 00:06:00     6
2000-01-01 00:07:00     7
2000-01-01 00:08:00     8
2000-01-01 00:09:00     9
2000-01-01 00:10:00    10
2000-01-01 00:11:00    11
Freq: T, dtype: int32

> 이 데이터를 5분 단위로 묶어서 각 그룹의 합을 집계해보자.  
> 인자로 넘긴 빈도는 5분 단위로 증가하는 그룹의 경계를 정의한다.  
> 기본적으로 시작값을 그룹의 `왼쪽`에 포함시키므로 00:00의 값은 첫 번째 그룹의 00:00부터 00:05까지의 값을 집계한다.

In [69]:
ts.resample('5min', closed = 'left').sum()

2000-01-01 00:00:00    10
2000-01-01 00:05:00    35
2000-01-01 00:10:00    21
Freq: 5T, dtype: int32

> closed = 'right'를 넘기면 시작값을 그룹의 오른쪽에 포함시킨다.

In [70]:
ts.resample('5min', closed = 'right').sum()

1999-12-31 23:55:00     0
2000-01-01 00:00:00    15
2000-01-01 00:05:00    40
2000-01-01 00:10:00    11
Freq: 5T, dtype: int32

> 결과로 반환된 시계열은 각 그룹의 왼쪽 타임스탬프가 라벨로 지정되었다.  
> label = 'right'를 넘겨서 각 그룹의 오른쪽 값을 라벨로 사용할 수 있다.

In [71]:
ts.resample('5min', closed = 'right', label = 'right').sum()

2000-01-01 00:00:00     0
2000-01-01 00:05:00    15
2000-01-01 00:10:00    40
2000-01-01 00:15:00    11
Freq: 5T, dtype: int32

> 반환된 결과의 색인을 특정 크기만큼 이동시키고 싶은 경우,  
> 즉 그룹의 오른쪽 끝에서 1초를 빼서 타임스탬프가 참조하는 간격을 좀 더 명확히 보여주고 싶은 경우에는 loffset 메서드에 문자열이나 날짜 오프셋을 넘기면된다.

In [74]:
from pandas.tseries.frequencies import to_offset

ts.resample('5min', closed = 'right',
           label = 'right', loffset = '-1s').sum()


>>> df.resample(freq="3s", loffset="8H")

becomes:

>>> from pandas.tseries.frequencies import to_offset
>>> df = df.resample(freq="3s").mean()
>>> df.index = df.index.to_timestamp() + to_offset("8H")

  ts.resample('5min', closed = 'right',


1999-12-31 23:59:59     0
2000-01-01 00:04:59    15
2000-01-01 00:09:59    40
2000-01-01 00:14:59    11
Freq: 5T, dtype: int32

#### OHLC 리샘플링
- 금융 분야에서 시계열 데이터를 집계하는 아주 흔한 방식은 각 버킷에 대해 4가지 값을 계산하는 것.
    - 이 값은 시가(open), 고가(high), 저가(low), 종가(close)이며, 이를 OHLC라고 한다.
    - how = 'ohlc'를 넘겨서 한 번에 이 값을 담고 있는 컬럼을 가지는 DataFrame을 얻을 수 있다.

In [75]:
ts.resample('5min').ohlc()

Unnamed: 0,open,high,low,close
2000-01-01 00:00:00,0,4,0,4
2000-01-01 00:05:00,5,9,5,9
2000-01-01 00:10:00,10,11,10,11


### 11.6.2 업샘플링과 보간

> 하위 빈도에서 상위 빈도로 변환할 때는 집계가 필요하지 않다.  
> 주간 데이터를 담고 있는 DataFrame을 살펴보자.

In [80]:
frame = pd.DataFrame(np.random.randn(2,4),
                     index = pd.date_range('1/1/2000', periods = 2, freq ='W-WED'),
                     columns = ['Colorado', 'Texas',' New York', 'Ohio'])
frame

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01-05,0.022063,0.743519,0.866836,0.25338
2000-01-12,-0.722388,-1.620124,-0.536472,-0.695123


> 이 데이터에서 요약함수를 사용하면 그룹당 하나의 값이 들어가고 그 사이에 결측치가 들어간다.  
> asfreq 메서드를 이용해서 어떤 요약함수도 사용하지 ㅇ낳고 상위 빈도로 리샘플링 해보자.

In [82]:
df_daily = frame.resample('D').asfreq()
df_daily

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01-05,0.022063,0.743519,0.866836,0.25338
2000-01-06,,,,
2000-01-07,,,,
2000-01-08,,,,
2000-01-09,,,,
2000-01-10,,,,
2000-01-11,,,,
2000-01-12,-0.722388,-1.620124,-0.536472,-0.695123


> 수요일이 아닌 요일에는 이전 값을 채워서 보간을 수행한다고 가정하자.  
> fillna와 reindex 매서드에서 사용했던 보간 메서드를 리샘플링에서도 사용할 수 있다.

In [83]:
frame.resample('D').ffill()

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01-05,0.022063,0.743519,0.866836,0.25338
2000-01-06,0.022063,0.743519,0.866836,0.25338
2000-01-07,0.022063,0.743519,0.866836,0.25338
2000-01-08,0.022063,0.743519,0.866836,0.25338
2000-01-09,0.022063,0.743519,0.866836,0.25338
2000-01-10,0.022063,0.743519,0.866836,0.25338
2000-01-11,0.022063,0.743519,0.866836,0.25338
2000-01-12,-0.722388,-1.620124,-0.536472,-0.695123


> limit 옵션을 사용해서 보간법을 적용할 범위를 지정하는 것도 가능하다.

In [85]:
frame.resample('D').ffill(limit =2 )

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01-05,0.022063,0.743519,0.866836,0.25338
2000-01-06,0.022063,0.743519,0.866836,0.25338
2000-01-07,0.022063,0.743519,0.866836,0.25338
2000-01-08,,,,
2000-01-09,,,,
2000-01-10,,,,
2000-01-11,,,,
2000-01-12,-0.722388,-1.620124,-0.536472,-0.695123


> 특히 새로운 날자 색인은 이전 색인과 겹쳐질 필요가 전혀 없다.

In [86]:
frame.resample('W-THU').ffill()

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01-06,0.022063,0.743519,0.866836,0.25338
2000-01-13,-0.722388,-1.620124,-0.536472,-0.695123


### 11.6.3 기간 리샘플링

> 기간으로 색인된 데이터를 리샘플링하는 것은 타임스탬프와 유사하다.

In [89]:
frame = pd.DataFrame(np.random.randn(24,4),
                     index = pd.period_range('1-2000','12-2001', freq = 'M'),
                     columns = ['Colorado', 'Texas', 'New York', 'Ohio'])
frame[:5]

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01,1.430094,-0.461197,0.79774,-0.032173
2000-02,-2.10755,0.147225,-1.51672,-1.460835
2000-03,-0.175305,0.258221,-0.894751,1.388394
2000-04,-0.259374,-0.740422,-0.860424,0.152037
2000-05,0.594652,1.120225,-0.194435,-0.424841


In [91]:
annual_frame = frame.resample('A-DEC').mean()
annual_frame

Unnamed: 0,Colorado,Texas,New York,Ohio
2000,-0.150961,-0.113095,0.057595,0.373863
2001,-0.298454,-0.427142,-0.253441,0.409313


> 업샘플링은 asfreq메서드처럼 리샘플링하기 전에 새로운 빈도에서 구간의 끝을 어느 쪽에 두어야 할지 미리 결정해야 한다.  
> convention 인자의 기본값은 'start'지만 'end'로 지정할 수도 있다.

In [95]:
# Q-DEC : 12월을 연도마감으로 하는 분기 주기
annual_frame.resample('Q-DEC').ffill()

Unnamed: 0,Colorado,Texas,New York,Ohio
2000Q1,-0.150961,-0.113095,0.057595,0.373863
2000Q2,-0.150961,-0.113095,0.057595,0.373863
2000Q3,-0.150961,-0.113095,0.057595,0.373863
2000Q4,-0.150961,-0.113095,0.057595,0.373863
2001Q1,-0.298454,-0.427142,-0.253441,0.409313
2001Q2,-0.298454,-0.427142,-0.253441,0.409313
2001Q3,-0.298454,-0.427142,-0.253441,0.409313
2001Q4,-0.298454,-0.427142,-0.253441,0.409313


In [96]:
annual_frame.resample('Q-DEC', convention = 'end').ffill()

Unnamed: 0,Colorado,Texas,New York,Ohio
2000Q4,-0.150961,-0.113095,0.057595,0.373863
2001Q1,-0.150961,-0.113095,0.057595,0.373863
2001Q2,-0.150961,-0.113095,0.057595,0.373863
2001Q3,-0.150961,-0.113095,0.057595,0.373863
2001Q4,-0.298454,-0.427142,-0.253441,0.409313


기간의 업샘플링과 다운샘플링은 좀 더 엄격하다.
- 다운샘플링의 경우 대상 빈도는 반드시 원본 빈도의 `하위 기간`이어야 한다.
- 업샘플링의 경우 대상 빈도는 반드시 원본 빈도의 `상위 기간`이어야 한다.