In [1]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series

- 리샘플링은 시계열의 빈도를 변환하는 과정
- 상위 빈도의 데이터를 하위 빈도로 집계하는 것을 다운샘플링, 반대의 과정을 업샘플링
- 모든 리샘플링이 이 두 가지 범주에 들어가는 것은 아니다.
- 예들 들어 W-WED(수요일을 기준으로 한 주간)를 W-FRI로 변경하는 것은 업샘플링도 다운샘플링도 아니다.

- pandas 객체는 resample 메서드를 가지고 있는데, 빈도 변환에 관련된 모든 작업에서 유용하게 사용되는 메서드다.

In [3]:
rng = pd.date_range('20180101', periods=100, freq='D')

In [6]:
ts = Series(np.random.randn(len(rng)), index=rng)

In [8]:
ts.resample('M').mean()

2018-01-31    0.217110
2018-02-28    0.097959
2018-03-31    0.233504
2018-04-30    0.320465
Freq: M, dtype: float64

In [9]:
ts.resample('M', kind='period').mean()

2018-01    0.217110
2018-02    0.097959
2018-03    0.233504
2018-04    0.320465
Freq: M, dtype: float64

- resample은 매우 큰 시계열 데이터를 처리할 수 있다.

### 10.6.1 다운샘플링

- 시계열 데이터를 규칙적인 하위 빈도로 집계하는 것
- 집계할 데이터는 고정 빈도를 가질 필요도 없고, 잘라낸 시계열 조각의 크기를 원하는 빈도로 정의한다.

In [14]:
rng = pd.date_range('20180101', periods=12, freq='T')
# freq='T' 매 분

In [12]:
rng

DatetimeIndex(['2018-01-01 00:00:00', '2018-01-01 00:01:00',
               '2018-01-01 00:02:00', '2018-01-01 00:03:00',
               '2018-01-01 00:04:00', '2018-01-01 00:05:00',
               '2018-01-01 00:06:00', '2018-01-01 00:07:00',
               '2018-01-01 00:08:00', '2018-01-01 00:09:00',
               '2018-01-01 00:10:00', '2018-01-01 00:11:00'],
              dtype='datetime64[ns]', freq='T')

In [15]:
ts = Series(np.arange(12), index=rng)

In [16]:
ts

2018-01-01 00:00:00     0
2018-01-01 00:01:00     1
2018-01-01 00:02:00     2
2018-01-01 00:03:00     3
2018-01-01 00:04:00     4
2018-01-01 00:05:00     5
2018-01-01 00:06:00     6
2018-01-01 00:07:00     7
2018-01-01 00:08:00     8
2018-01-01 00:09:00     9
2018-01-01 00:10:00    10
2018-01-01 00:11:00    11
Freq: T, dtype: int32

In [17]:
# 데이터를 5분 단위로 묶어서 각 그룹의 합을 집계
ts.resample('5min').sum()

2018-01-01 00:00:00    10
2018-01-01 00:05:00    35
2018-01-01 00:10:00    21
Freq: 5T, dtype: int32

- 인자로 넘긴 빈도는 5분 단위로 증가하는 그룹의 경계를 정의한다.
- 기본적으로 시작 값을 그룹의 왼쪽에 포함시키므로 첫 번째 그룹은 00:00부터 00:04까지의 값을 집계한다.
- closed='right'를 넘기면 시작 값을 그룹의 오른쪽에 포함시키므로 다음과 같은 결과가 나온다.

In [18]:
ts.resample('5min', closed='right').sum()

2017-12-31 23:55:00     0
2018-01-01 00:00:00    15
2018-01-01 00:05:00    40
2018-01-01 00:10:00    11
Freq: 5T, dtype: int32

- 각 그룹의 왼쪽 시작 값의 타임스탬프가 라벨로 지정되었다.
- label='right'를 넘겨서 각 그룹의 오른쪽 값을 라벨로 지정할 수 있다.

In [19]:
ts.resample('5min', closed='right', label='right').sum()

2018-01-01 00:00:00     0
2018-01-01 00:05:00    15
2018-01-01 00:10:00    40
2018-01-01 00:15:00    11
Freq: 5T, dtype: int32