# 10. 시계열
> ## 날짜 범위, 빈도, 이동

In [11]:
import pandas as pd
import numpy as np
from pandas import Series, DataFrame
from datetime import datetime
from datetime import timedelta
from dateutil.parser import parse
from pandas.tseries.offsets import Hour, Minute, Day, MonthEnd

In [2]:
dates = [datetime(2011, 1, 2), datetime(2011, 1, 5), datetime(2011, 1, 7),
        datetime(2011, 1, 8), datetime(2011, 1, 10), datetime(2011, 1, 12)]
ts = Series(np.random.randn(6), index = dates)
ts

2011-01-02    0.045819
2011-01-05    0.562437
2011-01-07    0.265275
2011-01-08    0.927291
2011-01-10    1.186899
2011-01-12    0.206727
dtype: float64

In [3]:
ts.resample('D')

DatetimeIndexResampler [freq=<Day>, axis=0, closed=left, label=left, convention=start, base=0]

- 고정된 일 빈도로 변환 시 resample 메서드 사용
___
## 1. 날짜 범위 생성하기

In [4]:
index = pd.date_range('4/1/2012', '6/1/2012')
index

DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
               '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
               '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
               '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
               '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20',
               '2012-04-21', '2012-04-22', '2012-04-23', '2012-04-24',
               '2012-04-25', '2012-04-26', '2012-04-27', '2012-04-28',
               '2012-04-29', '2012-04-30', '2012-05-01', '2012-05-02',
               '2012-05-03', '2012-05-04', '2012-05-05', '2012-05-06',
               '2012-05-07', '2012-05-08', '2012-05-09', '2012-05-10',
               '2012-05-11', '2012-05-12', '2012-05-13', '2012-05-14',
               '2012-05-15', '2012-05-16', '2012-05-17', '2012-05-18',
               '2012-05-19', '2012-05-20', '2012-05-21', '2012-05-22',
               '2012-05-23', '2012-05-24', '2012-05-25', '2012-05-26',
      

- pd.date_range 사용 시 특정 빈도에 따라 지정된 길이 만큼의 DatetimeIndex 생성

In [5]:
pd.date_range(start = '4/1/2012', periods = 20)

DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
               '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
               '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
               '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
               '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20'],
              dtype='datetime64[ns]', freq='D')

In [6]:
pd.date_range(end = '6/1/2012', periods = 20)

DatetimeIndex(['2012-05-13', '2012-05-14', '2012-05-15', '2012-05-16',
               '2012-05-17', '2012-05-18', '2012-05-19', '2012-05-20',
               '2012-05-21', '2012-05-22', '2012-05-23', '2012-05-24',
               '2012-05-25', '2012-05-26', '2012-05-27', '2012-05-28',
               '2012-05-29', '2012-05-30', '2012-05-31', '2012-06-01'],
              dtype='datetime64[ns]', freq='D')

In [7]:
pd.date_range('1/1/2000', '12/1/2000', freq = 'BM')

DatetimeIndex(['2000-01-31', '2000-02-29', '2000-03-31', '2000-04-28',
               '2000-05-31', '2000-06-30', '2000-07-31', '2000-08-31',
               '2000-09-29', '2000-10-31', '2000-11-30'],
              dtype='datetime64[ns]', freq='BM')

- freq = 'BM' 옵션은 월 영업 마감일을 전달

In [8]:
pd.date_range('5/2/2012 12:56:31', periods = 5)

DatetimeIndex(['2012-05-02 12:56:31', '2012-05-03 12:56:31',
               '2012-05-04 12:56:31', '2012-05-05 12:56:31',
               '2012-05-06 12:56:31'],
              dtype='datetime64[ns]', freq='D')

- 시간 지정 시 타임스탬프를 보존
___
## 2. 빈도와 날짜 오프셋

In [10]:
from pandas.tseries.offsets import Hour, Minute

In [14]:
hour = Hour()
hour

<Hour>

In [15]:
four_hours = Hour(4)
four_hours

<4 * Hours>

In [16]:
pd.date_range('1/1/2000', '1/3/2000 23:59', freq = '4h')

DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 04:00:00',
               '2000-01-01 08:00:00', '2000-01-01 12:00:00',
               '2000-01-01 16:00:00', '2000-01-01 20:00:00',
               '2000-01-02 00:00:00', '2000-01-02 04:00:00',
               '2000-01-02 08:00:00', '2000-01-02 12:00:00',
               '2000-01-02 16:00:00', '2000-01-02 20:00:00',
               '2000-01-03 00:00:00', '2000-01-03 04:00:00',
               '2000-01-03 08:00:00', '2000-01-03 12:00:00',
               '2000-01-03 16:00:00', '2000-01-03 20:00:00'],
              dtype='datetime64[ns]', freq='4H')

In [17]:
Hour(2) + Minute(30)

<150 * Minutes>

- 여러 오프셋은 덧셈으로 합치기 가능

In [18]:
pd.date_range('1/1/2000', periods = 10, freq = '1h30min')

DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 01:30:00',
               '2000-01-01 03:00:00', '2000-01-01 04:30:00',
               '2000-01-01 06:00:00', '2000-01-01 07:30:00',
               '2000-01-01 09:00:00', '2000-01-01 10:30:00',
               '2000-01-01 12:00:00', '2000-01-01 13:30:00'],
              dtype='datetime64[ns]', freq='90T')

- 빈도 문자열로 '1h30min' 같은 표현도 잘 해석함
- 다양한 시계열 빈도 표현식은 하단 참조

|축약|오프셋종류|설명|
|---|---|---|
|D|Day| 달력상 일|
|B|Business Day| 매 영업일|
|H|Hour| 매 시간|
|T / min| Minute|매 분|
|S| Second|매 초|
|L /ms| Milli| 밀리 초|
|U|Micro|마이크로 초|
|M|Month end| 월 마지막 일|
|BM|Business month end|월 영업 마감일|
|MS|Month start|월 시작일|
|BMS| Business month start|월 영업 시작일|
|W-MON, W-TUE...|Week|요일|
|WOM-1MON, WOM-2MON...|Week of month|월별 주차와 요일|
|Q-Jan, Q-FEB...| Quarter end|지정 월의 마지막 날짜를 가리키는 분기|
|BQ-Jan, BQ-FEB...| Business quarter end| 지정 월의 마지막 영업 날짜를 가리키는 분기|
|QS-JAN, QS-FEB...| Quarter begins|지정 월의 첫번째 날을 가리키는 분기|
|BQS-JAN, BQS-FEB...| Business quarter begins|지정 월의 첫 영업 날짜를 가리키는 분기|
|A-JAN, A-FEB...| Year end|주어진 월의 마지막 날을 가리키는 연간 주기|
|BA-JAN, BA-FEB...| Business year end| 주어진 월의 마지막 영업일을 가리키는 연간 주기|
|AS-JAN, AS-FEB...| Year begin|주어진 월의 첫째 날을 가리키는 연간 주기|
|BAS-JAN, BAS-FEB...| Business year begin|주어진 월의 첫 영업일을 가리키는 연간 주기|

In [19]:
rng = pd.date_range('1/1/2012', '9/1/2012', freq = 'WOM-3FRI')
list(rng)

[Timestamp('2012-01-20 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-02-17 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-03-16 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-04-20 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-05-18 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-06-15 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-07-20 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-08-17 00:00:00', freq='WOM-3FRI')]

- WOM으로 시작하는 월별 주차는 유용하게 사용
___
## 3. 데이터 시프트

In [20]:
ts = Series(np.random.randn(4),
           index = pd.date_range('1/1/2000', periods = 4, freq = 'M'))
ts

2000-01-31    1.867778
2000-02-29   -1.245056
2000-03-31   -0.332771
2000-04-30   -0.358406
Freq: M, dtype: float64

In [21]:
ts.shift(2)

2000-01-31         NaN
2000-02-29         NaN
2000-03-31    1.867778
2000-04-30   -1.245056
Freq: M, dtype: float64

In [22]:
ts.shift(-2)

2000-01-31   -0.332771
2000-02-29   -0.358406
2000-03-31         NaN
2000-04-30         NaN
Freq: M, dtype: float64

- 색인은 변경하지 않고 데이터를 앞이나 뒤로 느슨하게 시프트를 수행

In [23]:
###
ts / ts.shift(1)-1
###

2000-01-31         NaN
2000-02-29   -1.666597
2000-03-31   -0.732726
2000-04-30    0.077037
Freq: M, dtype: float64

- % 변화를 계산할 때 흔히 사용

In [24]:
ts.shift(2, freq = 'M')

2000-03-31    1.867778
2000-04-30   -1.245056
2000-05-31   -0.332771
2000-06-30   -0.358406
Freq: M, dtype: float64

- shift에 빈도를 넘겨서 타임스탬프 확장도 가능

In [25]:
ts.shift(3, freq = 'D')

2000-02-03    1.867778
2000-03-03   -1.245056
2000-04-03   -0.332771
2000-05-03   -0.358406
dtype: float64

In [26]:
ts.shift(1, freq = '3D')

2000-02-03    1.867778
2000-03-03   -1.245056
2000-04-03   -0.332771
2000-05-03   -0.358406
dtype: float64

- shift를 사용해서 유연하게 데이터를 밀거나 당기기 가능

In [29]:
now = datetime(2011, 11, 17)
now + 3*Day()

Timestamp('2011-11-20 00:00:00')

In [30]:
now + MonthEnd()

Timestamp('2011-11-30 00:00:00')

In [32]:
now + MonthEnd(2)

Timestamp('2011-12-31 00:00:00')

- Day나 MonthEnd 같은 오프셋 메서드 사용 가능

In [33]:
offset = MonthEnd()
offset.rollforward(now)

Timestamp('2011-11-30 00:00:00')

In [34]:
offset.rollback(now)

Timestamp('2011-10-31 00:00:00')

In [41]:
ts = Series(np.random.randn(20),
           index = pd.date_range('1/15/2000', periods = 20, freq = '4d'))
ts.groupby(MonthEnd().rollforward).mean()

2000-01-31    0.013619
2000-02-29    0.047805
2000-03-31   -0.468635
dtype: float64

In [43]:
ts.resample('M').mean()

2000-01-31    0.013619
2000-02-29    0.047805
2000-03-31   -0.468635
Freq: M, dtype: float64

- rollforward, rollback 같은 메서드로 groupby를 유용하게 사용 가능
- 더 쉬운 방법은 resample을 활용하는 것