# 시계열 데이터
1. 금융, 경제, 생태학, 신경과학, 물리학 등 여러 다양한 분야에서 사용되는 매우 중요한 구조화된 데이터
2. 시간상의 여러 지점을 관측하거나 측정할 수 있는 모든 것이 시계열
3. 고정 빈도(fixed frequency)로 표현되며, 특정 규칙(15초, 5분, 한 달 등)에 따라 고정 간격을 가지게 됨.
4. 고정된 단위나 시간 혹은 단위들 간의 간격으로 존재하지 않고 <b>불규칙적인 모습</b>으로 표현될 수도 있음.
5. 표시와 참조 방법에 대해서는 애플리케이션에 의존적임.

<pre> 시계열 데이터의 3가지 종류
 1. 시간 내 특정 순간의 <b>타임 스탬프</b>
 2. 2020년 전체와 같은 <b>고정된 기간</b>
 3. 특정 시작 타임 스탬프부터 끝 타임 스탬프까지의 <b>간격</b>
 이 외에도 시계열 기술들을 적용할 수 있지만 위의 세 가지 위주로 알아봄!
</pre>
* 가장 단순하고 널리 사용되는 시계열의 종류는 타임 스탬프로 색인된 데이터
* pandas는 시간차에 기반한 색인 지원, 경과 시간을 나타낼 때 유용.
* Pandas의 표준 시계열 도구와 데이터 알고리즘을 통해 다량의 시계열 데이터를 효과적으로 달루 수 있음
  * 추가적으로 나누고, 집계하고, 불규칙적이며 고정된 빈도를 갖는 시계열 리샘플링이 가능
* 금융이나 경제 관련 애플리케이션에서 특히 유용하나, 서버 로그 데이터를 분석하는 데에도 사용할 수 있음.

In [1]:
import pandas as pd
import numpy as np
from datetime import datetime

In [2]:
now = datetime.now()

In [3]:
# datetime은 날짜와 시간 모두 저장, 마이크로초까지 지원.
now

datetime.datetime(2020, 8, 29, 17, 42, 3, 901433)

In [5]:
now.year, now.month, now.day

(2020, 8, 29)

In [6]:
# datetime.timedelta는 두 datetime 객체 간의 시간적인 차이 표현
from datetime import timedelta

In [7]:
start = datetime(2020, 4, 29)

In [9]:
# timedelta를 더하거나 빼면 그만큼의 시간이 datetmie 객체에 적용되어 새로운 객체를 만들 수 있음
start + timedelta(12) # 오 일수가 더해지네

datetime.datetime(2020, 5, 11, 0, 0)

In [10]:
start - 2 * timedelta(12)

datetime.datetime(2020, 4, 5, 0, 0)

## 1. 문자열 datetime으로 변환
* datetime객체와 pandas의 Timestamp 객체는 str 메서드나 strftime 메서드에 포맷 규칙을 넘겨 문자열로 나타낼 수 있다.

In [11]:
stamp = datetime(2011, 1, 3)

In [12]:
str(stamp)

'2011-01-03 00:00:00'

In [13]:
stamp.strftime('%Y-%m-%d')

'2011-01-03'

In [20]:
stamp.strftime('%Y년 %m월 %d일')

'2011년 01월 03일'

In [14]:
# datetime.strptime을 사용해서 문자열을 날짜로 변환할 때 사용할 수 있음
# 오,, 문자열로 넘어오는 json 파일 처리할 때 유용하겐네
value = '1997-04-29'

In [15]:
# 알려진 형식의 날짜를 파싱하는 최적의 방법
datetime.strptime(value, '%Y-%m-%d')

datetime.datetime(1997, 4, 29, 0, 0)

In [16]:
datestrs = ['13/9/1993', '29/4/1997']

In [17]:
datestrs # 아 그냥 리스트 배열!

['13/9/1993', '29/4/1997']

In [19]:
[datetime.strptime(x, '%d/%m/%Y') for x in datestrs]

[datetime.datetime(1993, 9, 13, 0, 0), datetime.datetime(1997, 4, 29, 0, 0)]

In [23]:
# 매번 포맷 규칙을 작성하는 것이 번거롭다면, dateutill에 포함된 parser.parse 메서드 사용
# dateutil은 사람이 인지하는 날짜 표현 방식을 파싱할 수 있음
# 단, 완벽한 도구는 아님. 날짜로 인식하지 않길 바라는 문자를 날짜로 인식하기도 함.
from dateutil.parser import parse

In [24]:
parse('2020-04-29')

datetime.datetime(2020, 4, 29, 0, 0)

In [25]:
parse('Jan 31, 1997 10:45 PM')

datetime.datetime(1997, 1, 31, 22, 45)

In [26]:
# 국제 로케일의 경우 '일' 값이 '월' 앞에 오는 경우가 흔함
# 이런 경우 dayfirst 옵션에 True를 넘겨주기
parse('25 Dec, 2020', dayfirst=True)

datetime.datetime(2020, 12, 25, 0, 0)

In [27]:
# pandas는 일반적으로 DatatFrame의 컬럼이나 축 색인으로 날짜가 담긴 배열 사용
# 특히 to_datetime 메서드는 많은 종류의 날짜 표현 처리
# ISO 8601 같은 표준 날짜 형식은 매우 빠르게 처리할 수 있음
datestrs

['13/9/1993', '29/4/1997']

In [28]:
datestrs = [x + ' 11:00:00' for x in datestrs]

In [29]:
datestrs

['13/9/1993 11:00:00', '29/4/1997 11:00:00']

In [30]:
pd.to_datetime(datestrs)

DatetimeIndex(['1993-09-13 11:00:00', '1997-04-29 11:00:00'], dtype='datetime64[ns]', freq=None)

In [31]:
idx = pd.to_datetime(datestrs + [None])

In [32]:
# 누락된 값(None, 빈 문자열 등)으로 간주되어야 할 값도 처리해준다
idx

DatetimeIndex(['1993-09-13 11:00:00', '1997-04-29 11:00:00', 'NaT'], dtype='datetime64[ns]', freq=None)

In [33]:
# NaT는 Not a time! 누락된 타임스탬프 데이터를 의미
idx[2]

NaT

In [34]:
pd.isnull(idx)

array([False, False,  True])

## 2. 시계열 기초
* pandas에서 찾아볼 수 있는 가장 기본적인 시계열 객체의 종류
  1. 파이썬 문자열
  2. datetime 객체로 표현되는 타임스탬프의 색인된 Series

In [35]:
dates = [datetime(2016, 3, 3), datetime(2021, 2, 15),
         datetime(1997, 1, 7), datetime(1997, 4, 29),
         datetime(2020, 8, 10), datetime(2020, 8, 29)]

In [36]:
# datetime 객체는 DatetimeIndex에 들어있으며, ts 변수의 타입은 TimeSeries이다.
ts = pd.Series(np.random.randn(6), index=dates)

In [37]:
ts

2016-03-03    0.559305
2021-02-15   -0.782600
1997-01-07    0.427780
1997-04-29   -1.507685
2020-08-10    0.533313
2020-08-29    0.217652
dtype: float64

In [38]:
type(ts)

pandas.core.series.Series

In [39]:
ts.index

DatetimeIndex(['2016-03-03', '2021-02-15', '1997-01-07', '1997-04-29',
               '2020-08-10', '2020-08-29'],
              dtype='datetime64[ns]', freq=None)

In [40]:
# 시계열 객체 간의 산술 연산은 자동으로 날짜에 맞춰짐
ts + ts[::2]

1997-01-07    0.855560
1997-04-29         NaN
2016-03-03    1.118610
2020-08-10    1.066626
2020-08-29         NaN
2021-02-15         NaN
dtype: float64

In [41]:
ts[::2] // 0, 2, 4 index

2016-03-03    0.559305
1997-01-07    0.427780
2020-08-10    0.533313
dtype: float64

In [42]:
# pandas는 NumPy의 datetime64 자료형을 사용해서 나노초의 정밀도를 가지는 타임스탬프를 저장
ts.index.dtype

dtype('<M8[ns]')

In [43]:
# DatetimeIndex의 스칼라값은 pandas의 Timestamp 객체
stamp = ts.index[0]

In [44]:
# Timestamp는 datetime 객체를 사용하는 어떤 곳에서도 대체 사용이 가능
# 또한 빈도에 관한 정보도 저장하여 시간대 변화능ㄹ 하는 방법과 다른 종류의 조작을 하는 방법도 포함
stamp

Timestamp('2016-03-03 00:00:00')

In [45]:
# 시계열은 라벨에 기반하여 데이터 선택 및 인덱싱 시, pandas.Series와 동일하게 동작
stamp = ts.index[2]

In [47]:
ts[stamp]

0.42777992003179915

In [49]:
ts

2016-03-03    0.559305
2021-02-15   -0.782600
1997-01-07    0.427780
1997-04-29   -1.507685
2020-08-10    0.533313
2020-08-29    0.217652
dtype: float64

In [51]:
ts['3/3/2016']

2016-03-03    0.559305
dtype: float64

In [52]:
ts['20160303']

2016-03-03    0.559305
dtype: float64

In [56]:
longer_ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))

In [58]:
longer_ts

2000-01-01    0.384339
2000-01-02    1.572618
2000-01-03    1.494783
2000-01-04   -1.113530
2000-01-05   -0.596506
                ...   
2002-09-22   -1.143408
2002-09-23    1.325448
2002-09-24   -0.177035
2002-09-25   -0.669765
2002-09-26    0.805669
Freq: D, Length: 1000, dtype: float64

In [59]:
# '2001'은 연도로 해석되어 해당 기간의 데이터를 선택한다
longer_ts['2001']

2001-01-01    0.283926
2001-01-02    0.286320
2001-01-03   -0.616123
2001-01-04    1.071156
2001-01-05   -0.095721
                ...   
2001-12-27   -0.921147
2001-12-28    1.020225
2001-12-29   -0.118847
2001-12-30   -0.542198
2001-12-31    0.025830
Freq: D, Length: 365, dtype: float64

In [60]:
# 월에 대해서도 마찬가지로 선택할 수 있다
longer_ts['2001-05']

2001-05-01   -0.250300
2001-05-02   -1.285371
2001-05-03    1.150360
2001-05-04    0.094553
2001-05-05   -1.378541
2001-05-06    2.967480
2001-05-07   -0.389833
2001-05-08   -0.317013
2001-05-09    1.896185
2001-05-10   -0.240656
2001-05-11   -1.402152
2001-05-12    1.133445
2001-05-13   -1.419554
2001-05-14    0.895925
2001-05-15    0.840687
2001-05-16   -0.403547
2001-05-17   -0.630400
2001-05-18   -0.383601
2001-05-19   -0.402002
2001-05-20    1.145941
2001-05-21   -0.179429
2001-05-22    0.592801
2001-05-23    1.851062
2001-05-24    2.634340
2001-05-25   -0.131822
2001-05-26    2.466697
2001-05-27    0.721191
2001-05-28    1.182636
2001-05-29    0.674981
2001-05-30    0.336313
2001-05-31   -0.174358
Freq: D, dtype: float64

In [61]:
# 인덱싱도 될까? 
longer_ts['2001-05': '2001-07'] # 헐 됨 왕 굿

2001-05-01   -0.250300
2001-05-02   -1.285371
2001-05-03    1.150360
2001-05-04    0.094553
2001-05-05   -1.378541
                ...   
2001-07-27   -0.730069
2001-07-28   -0.470460
2001-07-29    0.110630
2001-07-30    0.743059
2001-07-31   -0.575230
Freq: D, Length: 92, dtype: float64

In [63]:
# 아 인덱싱 여기서 하네 ㅎㅋ
ts[datetime(2016, 3, 3):]

2016-03-03    0.559305
2021-02-15   -0.782600
1997-01-07    0.427780
1997-04-29   -1.507685
2020-08-10    0.533313
2020-08-29    0.217652
dtype: float64

In [64]:
# 대부분의 시계열 데이터는 연대순으로 정렬되기 떼문에 범위를 지정하기 위해 시계열에 포함하지 않고 타임스탬프를 이용해서 Series를 나눌 수 있음
ts

2016-03-03    0.559305
2021-02-15   -0.782600
1997-01-07    0.427780
1997-04-29   -1.507685
2020-08-10    0.533313
2020-08-29    0.217652
dtype: float64

In [65]:
# 근데 제가 연대순으로 생성을 안 했네여 죄송ㅎ,,,
ts['29-4-1997':'29-08-2020']

2016-03-03    0.559305
1997-04-29   -1.507685
2020-08-10    0.533313
2020-08-29    0.217652
dtype: float64

In [67]:
# 이런 방식으로 데이터를 나누면 NumPy 배열을 나누는 것처럼 원본 시계열에 대한 뷰를 생성한다는 사실 기억
# 즉, 데이터 복사가 발생하지 않고 슬라이스에 대한 변경이 원본 데이터에도 반영
# 동일한 메서드로 truncate가 있는데, 이 메서드는 TimeSeries를 두 개의 날짜로 나눈다
ts.truncate(after='29/4/1997')

ValueError: truncate requires a sorted index

In [68]:
# ㅇㅎ 정렬된 데이터요,,
ts = sorted(ts)

In [69]:
ts # 헉 이게 머선일이야,,

[-1.5076851716720154,
 -0.782600202130707,
 0.21765179180967398,
 0.42777992003179915,
 0.5333127728068483,
 0.5593052296902699]

In [70]:
# 새로 생성해버리기
dates = [datetime(2016, 3, 3), datetime(2016, 4, 29),
         datetime(2016, 10, 31), datetime(2016, 12, 24),
         datetime(2020, 10, 22), datetime(2021, 2, 14)]

In [71]:
ts = pd.Series(np.random.randn(6), index=dates)

In [72]:
ts.truncate(after='31/10/2016')

2016-03-03    2.253541
2016-04-29    0.264295
2016-10-31    0.140345
dtype: float64

In [73]:
# 위 방식은 DataFrame에서도 동일하게 적용. 로우에 인덱싱
dates = pd.date_range('31/10/2016', periods=100, freq='W-WED')

In [74]:
long_df = pd.DataFrame(np.random.randn(100, 4), 
                       index=dates, 
                       columns=['Colorado', 'Texas', 'New York', 'Ohio'])

In [76]:
long_df.loc['5-2017']

Unnamed: 0,Colorado,Texas,New York,Ohio
2017-05-03,-2.258781,0.151305,1.414269,0.642008
2017-05-10,0.22553,0.085309,0.119886,0.29846
2017-05-17,0.649265,0.118025,-0.033273,0.305849
2017-05-24,0.707138,0.187841,-0.576967,-0.917019
2017-05-31,1.222263,-0.16568,0.46662,0.981645


In [77]:
# 여러 데이터가 특정 타임스탬프에 몰려 있는 것을 발견할 수 있음
dates = pd.DatetimeIndex(['1/1/2000', '1/2/2000', '1/2/2000', '1/2/2000', '1/3/2000'])

In [78]:
dup_ts = pd.Series(np.arange(5), index=dates)

In [79]:
dup_ts

2000-01-01    0
2000-01-02    1
2000-01-02    2
2000-01-02    3
2000-01-03    4
dtype: int64

In [80]:
# is_unique 속성을 통해 확인 시 색인의 유일성을 확인할 수 있음
dup_ts.index.is_unique

False

In [81]:
# 시계열 데이터를 인덱싱하면 타임스탬프의 중복 여부에 따ㅑ라 스칼라값이나 슬라이스가 생성
dup_ts['1/3/2000'] # 중복 없음

4

In [82]:
dup_ts['1/2/2000'] # 중복 있음

2000-01-02    1
2000-01-02    2
2000-01-02    3
dtype: int64

In [83]:
# 유일하지 않은 타임스탬프를 가지는 데이터를 집계한다고 했을 때,
# groupby에 level=0(단일 단계 인덱싱)을 넘기면 된다.
grouped = dup_ts.groupby(level=0)

In [84]:
grouped.mean()

2000-01-01    0
2000-01-02    2
2000-01-03    4
dtype: int64

In [85]:
grouped.count()

2000-01-01    1
2000-01-02    3
2000-01-03    1
dtype: int64

## 3. 날짜 범위, 빈도, 이동
* pandas에서 일반적인 시계열은 불규칙적 = 고정된 빈도를 갖지 않음
* 시계값 안에서 누락된 값이 발생할지라도 일별/월별 혹은 매 15분 같은 상대적 고정 빈도에서의 작업이 요구되는 경우 종종 존재
* pandas에서는 리샘플링, 표준 시계열 빈도 모음, 빈도 추론, 그리고 고정된 빈도의 날짜 범위를 위한 도구가 있음
* 시계열을 고정된 일 빈도로 변환하려면 resample 메서드를 사용하면 됨

In [86]:
ts

2016-03-03    2.253541
2016-04-29    0.264295
2016-10-31    0.140345
2016-12-24    0.177953
2020-10-22    1.786362
2021-02-14    0.876029
dtype: float64

In [88]:
# 'D'는 빈도로 해석, 자세한 건 11.6장에서 ...
resampler = ts.resample('D')

In [89]:
# pandas.date_range(): 특정 빈도에 따라 지정한 길이만큼의 DatetimeIndex를 생성
index = pd.date_range('2012-03-03', '2012-05-05')

In [90]:
index

DatetimeIndex(['2012-03-03', '2012-03-04', '2012-03-05', '2012-03-06',
               '2012-03-07', '2012-03-08', '2012-03-09', '2012-03-10',
               '2012-03-11', '2012-03-12', '2012-03-13', '2012-03-14',
               '2012-03-15', '2012-03-16', '2012-03-17', '2012-03-18',
               '2012-03-19', '2012-03-20', '2012-03-21', '2012-03-22',
               '2012-03-23', '2012-03-24', '2012-03-25', '2012-03-26',
               '2012-03-27', '2012-03-28', '2012-03-29', '2012-03-30',
               '2012-03-31', '2012-04-01', '2012-04-02', '2012-04-03',
               '2012-04-04', '2012-04-05', '2012-04-06', '2012-04-07',
               '2012-04-08', '2012-04-09', '2012-04-10', '2012-04-11',
               '2012-04-12', '2012-04-13', '2012-04-14', '2012-04-15',
               '2012-04-16', '2012-04-17', '2012-04-18', '2012-04-19',
               '2012-04-20', '2012-04-21', '2012-04-22', '2012-04-23',
               '2012-04-24', '2012-04-25', '2012-04-26', '2012-04-27',
      

In [91]:
# 기본적으로 date_range()는 일별 타임스탬프 생성
# 시작 날짜나 종료 날짜 중 하나만 넘긴다면 생성할 기간의 숫자를 함께 전달해야 함
pd.date_range(start='2012-04-01', periods=20)

DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
               '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
               '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
               '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
               '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20'],
              dtype='datetime64[ns]', freq='D')

In [92]:
# 시작이나 종료 날자는 생성된 날짜 색인에 대해 엄격한 경계를 정의
pd.date_range(end='2016-03-03', periods=100)

DatetimeIndex(['2015-11-25', '2015-11-26', '2015-11-27', '2015-11-28',
               '2015-11-29', '2015-11-30', '2015-12-01', '2015-12-02',
               '2015-12-03', '2015-12-04', '2015-12-05', '2015-12-06',
               '2015-12-07', '2015-12-08', '2015-12-09', '2015-12-10',
               '2015-12-11', '2015-12-12', '2015-12-13', '2015-12-14',
               '2015-12-15', '2015-12-16', '2015-12-17', '2015-12-18',
               '2015-12-19', '2015-12-20', '2015-12-21', '2015-12-22',
               '2015-12-23', '2015-12-24', '2015-12-25', '2015-12-26',
               '2015-12-27', '2015-12-28', '2015-12-29', '2015-12-30',
               '2015-12-31', '2016-01-01', '2016-01-02', '2016-01-03',
               '2016-01-04', '2016-01-05', '2016-01-06', '2016-01-07',
               '2016-01-08', '2016-01-09', '2016-01-10', '2016-01-11',
               '2016-01-12', '2016-01-13', '2016-01-14', '2016-01-15',
               '2016-01-16', '2016-01-17', '2016-01-18', '2016-01-19',
      

In [93]:
# 각 월의 마지막 날짜를 포함하도록 하고 싶다면 빈도값으로 'BM'을 전달
pd.date_range('2000-01-01', '2000-12-25', freq='BM')

DatetimeIndex(['2000-01-31', '2000-02-29', '2000-03-31', '2000-04-28',
               '2000-05-31', '2000-06-30', '2000-07-31', '2000-08-31',
               '2000-09-29', '2000-10-31', '2000-11-30'],
              dtype='datetime64[ns]', freq='BM')

In [94]:
# date_range()는 기본적으로 시작 시간이나 종료 시간의 타임스탬프(존재한다면)를 보존
pd.date_range('2012-05-02 12:56:31', periods=5)

DatetimeIndex(['2012-05-02 12:56:31', '2012-05-03 12:56:31',
               '2012-05-04 12:56:31', '2012-05-05 12:56:31',
               '2012-05-06 12:56:31'],
              dtype='datetime64[ns]', freq='D')

In [96]:
# 가끔은 시간 정보를 포함하여 시작 날짜와 종료 날짜를 갖고 있으나, 관례에 따라 자정에 맞추어 타임스탬프를 정규화하고 싶을 때가 있음
# 그 때, normalize 옵션을 사용
pd.date_range('2012-04-02 12:56:31', periods=5, normalize=True)

DatetimeIndex(['2012-04-02', '2012-04-03', '2012-04-04', '2012-04-05',
               '2012-04-06'],
              dtype='datetime64[ns]', freq='D')

In [97]:
# pandas에서 빈도는 기본 빈도(base frequency)와 배수의 조합으로 이루어짐
# 기본 빈도는 M(월별), H(시간별)처럼 짧은 문자열로 참조
# 각 기본 빈도에는 일반적으로 날짜 오프셋이라고 불리는 객체를 사용할 수 있음
from pandas.tseries.offsets import Hour, Minute

In [98]:
# Hour 클래스: 시간별 빈도
hour = Hour()

In [99]:
hour

<Hour>

In [101]:
# 이 오프셋의 곱은 정수를 넘겨서 구할 수 있음
four_hours = Hour(4)

In [102]:
four_hours

<4 * Hours>

In [103]:
# 기본 빈도 앞에 정수를 두면 해당 빈도의 곱을 생성
pd.date_range('2000-01-01', '2000-01-03 23:59', freq='4h')

DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 04:00:00',
               '2000-01-01 08:00:00', '2000-01-01 12:00:00',
               '2000-01-01 16:00:00', '2000-01-01 20:00:00',
               '2000-01-02 00:00:00', '2000-01-02 04:00:00',
               '2000-01-02 08:00:00', '2000-01-02 12:00:00',
               '2000-01-02 16:00:00', '2000-01-02 20:00:00',
               '2000-01-03 00:00:00', '2000-01-03 04:00:00',
               '2000-01-03 08:00:00', '2000-01-03 12:00:00',
               '2000-01-03 16:00:00', '2000-01-03 20:00:00'],
              dtype='datetime64[ns]', freq='4H')

In [104]:
# 여러 오프셋을 덧셈으로 합칠 수 있음
Hour(2) + Minute(30)

<150 * Minutes>

In [105]:
# 유사하게 빈도 문자열로 '1h30min'을 넘겨도 같은 표현으로 잘 해석됨
pd.date_range('2000-01-01', periods=10, freq='1h30min')

DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 01:30:00',
               '2000-01-01 03:00:00', '2000-01-01 04:30:00',
               '2000-01-01 06:00:00', '2000-01-01 07:30:00',
               '2000-01-01 09:00:00', '2000-01-01 10:30:00',
               '2000-01-01 12:00:00', '2000-01-01 13:30:00'],
              dtype='datetime64[ns]', freq='90T')

### 앵커드 오프셋
* 월 마지막은 월중 일수에 의존적이며, BM은 월말이 주말인지 아닌지에 따라 다름
* 이렇게 시간상에서 균일하게 자리잡고 있지 않은 경우의 빈도를 '앵커드(anchored)' 오프셋이라고 부름

In [106]:
# 월별 주차 (WOM으로 시작)
# 매월 3째주 금요일 같은 날짜를 얻을 수 있음
rng = pd.date_range('2012-01-01', '2012-09-01', freq='WOM-3FRI')

In [107]:
list(rng)

[Timestamp('2012-01-20 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-02-17 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-03-16 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-04-20 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-05-18 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-06-15 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-07-20 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-08-17 00:00:00', freq='WOM-3FRI')]

In [109]:
# MARK: 데이터 시프트
# 시프트는 데이터를 시간 축에서 앞이나 뒤로 이동하는 것을 의미
# Series나 DataFrame은 색인을 변경하지 않고 앞이나 뒤로 느슨한 시프트를 수행하는 Shift 메서드를 가지고 있음
ts = pd.Series(np.random.randn(4), index=pd.date_range('1/1/2000', periods=4, freq='M'))

In [110]:
ts

2000-01-31    0.274439
2000-02-29    0.577289
2000-03-31   -0.611737
2000-04-30   -1.636596
Freq: M, dtype: float64

In [111]:
# 시프트를 하게 되면 시계열에 시작이나 끝에 결측치가 발생하게 됨
ts.shift(2)

2000-01-31         NaN
2000-02-29         NaN
2000-03-31    0.274439
2000-04-30    0.577289
Freq: M, dtype: float64

In [112]:
ts.shift(-1)

2000-01-31    0.577289
2000-02-29   -0.611737
2000-03-31   -1.636596
2000-04-30         NaN
Freq: M, dtype: float64

* shift는 일반적으로 한 시계열 내에서 혹은 DataFrame의 컬럼으로 표현할 수 있는 여러 시계열에서 퍼센트 변화를 계산할 때 흔히 사용
* 코드로는 아래와 같이 사용
<pre>
 ts / ts.shift(1) -1
</pre>

In [113]:
# 느슨한 시프트는 색인을 바꾸지 않기 때문에 어떤 데이터는 버려지기도 함
# 만약 빈도를 알고 있다면 shift에 빈도를 넘겨서 타임 스탬프가 확장되도록 할 수 있음
ts.shift(2, freq='M')

2000-03-31    0.274439
2000-04-30    0.577289
2000-05-31   -0.611737
2000-06-30   -1.636596
Freq: M, dtype: float64

In [115]:
# 다른 빈도를 넘겨도 되지만, 이를 통해 아주 유연하게 데이터를 밀거나 당기는 작업을 할 수 있음
ts.shift(3, freq='D')

2000-02-03    0.274439
2000-03-03    0.577289
2000-04-03   -0.611737
2000-05-03   -1.636596
dtype: float64

In [117]:
# 여기서 T는 분을 의미한다
ts.shift(1, freq='90T')

2000-01-31 01:30:00    0.274439
2000-02-29 01:30:00    0.577289
2000-03-31 01:30:00   -0.611737
2000-04-30 01:30:00   -1.636596
Freq: M, dtype: float64

In [118]:
# pandas의 날짜 오프셋은 datetime이나 Timestamp 객체에도 사용 가능
from pandas.tseries.offsets import Day, MonthEnd

In [119]:
now = datetime(2011, 11, 17)

In [120]:
now + 3 * Day()

Timestamp('2011-11-20 00:00:00')

In [121]:
# 만일 MonthEnd같은 앵커드 오프셋을 추가한다면 빈도 규칙의 다음 날짜로 롤 포워드(Roll forward)된다.
now + MonthEnd()

Timestamp('2011-11-30 00:00:00')

In [122]:
now + MonthEnd(2)

Timestamp('2011-12-31 00:00:00')

In [123]:
# 앵커드 오프셋은 rollforward와 rollback 메서드를 사용해서 명시적으로 각각 날짜를 앞으로 밀거나 뒤로 당길 수 있음
offset = MonthEnd()

In [125]:
offset.rollforward(now)

Timestamp('2011-11-30 00:00:00')

In [128]:
now

datetime.datetime(2011, 11, 17, 0, 0)

In [131]:
offset.rollback(now)

Timestamp('2011-10-31 00:00:00')

In [134]:
# 해당 메서드를 groupby와 함께 사용하면 날짜 오프셋을 영리하게 사용할 수 있음
ts = pd.Series(np.random.randn(20), index=pd.date_range('1/15/2000', periods=20, freq='4d'))

In [135]:
ts

2000-01-15   -0.717975
2000-01-19    1.162170
2000-01-23    1.382934
2000-01-27    0.800931
2000-01-31   -1.490744
2000-02-04   -1.172291
2000-02-08    0.099008
2000-02-12    1.008917
2000-02-16   -0.762239
2000-02-20    0.778045
2000-02-24   -0.437068
2000-02-28   -1.507212
2000-03-03   -1.669594
2000-03-07   -1.314572
2000-03-11    0.885768
2000-03-15    0.219271
2000-03-19    0.188656
2000-03-23    0.122835
2000-03-27    0.842193
2000-03-31    1.255574
Freq: 4D, dtype: float64

In [138]:
ts.groupby(offset.rollforward).mean()

2000-01-31    0.227463
2000-02-29   -0.284691
2000-03-31    0.066266
dtype: float64

In [139]:
# 가장 쉽고 빠른 방법? resample 사용 -> 자세한 내용 11.6
ts.resample('M').mean()

2000-01-31    0.227463
2000-02-29   -0.284691
2000-03-31    0.066266
Freq: M, dtype: float64

## 4. 시간대 다루기
* 일광절약시간(DST, 서머타임)은 문제를 일으키는 흔한 요인 중 하나
* 시계열을 다루는 많은 사용자: UTC(국제 표준시) 사용
* 파이썬에서 시간대 정보는 전 세계의 시간대 정보를 모아둔 <b>올슨 데이터베이스</b>를 담고 있는 서드파티 라이브러리인 pytz에서 얻어옴
  * 이는 특히 역사적 데이터를 다룰 때 중요!
  * DST 날짜(심지어 UTC 오프셋 또한!)는 지역 정부의 변덕에 따라 여러 차례 변경되었기 때문

In [140]:
import pytz

In [141]:
pytz.common_timezones[-5:]

['US/Eastern', 'US/Hawaii', 'US/Mountain', 'US/Pacific', 'UTC']

In [144]:
pytz.common_timezones

['Africa/Abidjan',
 'Africa/Accra',
 'Africa/Addis_Ababa',
 'Africa/Algiers',
 'Africa/Asmara',
 'Africa/Bamako',
 'Africa/Bangui',
 'Africa/Banjul',
 'Africa/Bissau',
 'Africa/Blantyre',
 'Africa/Brazzaville',
 'Africa/Bujumbura',
 'Africa/Cairo',
 'Africa/Casablanca',
 'Africa/Ceuta',
 'Africa/Conakry',
 'Africa/Dakar',
 'Africa/Dar_es_Salaam',
 'Africa/Djibouti',
 'Africa/Douala',
 'Africa/El_Aaiun',
 'Africa/Freetown',
 'Africa/Gaborone',
 'Africa/Harare',
 'Africa/Johannesburg',
 'Africa/Juba',
 'Africa/Kampala',
 'Africa/Khartoum',
 'Africa/Kigali',
 'Africa/Kinshasa',
 'Africa/Lagos',
 'Africa/Libreville',
 'Africa/Lome',
 'Africa/Luanda',
 'Africa/Lubumbashi',
 'Africa/Lusaka',
 'Africa/Malabo',
 'Africa/Maputo',
 'Africa/Maseru',
 'Africa/Mbabane',
 'Africa/Mogadishu',
 'Africa/Monrovia',
 'Africa/Nairobi',
 'Africa/Ndjamena',
 'Africa/Niamey',
 'Africa/Nouakchott',
 'Africa/Ouagadougou',
 'Africa/Porto-Novo',
 'Africa/Sao_Tome',
 'Africa/Tripoli',
 'Africa/Tunis',
 'Africa/Wi

In [147]:
tz = pytz.timezone('Asia/Seoul')

In [148]:
tz

<DstTzInfo 'Asia/Seoul' LMT+8:28:00 STD>

In [149]:
# 기본적으로 pandas에서 시계열은 시간대를 엄격히 다루지 않음
rng = pd.date_range('3/9/2012 9:30', periods=6, freq='D')

In [150]:
ts = pd.Series(np.random.randn(len(rng)), index=rng)

In [151]:
ts

2012-03-09 09:30:00    1.352733
2012-03-10 09:30:00    1.046667
2012-03-11 09:30:00    0.215081
2012-03-12 09:30:00   -0.964997
2012-03-13 09:30:00   -0.657688
2012-03-14 09:30:00   -1.488870
Freq: D, dtype: float64

In [152]:
# 색인의 tz필드는 None
print(ts.index.tz)

None


In [153]:
# 시간대를 지정해서 날짜 범위 생성 가능
pd.date_range('3/9/2012 9:30', periods=10, freq='D', tz='UTC')

DatetimeIndex(['2012-03-09 09:30:00+00:00', '2012-03-10 09:30:00+00:00',
               '2012-03-11 09:30:00+00:00', '2012-03-12 09:30:00+00:00',
               '2012-03-13 09:30:00+00:00', '2012-03-14 09:30:00+00:00',
               '2012-03-15 09:30:00+00:00', '2012-03-16 09:30:00+00:00',
               '2012-03-17 09:30:00+00:00', '2012-03-18 09:30:00+00:00'],
              dtype='datetime64[ns, UTC]', freq='D')

In [154]:
# 지역화 시간으로의 변환은 tz_localize 메서드로 처리 가능
ts

2012-03-09 09:30:00    1.352733
2012-03-10 09:30:00    1.046667
2012-03-11 09:30:00    0.215081
2012-03-12 09:30:00   -0.964997
2012-03-13 09:30:00   -0.657688
2012-03-14 09:30:00   -1.488870
Freq: D, dtype: float64

In [155]:
ts_utc = ts.tz_localize('UTC')

In [156]:
ts_utc

2012-03-09 09:30:00+00:00    1.352733
2012-03-10 09:30:00+00:00    1.046667
2012-03-11 09:30:00+00:00    0.215081
2012-03-12 09:30:00+00:00   -0.964997
2012-03-13 09:30:00+00:00   -0.657688
2012-03-14 09:30:00+00:00   -1.488870
Freq: D, dtype: float64

In [157]:
ts_utc.index

DatetimeIndex(['2012-03-09 09:30:00+00:00', '2012-03-10 09:30:00+00:00',
               '2012-03-11 09:30:00+00:00', '2012-03-12 09:30:00+00:00',
               '2012-03-13 09:30:00+00:00', '2012-03-14 09:30:00+00:00'],
              dtype='datetime64[ns, UTC]', freq='D')

In [158]:
# 시계열이 특정 시간대로 지역화되고 나면 tz_convert를 이용해서 다른 시간대로 변환 가능
# 해당 시계열의 경우 New York 시간대에서 일광절약시간을 사용하고 있고, 동부 표준시(EST)로 맞춘 후 UTC 혹은 베를린 시간으로 변환할 수 있음
ts_utc.tz_convert('America/New_York')

2012-03-09 04:30:00-05:00    1.352733
2012-03-10 04:30:00-05:00    1.046667
2012-03-11 05:30:00-04:00    0.215081
2012-03-12 05:30:00-04:00   -0.964997
2012-03-13 05:30:00-04:00   -0.657688
2012-03-14 05:30:00-04:00   -1.488870
Freq: D, dtype: float64

In [159]:
ts_eastern = ts.tz_localize('America/New_York')

In [161]:
ts_eastern.tz_convert('UTC')

2012-03-09 14:30:00+00:00    1.352733
2012-03-10 14:30:00+00:00    1.046667
2012-03-11 13:30:00+00:00    0.215081
2012-03-12 13:30:00+00:00   -0.964997
2012-03-13 13:30:00+00:00   -0.657688
2012-03-14 13:30:00+00:00   -1.488870
Freq: D, dtype: float64

In [162]:
ts_eastern.tz_convert('Europe/Berlin')

2012-03-09 15:30:00+01:00    1.352733
2012-03-10 15:30:00+01:00    1.046667
2012-03-11 14:30:00+01:00    0.215081
2012-03-12 14:30:00+01:00   -0.964997
2012-03-13 14:30:00+01:00   -0.657688
2012-03-14 14:30:00+01:00   -1.488870
Freq: D, dtype: float64

In [163]:
# tz_localize, tz_convert 모두 DatetimeIndex의 인스턴스 메서드
ts.index.tz_localize('Asia/Seoul')

DatetimeIndex(['2012-03-09 09:30:00+09:00', '2012-03-10 09:30:00+09:00',
               '2012-03-11 09:30:00+09:00', '2012-03-12 09:30:00+09:00',
               '2012-03-13 09:30:00+09:00', '2012-03-14 09:30:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='D')

In [164]:
# 시계열이나 날짜 범위와 비슷하게 개별 Timestamp 객체도 시간대를 고려한 형태로 변환 가능
stamp = pd.Timestamp('2011-03-12 04:00')

In [166]:
stamp_utc = stamp.tz_localize('utc')

In [167]:
stamp_utc.tz_convert('America/New_York')

Timestamp('2011-03-11 23:00:00-0500', tz='America/New_York')

In [168]:
# Timestamp 객체 생성 시 시간대 직접 넘겨주는 것도 가능
stamp_moscow = pd.Timestamp('2011-03-12 04:00', tz='Europe/Moscow')

In [169]:
stamp_moscow

Timestamp('2011-03-12 04:00:00+0300', tz='Europe/Moscow')

In [170]:
# 시간대를 고려한 Timestamp 객체는 내부적으로 UTC 타임스탬프 값을 유닉스 epoch부터 현재까지의 나노초로 저장하고 있음
# 이 UTC 값은 시간대 변환 과정에서 변하지 않고 유지됨
stamp_utc.value

1299902400000000000

In [171]:
stamp_utc.tz_convert('America/New_York').value

1299902400000000000

In [172]:
# pandasdml DateOffset 객체를 이용해서 시간 연산을 수행할 때는 가능하다면 일광절약시간을 고려
# DST로 전환되기 직전의 타임스탬프에 대한 예제를 살펴보자
from pandas.tseries.offsets import Hour

In [173]:
# DST 시행 30분 전의 Timestamp를 생성
stmap = pd.Timestamp('2012-03-12 01:30', tz='US/Eastern')

In [174]:
stamp

Timestamp('2011-03-12 04:00:00')

In [175]:
stamp+Hour()

Timestamp('2011-03-12 05:00:00')

In [176]:
# 그리고 DST 시행 90부 전의 Timestamp를 생성하자
stamp = pd.Timestamp('2012-11-04 00:30', tz='US/Eastern')

In [177]:
stamp

Timestamp('2012-11-04 00:30:00-0400', tz='US/Eastern')

In [178]:
stamp + 2 * Hour()

Timestamp('2012-11-04 01:30:00-0500', tz='US/Eastern')

In [179]:
# 서로 다른 시간대를 갖는 두 시계열이 합쳐지면? => 결과: UTC
# 타임스탬프는 내부적으로 UTC로 저장되므로 추가적인 변환이 불필요한 명료한 연산
rng = pd.date_range('3/7/2012 9:30', periods=10, freq='B')

In [180]:
ts = pd.Series(np.random.randn(len(rng)), index=rng)

In [181]:
ts

2012-03-07 09:30:00   -0.310211
2012-03-08 09:30:00    0.512671
2012-03-09 09:30:00   -0.343360
2012-03-12 09:30:00   -0.347720
2012-03-13 09:30:00   -0.511333
2012-03-14 09:30:00    0.511203
2012-03-15 09:30:00    1.037728
2012-03-16 09:30:00    0.197447
2012-03-19 09:30:00    1.402824
2012-03-20 09:30:00   -0.957100
Freq: B, dtype: float64

In [183]:
ts1 = ts[:7].tz_localize('Europe/London')

In [184]:
ts2 = ts1[2:].tz_convert('Europe/Moscow')

In [185]:
result = ts1+ts2

In [186]:
result.index

DatetimeIndex(['2012-03-07 09:30:00+00:00', '2012-03-08 09:30:00+00:00',
               '2012-03-09 09:30:00+00:00', '2012-03-12 09:30:00+00:00',
               '2012-03-13 09:30:00+00:00', '2012-03-14 09:30:00+00:00',
               '2012-03-15 09:30:00+00:00'],
              dtype='datetime64[ns, UTC]', freq='B')