# 목차
- __DatetimeIndex__
- __Shift연산__
- __resample연산__
- __dt접근자__

# DatetimeIndex 인덱스

시계열 자료는 인덱스가 날짜 혹은 시간이다. 인덱스를 DatetimeIndex로 만들면 시계열 자료가 생성된다. DatetimeIndex는 특정 순간에 기록된 타임스탬프 형식의 시게열 자료를 다루기 위한 인덱스.

DatetimeIndex 인덱스에 있는 보조 함수
- pd.to_datetime 함수: 날짜/시간을 나타내는 문자열을 자동으로 datetime 자료형으로 바꾼다.
- pd.date_range 함수: 모든 날짜와 시간을 일일히 입력할 필요없이 시작일과 종료일 또는 시작일과 기간을 입력해서 범위 내의 인덱스를 생성.

In [2]:
import pandas as pd
import numpy as np

In [3]:
date_str = ["2018, 1, 1", "2018, 1, 4", "2018, 1, 5", "2018, 1, 6"]
idx = pd.to_datetime(date_str)
idx

DatetimeIndex(['2018-01-01', '2018-01-04', '2018-01-05', '2018-01-06'], dtype='datetime64[ns]', freq=None)

In [8]:
np.random.seed(0)
record = pd.Series(np.random.randn(4), index=idx)
record

2018-01-01    1.764052
2018-01-04    0.400157
2018-01-05    0.978738
2018-01-06    2.240893
dtype: float64

In [10]:
pd.date_range(start="2010-1-1", periods=120)

DatetimeIndex(['2010-01-01', '2010-01-02', '2010-01-03', '2010-01-04',
               '2010-01-05', '2010-01-06', '2010-01-07', '2010-01-08',
               '2010-01-09', '2010-01-10',
               ...
               '2010-04-21', '2010-04-22', '2010-04-23', '2010-04-24',
               '2010-04-25', '2010-04-26', '2010-04-27', '2010-04-28',
               '2010-04-29', '2010-04-30'],
              dtype='datetime64[ns]', length=120, freq='D')

freq 인수로 특정한 날짜만 생성되도록 할 수도 있다. 많이 사용되는 freq 인수값은 다음과 같다.

- s: 초
- T: 분
- H: 시간
- D: 일(day)
- B: 주말이 아닌 평일
- W: 주(일요일)
- W-MON: 주(월요일)
- M: 각 달(month)의 마지막 날
- MS: 각 달의 첫날
- BM: 주말이 아닌 평일 중에서 각 달의 마지막 날
- BMS: 주말이 아닌 평일 중에서 각 달의 첫날
- WOM-2THU: 각 달의 두번째 목요일
- Q-JAN: 각 분기의 첫달의 마지막 날
- Q-DEC: 각 분기의 마지막 달의 마지막 날

In [11]:
pd.date_range("2018-4-1", "2018-4-30", freq="B")

DatetimeIndex(['2018-04-02', '2018-04-03', '2018-04-04', '2018-04-05',
               '2018-04-06', '2018-04-09', '2018-04-10', '2018-04-11',
               '2018-04-12', '2018-04-13', '2018-04-16', '2018-04-17',
               '2018-04-18', '2018-04-19', '2018-04-20', '2018-04-23',
               '2018-04-24', '2018-04-25', '2018-04-26', '2018-04-27',
               '2018-04-30'],
              dtype='datetime64[ns]', freq='B')

In [12]:
pd.date_range("2018-4-1", "2018-12-31", freq="M")

DatetimeIndex(['2018-04-30', '2018-05-31', '2018-06-30', '2018-07-31',
               '2018-08-31', '2018-09-30', '2018-10-31', '2018-11-30',
               '2018-12-31'],
              dtype='datetime64[ns]', freq='M')

In [13]:
pd.date_range("2018-1-1", "2018-12-31", freq="Q-DEC")

DatetimeIndex(['2018-03-31', '2018-06-30', '2018-09-30', '2018-12-31'], dtype='datetime64[ns]', freq='Q-DEC')

# shift 연산
- shift 연산을 사용하면 인덱스는 그대로 두고 데이터만 이동할 수도 있다.

In [3]:
np.random.seed(0)
ts = pd.Series(np.random.randn(4), index=pd.date_range("2018-1-1", periods=4, freq="M"))
ts

2018-01-31    1.764052
2018-02-28    0.400157
2018-03-31    0.978738
2018-04-30    2.240893
Freq: M, dtype: float64

In [4]:
ts.shift(2)

2018-01-31         NaN
2018-02-28         NaN
2018-03-31    1.764052
2018-04-30    0.400157
Freq: M, dtype: float64

In [8]:
ts.shift(-1)

2018-01-31    0.400157
2018-02-28    0.978738
2018-03-31    2.240893
2018-04-30         NaN
Freq: M, dtype: float64

In [7]:
print(ts)

2018-01-31    1.764052
2018-02-28    0.400157
2018-03-31    0.978738
2018-04-30    2.240893
Freq: M, dtype: float64


ts 자체는 변화하지 않는 것을 확인할 수 있다.

In [9]:
ts.shift(1, freq='D')

2018-02-01    1.764052
2018-03-01    0.400157
2018-04-01    0.978738
2018-05-01    2.240893
Freq: MS, dtype: float64

하루씩 미뤄 매월 1일이 된 것을 확인할 수 있다.

# resample 연산

resample 연산을 쓰면 시간 간격을 재조정하는 리샘플링(resampling)이 가능하다. 시간 구간이 작아지면 데이터 양이 증가(업-샘플링), 시간 구간이 커지면 데이터 양이 감소(다운-샘플링)

In [10]:
ts = pd.Series(np.random.randn(100), index=pd.date_range(
    "2021-1-1", periods=100, freq="D"))
ts.tail(10)

2021-04-01    0.356366
2021-04-02    0.706573
2021-04-03    0.010500
2021-04-04    1.785870
2021-04-05    0.126912
2021-04-06    0.401989
2021-04-07    1.883151
2021-04-08   -1.347759
2021-04-09   -1.270485
2021-04-10    0.969397
Freq: D, dtype: float64

In [19]:
ts.resample('D').first()

2021-01-01    1.867558
2021-01-02   -0.977278
2021-01-03    0.950088
2021-01-04   -0.151357
2021-01-05   -0.103219
                ...   
2021-04-06    0.401989
2021-04-07    1.883151
2021-04-08   -1.347759
2021-04-09   -1.270485
2021-04-10    0.969397
Freq: D, Length: 100, dtype: float64

## Down-Sampling

다운-샘플링의 경우에는 원래의 데이터가 그룹으로 묶이기 때문에 그룹바이(groupby)때와 같이 그룹 연산을 해서 대표값을 구해야 한다.

In [20]:
ts.resample('W').sum()

2021-01-03    1.840369
2021-01-10    2.637052
2021-01-17   -1.027559
2021-01-24    1.449853
2021-01-31    0.318754
2021-02-07   -0.569181
2021-02-14   -2.792424
2021-02-21   -2.012592
2021-02-28   -2.473234
2021-03-07   -3.973406
2021-03-14   -0.390617
2021-03-21   -2.169141
2021-03-28    3.963518
2021-04-04    5.266669
2021-04-11    0.763205
Freq: W-SUN, dtype: float64

날짜가 아닌 시/분 단위에서는 구간위 왼쪽 한계값(가장 빠른 값)은 포함하고 오른쪽 한계값(가장 늦은 값)은 포함하지 않는다. 즉, 가장 늦은 값은 다음 구간에 포함된다.  
(왼쪽이 아니라 오른쪽 한계값을 구간에 포함하려면 closed="right" 인수를 사용)

In [21]:
ts = pd.Series(np.random.randn(60), index=pd.date_range(
    "2018-1-1", periods=60, freq="T"))
ts.head(20)

2018-01-01 00:00:00   -1.173123
2018-01-01 00:01:00    1.943621
2018-01-01 00:02:00   -0.413619
2018-01-01 00:03:00   -0.747455
2018-01-01 00:04:00    1.922942
2018-01-01 00:05:00    1.480515
2018-01-01 00:06:00    1.867559
2018-01-01 00:07:00    0.906045
2018-01-01 00:08:00   -0.861226
2018-01-01 00:09:00    1.910065
2018-01-01 00:10:00   -0.268003
2018-01-01 00:11:00    0.802456
2018-01-01 00:12:00    0.947252
2018-01-01 00:13:00   -0.155010
2018-01-01 00:14:00    0.614079
2018-01-01 00:15:00    0.922207
2018-01-01 00:16:00    0.376426
2018-01-01 00:17:00   -1.099401
2018-01-01 00:18:00    0.298238
2018-01-01 00:19:00    1.326386
Freq: T, dtype: float64

In [22]:
ts.resample('10T').sum()

2018-01-01 00:00:00    6.835324
2018-01-01 00:10:00    3.764630
2018-01-01 00:20:00    0.776495
2018-01-01 00:30:00   -0.538336
2018-01-01 00:40:00    1.828234
2018-01-01 00:50:00    0.167957
Freq: 10T, dtype: float64

ohlc 메서드는 구간의 시고저종(open, high, low, close)값을 구한다.

In [23]:
ts.resample('10T').ohlc()

Unnamed: 0,open,high,low,close
2018-01-01 00:00:00,-1.173123,1.943621,-1.173123,1.910065
2018-01-01 00:10:00,-0.268003,1.326386,-1.099401,1.326386
2018-01-01 00:20:00,-0.694568,1.849264,-0.769916,0.031831
2018-01-01 00:30:00,-0.635846,0.676433,-1.491258,0.635031
2018-01-01 00:40:00,2.383145,2.383145,-1.315907,-0.826439
2018-01-01 00:50:00,-0.098453,1.929532,-1.147469,0.087551


### Up-Sampling

업-샘플링의 경우에는 실제로 존재하지 않는 데이터를 만들어야 한다. 
- ffill: 앞에서 나온 데이터를 뒤에서 그대로 쓰는 forward filling 방식
- bfill: 뒤에서 나올 데이터를 앞에서 미리 쓰는 backward filling 방식

In [24]:
ts.resample('30s').ffill().head(20)

2018-01-01 00:00:00   -1.173123
2018-01-01 00:00:30   -1.173123
2018-01-01 00:01:00    1.943621
2018-01-01 00:01:30    1.943621
2018-01-01 00:02:00   -0.413619
2018-01-01 00:02:30   -0.413619
2018-01-01 00:03:00   -0.747455
2018-01-01 00:03:30   -0.747455
2018-01-01 00:04:00    1.922942
2018-01-01 00:04:30    1.922942
2018-01-01 00:05:00    1.480515
2018-01-01 00:05:30    1.480515
2018-01-01 00:06:00    1.867559
2018-01-01 00:06:30    1.867559
2018-01-01 00:07:00    0.906045
2018-01-01 00:07:30    0.906045
2018-01-01 00:08:00   -0.861226
2018-01-01 00:08:30   -0.861226
2018-01-01 00:09:00    1.910065
2018-01-01 00:09:30    1.910065
Freq: 30S, dtype: float64

In [25]:
ts.resample('30s').bfill().head(20)

2018-01-01 00:00:00   -1.173123
2018-01-01 00:00:30    1.943621
2018-01-01 00:01:00    1.943621
2018-01-01 00:01:30   -0.413619
2018-01-01 00:02:00   -0.413619
2018-01-01 00:02:30   -0.747455
2018-01-01 00:03:00   -0.747455
2018-01-01 00:03:30    1.922942
2018-01-01 00:04:00    1.922942
2018-01-01 00:04:30    1.480515
2018-01-01 00:05:00    1.480515
2018-01-01 00:05:30    1.867559
2018-01-01 00:06:00    1.867559
2018-01-01 00:06:30    0.906045
2018-01-01 00:07:00    0.906045
2018-01-01 00:07:30   -0.861226
2018-01-01 00:08:00   -0.861226
2018-01-01 00:08:30    1.910065
2018-01-01 00:09:00    1.910065
2018-01-01 00:09:30   -0.268003
Freq: 30S, dtype: float64

결국 차이는 처음 데이터부터 중복인가 그 다음 데이터부터 중복인가의 차이.

# dt 접근자
datetime 자료형 시리즈에는 dt 접근자가 있어 datetime 자료형이 가진 몇가지 유용한 속성과 메서드를 사용

In [26]:
s = pd.Series(pd.date_range("2020-12-25", periods=100, freq="D"))
s

0    2020-12-25
1    2020-12-26
2    2020-12-27
3    2020-12-28
4    2020-12-29
        ...    
95   2021-03-30
96   2021-03-31
97   2021-04-01
98   2021-04-02
99   2021-04-03
Length: 100, dtype: datetime64[ns]

In [27]:
s.dt.year

0     2020
1     2020
2     2020
3     2020
4     2020
      ... 
95    2021
96    2021
97    2021
98    2021
99    2021
Length: 100, dtype: int64

In [28]:
s.dt.weekday   # 몇주차인지 표기

0     4
1     5
2     6
3     0
4     1
     ..
95    1
96    2
97    3
98    4
99    5
Length: 100, dtype: int64

In [30]:
s.dt.day

0     25
1     26
2     27
3     28
4     29
      ..
95    30
96    31
97     1
98     2
99     3
Length: 100, dtype: int64

In [29]:
s.dt.strftime("%Y년 %m월 %d일")

0     2020년 12월 25일
1     2020년 12월 26일
2     2020년 12월 27일
3     2020년 12월 28일
4     2020년 12월 29일
          ...      
95    2021년 03월 30일
96    2021년 03월 31일
97    2021년 04월 01일
98    2021년 04월 02일
99    2021년 04월 03일
Length: 100, dtype: object

문자열을 만드는 것도 가능