# 시계열 자료 다루기

In [1]:
import numpy as np
import pandas as pd 

## datetimeIndex 인덱스

* 시계열 자료는 인덱스가 날짜 혹은 시간인 데이터

* 판다스에서 시계열 자료를 생성하려면 인덱스를 DatetimeIndex 자료형으로 만들어야 한다

* DatetimeIndex는 특정한 순간에 기록된 타임스탬프(timestamp) 형식의 시계열 자료를 다루기 위한 인덱스

* DatetimeIndex 인덱스는 다음과 같은 보조 함수를 사용하여 생성한다.

  * pd.to_datetime 함수

  * pd.date_range 함수

* pd.to_datetime 함수를 쓰면 날짜/시간을 나타내는 문자열을 자동으로 datetime 자료형으로 바꾼 후 DatetimeIndex 자료형 인덱스를 생성한다.

In [12]:
date_str = ['2021, 8, 10', '2021-8-11', '20210812', '2021.8.13', '081421', '08/15/21']
idx = pd.to_datetime(date_str)
idx

DatetimeIndex(['2021-08-10', '2021-08-11', '2021-08-12', '2021-08-13',
               '2021-08-14', '2021-08-15'],
              dtype='datetime64[ns]', freq=None)

In [14]:
np.random.seed(2021)
s = pd.Series(np.random.randn(6), index=idx)
s

2021-08-10    1.488609
2021-08-11    0.676011
2021-08-12   -0.418451
2021-08-13   -0.806521
2021-08-14    0.555876
2021-08-15   -0.705504
dtype: float64

In [15]:
pd.date_range('20210801', '2021-8-31')

DatetimeIndex(['2021-08-01', '2021-08-02', '2021-08-03', '2021-08-04',
               '2021-08-05', '2021-08-06', '2021-08-07', '2021-08-08',
               '2021-08-09', '2021-08-10', '2021-08-11', '2021-08-12',
               '2021-08-13', '2021-08-14', '2021-08-15', '2021-08-16',
               '2021-08-17', '2021-08-18', '2021-08-19', '2021-08-20',
               '2021-08-21', '2021-08-22', '2021-08-23', '2021-08-24',
               '2021-08-25', '2021-08-26', '2021-08-27', '2021-08-28',
               '2021-08-29', '2021-08-30', '2021-08-31'],
              dtype='datetime64[ns]', freq='D')

In [16]:
pd.date_range('20210801', periods=31)

DatetimeIndex(['2021-08-01', '2021-08-02', '2021-08-03', '2021-08-04',
               '2021-08-05', '2021-08-06', '2021-08-07', '2021-08-08',
               '2021-08-09', '2021-08-10', '2021-08-11', '2021-08-12',
               '2021-08-13', '2021-08-14', '2021-08-15', '2021-08-16',
               '2021-08-17', '2021-08-18', '2021-08-19', '2021-08-20',
               '2021-08-21', '2021-08-22', '2021-08-23', '2021-08-24',
               '2021-08-25', '2021-08-26', '2021-08-27', '2021-08-28',
               '2021-08-29', '2021-08-30', '2021-08-31'],
              dtype='datetime64[ns]', freq='D')

In [17]:
# 일(day)
pd.date_range('20210801', periods=31)

DatetimeIndex(['2021-08-01', '2021-08-02', '2021-08-03', '2021-08-04',
               '2021-08-05', '2021-08-06', '2021-08-07', '2021-08-08',
               '2021-08-09', '2021-08-10', '2021-08-11', '2021-08-12',
               '2021-08-13', '2021-08-14', '2021-08-15', '2021-08-16',
               '2021-08-17', '2021-08-18', '2021-08-19', '2021-08-20',
               '2021-08-21', '2021-08-22', '2021-08-23', '2021-08-24',
               '2021-08-25', '2021-08-26', '2021-08-27', '2021-08-28',
               '2021-08-29', '2021-08-30', '2021-08-31'],
              dtype='datetime64[ns]', freq='D')

In [18]:
# Biz-day
pd.date_range('20210801', periods=22, freq='B')

DatetimeIndex(['2021-08-02', '2021-08-03', '2021-08-04', '2021-08-05',
               '2021-08-06', '2021-08-09', '2021-08-10', '2021-08-11',
               '2021-08-12', '2021-08-13', '2021-08-16', '2021-08-17',
               '2021-08-18', '2021-08-19', '2021-08-20', '2021-08-23',
               '2021-08-24', '2021-08-25', '2021-08-26', '2021-08-27',
               '2021-08-30', '2021-08-31'],
              dtype='datetime64[ns]', freq='B')

In [20]:
# 일요일(W)
pd.date_range('20210801', '20210831', freq='W')

DatetimeIndex(['2021-08-01', '2021-08-08', '2021-08-15', '2021-08-22',
               '2021-08-29'],
              dtype='datetime64[ns]', freq='W-SUN')

## Remsample 연산 (중요!)

* 시간 간격을 재조정하는 리샘플링(resampling)이 가능하다. 이 때 시간 구간이 작아지면 데이터 양이 증가한다고 해서 업-샘플링(up-sampling)이라 하고 시간 구간이 커지면 데이터 양이 감소한다고 해서 다운-샘플링(down-sampling)이라 부른다.

In [24]:
ts = pd.Series(np.random.randn(100), index=pd.date_range(
    "2021-1-1", periods=100))
ts.tail(10)

2021-04-01   -0.120349
2021-04-02   -1.226517
2021-04-03   -0.722695
2021-04-04   -0.619026
2021-04-05   -0.988081
2021-04-06   -0.532415
2021-04-07    1.182246
2021-04-08    0.770814
2021-04-09   -0.416720
2021-04-10   -0.266896
Freq: D, dtype: float64

In [25]:
ts.resample('W').mean()

2021-01-03   -0.783834
2021-01-10    0.079340
2021-01-17    0.031972
2021-01-24    0.090227
2021-01-31    0.494597
2021-02-07    0.205843
2021-02-14   -0.217821
2021-02-21   -0.188179
2021-02-28    0.348574
2021-03-07    0.299712
2021-03-14    0.480872
2021-03-21   -0.686839
2021-03-28    0.185799
2021-04-04   -0.147857
2021-04-11   -0.041842
Freq: W-SUN, dtype: float64

In [26]:
ts.resample('M').first()

2021-01-31   -0.387930
2021-02-28   -2.868879
2021-03-31   -0.185138
2021-04-30   -0.120349
Freq: M, dtype: float64