In [1]:
import pandas as pd
import numpy as np

### `Datetime` 인덱스
시계열 객체인 `Series`는 시계열 데이터를 관리하는 객체이기 때문에 데이터가 시간에 의해 관리되어저야함  
지금까지는 단순한 인덱스로 사용하였는데 이를 시계열로 표현하기위해서 `DatetimeIndex`를 사용해야함  
`DatetimeIndex`는 시계열 인덱스를 사용하기 위한 인덱스이며 `판다스.to_datetime`, `판다스.date_range` 메서드를 사용하여 생성할 수 있음

`to_datetime()` 메서드는 날짜 및 시간을 나타내는 문자열을 Datetime 자료형으로 변경한 후 `DatetimeIndex`를 생성함 

In [36]:
date_str = ['2018-01-01', '2018-01-04', '2018-01-05', '2018-01-06']
idx = pd.to_datetime(date_str)
idx

DatetimeIndex(['2018-01-01', '2018-01-04', '2018-01-05', '2018-01-06'], dtype='datetime64[ns]', freq=None)

In [20]:
# 인덱스 타입: datetime 타입
s = pd.Series(np.random.randn(4), index=idx)
s

2018-01-01   -0.234368
2018-01-04   -0.993311
2018-01-05    1.407844
2018-01-06    0.424407
dtype: float64

In [38]:
# 인덱스 타입: string 타입
s = pd.Series(np.random.randn(4), index=date_str)
s

2018-01-01   -1.180664
2018-01-04    0.669280
2018-01-05   -1.831554
2018-01-06    0.336673
dtype: float64

`date_range` 메서드는 날짜 및 간에 대해서 시작일과 종료일 / 시작일과 기간을 입력하여 범위 내의 `DatetimeIndex`를 생성

In [39]:
pd.date_range('2024-01-01', '2024-03-31')

DatetimeIndex(['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04',
               '2024-01-05', '2024-01-06', '2024-01-07', '2024-01-08',
               '2024-01-09', '2024-01-10', '2024-01-11', '2024-01-12',
               '2024-01-13', '2024-01-14', '2024-01-15', '2024-01-16',
               '2024-01-17', '2024-01-18', '2024-01-19', '2024-01-20',
               '2024-01-21', '2024-01-22', '2024-01-23', '2024-01-24',
               '2024-01-25', '2024-01-26', '2024-01-27', '2024-01-28',
               '2024-01-29', '2024-01-30', '2024-01-31', '2024-02-01',
               '2024-02-02', '2024-02-03', '2024-02-04', '2024-02-05',
               '2024-02-06', '2024-02-07', '2024-02-08', '2024-02-09',
               '2024-02-10', '2024-02-11', '2024-02-12', '2024-02-13',
               '2024-02-14', '2024-02-15', '2024-02-16', '2024-02-17',
               '2024-02-18', '2024-02-19', '2024-02-20', '2024-02-21',
               '2024-02-22', '2024-02-23', '2024-02-24', '2024-02-25',
      

In [40]:
pd.date_range('2024-01-01', periods=30)

DatetimeIndex(['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04',
               '2024-01-05', '2024-01-06', '2024-01-07', '2024-01-08',
               '2024-01-09', '2024-01-10', '2024-01-11', '2024-01-12',
               '2024-01-13', '2024-01-14', '2024-01-15', '2024-01-16',
               '2024-01-17', '2024-01-18', '2024-01-19', '2024-01-20',
               '2024-01-21', '2024-01-22', '2024-01-23', '2024-01-24',
               '2024-01-25', '2024-01-26', '2024-01-27', '2024-01-28',
               '2024-01-29', '2024-01-30'],
              dtype='datetime64[ns]', freq='D')

`freq` 인수로 특정한 날짜만 생성되도록 할 수 있음

In [41]:
# s : 초
pd.date_range('2024-02-29 09:48:00', '2024-02-29 09:48:10', freq='s')

DatetimeIndex(['2024-02-29 09:48:00', '2024-02-29 09:48:01',
               '2024-02-29 09:48:02', '2024-02-29 09:48:03',
               '2024-02-29 09:48:04', '2024-02-29 09:48:05',
               '2024-02-29 09:48:06', '2024-02-29 09:48:07',
               '2024-02-29 09:48:08', '2024-02-29 09:48:09',
               '2024-02-29 09:48:10'],
              dtype='datetime64[ns]', freq='S')

In [45]:
# B : 평일
pd.date_range('2024-02-01', '2024-02-29', freq='B')

DatetimeIndex(['2024-02-01', '2024-02-02', '2024-02-05', '2024-02-06',
               '2024-02-07', '2024-02-08', '2024-02-09', '2024-02-12',
               '2024-02-13', '2024-02-14', '2024-02-15', '2024-02-16',
               '2024-02-19', '2024-02-20', '2024-02-21', '2024-02-22',
               '2024-02-23', '2024-02-26', '2024-02-27', '2024-02-28',
               '2024-02-29'],
              dtype='datetime64[ns]', freq='B')

In [47]:
# Q-DEC : 각 분기별 마지막 날
pd.date_range('2024-01-01', '2024-12-31', freq='Q-DEC')

DatetimeIndex(['2024-03-31', '2024-06-30', '2024-09-30', '2024-12-31'], dtype='datetime64[ns]', freq='Q-DEC')

### `shift` 연산
`shift()` 메서드는 인덱스는 그대로 두고 데이터만 이동  
`freq` 인수를 지정하면 인덱스를 변경시킴

In [61]:
ts = pd.Series(np.random.randn(4), index=pd.date_range('2024-02-01', periods=4, freq='BM'))
ts

2024-02-29    0.731139
2024-03-29   -0.035321
2024-04-30    0.671049
2024-05-31   -0.041985
Freq: BM, dtype: float64

In [62]:
ts.shift(1)

2024-02-29         NaN
2024-03-29    0.731139
2024-04-30   -0.035321
2024-05-31    0.671049
Freq: BM, dtype: float64

In [63]:
ts.shift(-1)

2024-02-29   -0.035321
2024-03-29    0.671049
2024-04-30   -0.041985
2024-05-31         NaN
Freq: BM, dtype: float64

In [64]:
ts

2024-02-29    0.731139
2024-03-29   -0.035321
2024-04-30    0.671049
2024-05-31   -0.041985
Freq: BM, dtype: float64

In [66]:
ts.shift(2, freq='BM')
#2차복습완료

2024-04-30    0.731139
2024-05-31   -0.035321
2024-06-28    0.671049
2024-07-31   -0.041985
Freq: BM, dtype: float64

### `resample` 메서드
`resample()` 메서드는 `DatetimeIndex`의 시간 간격을 재조정함  
시간 간격이 좁은 단위로 변경하면 데이터 양이 증가해서 업-샘플링(up-sampling)이라 하고 넓은 단위로 변경되면 데이터 양이 감소해서 다운-샘플링(down-sampling)이라 함

In [None]:
ts = pd.Series(np.random.randn(100), index=pd.date_range('2024-01-01', periods=100))
ts.tail(20)

다운-샘플링 시에는 기존 데이터가 그룹화되는 경우와 같기 때문에 대표값을 지정해야함 (집계처리를 해야함)

In [None]:
ts.resample('W').mean()

시간 (시/분) 단위에서는 가장 빠른 값은 포함하고, 가장 늦은 값은 포함하지 않음

In [None]:
ts = pd.Series(np.arange(60), index=pd.date_range('2024-02-29', periods=60, freq='min'))
ts

In [None]:
ts.resample('10min').max()

구간 한계 값을 가장 늦은 값으로 지정하고자 한다면 `closed='right'`를 지정함

In [None]:
ts.resample('10min', closed='right').max()

`ohlc()` 메서드는 구간의 시점, 고점, 저점, 종점의 값을 표현

In [None]:
ts.resample('10min').ohlc()

In [None]:
ts.resample('10min', closed='right').ohlc()

업-샘플링은 데이터를 추가해야하기 때문에 foward filling 방식과 back filling 방식을 사용할 수 있음  
foward filling은 이전 데이터를 가져와 사용하는 방법 - `ffiil()`  
back filling은 다음 데이터를 가져와 사용하는 방법 - `bfill()`

In [None]:
ts

In [None]:
ts.resample('30s').ffill()

In [None]:
ts.resample('30s').bfill()

### `dt` 접근자
datetime의 데이터 타입 시리즈는 `dt` 접근자를 사용하여 datetime 데이터 타입이 가지는 여러가지 속성 및 메서드를 사용할 수 있음

In [None]:
s = pd.Series(pd.date_range('2024-01-01', periods=10))
s

`year`, `month`, `day`와 같은 속성을 사용할 수 있음

In [None]:
s.dt.day

In [None]:
s.dt.year

`strftime()` 메서드를 사용하여 datetime 데이터 타입의 데이터를 문자열 데이터로 변경 할 수 있음

In [None]:
s.dt.strftime('%Y. %m. %d. %H:%M:%s')

##### 파이썬으로 다음 연산을 수행한다.

다음 명령으로 만들어진 데이터프레임에 대해 월별 value의 합계를 구하라. (힌트: `groupby` 메서드와 `dt` 접근자를 사용하라)
```python
np.random.seed(0)
df = pd.DataFrame({
    "date": pd.date_range("2020-12-25", periods=100, freq="D"),
    "value": np.random.randint(100, size=(100,))
})
```

In [None]:
np.random.seed(0)
df = pd.DataFrame({
    "date": pd.date_range("2020-12-25", periods=100, freq="D"),
    "value": np.random.randint(100, size=(100,))
})
df

In [None]:
df.date = df.date.dt.month

In [None]:
df.groupby(df.date).sum()