In [53]:
import pandas as pd
import numpy as np

### `Datetime` 인덱스
시계열 객체인 `Series`는 시계열 데이터를 관리하는 객체이기 때문에 데이터가  
시간에 의해 관리되어져야함  
지금까지는 단순한 인덱스로 사용하였는데 이를 시게열로 표현하기 위해서 `DatetimeIndex`를 사용해야함  
`DateTimeIndex`는 시계열 인덱스를 사용하기 위한 인덱스이며 `판다스 to_datetime`, `판다스.date_range`  
메서드를 사용하여 생성할 수 있음


`to_datetime()` 메서드는 날짜 및 시간을 나타내는 문자열을 Datetime 자료형으로 변경한 후   
`DatetimeIndex`를 생성함

In [None]:
date_str = ["2018, 1, 1", "2018, 1, 4", "2018, 1, 5", "2018, 1, 6"]
idx = pd.to_datetime(date_str)
idx

In [None]:
# 인덱스 타입 : datetime 타입
s = pd.Series(np.random.randn(4), index = idx)
s

In [None]:
# 인덱스 타입 : string 타입
s = pd.Series(np.random.randn(4), index = date_str)
s

`date_range` 메서드는 날짜 및 시간에 대해서 시작일과 종료일 / 시작일과 기간을 입력하여 범위 내의 `DateTimeIndex`를 생성

In [None]:
pd.date_range('2024-01-01', '2024-03-31')

In [None]:
pd.date_range('2024-01-01', periods = 30)

`freq` 인수로 특정한 날짜만 생성 되도록 할 수 있음

In [None]:
# s : 초
pd.date_range('2024-02-29 09:48:00', '2024-02-29 09:48:10', freq = 's')

In [None]:
# B : 평일
pd.date_range('2024-02-01', '2024-02-29', freq = 'B')

In [None]:
# Q-DEC : 각 분기별 마지막 날
pd.date_range('2024-01-01', '2024-12-31', freq = 'QE-DEC')

### `shift` 연산
`shift()` 메서드는 인덱스는 그대로 두고 데이터만 이동
`freq` 인수를 지정하면 인덱스를 변경 시킴

In [None]:
ts = pd.Series(np.random.randn(4), index = pd.date_range('2024-02-01', periods = 4 , freq = 'ME'))
ts

In [None]:
ts.shift(2, freq = 'ME')

### `resample` 메서드 
`resample()` 메서드는 `DateTimeIndex`의 시간 간격을 재조정함  
시간 간격이 좁은 단위로 변경하면 데이터 양이 증가해서 업-샘플링(up-sampling)이라 하고  
넓은 단위로 변경되면 데이터 양이 감소해서 다운-샘플림(down-sampling) 이라 함   

In [None]:
ts = pd.Series(np.random.randn(100), index = pd.date_range('2024-01-01', periods = 100))
ts.tail(20)

다운-샘플링 시에는 기존 데이터가 그룹화되는 경우와 같기 때문에 대표값을 지정해야함 (집계처리를 해야함)

In [None]:
ts.resample('W')

In [None]:
ts.resample('W').mean()

시간 (시/분) 단위에서는 가장 빠른 값은 포함하고, 가장 늦은 값은 포함하지 않음

In [None]:
ts = pd.Series(np.arange(60), index = pd.date_range('2024-02-29', periods = 60, freq = 'min'))
ts

In [None]:
ts.resample('10min').min()

구간 한계 값을 가장 늦은 값으로 지정하고자 한다면 `closed = right`를 지정함

In [None]:
ts.resample('10min', closed = 'right').min()

In [None]:
ts.resample('10min', closed = 'right').max()

`ohlc()` 메서드는 구간의 시점, 고점, 저점, 종점의 값을 표현

In [None]:
ts.resample('10min').ohlc()

In [None]:
ts.resample('10min', closed= 'right').ohlc()

업-샘플링은 데이터를 추가해야하기 때문에 foward filling 방식과 back filling  
방식을 사용할 수 있음  
foward filling 이전 데이터를 가져와 사용하는 방법 - `ffill()`  
back filling은 다음 데이터를 가져와 사용하는 방법 - `bfill()`

In [None]:
ts.resample('30s').ffill()

In [None]:
ts.resample('30s').bfill()

In [None]:
ts.resample('30s')

### `dt` 접근자
datetime의 자료형 시리즈는 `dt` 접근자를 사용하여 datetime 데이터 타입이 가지는 여러가지 속성 및 메서드를 사용 할 수 있음

In [None]:
s = pd.Series(pd.date_range('2024-01-01', periods = 10))
s

`year`, `month`, `day`와 같은 속성을 사용할 수 있음

In [None]:
s.dt.day

In [None]:
s.dt.year

`strftime()` 메서드를 사용하여 datetime 데이터 타입의 데이터를 문자열  
데이터로 변경 할 수 있음

In [36]:
s.dt.strftime('%Y. %m. %d. %H:%M%s')

0    2024-01-01 00:00:00
1    2024-01-02 00:00:00
2    2024-01-03 00:00:00
3    2024-01-04 00:00:00
4    2024-01-05 00:00:00
5    2024-01-06 00:00:00
6    2024-01-07 00:00:00
7    2024-01-08 00:00:00
8    2024-01-09 00:00:00
9    2024-01-10 00:00:00
dtype: object

 **파이썬으로 다음 연산을 수행한다.**

다음 명령으로 만들어진 데이터프레임에 대해 월별 value의 합계를 구하라. (힌트: `groupby` 메서드와 `dt` 접근자를 사용하라)


In [59]:
np.random.seed(0)
df = pd.DataFrame({
    "date": pd.date_range("2020-12-25", periods=100, freq="D"),
    "value": np.random.randint(100, size=(100,))
})

f['date'] = pd.to_datetime(df['date'])
df['month'] = df['date'].dt.month
df.groupby(by='month')['value'].sum()


TypeError: datetime64 type does not support sum operations