In [64]:
import pandas as pd
import numpy as np

#### <span style='background-color:rgba(100, 40, 150, 0.7);'>`Datetime` 인덱스</span>  
시계열 객체인 `Series`는 시계열 데이터를 관리하는 객체이기 때문에 데이터가 시간에 의해 관리되어저야함  
지금까지는 단순한 인덱스로 사용하였는데 이를 시계열로 표한하기 위해서 `DatetimeIndex`를 사용해야함
- `DatetimeIndex`는 시계열 인덱스를 사용하기 위한 인덱스이며, 
- `판다스.to_datetime` , `판다스.date_range` 메서드를 사용하여 생성할 수 있음  

`to_datetime()`메서드는 날짜 및 시간을 나타내는 문자열을 Datetime 자료형으로 변경한 후 `Datetimelndex`를 생성함

In [65]:
# 날짜 및 시간을 나타내는 문자열 리스트 만들기
date_str = ['2018, 1, 1','2018, 1, 4', '2018, 1, 5','2018, 1, 6']
idx = pd.to_datetime(date_str)
idx
    # 문자열을 (,) 가 아닌 (-),(/),(.) 으로 가능! / 단, 전부 동일하게 입력 해야한다

DatetimeIndex(['2018-01-01', '2018-01-04', '2018-01-05', '2018-01-06'], dtype='datetime64[ns]', freq=None)

In [66]:
# 만든 데이터타임 인덱스를 시리즈에 넣기 -> 날짜 형태의 인덱스 지정
s = pd.Series(np.random.randn(4),index=idx)
s                                # 인덱스 타입 : datetime 타입


2018-01-01   -0.307365
2018-01-04   -0.366524
2018-01-05    1.119712
2018-01-06   -0.457922
dtype: float64

In [67]:
s = pd.Series(np.random.randn(4),index=date_str)
s                                # 인덱스 타입 : string 타입 

2018, 1, 1    0.425393
2018, 1, 4   -0.027971
2018, 1, 5    1.475990
2018, 1, 6    0.646780
dtype: float64

`date_range` 메서드는 날짜 및 시간에 대해서 시작일과 종료일 / 시작일과 기간을 입력하여 범위 내의 `DatetimeIndex`를 생성

In [68]:
pd.date_range('2024-01-01','2024-01-15')  # 32일 처럼 존재하지 날짜는 X

DatetimeIndex(['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04',
               '2024-01-05', '2024-01-06', '2024-01-07', '2024-01-08',
               '2024-01-09', '2024-01-10', '2024-01-11', '2024-01-12',
               '2024-01-13', '2024-01-14', '2024-01-15'],
              dtype='datetime64[ns]', freq='D')

In [69]:
# 기간으로 표현
pd.date_range('2024-01-01' , periods=10)

DatetimeIndex(['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04',
               '2024-01-05', '2024-01-06', '2024-01-07', '2024-01-08',
               '2024-01-09', '2024-01-10'],
              dtype='datetime64[ns]', freq='D')

`freq` 인수로 특정한 날짜만 생성되도록 할 수 있음
- `s`: 초 / `min`: 분 / `H`: 시간
- `D`: 일(day)
- `B`: 주말이 아닌 평일
- `W`: 주(일요일)
- `W-MON`: 주(월요일)
- `ME`: 각 달(month)의 마지막 날
- `MS`: 각 달의 첫날
- `BM`: 주말이 아닌 평일 중에서 각 달의 마지막 날
- `BMS`: 주말이 아닌 평일 중에서 각 달의 첫날
- `WOM-2THU`: 각 달의 두번째 목요일
- `QE-JAN`: 각 분기의 첫달의 마지막 날
- `QE-DEC`: 각 분기의 마지막 달의 마지막 날

In [70]:
# s : 초 단위 출력
pd.date_range('2024-02-29 09:48:00','2024-02-29 09:48:10',freq='s')

DatetimeIndex(['2024-02-29 09:48:00', '2024-02-29 09:48:01',
               '2024-02-29 09:48:02', '2024-02-29 09:48:03',
               '2024-02-29 09:48:04', '2024-02-29 09:48:05',
               '2024-02-29 09:48:06', '2024-02-29 09:48:07',
               '2024-02-29 09:48:08', '2024-02-29 09:48:09',
               '2024-02-29 09:48:10'],
              dtype='datetime64[ns]', freq='s')

In [71]:
# B : 평일 만 출력
pd.date_range('2024-02-01','2024-02-29',freq='B')

DatetimeIndex(['2024-02-01', '2024-02-02', '2024-02-05', '2024-02-06',
               '2024-02-07', '2024-02-08', '2024-02-09', '2024-02-12',
               '2024-02-13', '2024-02-14', '2024-02-15', '2024-02-16',
               '2024-02-19', '2024-02-20', '2024-02-21', '2024-02-22',
               '2024-02-23', '2024-02-26', '2024-02-27', '2024-02-28',
               '2024-02-29'],
              dtype='datetime64[ns]', freq='B')

In [72]:
# QE-JAN : 각 분기별 첫 달의 마지막 날
pd.date_range('2024-01-01','2024-12-31',freq='QE-JAN')

DatetimeIndex(['2024-01-31', '2024-04-30', '2024-07-31', '2024-10-31'], dtype='datetime64[ns]', freq='QE-JAN')

In [73]:
# QE-DEC : 각 분기별 마지막 달의 마지막 날
pd.date_range('2024-01-01','2024-12-31',freq='QE-DEC')

DatetimeIndex(['2024-03-31', '2024-06-30', '2024-09-30', '2024-12-31'], dtype='datetime64[ns]', freq='QE-DEC')

#### <span style='background-color:rgba(100, 40, 150, 0.7);'>`shift` 연산</span>  
`shift()`메서드 : 인덱스는 그대로 두고 데이터만 이동  
`freq` 인수를 지정하면 인덱스를 변경시킴

In [74]:
# 02-01 부터 4 개월 동안 각 달의 마지막 날('ME') 을 출력
ts = pd.Series(np.random.randn(4), index=pd.date_range('2024-02-01',periods=4,freq='ME'))
ts

2024-02-29   -0.364334
2024-03-31   -0.678777
2024-04-30   -0.353628
2024-05-31   -0.740747
Freq: ME, dtype: float64

In [75]:
# 인덱스가 변경됨
ts.shift(1)

2024-02-29         NaN
2024-03-31   -0.364334
2024-04-30   -0.678777
2024-05-31   -0.353628
Freq: ME, dtype: float64

In [76]:
ts.shift(-1)

2024-02-29   -0.678777
2024-03-31   -0.353628
2024-04-30   -0.740747
2024-05-31         NaN
Freq: ME, dtype: float64

In [77]:
# 변경된 것을 확인해보자
ts.shift(2, freq="ME")

2024-04-30   -0.364334
2024-05-31   -0.678777
2024-06-30   -0.353628
2024-07-31   -0.740747
Freq: ME, dtype: float64

#### <span style='background-color:rgba(100, 40, 150, 0.7);'>`resample` 메서드</span>  
`resample()`메서드는 `DatetimeIndex` 의 시간 간격을 재조정함  
- 시간 간격이 좁은 단위로 변경하면 데이터 양이 증가해서 업-샘플링(up-sampling)  
- 시간 간격이 넓은 단위로 변경되면 데이터 양이 감소해서 다운-샘플링(down-sampling)

In [78]:
ts = pd.Series(np.random.randn(100), index=pd.date_range("2018-1-1", periods=100))
ts

2018-01-01   -0.675022
2018-01-02   -0.132784
2018-01-03    0.619801
2018-01-04    1.791168
2018-01-05    0.171000
                ...   
2018-04-06   -0.631175
2018-04-07   -0.928159
2018-04-08    1.490722
2018-04-09    0.195499
2018-04-10   -0.471604
Freq: D, Length: 100, dtype: float64

<span style='color:yellow;'>===============================다운 샘플링==================================</span>

다운-샘플링 시에는 기존 데이터가 그룹화되는 경우와 같기 때문에 대표값을 지정해야함 (집계처리를 해야함)

In [79]:
ts.resample('W').mean() # 평균처리

2018-01-07    0.029879
2018-01-14   -0.143881
2018-01-21    0.147833
2018-01-28    0.360647
2018-02-04    0.644251
2018-02-11    0.064299
2018-02-18   -0.220856
2018-02-25    0.322887
2018-03-04    0.075605
2018-03-11   -0.046507
2018-03-18    0.250944
2018-03-25    0.079981
2018-04-01    0.299091
2018-04-08   -0.575459
2018-04-15   -0.138052
Freq: W-SUN, dtype: float64

시간 (시/분) 단위에서는 가장 빠른 값은 포함하고, 가장 늦은 값은 포함하지 않음

In [80]:
# 0분은 출력되는데 60분은 출력안됨
ts = pd.Series(np.arange(60), index=pd.date_range('2024-02-29',periods=60,freq='min'))
ts

2024-02-29 00:00:00     0
2024-02-29 00:01:00     1
2024-02-29 00:02:00     2
2024-02-29 00:03:00     3
2024-02-29 00:04:00     4
2024-02-29 00:05:00     5
2024-02-29 00:06:00     6
2024-02-29 00:07:00     7
2024-02-29 00:08:00     8
2024-02-29 00:09:00     9
2024-02-29 00:10:00    10
2024-02-29 00:11:00    11
2024-02-29 00:12:00    12
2024-02-29 00:13:00    13
2024-02-29 00:14:00    14
2024-02-29 00:15:00    15
2024-02-29 00:16:00    16
2024-02-29 00:17:00    17
2024-02-29 00:18:00    18
2024-02-29 00:19:00    19
2024-02-29 00:20:00    20
2024-02-29 00:21:00    21
2024-02-29 00:22:00    22
2024-02-29 00:23:00    23
2024-02-29 00:24:00    24
2024-02-29 00:25:00    25
2024-02-29 00:26:00    26
2024-02-29 00:27:00    27
2024-02-29 00:28:00    28
2024-02-29 00:29:00    29
2024-02-29 00:30:00    30
2024-02-29 00:31:00    31
2024-02-29 00:32:00    32
2024-02-29 00:33:00    33
2024-02-29 00:34:00    34
2024-02-29 00:35:00    35
2024-02-29 00:36:00    36
2024-02-29 00:37:00    37
2024-02-29 0

In [81]:
ts.resample('10min').min()

2024-02-29 00:00:00     0
2024-02-29 00:10:00    10
2024-02-29 00:20:00    20
2024-02-29 00:30:00    30
2024-02-29 00:40:00    40
2024-02-29 00:50:00    50
Freq: 10min, dtype: int32

In [82]:
ts.resample('10min').max()

2024-02-29 00:00:00     9
2024-02-29 00:10:00    19
2024-02-29 00:20:00    29
2024-02-29 00:30:00    39
2024-02-29 00:40:00    49
2024-02-29 00:50:00    59
Freq: 10min, dtype: int32

구간 한계 값을 가장 늦은 값으로 지정하고자 한다면, `closed='right'` 를 지정함

In [83]:
ts.resample('10min',closed='right').min()

2024-02-28 23:50:00     0
2024-02-29 00:00:00     1
2024-02-29 00:10:00    11
2024-02-29 00:20:00    21
2024-02-29 00:30:00    31
2024-02-29 00:40:00    41
2024-02-29 00:50:00    51
Freq: 10min, dtype: int32

In [84]:
ts.resample('10min',closed='right').max()

2024-02-28 23:50:00     0
2024-02-29 00:00:00    10
2024-02-29 00:10:00    20
2024-02-29 00:20:00    30
2024-02-29 00:30:00    40
2024-02-29 00:40:00    50
2024-02-29 00:50:00    59
Freq: 10min, dtype: int32

`ohlc()`메서드는 구간의 시점, 고점, 저점, 종점의 값을 표현  
(open, high, low, close)

In [85]:
ts.resample('10min').ohlc()

Unnamed: 0,open,high,low,close
2024-02-29 00:00:00,0,9,0,9
2024-02-29 00:10:00,10,19,10,19
2024-02-29 00:20:00,20,29,20,29
2024-02-29 00:30:00,30,39,30,39
2024-02-29 00:40:00,40,49,40,49
2024-02-29 00:50:00,50,59,50,59


In [86]:
ts.resample('10min',closed='right').ohlc()

Unnamed: 0,open,high,low,close
2024-02-28 23:50:00,0,0,0,0
2024-02-29 00:00:00,1,10,1,10
2024-02-29 00:10:00,11,20,11,20
2024-02-29 00:20:00,21,30,21,30
2024-02-29 00:30:00,31,40,31,40
2024-02-29 00:40:00,41,50,41,50
2024-02-29 00:50:00,51,59,51,59


<span style='color:yellow;'>===============================업 샘플링==================================</span>

업-샘플링은 데이터를 추가해야하기 떄문에 foward filling 방식과 back filling 방식을 사용할 수 있음  
- foward filling 은 이전 데이터를 가져와 사용하는 방법 - `ffiil()`
- back filling은 다음 데이터를 가져와 사용하는 방법 - `bfill()`

In [87]:
ts

2024-02-29 00:00:00     0
2024-02-29 00:01:00     1
2024-02-29 00:02:00     2
2024-02-29 00:03:00     3
2024-02-29 00:04:00     4
2024-02-29 00:05:00     5
2024-02-29 00:06:00     6
2024-02-29 00:07:00     7
2024-02-29 00:08:00     8
2024-02-29 00:09:00     9
2024-02-29 00:10:00    10
2024-02-29 00:11:00    11
2024-02-29 00:12:00    12
2024-02-29 00:13:00    13
2024-02-29 00:14:00    14
2024-02-29 00:15:00    15
2024-02-29 00:16:00    16
2024-02-29 00:17:00    17
2024-02-29 00:18:00    18
2024-02-29 00:19:00    19
2024-02-29 00:20:00    20
2024-02-29 00:21:00    21
2024-02-29 00:22:00    22
2024-02-29 00:23:00    23
2024-02-29 00:24:00    24
2024-02-29 00:25:00    25
2024-02-29 00:26:00    26
2024-02-29 00:27:00    27
2024-02-29 00:28:00    28
2024-02-29 00:29:00    29
2024-02-29 00:30:00    30
2024-02-29 00:31:00    31
2024-02-29 00:32:00    32
2024-02-29 00:33:00    33
2024-02-29 00:34:00    34
2024-02-29 00:35:00    35
2024-02-29 00:36:00    36
2024-02-29 00:37:00    37
2024-02-29 0

In [88]:
# 분 단위를 30초 단위로 바꾸기
ts.resample('30s').ffill()

2024-02-29 00:00:00     0
2024-02-29 00:00:30     0
2024-02-29 00:01:00     1
2024-02-29 00:01:30     1
2024-02-29 00:02:00     2
                       ..
2024-02-29 00:57:00    57
2024-02-29 00:57:30    57
2024-02-29 00:58:00    58
2024-02-29 00:58:30    58
2024-02-29 00:59:00    59
Freq: 30s, Length: 119, dtype: int32

In [89]:
ts.resample('30s').bfill()

2024-02-29 00:00:00     0
2024-02-29 00:00:30     1
2024-02-29 00:01:00     1
2024-02-29 00:01:30     2
2024-02-29 00:02:00     2
                       ..
2024-02-29 00:57:00    57
2024-02-29 00:57:30    58
2024-02-29 00:58:00    58
2024-02-29 00:58:30    59
2024-02-29 00:59:00    59
Freq: 30s, Length: 119, dtype: int32

#### <span style='background-color:rgba(100, 40, 150, 0.7);'>`dt` 접근자</span>  
datetime의 데이터 타입 시리즈는 `dt` 접근자를 사용하여 datetime 데이터 타입이 가지는 여러가지 속성 및 메서드를 사용할 수 있음

In [90]:
# 데이터 만들기 
s = pd.Series(pd.date_range('2024-02-01',periods=10))
s

0   2024-02-01
1   2024-02-02
2   2024-02-03
3   2024-02-04
4   2024-02-05
5   2024-02-06
6   2024-02-07
7   2024-02-08
8   2024-02-09
9   2024-02-10
dtype: datetime64[ns]

`year` , `month` , `day` 와 같은 속성을 사용할 수 있음

In [91]:
s.dt.day

0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
dtype: int32

In [92]:
s.dt.year

0    2024
1    2024
2    2024
3    2024
4    2024
5    2024
6    2024
7    2024
8    2024
9    2024
dtype: int32

`strftime()` 메서드를 사용하여 datetime 데이터 타입의 데이터를 문자열 데이터로 변경할 수 있음

In [93]:
s.dt.strftime('%Y. %m. %d. %H:%M:%s')
# dtype: objrct 인 것을 확인

0    2024-02-01 00:00:00
1    2024-02-02 00:00:00
2    2024-02-03 00:00:00
3    2024-02-04 00:00:00
4    2024-02-05 00:00:00
5    2024-02-06 00:00:00
6    2024-02-07 00:00:00
7    2024-02-08 00:00:00
8    2024-02-09 00:00:00
9    2024-02-10 00:00:00
dtype: object

<span style='color:yellow;'>예제문제)</span>  
다음 명령으로 만들어진 데이터프레임에 대해 월별 value의 합계를 구하라. (힌트: groupby 메서드와 dt 접근자를 사용하라)
```python
np.random.seed(0)
df = pd.DataFrame({
    "date": pd.date_range("2020-12-25", periods=100, freq="D"),
    "value": np.random.randint(100, size=(100,))
})
```

In [94]:
np.random.seed(0)
df = pd.DataFrame({
    "date": pd.date_range("2020-12-25", periods=100, freq="D"),
    "value": np.random.randint(100, size=(100,))
})

In [95]:
df

Unnamed: 0,date,value
0,2020-12-25,44
1,2020-12-26,47
2,2020-12-27,64
3,2020-12-28,67
4,2020-12-29,67
...,...,...
95,2021-03-30,23
96,2021-03-31,79
97,2021-04-01,13
98,2021-04-02,85


In [96]:
# date 이용해서 시리즈로 바꾸고, month만 뽑아낸다
df.date = df.date.dt.month
df

Unnamed: 0,date,value
0,12,44
1,12,47
2,12,64
3,12,67
4,12,67
...,...,...
95,3,23
96,3,79
97,4,13
98,4,85


In [97]:
# 뽑아낸 df를 groupby로 묶고, 합을 구한다
df.groupby(df.date).sum()

Unnamed: 0_level_0,value
date,Unnamed: 1_level_1
1,1811
2,985
3,1500
4,146
12,381
