## Agenda
- TimeSeries Data
- 시간의 흐름에 따라 변화 하는 data

In [1]:
import pandas as pd
import numpy as np

np.random.seed(252) # 동일한 결과를 내기 위해서는 동일한 시드를 고정시켜서 적용해야한다.


## Time Series

- "timeseries" 데이터는 `DatetimeIndex` 또는 `PeriodIndex`로 구성된 데이터 셋이다

### to_datetime

In [2]:
data_1 = pd.to_datetime("20221206")

In [3]:
print(data_1)
type(data_1)

2022-12-06 00:00:00


pandas._libs.tslibs.timestamps.Timestamp

In [4]:
data_2 = pd.to_datetime("2022-12-06")
data_2

Timestamp('2022-12-06 00:00:00')

### sample data 생성

In [5]:
def random_series(dts):
    res = pd.Series(np.random.randn(len(dts)), index=dts)
    return res

`Timestamp` 를 이용해 시간 객체 생성

In [8]:
ts = pd.Timestamp("2022-01-01 00:00")

In [10]:
s_1 = pd.Series(100, index = [ts])
s_1

2022-01-01    100
dtype: int64

In [12]:
random_series(s_1)
s_1

2022-01-01    100
dtype: int64

## Time Series의 함수들
- `date_range` : 시작일과 종료일 또는 시작일과 기간을 입력하면 범위 내의 인덱스 생성
```
s: 초
T: 분
H: 시간
D: 일(day)
B: 주말이 아닌 평일
W: 주(일요일)
W-MON: 주(월요일)
M: 각 달(month)의 마지막 날
MS: 각 달의 첫날
BM: 주말이 아닌 평일 중에서 각 달의 마지막 날
BMS: 주말이 아닌 평일 중에서 각 달의 첫날
WOM-2THU: 각 달의 두번째 목요일
Q-JAN: 각 분기의 첫달의 마지막 날
Q-DEC: 각 분기의 마지막 달의 마지막 날
```

In [15]:
# 1년동안 평일 생성
dts = pd.date_range("2023-01-01", "2023-12-31", freq="B")

## 시계열 데이터에서의 indexing 과 slicing

In [16]:
df_dts = random_series(dts)

In [17]:
# 1년치 평일 데이터
df_dts

2023-01-02   -0.382089
2023-01-03   -1.095396
2023-01-04    2.584973
2023-01-05    0.609342
2023-01-06    0.422472
                ...   
2023-12-25   -0.362809
2023-12-26    0.500747
2023-12-27   -1.402560
2023-12-28    1.589578
2023-12-29    0.030661
Freq: B, Length: 260, dtype: float64

- indexing

In [18]:
df_dts.head()

2023-01-02   -0.382089
2023-01-03   -1.095396
2023-01-04    2.584973
2023-01-05    0.609342
2023-01-06    0.422472
Freq: B, dtype: float64

- slicing

In [19]:
df_dts["2023-01-02":"2023-02-05"]

2023-01-02   -0.382089
2023-01-03   -1.095396
2023-01-04    2.584973
2023-01-05    0.609342
2023-01-06    0.422472
2023-01-09    0.729424
2023-01-10    0.166462
2023-01-11   -0.116233
2023-01-12   -0.241028
2023-01-13    1.351330
2023-01-16   -0.023758
2023-01-17   -0.860729
2023-01-18    0.459902
2023-01-19   -0.637519
2023-01-20   -0.557816
2023-01-23   -1.384513
2023-01-24    0.796268
2023-01-25   -0.754168
2023-01-26    1.150661
2023-01-27    1.112391
2023-01-30    0.169364
2023-01-31    1.100328
2023-02-01    1.466494
2023-02-02    1.552422
2023-02-03   -0.029403
Freq: B, dtype: float64

In [20]:
df_dts.loc["2023-01-02"]

-0.3820889110483213

In [23]:
df_dts[df_dts == -0.3820889110483213]

2023-01-02   -0.382089
Freq: B, dtype: float64

- 달별 선택

In [24]:
df_dts["2023-01":"2023-02"]

2023-01-02   -0.382089
2023-01-03   -1.095396
2023-01-04    2.584973
2023-01-05    0.609342
2023-01-06    0.422472
2023-01-09    0.729424
2023-01-10    0.166462
2023-01-11   -0.116233
2023-01-12   -0.241028
2023-01-13    1.351330
2023-01-16   -0.023758
2023-01-17   -0.860729
2023-01-18    0.459902
2023-01-19   -0.637519
2023-01-20   -0.557816
2023-01-23   -1.384513
2023-01-24    0.796268
2023-01-25   -0.754168
2023-01-26    1.150661
2023-01-27    1.112391
2023-01-30    0.169364
2023-01-31    1.100328
2023-02-01    1.466494
2023-02-02    1.552422
2023-02-03   -0.029403
2023-02-06    1.490901
2023-02-07    0.773826
2023-02-08    1.192146
2023-02-09   -0.166685
2023-02-10    0.937214
2023-02-13    0.844255
2023-02-14   -0.069520
2023-02-15   -0.523621
2023-02-16   -0.334526
2023-02-17    0.052627
2023-02-20   -1.765642
2023-02-21    1.303445
2023-02-22   -1.584839
2023-02-23   -0.206658
2023-02-24   -0.931791
2023-02-27   -0.126712
2023-02-28   -0.599234
Freq: B, dtype: float64

- 연별 선택

In [25]:
df_dts["2023"]

2023-01-02   -0.382089
2023-01-03   -1.095396
2023-01-04    2.584973
2023-01-05    0.609342
2023-01-06    0.422472
                ...   
2023-12-25   -0.362809
2023-12-26    0.500747
2023-12-27   -1.402560
2023-12-28    1.589578
2023-12-29    0.030661
Freq: B, Length: 260, dtype: float64

## 시계열 데이터의 이동 
- `shift()` 를 이용해 이동할 수 있다. 
- [참고](https://towardsdatascience.com/all-the-pandas-shift-you-should-know-for-data-analysis-791c1692b5e)

### Lagging(후행)

In [26]:
df_dts["2023-01"].iloc[[0,1,3,-2,-1]]

2023-01-02   -0.382089
2023-01-03   -1.095396
2023-01-05    0.609342
2023-01-30    0.169364
2023-01-31    1.100328
dtype: float64

In [28]:
df_dts_log = df_dts["2023-01"].copy()

In [29]:
df_dts_log.shift(1)

2023-01-02         NaN
2023-01-03   -0.382089
2023-01-04   -1.095396
2023-01-05    2.584973
2023-01-06    0.609342
2023-01-09    0.422472
2023-01-10    0.729424
2023-01-11    0.166462
2023-01-12   -0.116233
2023-01-13   -0.241028
2023-01-16    1.351330
2023-01-17   -0.023758
2023-01-18   -0.860729
2023-01-19    0.459902
2023-01-20   -0.637519
2023-01-23   -0.557816
2023-01-24   -1.384513
2023-01-25    0.796268
2023-01-26   -0.754168
2023-01-27    1.150661
2023-01-30    1.112391
2023-01-31    0.169364
Freq: B, dtype: float64

### Leading(선행)

In [30]:
df_dts_log.shift(-2)

2023-01-02    2.584973
2023-01-03    0.609342
2023-01-04    0.422472
2023-01-05    0.729424
2023-01-06    0.166462
2023-01-09   -0.116233
2023-01-10   -0.241028
2023-01-11    1.351330
2023-01-12   -0.023758
2023-01-13   -0.860729
2023-01-16    0.459902
2023-01-17   -0.637519
2023-01-18   -0.557816
2023-01-19   -1.384513
2023-01-20    0.796268
2023-01-23   -0.754168
2023-01-24    1.150661
2023-01-25    1.112391
2023-01-26    0.169364
2023-01-27    1.100328
2023-01-30         NaN
2023-01-31         NaN
Freq: B, dtype: float64

## 간격 재조정
- `resample` : 시간 간격을 재조정하는 resampling 가능

In [34]:
dts_1 = pd.date_range("2022-01-01", "2022-03-31", freq="D")

In [36]:
ts_1 = random_series(dts_1)

In [42]:
ts_1.resample("M")
ts_1

2022-01-01    0.426659
2022-01-02    0.665403
2022-01-03   -1.009938
2022-01-04   -0.589423
2022-01-05   -0.504908
                ...   
2022-03-27    1.132766
2022-03-28   -1.487199
2022-03-29   -0.560010
2022-03-30    0.736192
2022-03-31   -0.278238
Freq: D, Length: 90, dtype: float64

- Resampling은 groupby와 비슷하게 동작한다. 

In [40]:
ts_1.resample("M").mean()

2022-01-31   -0.220558
2022-02-28   -0.010355
2022-03-31    0.213579
Freq: M, dtype: float64

In [46]:
ts_1.resample("M").agg(["mean","std"])

Unnamed: 0,mean,std
2022-01-31,-0.220558,0.893503
2022-02-28,-0.010355,1.06944
2022-03-31,0.213579,0.970263


## dt접근자
- datetime 자료형 시리즈에는 dt 접근자존재
- datetime 자료형이 가진 몇가지 유용한 속성과 메서드를 사용할

In [49]:
dts_1.strftime("%y년 %m월 %d일") # 각 시계열 변수는 고정 ex) y는 년, m은 달, d는 일

Index(['22년 01월 01일', '22년 01월 02일', '22년 01월 03일', '22년 01월 04일',
       '22년 01월 05일', '22년 01월 06일', '22년 01월 07일', '22년 01월 08일',
       '22년 01월 09일', '22년 01월 10일', '22년 01월 11일', '22년 01월 12일',
       '22년 01월 13일', '22년 01월 14일', '22년 01월 15일', '22년 01월 16일',
       '22년 01월 17일', '22년 01월 18일', '22년 01월 19일', '22년 01월 20일',
       '22년 01월 21일', '22년 01월 22일', '22년 01월 23일', '22년 01월 24일',
       '22년 01월 25일', '22년 01월 26일', '22년 01월 27일', '22년 01월 28일',
       '22년 01월 29일', '22년 01월 30일', '22년 01월 31일', '22년 02월 01일',
       '22년 02월 02일', '22년 02월 03일', '22년 02월 04일', '22년 02월 05일',
       '22년 02월 06일', '22년 02월 07일', '22년 02월 08일', '22년 02월 09일',
       '22년 02월 10일', '22년 02월 11일', '22년 02월 12일', '22년 02월 13일',
       '22년 02월 14일', '22년 02월 15일', '22년 02월 16일', '22년 02월 17일',
       '22년 02월 18일', '22년 02월 19일', '22년 02월 20일', '22년 02월 21일',
       '22년 02월 22일', '22년 02월 23일', '22년 02월 24일', '22년 02월 25일',
       '22년 02월 26일', '22년 02월 27일', '22년 02월 28일', '22년 03월 0