## Agenda
- TimeSeries Data
- 시간의 흐름에 따라 변화 하는 data
  - 온도
  - 코로나 확진자
  - 구매량
  - 주가

In [None]:
import pandas as pd
import numpy as np

np.random.seed(252)

## Time Series

- "timeseries" 데이터는 `DatetimeIndex` 또는 `PeriodIndex`로 구성된 데이터 셋이다

### to_datetime
- datetime으로 data의 type을 변경해주는 함수

In [None]:
date = "20220720"
type(date)

str

In [None]:
pd.to_datetime(date)

Timestamp('2022-07-20 00:00:00')

In [None]:
date = "2022-07-20"
pd.to_datetime(date)

Timestamp('2022-07-20 00:00:00')

- format 을이용 

In [None]:
date = "20220720"
type(date)
pd.to_datetime(date, format = "%Y%m%d")

Timestamp('2022-07-20 00:00:00')

In [None]:
date = 20220720
type(date)
pd.to_datetime(date)

Timestamp('1970-01-01 00:00:00.020220720')

In [None]:
date = 20220720
type(date)
pd.to_datetime(date, format = "%Y%m%d")

Timestamp('2022-07-20 00:00:00')

In [None]:
date = "2022년07월20일"
type(date)
pd.to_datetime(date, format = "%Y년%m월%d일")

Timestamp('2022-07-20 00:00:00')

In [None]:
time_data = pd.to_datetime(date, format = "%Y년%m월%d일")
type(time_data)

pandas._libs.tslibs.timestamps.Timestamp

In [None]:
time_data.day

20

In [None]:
time_data.year

2022

### sample data 생성

In [None]:
def random_series(dts):
    res = pd.Series(np.random.randn(len(dts)), index=dts)
    return res

`Timestamp` 를 이용해 시간 객체 생성

In [None]:
ts = pd.Timestamp("2022-07-20 13:18")

In [None]:
ts

Timestamp('2022-07-20 13:18:00')

In [None]:
s_1 = pd.Series(111.2, index=[ts])

In [None]:
s_1

2022-07-20 13:18:00    111.2
dtype: float64

In [None]:
s_1.index

DatetimeIndex(['2022-07-20 13:18:00'], dtype='datetime64[ns]', freq=None)

## Time Series의 함수들
- `date_range` : 시작일과 종료일 또는 시작일과 기간을 입력하면 범위 내의 인덱스 생성
```
s: 초
T: 분
H: 시간
D: 일(day)
B: 주말이 아닌 평일
W: 주(일요일)
W-MON: 주(월요일)
M: 각 달(month)의 마지막 날
MS: 각 달의 첫날
BM: 주말이 아닌 평일 중에서 각 달의 마지막 날
BMS: 주말이 아닌 평일 중에서 각 달의 첫날
WOM-2THU: 각 달의 두번째 목요일
Q-JAN: 각 분기의 첫달의 마지막 날
Q-DEC: 각 분기의 마지막 달의 마지막 날
```

In [None]:
dts = pd.date_range("2022-01-01", "2023-12-31", freq="B") # 주 5일 기준으로 생성

In [None]:
pd.date_range("2022-01-01", "2023-12-31", freq="6D") #6일 간격으로 생성
# pd.date_range("2022-01-01", "2023-12-31", periods=6)

DatetimeIndex(['2022-01-01', '2022-01-07', '2022-01-13', '2022-01-19',
               '2022-01-25', '2022-01-31', '2022-02-06', '2022-02-12',
               '2022-02-18', '2022-02-24',
               ...
               '2023-11-04', '2023-11-10', '2023-11-16', '2023-11-22',
               '2023-11-28', '2023-12-04', '2023-12-10', '2023-12-16',
               '2023-12-22', '2023-12-28'],
              dtype='datetime64[ns]', length=122, freq='6D')

In [None]:
ts = pd.Series(np.random.randn(len(dts)), index = dts)

In [None]:
ts.head()

2022-01-03   -0.011498
2022-01-04   -0.085123
2022-01-05    0.075910
2022-01-06   -1.649279
2022-01-07   -0.751812
Freq: B, dtype: float64

## 시계열 데이터에서의 indexing 과 slicing

- indexing

In [None]:
ts['2023-03-15']

0.5063759061902118

In [None]:
ts['2023-11-14']

-1.2240878839187168

In [None]:
ts['2023-11-17']

-0.08410850090136691

In [None]:
ts['2023-11-18'] # 휴일

KeyError: ignored

- slicing

In [None]:
ts['2023-11-18':'2023-11-25'] #휴일이 껴있어도 slicing 가능

2023-11-20    1.126263
2023-11-21   -0.151621
2023-11-22    0.735057
2023-11-23   -0.915439
2023-11-24   -0.824778
Freq: B, dtype: float64

- 달별 선택

In [None]:
ts['2023-11'] # time_series 데이터라서 가능함

2023-11-01   -0.842949
2023-11-02   -1.405563
2023-11-03   -0.820971
2023-11-06   -1.767894
2023-11-07   -0.296673
2023-11-08    0.901837
2023-11-09    0.016599
2023-11-10   -0.915884
2023-11-13    0.868026
2023-11-14   -1.224088
2023-11-15    1.358508
2023-11-16   -0.902874
2023-11-17   -0.084109
2023-11-20    1.126263
2023-11-21   -0.151621
2023-11-22    0.735057
2023-11-23   -0.915439
2023-11-24   -0.824778
2023-11-27    0.250078
2023-11-28   -0.996857
2023-11-29   -0.674954
2023-11-30   -0.132016
Freq: B, dtype: float64

- 연별 선택

In [None]:
ts['2023']

2023-01-02    1.356573
2023-01-03    0.708200
2023-01-04   -0.382089
2023-01-05   -1.095396
2023-01-06    2.584973
                ...   
2023-12-25    0.106911
2023-12-26    1.583837
2023-12-27   -0.362809
2023-12-28    0.500747
2023-12-29   -1.402560
Freq: B, Length: 260, dtype: float64

## 시계열 데이터의 이동 
- `shift()` 를 이용해 이동할 수 있다. 
- [참고](https://towardsdatascience.com/all-the-pandas-shift-you-should-know-for-data-analysis-791c1692b5e)

### Lagging(후행)

In [None]:
ts["2022-01"].iloc[[0,1,2,3,4,-2,-1]]

2022-01-03   -0.011498
2022-01-04   -0.085123
2022-01-05    0.075910
2022-01-06   -1.649279
2022-01-07   -0.751812
2022-01-28   -0.858197
2022-01-31    1.681411
dtype: float64

In [None]:
ts22 = ts["2022-01"].copy()
ts22.shift(1).iloc[[0,1,2,3,4,-2,-1]]

2022-01-03         NaN
2022-01-04   -0.011498
2022-01-05   -0.085123
2022-01-06    0.075910
2022-01-07   -1.649279
2022-01-28   -1.724383
2022-01-31   -0.858197
dtype: float64

### Leading(선행)

In [None]:
ts22 = ts["2022-01"].copy()
ts22.shift(-1).iloc[[0,1,2,3,4,-2,-1]]

2022-01-03   -0.085123
2022-01-04    0.075910
2022-01-05   -1.649279
2022-01-06   -0.751812
2022-01-07    1.247329
2022-01-28    1.681411
2022-01-31         NaN
dtype: float64

## 간격 재조정
- `resample` : 시간 간격을 재조정하는 resampling 가능

In [None]:
dts_1 = pd.date_range('2022-01-01', '2022-03-31', freq = 'D')
dts_1

DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04',
               '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08',
               '2022-01-09', '2022-01-10', '2022-01-11', '2022-01-12',
               '2022-01-13', '2022-01-14', '2022-01-15', '2022-01-16',
               '2022-01-17', '2022-01-18', '2022-01-19', '2022-01-20',
               '2022-01-21', '2022-01-22', '2022-01-23', '2022-01-24',
               '2022-01-25', '2022-01-26', '2022-01-27', '2022-01-28',
               '2022-01-29', '2022-01-30', '2022-01-31', '2022-02-01',
               '2022-02-02', '2022-02-03', '2022-02-04', '2022-02-05',
               '2022-02-06', '2022-02-07', '2022-02-08', '2022-02-09',
               '2022-02-10', '2022-02-11', '2022-02-12', '2022-02-13',
               '2022-02-14', '2022-02-15', '2022-02-16', '2022-02-17',
               '2022-02-18', '2022-02-19', '2022-02-20', '2022-02-21',
               '2022-02-22', '2022-02-23', '2022-02-24', '2022-02-25',
      

In [None]:
tsd_2 = pd.Series(np.random.randn(len(dts_1)), index = dts_1)
tsd_2

2022-01-01    1.385086
2022-01-02    1.756045
2022-01-03    0.028404
2022-01-04   -0.422319
2022-01-05    0.479142
                ...   
2022-03-27   -0.634594
2022-03-28    0.424283
2022-03-29   -1.268316
2022-03-30   -0.038287
2022-03-31   -1.259814
Freq: D, Length: 90, dtype: float64

In [None]:
grp = tsd_2.resample('M')
grp # 그냥 resampling된 object

<pandas.core.resample.DatetimeIndexResampler object at 0x7f3fa6dc2790>

- Resampling은 groupby와 비슷하게 동작한다. 

In [None]:
grp.mean() # 기간별 평균

2022-01-31    0.052613
2022-02-28   -0.133464
2022-03-31   -0.311033
Freq: M, dtype: float64

## dt접근자
- datetime 자료형 시리즈에는 dt 접근자존재
- datetime 자료형이 가진 몇가지 유용한 속성과 메서드를 사용할

In [None]:
ts.index

DatetimeIndex(['2022-01-03', '2022-01-04', '2022-01-05', '2022-01-06',
               '2022-01-07', '2022-01-10', '2022-01-11', '2022-01-12',
               '2022-01-13', '2022-01-14',
               ...
               '2023-12-18', '2023-12-19', '2023-12-20', '2023-12-21',
               '2023-12-22', '2023-12-25', '2023-12-26', '2023-12-27',
               '2023-12-28', '2023-12-29'],
              dtype='datetime64[ns]', length=520, freq='B')

In [None]:
pd.Series(ts.index).dt.strftime(date_format = '%Y년, %m월, %d일')

0      2022년, 01월, 03일
1      2022년, 01월, 04일
2      2022년, 01월, 05일
3      2022년, 01월, 06일
4      2022년, 01월, 07일
            ...       
515    2023년, 12월, 25일
516    2023년, 12월, 26일
517    2023년, 12월, 27일
518    2023년, 12월, 28일
519    2023년, 12월, 29일
Length: 520, dtype: object