<a href="https://colab.research.google.com/github/jo-soobin/numpy-pandas/blob/master/day15_time_series.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Agenda
- TimeSeries Data
- 시간의 흐름에 따라 변화 하는 data
  - 온도
  - 코로나 확진자
  - 구매량
  - 주가

In [None]:
import pandas as pd
import numpy as np

np.random.seed(252)

## Time Series

- "timeseries" 데이터는 `DatetimeIndex` 또는 `PeriodIndex`로 구성된 데이터 셋이다

### to_datetime
- datetime으로 data의 type을 변경해주는 함수

In [None]:
date = "20220720"
type(date)

str

In [None]:
pd.to_datetime(date)

Timestamp('2022-07-20 00:00:00')

In [None]:
date = "2022-07-20"
pd.to_datetime(date)

Timestamp('2022-07-20 00:00:00')

- format 을이용 

In [None]:
date = "20220720"
type(date)
pd.to_datetime(date, format = "%Y%m%d")

Timestamp('2022-07-20 00:00:00')

In [None]:
date = 20220720
type(date)
pd.to_datetime(date)

Timestamp('1970-01-01 00:00:00.020220720')

In [None]:
date = 20220720
type(date)
pd.to_datetime(date, format = "%Y%m%d")

Timestamp('2022-07-20 00:00:00')

In [None]:
date = "2022년07월20일"
type(date)
pd.to_datetime(date, format = "%Y년%m월%d일")

Timestamp('2022-07-20 00:00:00')

In [None]:
time_data = pd.to_datetime(date, format = "%Y년%m월%d일")
type(time_data)

pandas._libs.tslibs.timestamps.Timestamp

In [None]:
time_data.day

20

In [None]:
time_data.year

2022

### sample data 생성

In [None]:
def random_series(dts):
    res = pd.Series(np.random.randn(len(dts)), index=dts)
    return res

`Timestamp` 를 이용해 시간 객체 생성

In [None]:
ts = pd.Timestamp("2022-07-20 13:18")

In [None]:
ts

Timestamp('2022-07-20 13:18:00')

In [None]:
s_1 = pd.Series(111.2, index=[ts])

In [None]:
s_1

2022-07-20 13:18:00    111.2
dtype: float64

In [None]:
s_1.index

DatetimeIndex(['2022-07-20 13:18:00'], dtype='datetime64[ns]', freq=None)

## Time Series의 함수들
- `date_range` : 시작일과 종료일 또는 시작일과 기간을 입력하면 범위 내의 인덱스 생성
```
s: 초
T: 분
H: 시간
D: 일(day)
B: 주말이 아닌 평일
W: 주(일요일)
W-MON: 주(월요일)
M: 각 달(month)의 마지막 날
MS: 각 달의 첫날
BM: 주말이 아닌 평일 중에서 각 달의 마지막 날
BMS: 주말이 아닌 평일 중에서 각 달의 첫날
WOM-2THU: 각 달의 두번째 목요일
Q-JAN: 각 분기의 첫달의 마지막 날
Q-DEC: 각 분기의 마지막 달의 마지막 날
```

In [None]:
dts = pd.date_range("2022-01-01", "2023-12-31", freq="B") # 주 5일 기준으로 생성

In [None]:
pd.date_range("2022-01-01", "2023-12-31", freq="6D") #6일 간격으로 생성
# pd.date_range("2022-01-01", "2023-12-31", periods=6)

DatetimeIndex(['2022-01-01 00:00:00', '2022-05-26 19:12:00',
               '2022-10-19 14:24:00', '2023-03-14 09:36:00',
               '2023-08-07 04:48:00', '2023-12-31 00:00:00'],
              dtype='datetime64[ns]', freq=None)

In [None]:
ts = pd.Series(np.random.randn(len(dts)), index = dts)

In [None]:
ts.head()

2022-01-03   -0.011498
2022-01-04   -0.085123
2022-01-05    0.075910
2022-01-06   -1.649279
2022-01-07   -0.751812
Freq: B, dtype: float64

## 시계열 데이터에서의 indexing 과 slicing

- indexing

In [None]:
ts["2023-03-15"]

0.5063759061902118

In [None]:
ts["2023-11-14"]#오민엽 생일

-1.2240878839187168

In [None]:
ts["2023-11-18"]#11월 18일은 휴일

- slicing

In [None]:
ts["2023-11-18": "2023-11-25"] #휴일이 껴있어도 slicing은 가능하다.

2023-11-20    1.126263
2023-11-21   -0.151621
2023-11-22    0.735057
2023-11-23   -0.915439
2023-11-24   -0.824778
Freq: B, dtype: float64

- 달별 선택

In [None]:
ts["2023-11"].head()

2023-11-01   -0.842949
2023-11-02   -1.405563
2023-11-03   -0.820971
2023-11-06   -1.767894
2023-11-07   -0.296673
Freq: B, dtype: float64

- 연별 선택

In [None]:
ts["2023"].head()

2023-01-02    1.356573
2023-01-03    0.708200
2023-01-04   -0.382089
2023-01-05   -1.095396
2023-01-06    2.584973
Freq: B, dtype: float64

In [None]:
# 특정 달만 가능할까?
# ts["%Y02"].head()

## 시계열 데이터의 이동 
- `shift()` 를 이용해 이동할 수 있다. 
- [참고](https://towardsdatascience.com/all-the-pandas-shift-you-should-know-for-data-analysis-791c1692b5e)

### Lagging(후행)

In [None]:
ts["2022-01"].iloc[[0,1,2,3,4,-2,-1]]

2022-01-03   -0.011498
2022-01-04   -0.085123
2022-01-05    0.075910
2022-01-06   -1.649279
2022-01-07   -0.751812
2022-01-28   -0.858197
2022-01-31    1.681411
dtype: float64

In [None]:
ts22 = ts["2022-01"].copy()
ts22.shift(1).iloc[[0,1,2,3,4,-2,-1]]

2022-01-03         NaN
2022-01-04   -0.011498
2022-01-05   -0.085123
2022-01-06    0.075910
2022-01-07   -1.649279
2022-01-28   -1.724383
2022-01-31   -0.858197
dtype: float64

### Leading(선행)

In [None]:
ts22 = ts["2022-01"].copy()
ts22.shift(-1).iloc[[0,1,2,3,4,-2,-1]]

2022-01-03   -0.085123
2022-01-04    0.075910
2022-01-05   -1.649279
2022-01-06   -0.751812
2022-01-07    1.247329
2022-01-28    1.681411
2022-01-31         NaN
dtype: float64

## 간격 재조정
- `resample` : 시간 간격을 재조정하는 resampling 가능

In [None]:
dts_1 = pd.date_range("2022-01-01", "2022-03-31", freq="D")
tsd_2 = pd.Series(np.random.randn(len(dts_1)), index=dts_1)

In [None]:
tsd_2

2022-01-01    0.945041
2022-01-02   -2.043699
2022-01-03    0.553808
2022-01-04   -0.796250
2022-01-05    1.270916
                ...   
2022-03-27    0.867220
2022-03-28   -0.008305
2022-03-29    0.596703
2022-03-30   -0.762014
2022-03-31    0.432501
Freq: D, Length: 90, dtype: float64

In [None]:
grp = tsd_2.resample("M")

In [None]:
grp #그냥 resampling된 object

<pandas.core.resample.DatetimeIndexResampler object at 0x7f0fdbff1e50>

In [None]:
grp.mean()

2022-01-31   -0.252756
2022-02-28   -0.264503
2022-03-31    0.076831
Freq: M, dtype: float64

- Resampling은 groupby와 비슷하게 동작한다. 

In [None]:
grp.agg(["mean", "std"])

Unnamed: 0,mean,std
2022-01-31,-0.252756,0.970751
2022-02-28,-0.264503,0.943184
2022-03-31,0.076831,0.940313


In [None]:
grp = tsd_2.resample("2M")

In [None]:
grp.mean()

2022-01-31   -0.252756
2022-03-31   -0.085158
Freq: 2M, dtype: float64

## dt접근자
- datetime 자료형 시리즈에는 dt 접근자존재
- datetime 자료형이 가진 몇가지 유용한 속성과 메서드를 사용할

In [None]:
pd.Series(ts.index).dt.strftime(date_format = "%Y년, %m월, %d일")

0      2022년, 01월, 03일
1      2022년, 01월, 04일
2      2022년, 01월, 05일
3      2022년, 01월, 06일
4      2022년, 01월, 07일
            ...       
515    2023년, 12월, 25일
516    2023년, 12월, 26일
517    2023년, 12월, 27일
518    2023년, 12월, 28일
519    2023년, 12월, 29일
Length: 520, dtype: object