## Agenda
- TimeSeries Data
- 시간의 흐름에 따라 변화 하는 data

In [1]:
import pandas as pd
import numpy as np

np.random.seed(0)

## Time Series

- "timeseries" 데이터는 `DatetimeIndex` 또는 `PeriodIndex`로 구성된 데이터 셋이다

### to_datetime

In [2]:
date_1  = pd.to_datetime("20221206")

In [3]:
print(date_1)
type(date_1)

2022-12-06 00:00:00


pandas._libs.tslibs.timestamps.Timestamp

In [4]:
date_3 = pd.to_datetime("20221206", format="%Y%m%d")

In [5]:
date_3

Timestamp('2022-12-06 00:00:00')

In [6]:
date_5 = pd.to_datetime("2022년12월06일", format="%Y년%m월%d일")

In [7]:
date_5

Timestamp('2022-12-06 00:00:00')

### sample data 생성

In [8]:
def random_series(dts):
    res = pd.Series(np.random.randn(len(dts)), index=dts)
    return res

`Timestamp` 를 이용해 시간 객체 생성

In [9]:
ts = pd.Timestamp("2022-01-01 00:00")

In [10]:
ts

Timestamp('2022-01-01 00:00:00')

## Time Series의 함수들
- `date_range` : 시작일과 종료일 또는 시작일과 기간을 입력하면 범위 내의 인덱스 생성
```
s: 초
T: 분
H: 시간
D: 일(day)
B: 주말이 아닌 평일
W: 주(일요일)
W-MON: 주(월요일)
M: 각 달(month)의 마지막 날
MS: 각 달의 첫날
BM: 주말이 아닌 평일 중에서 각 달의 마지막 날
BMS: 주말이 아닌 평일 중에서 각 달의 첫날
WOM-2THU: 각 달의 두번째 목요일
Q-JAN: 각 분기의 첫달의 마지막 날
Q-DEC: 각 분기의 마지막 달의 마지막 날
AS-JAN: 매년 초 1월 1일
```

In [11]:
# 1년동안의 평일 생성
dts = pd.date_range("2023-01-01", "2023-12-31", freq="B")
print(dts)

DatetimeIndex(['2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05',
               '2023-01-06', '2023-01-09', '2023-01-10', '2023-01-11',
               '2023-01-12', '2023-01-13',
               ...
               '2023-12-18', '2023-12-19', '2023-12-20', '2023-12-21',
               '2023-12-22', '2023-12-25', '2023-12-26', '2023-12-27',
               '2023-12-28', '2023-12-29'],
              dtype='datetime64[ns]', length=260, freq='B')


In [12]:
pd.date_range("2023-01-01", "2023-12-31", freq="T")

DatetimeIndex(['2023-01-01 00:00:00', '2023-01-01 00:01:00',
               '2023-01-01 00:02:00', '2023-01-01 00:03:00',
               '2023-01-01 00:04:00', '2023-01-01 00:05:00',
               '2023-01-01 00:06:00', '2023-01-01 00:07:00',
               '2023-01-01 00:08:00', '2023-01-01 00:09:00',
               ...
               '2023-12-30 23:51:00', '2023-12-30 23:52:00',
               '2023-12-30 23:53:00', '2023-12-30 23:54:00',
               '2023-12-30 23:55:00', '2023-12-30 23:56:00',
               '2023-12-30 23:57:00', '2023-12-30 23:58:00',
               '2023-12-30 23:59:00', '2023-12-31 00:00:00'],
              dtype='datetime64[ns]', length=524161, freq='T')

## 시계열 데이터에서의 indexing 과 slicing

In [13]:
df_dts = random_series(dts)

- indexing

In [14]:
df_dts["2023-01-02"]

1.764052345967664

- slicing

In [15]:
df_dts["2023-01-02": "2023-03-20"]

2023-01-02    1.764052
2023-01-03    0.400157
2023-01-04    0.978738
2023-01-05    2.240893
2023-01-06    1.867558
2023-01-09   -0.977278
2023-01-10    0.950088
2023-01-11   -0.151357
2023-01-12   -0.103219
2023-01-13    0.410599
2023-01-16    0.144044
2023-01-17    1.454274
2023-01-18    0.761038
2023-01-19    0.121675
2023-01-20    0.443863
2023-01-23    0.333674
2023-01-24    1.494079
2023-01-25   -0.205158
2023-01-26    0.313068
2023-01-27   -0.854096
2023-01-30   -2.552990
2023-01-31    0.653619
2023-02-01    0.864436
2023-02-02   -0.742165
2023-02-03    2.269755
2023-02-06   -1.454366
2023-02-07    0.045759
2023-02-08   -0.187184
2023-02-09    1.532779
2023-02-10    1.469359
2023-02-13    0.154947
2023-02-14    0.378163
2023-02-15   -0.887786
2023-02-16   -1.980796
2023-02-17   -0.347912
2023-02-20    0.156349
2023-02-21    1.230291
2023-02-22    1.202380
2023-02-23   -0.387327
2023-02-24   -0.302303
2023-02-27   -1.048553
2023-02-28   -1.420018
2023-03-01   -1.706270
2023-03-02 

In [16]:
df_dts.loc["2023-01-02"]

1.764052345967664

- 달별 선택

In [17]:
df_dts.loc["2023-02"]

2023-02-01    0.864436
2023-02-02   -0.742165
2023-02-03    2.269755
2023-02-06   -1.454366
2023-02-07    0.045759
2023-02-08   -0.187184
2023-02-09    1.532779
2023-02-10    1.469359
2023-02-13    0.154947
2023-02-14    0.378163
2023-02-15   -0.887786
2023-02-16   -1.980796
2023-02-17   -0.347912
2023-02-20    0.156349
2023-02-21    1.230291
2023-02-22    1.202380
2023-02-23   -0.387327
2023-02-24   -0.302303
2023-02-27   -1.048553
2023-02-28   -1.420018
Freq: B, dtype: float64

- 월별 선택

In [18]:
df_dts.loc["2023"]

2023-01-02    1.764052
2023-01-03    0.400157
2023-01-04    0.978738
2023-01-05    2.240893
2023-01-06    1.867558
                ...   
2023-12-25    0.694749
2023-12-26   -0.725597
2023-12-27   -1.383364
2023-12-28   -1.582938
2023-12-29    0.610379
Freq: B, Length: 260, dtype: float64

## 시계열 데이터의 이동 
- `shift()` 를 이용해 이동할 수 있다. 
- [참고](https://towardsdatascience.com/all-the-pandas-shift-you-should-know-for-data-analysis-791c1692b5e)

In [21]:
df_dts["2023-01"].iloc[[0,1,3, -2, -1]]

2023-01-02    1.764052
2023-01-03    0.400157
2023-01-05    2.240893
2023-01-30   -2.552990
2023-01-31    0.653619
dtype: float64

In [24]:
df_dts.shift(-1)

2023-01-02    0.400157
2023-01-03    0.978738
2023-01-04    2.240893
2023-01-05    1.867558
2023-01-06   -0.977278
                ...   
2023-12-25   -0.725597
2023-12-26   -1.383364
2023-12-27   -1.582938
2023-12-28    0.610379
2023-12-29         NaN
Freq: B, Length: 260, dtype: float64

In [25]:
df_dts.shift(1)

2023-01-02         NaN
2023-01-03    1.764052
2023-01-04    0.400157
2023-01-05    0.978738
2023-01-06    2.240893
                ...   
2023-12-25    0.691539
2023-12-26    0.694749
2023-12-27   -0.725597
2023-12-28   -1.383364
2023-12-29   -1.582938
Freq: B, Length: 260, dtype: float64

## 간격 재조정
- `resample` : 시간 간격을 재조정하는 resampling 가능

In [26]:
dts_1 = pd.date_range("2022-01-01", "2022-03-31", freq="D")

In [27]:
ts_1 = random_series(dts_1)

In [29]:
ts_1.resample("M").mean()

2022-01-31   -0.005615
2022-02-28   -0.055979
2022-03-31   -0.190673
Freq: M, dtype: float64

In [28]:
ts_1.resample("M").agg(["mean", "std"])

Unnamed: 0,mean,std
2022-01-31,-0.005615,1.10629
2022-02-28,-0.055979,0.89132
2022-03-31,-0.190673,1.016102


## dt접근자
- datetime 자료형 시리즈에는 dt 접근자존재
- datetime 자료형이 가진 몇가지 유용한 속성과 메서드를 사용할

In [30]:
dts_1

DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04',
               '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08',
               '2022-01-09', '2022-01-10', '2022-01-11', '2022-01-12',
               '2022-01-13', '2022-01-14', '2022-01-15', '2022-01-16',
               '2022-01-17', '2022-01-18', '2022-01-19', '2022-01-20',
               '2022-01-21', '2022-01-22', '2022-01-23', '2022-01-24',
               '2022-01-25', '2022-01-26', '2022-01-27', '2022-01-28',
               '2022-01-29', '2022-01-30', '2022-01-31', '2022-02-01',
               '2022-02-02', '2022-02-03', '2022-02-04', '2022-02-05',
               '2022-02-06', '2022-02-07', '2022-02-08', '2022-02-09',
               '2022-02-10', '2022-02-11', '2022-02-12', '2022-02-13',
               '2022-02-14', '2022-02-15', '2022-02-16', '2022-02-17',
               '2022-02-18', '2022-02-19', '2022-02-20', '2022-02-21',
               '2022-02-22', '2022-02-23', '2022-02-24', '2022-02-25',
      

In [31]:
dts_1.strftime("오늘은 %Y년 %m월 %d일입니다.")

Index(['오늘은 2022년 01월 01일입니다.', '오늘은 2022년 01월 02일입니다.',
       '오늘은 2022년 01월 03일입니다.', '오늘은 2022년 01월 04일입니다.',
       '오늘은 2022년 01월 05일입니다.', '오늘은 2022년 01월 06일입니다.',
       '오늘은 2022년 01월 07일입니다.', '오늘은 2022년 01월 08일입니다.',
       '오늘은 2022년 01월 09일입니다.', '오늘은 2022년 01월 10일입니다.',
       '오늘은 2022년 01월 11일입니다.', '오늘은 2022년 01월 12일입니다.',
       '오늘은 2022년 01월 13일입니다.', '오늘은 2022년 01월 14일입니다.',
       '오늘은 2022년 01월 15일입니다.', '오늘은 2022년 01월 16일입니다.',
       '오늘은 2022년 01월 17일입니다.', '오늘은 2022년 01월 18일입니다.',
       '오늘은 2022년 01월 19일입니다.', '오늘은 2022년 01월 20일입니다.',
       '오늘은 2022년 01월 21일입니다.', '오늘은 2022년 01월 22일입니다.',
       '오늘은 2022년 01월 23일입니다.', '오늘은 2022년 01월 24일입니다.',
       '오늘은 2022년 01월 25일입니다.', '오늘은 2022년 01월 26일입니다.',
       '오늘은 2022년 01월 27일입니다.', '오늘은 2022년 01월 28일입니다.',
       '오늘은 2022년 01월 29일입니다.', '오늘은 2022년 01월 30일입니다.',
       '오늘은 2022년 01월 31일입니다.', '오늘은 2022년 02월 01일입니다.',
       '오늘은 2022년 02월 02일입니다.', '오늘은 2022년 02월 03일입니다.',
       '오늘은 2022년 02월 04일입니다.',