# 시계열 데이터
#### 시계열 데이터란
* 행과 행에 시간의 순서(흐름)가 있고
* 행과 행의 시간간격이 동일한 데이터
* Time Series 또는 Sequential Data라고 한다.

## DatetimeIndex로 변환하기
> 1. pd.date_range()
    * date_range 함수는 시작일과 기간을 인수로 설정할 수 있고 freq 인수를 사용하면 특정 날짜만 생성되도록 할 수 있다.
    * freq 인수 종류
        * s : 초별
        * T : 분별
        * H : 시간별
        * D : 일별
        * W : 주별(일요일 기준)
        * W-MON : 주별(월요일 기준)
        * M : 월별(매월 마지막 날 기준)
        * MS : 월별(매월 첫날 기준)
        * B : 주말을 제외한 평일
        * BM : 주말을 제외한 평일 중 매월 마지막 날
        * BMS : 주말을 제외한 평일 중 매월 첫날
          
> 2. pd.to_datetime()
    * pd.to_datetime 함수를 사용하여 DatetimeIndex를 생성할 수 있다.  
    DatetimeIndex를 생성할 때 pd.to_datetime 함수를 사용하여 날짜를 나타내는 문자열을 자동으로 datetime 자료형으로 바꾸는데  
    날짜를 입력하는 방법은 YYYY.MM.DD, YYYY-MM-DD, YYYY/MM/DD, YYYY MM DD 등 다양한 방법 모두 사용 가능하기 때문에  
    개발자가 편한 방법으로 입력해도 무방하다.

In [3]:
import pandas as pd
import numpy as np

In [26]:
# pd.date_range() 사용 -> freq인자를 주지 않으면 기본값으로 범위 안의 모든 날짜의 시계열 데이터를 생성
day_idx = pd.date_range('2022-01-01', '2022-12-31')
print(day_idx)

DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04',
               '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08',
               '2022-01-09', '2022-01-10',
               ...
               '2022-12-22', '2022-12-23', '2022-12-24', '2022-12-25',
               '2022-12-26', '2022-12-27', '2022-12-28', '2022-12-29',
               '2022-12-30', '2022-12-31'],
              dtype='datetime64[ns]', length=365, freq='D')


In [7]:
# freq = 'MS' 설정을 추가해 월별 첫 날의 날짜만 생성
dayMS_idx = pd.date_range('2022-01-01', '2022-12-31', freq = 'MS')
print(dayMS_idx)

DatetimeIndex(['2022-01-01', '2022-02-01', '2022-03-01', '2022-04-01',
               '2022-05-01', '2022-06-01', '2022-07-01', '2022-08-01',
               '2022-09-01', '2022-10-01', '2022-11-01', '2022-12-01'],
              dtype='datetime64[ns]', freq='MS')


In [None]:
# pd.to_datetime() 사용

In [12]:
date = ["2023-01-01", "2023-01-02", "2023-01-03", "2023-01-04", "2023-01-05", "2023-01-06", "2023-01-07"]
type(date)

list

In [13]:
date_idx = pd.to_datetime(date)
type(date_idx)

pandas.core.indexes.datetimes.DatetimeIndex

In [14]:
print(date_idx)

DatetimeIndex(['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04',
               '2023-01-05', '2023-01-06', '2023-01-07'],
              dtype='datetime64[ns]', freq=None)


## 날짜 요소 뽑기
* 날짜 타입의 변수를 사용하여 날짜의 요소를 뽑아낼 수 있다.
* 종류
    * df['Date'].dt.date : YYYY-MM-DD
    * df['Date'].dt.year : 연(4자리)
    * df['Date'].dt.month : 월(숫자)
    * df['Date'].dt.month_name() : 월(문자)
    * df['Date'].dt.day : 일(숫자)
    * df['Date'].dt.time : HH:MM:SS(문자)
    * df['Date'].dt.hour : 시(숫자)
    * df['Date'].dt.minute : 분(숫자)
    * df['Date'].dt.second : 초(숫자)
    * df['Date'].dt.quarter : 분기(숫자)
    * df['Date'].dt.day_name() : 요일이름(문자)
    * df['Date'].dt.weekday : 요일숫자(0-월, 1-화)(=dayofweek)
    * df['Date'].dt.weekofyear : 연 기준 몇 주째(숫자)(week)
    * df['Date'].dt.dayofyear : 연 기준 몇 일째(숫자)
    * df['Date'].dt.days_in_month : 월 일수(숫자)(=datsinmonth)

In [34]:
date2022 = pd.DataFrame(day_idx)
date2022['Date'] = date2022[0]
date2022

Unnamed: 0,0,Date
0,2022-01-01,2022-01-01
1,2022-01-02,2022-01-02
2,2022-01-03,2022-01-03
3,2022-01-04,2022-01-04
4,2022-01-05,2022-01-05
...,...,...
360,2022-12-27,2022-12-27
361,2022-12-28,2022-12-28
362,2022-12-29,2022-12-29
363,2022-12-30,2022-12-30


In [35]:
date2022['Date'] = pd.to_datetime(date2022['Date'])

In [38]:
# 연도
date2022['Date'].dt.year

0      2022
1      2022
2      2022
3      2022
4      2022
       ... 
360    2022
361    2022
362    2022
363    2022
364    2022
Name: Date, Length: 365, dtype: int64

In [39]:
# 요일 이름
date2022['Date'].dt.day_name()

0       Saturday
1         Sunday
2         Monday
3        Tuesday
4      Wednesday
         ...    
360      Tuesday
361    Wednesday
362     Thursday
363       Friday
364     Saturday
Name: Date, Length: 365, dtype: object

## Time Lag : .shift()
시계열 데이터에서 시간의 흐름을 전후로 정보를 이동시킬 때 사용
* df['추가할 컬럼'] = df['시계열 컬럼'].shift() 로 사용
    * shift()의 기본값은 1이고 .shift(2)를 하면 2칼 n을 넣어주면 n칸 이동시킨다.
    * 이동시킬 데이터가 없다면 NaN 처리

In [40]:
date2022['Date_lag1'] = date2022['Date'].shift()
date2022['Date_lag2'] = date2022['Date'].shift(2)
date2022['Date_lag3'] = date2022['Date'].shift(3)

In [41]:
date2022

Unnamed: 0,0,Date,Date_lag1,Date_lag2,Date_lag3
0,2022-01-01,2022-01-01,NaT,NaT,NaT
1,2022-01-02,2022-01-02,2022-01-01,NaT,NaT
2,2022-01-03,2022-01-03,2022-01-02,2022-01-01,NaT
3,2022-01-04,2022-01-04,2022-01-03,2022-01-02,2022-01-01
4,2022-01-05,2022-01-05,2022-01-04,2022-01-03,2022-01-02
...,...,...,...,...,...
360,2022-12-27,2022-12-27,2022-12-26,2022-12-25,2022-12-24
361,2022-12-28,2022-12-28,2022-12-27,2022-12-26,2022-12-25
362,2022-12-29,2022-12-29,2022-12-28,2022-12-27,2022-12-26
363,2022-12-30,2022-12-30,2022-12-29,2022-12-28,2022-12-27


## Moving Average : .rolling()
시간의 흐름에 따라 일정 기간 동안 데이터의 합계(sum) 평균(mean) 등을 구하기
* df['추가할 컬럼'] = df['컬럼'].rolling() 로 사용
    * .rolling(n) 기본값은 1, 자신과 이전 n-1개의 데이터를 가지고 연산함
    * 이전 데이터가 없다면 NaN 처리
    * min_periods = n : 최소 데이터수 => n개의 데이터가 있으면 계산하라는 의미

In [44]:
date2022['Num'] = date2022.index

In [45]:
date2022

Unnamed: 0,0,Date,Date_lag1,Date_lag2,Date_lag3,Num
0,2022-01-01,2022-01-01,NaT,NaT,NaT,0
1,2022-01-02,2022-01-02,2022-01-01,NaT,NaT,1
2,2022-01-03,2022-01-03,2022-01-02,2022-01-01,NaT,2
3,2022-01-04,2022-01-04,2022-01-03,2022-01-02,2022-01-01,3
4,2022-01-05,2022-01-05,2022-01-04,2022-01-03,2022-01-02,4
...,...,...,...,...,...,...
360,2022-12-27,2022-12-27,2022-12-26,2022-12-25,2022-12-24,360
361,2022-12-28,2022-12-28,2022-12-27,2022-12-26,2022-12-25,361
362,2022-12-29,2022-12-29,2022-12-28,2022-12-27,2022-12-26,362
363,2022-12-30,2022-12-30,2022-12-29,2022-12-28,2022-12-27,363


In [46]:
date2022['Date_rollsum1'] = date2022['Num'].rolling(3).sum()
date2022['Date_rollsum2'] = date2022['Num'].rolling(3).mean()
date2022['Date_rollsum3'] = date2022['Num'].rolling(3, min_periods = 1).mean()

In [47]:
date2022

Unnamed: 0,0,Date,Date_lag1,Date_lag2,Date_lag3,Num,Date_rollsum1,Date_rollsum2,Date_rollsum3
0,2022-01-01,2022-01-01,NaT,NaT,NaT,0,,,0.0
1,2022-01-02,2022-01-02,2022-01-01,NaT,NaT,1,,,0.5
2,2022-01-03,2022-01-03,2022-01-02,2022-01-01,NaT,2,3.0,1.0,1.0
3,2022-01-04,2022-01-04,2022-01-03,2022-01-02,2022-01-01,3,6.0,2.0,2.0
4,2022-01-05,2022-01-05,2022-01-04,2022-01-03,2022-01-02,4,9.0,3.0,3.0
...,...,...,...,...,...,...,...,...,...
360,2022-12-27,2022-12-27,2022-12-26,2022-12-25,2022-12-24,360,1077.0,359.0,359.0
361,2022-12-28,2022-12-28,2022-12-27,2022-12-26,2022-12-25,361,1080.0,360.0,360.0
362,2022-12-29,2022-12-29,2022-12-28,2022-12-27,2022-12-26,362,1083.0,361.0,361.0
363,2022-12-30,2022-12-30,2022-12-29,2022-12-28,2022-12-27,363,1086.0,362.0,362.0


## 차분 : .diff()
특점 시점 데이터과 이전 시점 데이터와의 차 구하기
* df['추가할 컬럼'] = df['컬럼'].diff() 로 사용
    * .diff(n) : n번째 이전 데이터와의 차, 기본값은 1

In [48]:
date2022['Date_diff1'] = date2022['Num'].diff()
date2022['Date_diff2'] = date2022['Num'].diff(2)
date2022['Date_diff3'] = date2022['Num'].diff(3)

In [49]:
date2022

Unnamed: 0,0,Date,Date_lag1,Date_lag2,Date_lag3,Num,Date_rollsum1,Date_rollsum2,Date_rollsum3,Date_diff1,Date_diff2,Date_diff3
0,2022-01-01,2022-01-01,NaT,NaT,NaT,0,,,0.0,,,
1,2022-01-02,2022-01-02,2022-01-01,NaT,NaT,1,,,0.5,1.0,,
2,2022-01-03,2022-01-03,2022-01-02,2022-01-01,NaT,2,3.0,1.0,1.0,1.0,2.0,
3,2022-01-04,2022-01-04,2022-01-03,2022-01-02,2022-01-01,3,6.0,2.0,2.0,1.0,2.0,3.0
4,2022-01-05,2022-01-05,2022-01-04,2022-01-03,2022-01-02,4,9.0,3.0,3.0,1.0,2.0,3.0
...,...,...,...,...,...,...,...,...,...,...,...,...
360,2022-12-27,2022-12-27,2022-12-26,2022-12-25,2022-12-24,360,1077.0,359.0,359.0,1.0,2.0,3.0
361,2022-12-28,2022-12-28,2022-12-27,2022-12-26,2022-12-25,361,1080.0,360.0,360.0,1.0,2.0,3.0
362,2022-12-29,2022-12-29,2022-12-28,2022-12-27,2022-12-26,362,1083.0,361.0,361.0,1.0,2.0,3.0
363,2022-12-30,2022-12-30,2022-12-29,2022-12-28,2022-12-27,363,1086.0,362.0,362.0,1.0,2.0,3.0
