# 01 정형_시계열

# 1. 분석 환경 준비
## 1.1. 데이터 불러오기
분석하려는 데이터를 가져오는 작업

* 파이썬 라이브러리 Pandas 이용

* read_csv 메소드 이용

# 2. 데이터 전처리

## 2.1. 결측치 처리 Imputation

결측치 유무 확인   
시계열 이므로 보간(interpolation)방법을 사용하여 누락된 값으로 생긴 간격을 채웁   
시간 간격이 일정하고, 데이터가 노이즈로 인한 변동이 심하지 않고 누락된 값으로 인한 빈 간극이 작을 때 보간
방법 유용

* 누락된 값을 보간 : dataframe.interpolate() 
* 앞쪽으로 채우기(Forward-fill) : dataframe.ffill() 
* 뒤쪽으로 채우기(Back-fill) : dataframe.bfill()
* 비선형의 경우 보간 방법 변경 : dataframe.interpolate(method="quadratic")
* 보간 방향 지정 : dataframe.interpolate(limit=1, limit_direction="forward")

## 2.2. 라벨 인코딩 Label Encoding
범주(카테고리)형 데이터 존재 시 문자열을 수치형으로 인코딩

## 2.3. 날짜 분할 Datetime Strip

년, 월, 일 로 데이터 쪼개서 각 열로 넣기

* Series.dt의 시간 속성을 사용

## 2.4 요일 인코딩

날짜 벡터에서 각 날짜의 요일 추출

*  Series.dt의 weekday_name 속성을 사용
* weekday 속성은 요일을 정수로

## 2.5. 시차 특성

n기간 만큼 차이가 나는 시차 특성 파악

* pandas의 shift 사용


## 2.6 이동시간 윈도
시계열 데이터에서 일정 시간 간격으로 통계를 계산

* 몇 달크기의 시간 윈도가 각 단계마다 윈도의 평균을 계산하면서 샘플 위를 이동
* rolling()는 window 매개변수에서 윈도 크기를 지정
* 시간 윈도의 max(), mean(), count(), corr()와 같은 통계를 간편하게 계산 
    * ex.) 이동 평균 계산 : dataframe.rolling(window=2).mean() 
* ewm()는 최근 항목에 높은 가중치를 두지만 전체 기간에 대한 통계를 계산하는 지수 이동 윈도    

## 2.7. 정상성 Stationary time series

VAR, ARIMA 등 모델을 학습하기 위해 시계열 정상성 확인

### 2.7.1. 정상성 확인

* ADF(Advanced Dickey-Fuller test) test statistic 및 p-value 확인

* adfuller 메소드 이용


p-value가 0.05(5%) 보다 크면  유의미한 값 X    
(귀무가설(null hypothesis : 시계열이 안정적이지 않다.)을 기각할 수 없음)   

-> 시계열이 안정적이지 않다고 결론

### 2.7.2. 차분 differencing

stationary 상태가 아닐시 (위에서 p-value가 0.05(5%) 보다 크면), 

차분을 취하고 나서 stationary를 확인 (p-value가 0.05(5%) 보다 작은지)

## 2.8. 시계열 분해

statsmodels 라이브러리를 사용해서 가법 모형(additive model) 가정 하에 시계열 분해

* seasonal_decompose 이용하여 시계열 분해
    * Observed : 원본 데이터
    * Trend : 추세 성분
    * Seasonal : 계절 성분
    * Residual : 뷸규칙 성분(잔차)로 분해

## 2.9. 정규화 Normalization

RNN/LSTM/GRU 등 모델을 학습하기 위해 정규화 사용

데이터를 표준화 할때, 오직 학습 데이터만 스케일 변환(scaler transformation)에 사용

# 3. 모델링

## 3.1. 변수 정의

* X : 독립 변수 (피쳐)
* y : 종속 변수 (타켓)

## 3.2. 모델 학습


### 3.2.1. 회귀 모델

#### 3.2.1.1. Linear Regression

종속 변수 y와 한 개 이상의 독립 변수 (또는 설명 변수) X와의 선형 상관 관계를 모델링

#### 3.2.1.2. RNN

딥러닝 순환신경망, 이전의 계산으로부터 나온 결과를 고려하여 같은 일을 매 샘플마다 반복해서 수행
* 3차원 배열 입력값으로 요구

Tensor : 하나의 텐서는 모델에 들어가는 벡터   
Time Step : 하나의 타임 스텝은 텐서에서 하나의 관측치   
Feature :  한 feature는 그 타임 스텝에서 하나의 관측치  

#### 3.2.1.3. VAR

예측할 변수의 과거 값뿐만 아니라 예측할 변수와 의존성이 있는 변수 들까지 고려하여 선형 함수로 나타내는 확률적 과정

* multivariate time series - 다변량 시계열

* 피쳐가 여러개일 때 이용 (ex. 사용자 수, 신규방문자 수 등으로 이루어진 시계열 데이터)

#### 3.2.1.4. ARIMA

미래를 예측하기 위해서 그 자신의 시차로 이루어진 선형 조합과 지연된 예측 오차의 선형조합에 기반

* univaritate time series - 일변량 시계열

* 예측할 변수의 과거 값 하나가 주어졌을 때 이용 (ex. 주식 가격)


# 4. 모델 예측

## 4.1. 회귀모델 지표

###  4.1.1. MSE

예측값과 실제값의 차이인 오차들의 제곱 평균

* 회귀 모델의 주요 손실함수

### 4.1.2. RMSE

MSE에 root를 씌운 값

* 오류 지표를 실제 값과 유사한 단위로 다시 변환하기에 해석이 다소 용이

###  4.1.3. MAE

실제값과 예측값의 차이인 오차들의 절댓값 평균

* MSE보다는 특이치에 덜 민감

### 4.1.4. NMAE

정규화된 MAE

* 척도가 다른 데이터 세트의 MAE 비교할 때 용이

* NMAE가 0.1이라면 10%정도 틀렸다고 해석 가능