# Validation for Time Series

## 데이터준비 방향

### 시계열 데이터준비(Time Series Validation)
>- **시계열 데이터인 경우 랜덤성(set.seed)을 부여하면 안되고 시간축 유지가 핵심!**
    - **훈련셋(Training set):** 가장 오래된 데이터
    - **검증셋(Validation set):** 그 다음 최근 데이터
    - **테스트셋(Testing set):** 가장 최신의 데이터
<center><img src='Image/DataSplit_TimeSeries.png' width='500'></center>

>- **과거 정확성이 높더라도 미래의 정확성 보장할 수 없기에, 미래 모든시기 검증 추천!**
    - 1스텝 교차검사(One-step Ahead Cross-validation)<center><img src='Image/DataSplit_TimeSeries_ver1.png' width='500'></center>
    - 2스텝 교차검사(Two-step Ahead Cross-validation)<center><img src='Image/DataSplit_TimeSeries_ver2.png' width='500'></center>

### 검증 유의점(Underfitting vs Overfitting)
- **과소적합(Underfitting):** 단순모델 또는 높은편향(충분하지 않은 데이터패턴 학습)
- **과적합(Overfitting):** 복잡한모델 또는 높은분산(주어진 데이터패턴에만 효과)
    - **발생:** 같은 조건에 대해 추정되는 답이 복수개 존재할 수 있는 상황
        - 독립변수 갯수에 비해 추정해야 할 파라미터/모수의 수가 과도하게 큰 경우  
        - 독립변수가 서로 독립이 아닌 경우  
    - **문제이유:**
        - 학습에 사용되지 않는 새로운 독립변수 값을 입력하면 오차가 커짐 (Cross-validation 오차)
        - 샘플 데이터가 조금만 변화해도 추정되는 파라미터/모수의 값이 크게 달라짐 (추정의 불안정성/부정확성)

<center><img src='Image/Underfitting_Overfitting.jpg' width='600'></center>
<center><img src='Image/Underfitting_Overfitting.png' width='600'></center>

### 편향-분산 상충관계(Bias-variance Trade-off)  

**1) 편향과 분산의 정의**
> **(비수학적 이해)**
- **편향(Bias):** 점추정  
    - 예측값과 실제값의 차이  
    - 모델 학습시 여러 데이터로 학습 후 예측값의 범위가 정답과 얼마나 멀리 있는지 측정  
- **편향(Bias(Real)):** 모형화(단순화)로 미처 반영하지 못한 복잡성  
    <U>=> 편향이 작다면 Training 데이터 패턴(복잡성)을 최대반영 의미</U>  
    <U>=> 편향이 크다면 Training 데이터 패턴(복잡성)을 최소반영 의미</U>  
- **분산(Variance):** 구간추정  
    - 학습한 모델의 예측값이 평균으로부터 퍼진 정도(변동성/분산)  
    - 여러 모델로 학습을 반복한다면, 학습된 모델별로 예측한 값들의 차이를 측정
- **분산(Variance(Real)):** 다른 데이터(Testing)를 사용했을때 발생할 변화  
    <U>=> 분산이 작다면 다른 데이터로 예측시 적은 변동 예상</U>  
    <U>=> 분산이 크다면 다른 데이터로 예측시 많은 변동 예상</U>  
    
<center><img src='Image/Bias_Variance1.jpeg' width='400'></center>

> **(수학적 이해)**

\begin{align*}
\text{Equation of Error} && Err(x) &= E\Bigl[\bigl(Y-\hat{f}(x)\bigr)^2 \Bigr] \\
&& &= \Bigl(E[\hat{f}(x)] - f(x)\Bigr)^2 + E \Bigl[\bigl(\hat{f}(x) - E[\hat{f}(x)]\bigr)^2 \Bigr] + \sigma_{\epsilon}^2 \\
&& &= \text{Bias}^2 + \text{Variance} + \text{Irreducible Error}
\end{align*}

**2) 편향과 분산의 관계**
- **모델의 복잡도가 낮으면 Bias가 증가하고 Variance가 감소(Underfitting)**  
: 구간추정 범위는 좁으나 점추정 정확성 낮음  
: Training/Testing 모두 예측력이 낮음
- **모델의 복잡도가 높으면 Bias가 감소하고 Variance가 증가(Overfitting)**  
: 점추정 정확성은 높으나 구간추정 범위는 넓음  
: Training만 잘 예측력 높고 Testing은 예측력 낮음  
- **Bias와 Variance가 최소화 되는 수준에서 모델의 복잡도 선택**  

<center><img src='Image/Bias-Variance-Tradeoff.png' width='400'></center>
<center><img src='Image/Bias_Variance4.png' width='400'></center>

**3) 편향과 분산 모두를 최소화하는 방법**
<center><img src='Image/Bias_Variance_Reduce.png' width='600'></center>