## 검증지표(Evaluation Metrics)과 잔차진단(Residuals Diagnostics) 방향
>**"예측 분석 이후 예측이 잘 되었는지 그리고 데이터의 시간패턴이 잘 추출 되었는지 평가하는 것이 중요합니다."**
- 검증지표는 예측값과 실제값이 얼마나 비슷한지를 측정하는 것이며, 모형이 시간특성을 잘 잡아내는지를 측정하지는 않음  
- 시간특성 패턴이 잘 추출되었는지 확인하기 위해선 잔차(또는 에러) 진단을 통해 백색잡음(White Noise)과 얼마나 유사한지 측정=> <U>"Residual Diagnostics" or "Error Analysis"</U>

### 잔차진단(Residual Diagnostics)

>"White Noise는 2가지의 속성을 만족해야 하며 하나라도 만족하지 못하면 모델이 개선의 여지가 있음을 의미합니다."  

- White Noise, $WN$:   
<center><img src='Image/White_Noise.png' width='300'></center>
    
1) 잔차들은 평균이 0인 정규분포를 이루고 시간 변화에 대해 균일한 분산을 가져야 한다(i.i.d(independent and identically distributed)  
\begin{align}
\{\epsilon_t : t = \dots, -2, -1, 0, 1, 2, \dots\} \sim N(0,\sigma^2_{\epsilon_t}) \\
\end{align}
\begin{align}
where~~ \epsilon_t \sim  i.i.d(independent~and~identically~distributed) \\
\end{align}
\begin{align}
\epsilon_t = Y_t - \hat{Y_t}, \;\; E(\epsilon_t) = 0, \;\; Var(\epsilon_t) = \sigma^2_{\epsilon_t} \\
\end{align}
\begin{align}
Cov(\epsilon_s, \epsilon_k) = 0~for~different~times!(s \ne k)
\end{align}
    
2) 잔차들이 시간의 흐름에 따라 상관성이 없어야 함:
- 임의의 서로 다른 두 시점 간의 Correlation은 없다.
- 자기상관함수(Autocorrelation Function([ACF](https://en.wikipedia.org/wiki/Autocorrelation)))를 통해 $Autocorrelation~=~0$인지 확인
    - 공분산(Covariance): 
    <center>$Cov(\epsilon_s, \epsilon_k)$ = $E[(\epsilon_s-E(\epsilon_s))$$(\epsilon_k-E(\epsilon_k))]$ = $\gamma_{s,k}$</center>
    - 자기상관함수(Autocorrelation Function): 
    <center>$Corr(\epsilon_s, \epsilon_k)$ = $\dfrac{Cov(\epsilon_s, \epsilon_k)}{\sqrt{Var(\epsilon_s)Var(\epsilon_k)}}$ = $\dfrac{\gamma_{s,k}}{\sqrt{\gamma_s \gamma_k}}$</center>
    - 편자기상관함수(Partial Autocorrelation Function): $s$와 $k$사이의 상관성을 제거한 자기상관함수
    <center>$Corr[(\epsilon_s-\hat{\epsilon}_s, \epsilon_{s-t}-\hat{\epsilon}_{s-t})]$ for $1<t<k$</center>
            
            
- 회귀분석 가정과의 비교:
    - 종속변수와 독립변수 간에 선형성의 관계를 가져야 함
    - 독립변수들 간에 서로 독립이어야 함
    - 잔차의 분포가 정규분포이어야 함
    - 잔차들이 서로 독립적으로 움직여야 함
    - 잔차들의 분산이 서로 같아야 함


- 자기상관 테스트 활용예시:
    - Apply a portmanteau test to check the hypothesis that residuals are uncorrelated.
    <center><img src='Image/Portmanteau_Test.jpg' width='600'></center>
    - Plot the Autocorrelation function (ACF) and evaluate that at least 95% of the spikes are on the interval.
    <center><img src='Image/Residual_Plot.png' width='700'></center>    

## 검증(Evaluation)

- **검증지표(Metrics):** 

**1) R-squared(R^2):** 추정된 (선형)모형이 주어진 데이터에 잘 적합된 정도, $(- \infty, 1]$  
<center>
$R^2$ = $\dfrac{ESS}{TSS}$ = $\dfrac{\sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$ = $1 - \dfrac{RSS}{TSS}$ = $1 - \dfrac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$
</center>

> <center><img src='Image/R2_decomposition1.png' width='600'></center>

> <center><img src='Image/R2_decomposition2.png' width='600'></center>

- **(비수학적 이해)**
    - TSS: 종속변수값의 움직임의 범위
    - ESS: 모형에서 나온 예측값의 움직임의 범위
    - RSS: 잔차의 움직임의 범위, 즉 오차의 크기
    > 모형 예측치의 움직임의 크기(분산)은 종속변수의 움직임의 크기(분산)보다 클 수 없다  
    > 모형의 성능이 좋을수록 모형 예측치의 움직임의 크기는 종속변수의 움직임의 크기와 비슷해진다  

**2) t-검정:** t분포를 따르는 추정계수로 독립변수와 종속변수 간의 선형관계(관련성) 존재 의사결정을 위한 신뢰성 정도

- **검정통계량(t-통계량)**: <center>$t = \dfrac{\hat{\beta}_i - \beta_i}{se_{\hat{\beta}_i}}$</center>  
    
    - $t$ 값이 작다는 것은 표준편차가 크다는 것 -> 독립변수와 종속변수의 상관성이 낮음  
    - $t$ 값이 크다는 것은 표준편차가 작다는 것 -> 독립변수와 종속변수의 상관성이 높음  

>- **가설확인**
    - **대중주장(귀무가설, Null Hypothesis, $H_0$)**  
    : $\beta_i = 0 \;\; (i=0, \ldots, K-1)$ / 추정계수는 0이다 / 독립변수와 종속변수의 상관관계(선형관계)가 없다
    - **나의주장(대립가설, Alternate Hypothesis, $H_1$)**  
    : $\beta_i \neq 0 \;\; (i=0, \ldots, K-1)$ / 추정계수는 0이 아니다 / 독립변수와 종속변수의 상관관계(선형관계)가 있다
> - **의사결정**
    - **p-value >= 내기준(ex. 0.05):** 내가 분석한 계수는 대중주장과 유사하기 때문에 대중주장 참 & 나의주장 거짓  
    : **분석한 변수는 모델링에 영향력이 없다**
    - **p-value < 내기준(ex. 0.05):** 내가 분석한 계수는 대중주장을 벗어나기 때문에 대중주장 거짓 & 나의주장 참  
    : **분석한 변수는 모델링에 영향력이 있다**


**3) 분산분석을 통한 F-검정:**
- **필요성:** 
    - 변수의 단위 즉, 스케일이 달라지면 회귀분석과 상관없이 잔차제곱합(Residula Sum of Square) 달라짐  
    - 분산 분석(Analysis of Variance(ANOVA))은 종속변수의 분산과 독립변수의 분산간의 관계를 사용하여 성능 평가  


- **검정통계량(F-통계량):** 분산분석표(ANOVA Table)를 통해 쉽게 계산되며, $T$는 데이터의 갯수, $K$는 변수의 갯수

| Source | Degree of Freedom | Sum of Square | Mean Square | F test-statstics | p-value |
|------------|-------------------|---------------|------------------------------------------|-------------------------------------------------------|-----------|
| Regression | $K-1$ | $ESS$ | $\sigma_{\hat{Y}}^2 = \dfrac{ESS}{K-1}$ | $F = \dfrac{\sigma_{\hat{Y}}^2}{\sigma_{\epsilon}^2}$ | $p-value$ |
| Residual | $T-K$ | $RSS$ | $\sigma_{\epsilon}^2 = \dfrac{RSS}{T-K}$ | - | - |
| Total | $T-1$ | $TSS$ | $\sigma_{Y}^2 = \dfrac{TSS}{T-1}$ | - | - |
| $R^2$ | - | $ESS/TSS$ | - | - | - |

<center>$\dfrac{ESS}{K-1} \div \dfrac{RSS}{T-K} \sim F(K-1, T-K)$</center>

>- **가설확인**
    - **대중주장(귀무가설, Null Hypothesis, $H_0$)**  
    : $\beta_0  = \beta_1 = \cdots = \beta_{K-1} = 0$ / 모든 추정계수는 0이다 / 모형은 아무 효과가 없다 / $R^2$ = 0
    - **나의주장(대립가설, Alternate Hypothesis, $H_1$)**  
    : $\beta_0  \neq \beta_1 \neq \cdots \neq \beta_{K-1} \neq 0$ / 모든 추정계수는 0이 아니다 / 모형은 효과가 있다 / $R^2 \neq 0$  

> - **의사결정**
    - **p-value >= 내기준(ex. 0.05):** 내가 분석한 결과는 대중주장과 유사하기 때문에 대중주장 참 & 나의주장 거짓  
    : **분석한 모델링은 효과가 없다 / 모델은 데이터 패턴을 잘 추정하지 못한다**
    - **p-value < 내기준(ex. 0.05):** 내가 분석한 결과는 대중주장을 벗어나기 때문에 대중주장 거짓 & 나의주장 참  
    : **분석한 모델링은 효과가 있다 / 모델은 데이터 패턴을 잘 추정한다**
    
**3) 정보량기준(Information Criterion):** 회귀분석 외에도 다양한 알고리즘에 활용, 값이 작을수록 올바른 모형 (Likelihood는 클수록 올바른 모형)

- **[AIC(Akaike Information Criterion)](https://en.wikipedia.org/wiki/Akaike_information_criterion)**  
: 모형과 데이터의 확률 분포 사이의 Kullback-Leibler 수준을 가장 크게하기 위한 시도 

<center>$AIC = -2log(L) + 2K$</center>
<center>($L$: likelihood, $K$: 추정할 파라미터의 수(일반적으로 column수))</center>

- **[BIC(Bayesian Information Criterion)](https://en.wikipedia.org/wiki/Bayesian_information_criterion)**  
: 데이터가 exponential family라는 가정하에 주어진 데이터에서 모형의 likelihood를 측정하기 위한 값에서 유도 

<center>$BIC = -2log(L) + Klog(T)$</center>
<center>($L$: likelihood, $K$: 추정할 파라미터의 수(일반적으로 column수), $T$: 데이터의 수(일반적으로 row수))</center>

<center><img src='Image/AIC_BIC.gif' width='600'></center>

## 잔차진단(Residual Diagnostics)

- **회귀분석 가정 내:**
    - ~~종속변수와 독립변수 간에 선형성의 관계를 가져야 함~~
    - ~~독립변수들 간에 서로 독립이어야 함~~
    - 잔차의 분포가 정규분포이어야 함
    - 잔차들이 서로 독립적으로 움직여야 함
    - 잔차들의 분산이 서로 같아야 함
    
    
- **시계열 회귀분석 잔차진단 차이 적용:**
    - 정상성 테스트: 잔차가 백색잡음의 형태인지
    - 정규분포 테스트: 잔차가 정규분포의 형태인지
    - 자기상관 테스트: 잔차가 서로 시간흐름에서 독립적인지
    - 등분산성 테스트: 잔차가 분산이 일정한지

### 정상성 테스트(Stationarity Test)

**1) 시각화 테스트(by Visual):** 트랜드와 계절성이 없는지를 파악하여 안정성 확인  
<center><img src='Image/Stationary_Visual.png' width='500'></center>

**2) 기초통계 테스트(by Summary Statistics):** 특정시간(ex. 계절)에 따른 기초통계가 랜덤한지 파악하여 안정성 확인  
**3) 검정통계량 테스트(by Statistical Statistics Test):** 정상성을 테스트하는 검정통계량을 통해 안정성 가설 확인  

> [**"In statistics, a unit root test tests whether a time series variable is non-stationary and possesses a unit root."**](https://en.wikipedia.org/wiki/Unit_root_test)

- [**Augmented Dickey-Fuller(ADF) test:**](https://en.wikipedia.org/wiki/Augmented_Dickey%E2%80%93Fuller_test)
    - **가설확인**
        - **대중주장(귀무가설, Null Hypothesis, $H_0$):** 시계열 데이터는 단위근(Unit Root)를 있다 / 비정상 상태이다 / 시간의존 구조이다
        - **나의주장(대립가설, Alternative Hypothesis, $H_1$):** 시계열 데이터는 단위근이 없다 / 정상 상태이다 / 시간의존 구조가 아니다
    - **의사결정**
        - **p-value >= 내기준(ex. 0.05):** 내가 수집한(분석한) 시계열 데이터가 대중주장과 유사하기 때문에 대중주장 참 & 나의주장 거짓
        > **수집한(분석한) 시계열 데이터는 단위근이 있다 / 비정상 상태이다 / 시간의존 구조이다**
        - **p-value < 내기준(ex. 0.05):** 내가 수집한(분석한) 시계열 데이터가 대중주장을 벗어나기 때문에 대중주장 거짓 & 나의주장 참
        > **수집한(분석한) 시계열 데이터는 단위근이 없다 / 정상 상태이다 / 시간의존 구조가 아니다**
      
- [**ADF-GLS test:**](https://en.wikipedia.org/wiki/ADF-GLS_test)  
    - **가설확인:** ADF와 동일
  
- [**Phillips–Perron(PP) test:**](https://en.wikipedia.org/wiki/Phillips%E2%80%93Perron_test)  
    - **가설확인:** ADF와 동일
  
- [**Kwiatkowski Phillips Schmidt Shin(KPSS) test:**](https://en.wikipedia.org/wiki/Phillips%E2%80%93Perron_test)  
    - **가설확인:** ADF와 **반대**

## 검증지표 방향

### 성능비교를 위한 대표적 검증지표(Metrics)

- **R-squared(R^2):** 추정된 (선형)모형이 주어진 데이터에 잘 적합된 정도, 계량경제학에서는 모델에 의해 설명되는 데이터 분산의 정도(퍼센트), $(- \infty, 1]$  
<center>$R^2$ = $\dfrac{ESS}{TSS}$ = $\dfrac{\sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$ = $1 - \dfrac{RSS}{TSS}$ = $1 - \dfrac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$</center>

~~~
`sklearn.metrics.r2_score`
~~~

- **Mean Absolute Error(MAE):** 각 데이터의 단위를 보존하는 성능지표, $[0, +\infty)$
<center>$MAE = \dfrac{1}{n}$ $\sum\limits_{i=1}^{n} |y_i - \hat{y}_i|$</center>

~~~
sklearn.metrics.mean_absolute_error
~~~

- **Mean Squared Error(MSE):** 가장 많이 사용되며 큰 오차에 패널티(Penalty)를 높게 부여하는 성능지표, $[0, +\infty)$  
<center>$MSE = \dfrac{1}{n}$ $\sum\limits_{i=1}^{n} (y_i - \hat{y}_i)^2$</center>

~~~
sklearn.metrics.mean_squared_error
~~~

- **Mean Squared Logarithmic Error(MSLE):** MSE와 유사하나 큰값/작은값에 적은/많은 비중(Weignt)을 부여하는 성능지표, Exponential 추세가 있는 데이터에 많이 활용, $[0, +\infty)$  
<center>$MSLE = \dfrac{1}{n}$ $\sum\limits_{i=1}^{n} (log(1+y_i) - log(1+\hat{y}_i))^2$</center>

~~~
sklearn.metrics.mean_squared_log_error
~~~

- **Median Absolute Error(MedAE):** 이상치에 영향을 받지 않는(Robust) 성능지표, $[0, +\infty)$
<center>$MedAE = median(|y_1 - \hat{y}_1|, |y_2 - \hat{y}_2|, ... , |y_n - \hat{y}_n|)$</center>

~~~
sklearn.metrics.median_absolute_error
~~~

- **Root Mean Squared Error(RMSE):** MSE의 제곱값을 보정한 성능지표, $[0, +\infty)$  
<center>$RMSE = \sqrt{MSE}$</center>

- **Mean Absolute Percentage Error(MAPE):** MAE와 유사하나 퍼센트 형식으로 표시한 성능지표, $[0, +\infty)$
<center>$MAPE = \dfrac{100}{n}$ $\sum\limits_{i=1}^{n} \dfrac{|y_i - \hat{y}_i|}{y_i}$</center>

- **Mean Percentage Error(MPE):** MAPE와 유사하나 오차의 부호(+/-)까지 고려한 성능지표, $(-\infty, +\infty)$
<center>$MPE = \dfrac{100}{n}$ $\sum\limits_{i=1}^{n} \dfrac{y_i - \hat{y}_i}{y_i}$</center>

- **Summary:**

| Acroynm | Full Name | Residual Operation? | Robust to Outliers? |
|---------|--------------------------------|---------------------|---------------------|
| MAE | Mean Absolute Error | Absolute Value | Yes |
| MSE | Mean Squared Error | Square | No |
| MedAE | Median Absolute Error | Absolute Value | Yes |
| RMSE | Root Mean Squared Error | Square | No |
| MAPE | Mean Absolute Percentage Error | Absolute Value | Yes |
| MPE | Mean Percentage Error | N/A | Yes |


## 잔차진단 방향
> **"모델링이 데이터의 패턴을 최대한 반영했을 경우 분석을 마무리 해도 좋다"**

### [정상성 테스트](https://en.wikipedia.org/wiki/Unit_root_test)

- [**Augmented Dickey-Fuller(ADF) test:**](https://en.wikipedia.org/wiki/Augmented_Dickey%E2%80%93Fuller_test)
    - **가설확인**
        - **대중주장(귀무가설, Null Hypothesis, $H_0$):** 시계열 데이터는 단위근(Unit Root)를 있다 / Non-stationary / Time-dependent
        - **나의주장(대립가설, Alternative Hypothesis, $H_1$):** 시계열 데이터는 단위근이 없다 / Stationary / Time-independent
    - **의사결정**
        - **p-value >= 내기준(ex. 0.05):** 내가 수집한(분석한) 시계열 데이터가 대중주장과 유사하기 때문에 대중주장 참 & 나의주장 거짓
        > **수집한(분석한) 시계열 데이터는 단위근이 있다 / 비정상 상태이다 / 시간의존 구조이다**
        - **p-value < 내기준(ex. 0.05):** 내가 수집한(분석한) 시계열 데이터가 대중주장을 벗어나기 때문에 대중주장 거짓 & 나의주장 참
        > **수집한(분석한) 시계열 데이터는 단위근이 없다 / 정상 상태이다 / 시간의존 구조가 아니다**
      
- [**ADF-GLS test:**](https://en.wikipedia.org/wiki/ADF-GLS_test)  
    - **가설확인:** ADF와 동일
  
- [**Phillips–Perron(PP) test:**](https://en.wikipedia.org/wiki/Phillips%E2%80%93Perron_test)  
    - **가설확인:** ADF와 동일
  
- [**Kwiatkowski Phillips Schmidt Shin(KPSS) test:**](https://en.wikipedia.org/wiki/Phillips%E2%80%93Perron_test)  
    - **가설확인:** ADF와 **반대**

### [정규분포 테스트(Normality Test)](https://en.wikipedia.org/wiki/Normality_test)

- [Shapiro–Wilk test:](https://en.wikipedia.org/wiki/Shapiro%E2%80%93Wilk_test)
    - 가설확인
        - Null Hypothesis $H_0$: The residuals are normally distributed.
        - 나의주장(대립가설, Alternative Hypothesis, $H_1$): 데이터는 정규분포가 아닌 형태다
    - 의사결정
        - p-value >= 내기준(ex. 0.05): 내가 수집한(분석한) 데이터가 대중주장과 유사하기 때문에 대중주장 참 & 나의주장 거짓
        > 내가 수집한(분석한) 데이터는 정규분포 형태이다
        - p-value < 내기준(ex. 0.05): 내가 수집한(분석한) 데이터가 대중주장을 벗어나기 때문에 대중주장 거짓 & 나의주장 참
        > 내가 수집한(분석한) 데이터는 정규분포가 아닌 형태다

- [Kolmogorov–Smirnov test:](https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test)
    - 가설확인: Shapiro–Wilk와 동일
  
- [Lilliefors test:](https://en.wikipedia.org/wiki/Lilliefors_test)
    - 가설확인: Shapiro–Wilk와 동일
  
- [Anderson–Darling test:](https://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test)
    - 가설확인: Shapiro–Wilk와 동일
  
- [Jarque–Bera test:](https://en.wikipedia.org/wiki/Jarque%E2%80%93Bera_test)
    - 가설확인: Shapiro–Wilk와 동일
  
- [Pearson's chi-squared test:](https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test)
    - 가설확인: Shapiro–Wilk와 동일
  
- [D'Agostino's K-squared test:](https://en.wikipedia.org/wiki/D%27Agostino%27s_K-squared_test)
    - 가설확인: Shapiro–Wilk와 동일

### Autocorrelation Test
- 가설확인
    - Null Hypothesis $H_0$: 시계열 데이터의 Autocorrelation은 0이다(존재하지 않는다)
    - Alternative Hypothesis $H_1$: 시계열 데이터의 Autocorrelation은 0이 아니다(존재한다)
    
#### Ljung–Box Test, Portmanteau Test, Breusch–Godfrey Test
- 의사결정
    - p-value >= 내기준(ex. 0.05): 내가 수집한(분석한) 데이터가 대중주장과 유사하기 때문에 대중주장 참 & 나의주장 거짓
    > 내가 수집한(분석한) 시계열 데이터의 Autocorrelation은 존재하지 않는다
    - p-value < 내기준(ex. 0.05): 내가 수집한(분석한) 데이터가 대중주장을 벗어나기 때문에 대중주장 거짓 & 나의주장 참
    > 내가 수집한(분석한) 시계열 데이터의 Autocorrelation은 존재한다
  
#### Durbin–Watson Statistic
- 의사결정: 검정통계량 범위 - $[0, 4]$
    - 2 근방: 내가 수집한(분석한) 데이터가 대중주장과 유사하기 때문에 대중주장 참 & 나의주장 거짓
    > 내가 수집한(분석한) 시계열 데이터의 Autocorrelation은 존재하지 않는다
    - 0 또는 4 근방: 내가 수집한(분석한) 데이터가 대중주장을 벗어나기 때문에 대중주장 거짓 & 나의주장 참
    > 내가 수집한(분석한) 시계열 데이터의 Autocorrelation은 존재한다
        - 0: 양(Positive)의 Autocorrelation 존재한다
        - 4: 음(Negative)의 Autocorrelation 존재한다

### Homoscedasticity Test

#### Goldfeld–Quandt Test, Breusch–Pagan Test, Bartlett's Test
- 가설확인
    - 대중주장(귀무가설, Null Hypothesis, $H_0$): 시계열 데이터의 Homoscedasticity 상태다(등분산이다)
    - 나의주장(대립가설, Alternative Hypothesis, $H_1$): 시계열 데이터의 Heteroscedasticity 상태다(등분산이 아니다 / 발산하는 분산이다)
- 의사결정
    - p-value >= 내기준(ex. 0.05): 내가 수집한(분석한) 데이터가 대중주장과 유사하기 때문에 대중주장 참 & 나의주장 거짓
    > 내가 수집한(분석한) 시계열 데이터는 등분산이다
    - p-value < 내기준(ex. 0.05): 내가 수집한(분석한) 데이터가 대중주장을 벗어나기 때문에 대중주장 거짓 & 나의주장 참
    > 내가 수집한(분석한) 시계열 데이터는 등분산이 아니다