# Chapter 5 Time series regression models

* forcast variable y가 predictor variable x에 선형적으로 관련성이 있다는 가정하에 모델링
  * 예) 월별 판매량 y를, 광고 집행비 x로 선형적으로 설명
* forcast variable
  * regressand, dependent or explained 
* predictor variable
  * regressors, independent or explanatory

## Simple Linear Regresssion

* slope, intercept, error
  * 에러는 실제 에러가 아니라, x로 설명되지 않는 factor들의 종합적 영향을 표현하는 것

![](./images/ch05/01.png)
![](./images/ch05/02.png)


### Example: US consumption expenditure

* 가처분 소득 변화율(x)와 지출 변화율(y)

![](./images/ch05/03.png)
![](./images/ch05/04.png)


## Multiple Linear Regresssion

![](./images/ch05/05.png)

### Example: US consumption expenditure

* 다양한 predictor 고려
  * 산업 생산량 변화, 저축률 변화, 실업율 변화
  
![](./images/ch05/06.png)

* scatterplot으로 개별 predictor와 forcasting variable사이의 관련성, predictor들끼리의 상관성 도식화
  * 소득 증가와, 산업 생산량 증가와는 +의 상관관계
  * 저축률 증가와, 실업률 증가와는 -의 상관관계
![](./images/ch05/07.png)

## error term에 대한 가정

* zero mean을 가져야 한다. 아니라면 systematic bias가 생김
* autocorrelated되지 말아야 한다. 아니라면 forcasting이 비효율적이 된다. 
* predictor들과는 unrelated되지 말아야 한다. 아니라면 model에 반영되야할 어떤 시스템적인 특성이 더 있다는 말이다. 
* gaussian 분포를 갖되 constant varience까지 갖는다면 prediction interval 구할 때 매우 도움이 된다. 

## 5.2 Least squares estimation

![](./images/ch05/08.png)

![](./images/ch05/09.png)

### Goodness-of-fit

#### R-squared

* square of the correlation between the observed yvalues and the predicted y_hat values.
* reflects the proportion of variation in the forecast variable that is accounted for (or explained) by the regression model.
  * 예를 들어 값이 0.74라면 74%의 variation을 설명하는 것이라고 볼 수 있다. 
* perfect fit이면 1, unrelated fit이라면 0

![](./images/ch05/10.png)

* 한계점 
  * 부정확할 수 있다.
    * predictor를 추가할 때마다 늘어만 간다. 절대 줄어들지 않는다. 
  * data마다 적절한 값 기준이 다르다. 
  * 이처럼 training data에 대한 R-squared값을 구하는 것보다는 test data에 대한 perf metric을 구하는 것이 훨씬 낫다. 

#### Standard error of regression

* standard deviation of residuals
* 에러의 누적 총량이 아니라 에러의 varience에 집중
* k개의 predictor 개수로 보정

![](./images/ch05/11.png)

## 5.3 Evaluating the regression model

### residual
* 관측값 - 예측값 
* residual은 zero mean
* redisual과 predictor와는 uncorrelated

![](./images/ch05/12.png)
![](./images/ch05/13.png)


### ACF plot of residuals

* 관측값은 autocorrelated가 강하다. 왜냐하면 previous(next) time 관측값은 current값과 연관이 있기 때문에
* 마찬가지로 residual에서도 이러한 autocorrelation이 있는지를 조사하는 것이 중요 
* 만약 autocorrelated되었다면
  * 선형 모델링의 가정인 uncorrelated residual가정이 무너진다. 
  * 즉 시스템적으로 무언가 반영할 만한 정보가 있다는 뜻이고, 모델링이 덜 됬다는 신호
  * 예측의 부정확성을 증가시키므로, prediction interval이 늘어나게 되는 결과 초래
  
![](./images/ch05/14.png)

* Breusch-Godfrey test( or Lagrange Multiplier test) 를 통해 autocorrelated여부를 세밀하게 따지게 된다. 
  * 작은 p이면 uncorrelated

![](./images/ch05/15.png)


### Residual plots against predictors

* 선형 모델에서는 predictor와 residual은 uncorrelated되어야 한다. 
* scatterplot을 통해서 이를 검증해 본다. 
* 만약 correlated되어 있다면, 더이상 선형 모델로는 부족하고, 비선형 모델링으로 전환해야 한다. 

![](./images/ch05/16.png)

### Residual plots against fitted values

* 어떤 패턴도 발견되서는 안된다. 
* 아니라면 소위, 에러 내에 이분산성(heteroscedasticity)이 있는 상황으로 의심됨 
  * 에러의 varience가 x 값이 따라서 달라지는 현상

![](./images/ch05/18.png)

* 이분산성이란?
  * variability of variable이 값에 따라서 달라지는 상황
  * 아래 그림에서는 나이에 따른 소득 수준을 그린 것이다.
  * 소득 편차는 나이대에 따라 다르다. 십대에서는 모두가 소득이 낮다. 하지만 20~30대 갈수록 빈부격차가 강화되고, 50~60대 가면 격차가 극에 달한다. 
  
![](./images/ch05/17.png)


### Outliers and influential observations

* outlier란?
  * extreme value 
* influential observation이란?
  * 모델의 parameter값 결정에 많은 영향을 끼친 관측값들
* outlier는 보통 influential하다고 말할 수 있다. 

![](./images/ch05/19.png)

* outlier에 어떻게 대처할 것인가? 
  * 일단 어떻게 발견할 것인가? 
    * min/max와 같은 간단한 방법으로 수동 발견, scatterplot으로 눈대중으로, 좀더 정교한 통계 방법으로..
  * unlikely outlier라고 판단되면 그냥 제거 
    * 실제값이라기 보다는 잘못 기록된 값이라고 생각되면 제거 
  * likely outlier라고 여거지면
    * 제거한 경우의 fit과 제거하지 않은 경우의 fit 모두를 해보고 검토해 본다. 
    
### Spurious regression

* 시계열 데이터가 non-stationary한 경우도 있다. 
  * 즉 시간에 따라 분포가 달라진다 (change of mean, variance)
  * 이런 경우 선형 모델에 미치는 영향은 어떻게 될까?
* 비정적 시계열 데이터를 선형 모델링을 하면 Spurious regression이 된다. 
  * 과도한 R-sqaured와 autocorrelated residual이 관측
  * 아래 예시에서는 서로 상관없는 기니의 쌀 생산량과 호주의 비행기 이용객 수를 억지로 선형 모델할 때 spurious regression이 생기는 경우 
  
![](./images/ch05/20.png)
![](./images/ch05/21.png)
![](./images/ch05/22.png)