## 지도학습 : 회귀 (시계열 모델)

회귀기반 지도학습은 예측 모델로 목표와 예측 변수간의 관계를 모델링하고 가능한 연속적 출력값을 예측하는 것이다.  
지도 회귀 기반 머신러닝은 대량의 데이터 및 처리기술을 사용할 수 있어 자산 가격 예측에 국한되지 않고 포트폴리오 관리, 보험 가격 책정, 상품 가격책정, 헤징, 위험관리 등 광법위한 재무 영역에 적용된다.

금융산업에서는 상당히 많은 자산 모젤링과 예측 문제가 시간 구성요소와 연속 출력의 추정과 관계된다. 따라서 시계열 모델을 다루는 것도 중요하다. 가장 광범위한 형태에서 시계열 분석은 과거에 일련의 데이터에서 무슨 일이 발생했는지 추론부터 앞으로 무슨 일이 발생할지 예측하는 것이다. 

대부분의 시계열 모델은 모수적인(parametric, 즉 알려진 함수가 데이터를 나타내는 것으로 가정) 반면에 대부분의 지도 회귀모델은 비모수적(nonparmetric)이다. 예측을 위해 시계열 모델은 주로 예측 변수의 과거 데이터를 사용하고 지도 학습 알고리즘은 외생 변수를 예측 변수로 사용한다. 
그러나 지도회귀는 시간 지연 접근방식을 통해 예측 변수의 과거 데이터를 포함할 수 있으며 시계열 모델은 예측을 위해 외생 변수를 사용할 수 있다.
따라서 지도회귀 및 시계열 모델은 예측을 위해 예측 변수의 과거 데이터만이 아니라 외생변수를 사용할 수 있다는 점에서 서로 유사하다. 최종 출력 측면에서 지도회귀 및 시계열 모델은 변수의 가능한 결과의 연속 집합을 추정한다.

### 시계열 모델 

시계열은 시간 지수로 정렬한 수의 순서이다. 

### 시계열 명세

* 추세요소 - 추세는 시계열에서 일관된 방향으로의 이동을 나타낸다. 추세는 결정론적(deterministic)이거나 확률적(stochastic)이다. 전자는 추세에 대해 근본적인 근거를 제시하는 반면 후자는 시계열의 임의의 특성을 나타낸다. 추세는 금융 계열에서 종종 볼 수 있으며 많은 거래 모델이 복잡한 추세 식별 알고리즘을 사용한다. 


* 계절요소 - 많은 시계열에는 계절적 변동이 따른다. 비즈니스 영업이나 기후 수준을 나타내는 계열에서 더욱 그렇다. 퀀트 금융에서 계절적 변동을 종종 보게 되는데, 특히 휴가철 혹은 연간 기온변동과 관련된 변동이다.

#### 시계열 $Yt$ 구성요소 

$yt = St + Tt + Rt $
 
 
$St$는 계절요소이고 $Tt$는 추세요소이다. $Rt$는 계절요소나 추세요소로 표현하지 못하는 시계열의 나머지 요소를 표현한다.

### 자기 상관과 고정성 


#### 자기 상관 

많은 경우에 시계열의 연속적 요소가 상관관계를 보여준다. 즉, 시계열에서 연속적 점들이 변화화면 그에 따라 서로 영향을 받는다. 자기 상관(autocorrelation)은 관측치 간의 유사성을 의미하는 것으로 관측치 간의 시간 지연의 함수로 나타낸다. 이러한 관계를 자기 회귀 모델을 이용해 모델링 할 수 있다. 자기 회귀(autoregression)라는 용어는 변수 자신에 대한 회귀가 있음을 말한다.

#### 고정성 

**시계열의 통계적 특성이 시간에 거려 변하지 않은다면 , 그 시계열은 고정적이라고 한다.** 그렇다면 추세나 계절성을 갖는 시계열은 고정적이지 않다. 추세와 계절성이 여러 시간에 걸쳐 시계열의 값에 영향을 주기 때문이다. 반면에 화이트 노이즈 시계열은 고정적이다. 왜냐하면 임의의 시간을 관찰할 때 항상 비슷한 패턴을 보여 주므로 관찰이 무의미하기 때문이다.

시계열의 주된 비고정성 요인은 추세와 계절성이다. 시계열 예측 모델을 사용하기 위해 비고정 계열을 고정 계열로 변환한다. 통계적 특성이 시간에 따라 변하지 않음을 감안할 때, 변환을 하면 모델 구현이 쉬워지기 때문이다.

#### 디퍼런싱   

시계열을 고정적으로 만드는 방법의 하나이다. **시계열의 연속항 간의 차를 계산하는 것으로**, 변동하는 평균을 제거하기 위해 수행한다. 

### 기존 시계열 모델 

대부분의 시계열 모델은 시계열에 내재된 자기 상관과 고정성을 해결하면서 추세, 계절, 잔여요소 포함을 목표로 한다.

### ARIMA , AutoRegressive Integrated Moving Average 
고정성을 자기 회귀와 이동평균 모델을 합친것

AR(p)는 현재의 계열값이 일정한 시간 지연으로 이전 계열값에 따라 달라진다고 가정하고 시계열을 자신의 계열에 회귀하는 자기 회귀. 
I(d)는 통합차수를 나타낸다. 시계열이 고정성을 갖기 위해 필요한 차의 수라고 할 수 있다.  
MA(q)는 이동평균을 나타낸다. 현재의 오류가 일정한 시간 지연으로 이전 오류에 따라 달라진다고 가정하고 시계열의 오류를 모델링한다.



#### ARIMAX - 외생변수가 있는 ARIMA 모델   

#### SARIMA - S는 계절성 , 이 모델은 다른 구성요소를 포함해 시계열에 내재된 계절성 요소를 모델링하는 것을 목표로 한다.  

#### VARMA - 모델은 다변수로 확장하는 것으로 여러 변수를 동시에 예측할 때 필요하다.

## 순환 신경망 

신경망에 '순환'이 붙은 이유는 순서의 각 요소에서 같은 일을 수행하고 요소의 출력이 이전 요소의 연산에 의존하기 때문이다. RNN모델은 메모리가 있어서 일정 시점까지 연산한 결과의 정보를 저장한다.

![image.png](attachment:image.png)

* Xt는 시점에 t에서의 입력
* Ot는 시점 t에서의 출력
* St는 시점 t에서의 은닉층이다. 망의 기억저장소로 이전 은닉층과 현 시점에서의 입력에 기반해 계산한다.

## 장단기 메모리(LSTM)

LSTM은 RNN의 한 종류로 장기 의존 문제를 해결하기 위해 설계되었다. 오랜 기간 정보를 기억하는 것은 LSTM 모델의 기본 기능이다. 모델은 셀의 집합으로 되어 있는데, 각 셀은 데이터의 순서를 기억하는 특성이 있으며 데이터의 흐름을 감지하고 저장한다. 나아가 셀은 과거의 모듈을 현재의 모듈과 연결시켜 정보를 과거 시간에서 현재 시간으로 전달한다. 각 셀은 gate가 있어서 다음 셀로의 전달 시 데이터를 제거, 여과 , 추가 할 수 있다.

인공 신경망층을 기반으로 한 게이트를 이용해 셀로 전달하는 데이터를 통과시키거나 제거하 수 있다. 각 층은 값이 0에서 1의 값을 가지는 수를 만들고, 각 셀을 통과하는 데이터의 양을 설명할 수 있다. 값이 0이라면 어떤 데이터도 통과하지 못하고, 값이 1이라면 모든 데이터가 통과한다는 의미이다. 각각의 LSTM은 셀의 상태를 통제할 못적으로 세 유형의 게이트를 가진다.

#### 망각 게이트
0과1 사이의 수를 출력하는데 , 1인 경우 완전히 기억하고 0인 경우 완전히 잊어버린다는 의미, 이 게이트는 과거를 잊을지 아니면 보존할지를 조건적으로 결정한다.

#### 입력 게이트
셀에 저장할 새로운 데이터를 선택한다.

#### 출력 게이트 
각 셀에서 무엇을 생성할지 결정한다. 생성되는 값은 셀 상태와, 여과되고 새로 추가된 데이터를 기반으로 한다.