# 1장. 다중 선형 회귀

---

## 학습 목표
- 다중 선형 회귀의 최적화 방식을 학습합니다. 
- 다중 선형 회귀 class를 구현합니다.

---

## 목차

### 1. 다중 선형 회귀 모델
1. 다중 선형 회귀란?

### 2. 다중 선형 회귀 최적화
1. 다중 선형 회귀 least square solution
2. 다중 선형 회귀 gradient descent

### 3. 다중 선형 회귀 함수 class 
1. 단중 선형 회귀 class 구조
2. 함수 정의
3. scikit-learn 모듈


---

## 2.  다중 선형 회귀 최적화

### 2-1. 다중 선형 회귀 least square solution

단순 선형 회귀때와 같은 진행 방식으로 최적화 과정을 거치기 전에 앞서 필요한 요소들을 정리해 봅시다.

#### 학습 데이터

다중 회귀 모델에 대해서 설명하기 앞서 학습 데이터가 어떤 형태를 갖고 있는지 알아봅시다.

##### 학습용 feature 데이터
> $$X_{feature}=\begin{pmatrix}
\mathbf{x_1}^T \\ 
\mathbf{x_2}^T \\ 
\vdots \\ 
\mathbf{x_N}^T
\end{pmatrix}=\begin{pmatrix}
 x_{1,1} & ... & x_{1,p} \\ 
 x_{2,1} & ... & x_{2,p} \\ 
 \vdots  & \ddots  & \vdots \\ 
 x_{N,1} & ... & x_{N,p}
\end{pmatrix}, \;\;\;\;\; $$

##### 학습용 lable 데이터
> $$\mathbf{y}=\begin{pmatrix}
y_1 \\ 
y_2 \\ 
\vdots \\ 
y_N
\end{pmatrix}. \;\;\;\;\; $$

다중 선형 회귀이기에 2개 이상인 $p$개의 feature column을 갖는 데이터를 사용하게 됩니다.

#### 다중 선형 회귀 모델

이번엔 다중 선형 회귀 모델에 대해서 정의해 봅시다.

다중 선형 회귀 모델은 $p$개의 feature column을 입력으로 하여 1차 함수 형태로 회귀 모델을 구현한 것을 의미합니다.

##### 다중 선형 회귀 모델  f()
> $$f(\mathbf{x_i})=w_0+w_1 x_{i,1}+w_2 x_{i,2}+...+w_p x_{i,p}$$

$w_0, w_1, w_2,...,w_p$은 1차 함수 모델 $f()$의 파라미터를 의미합니다.

일반화 된 형태의 least square solution을 구하기 위해서 보다 효율적으로 다중 선형 회귀 모델을 표현할 수 있는 행렬식으로 정리해보겠습니다.

##### 다중 선형 회귀 모델 F()

> $$F(X) = X\mathbf{w}$$

> $$X=\begin{pmatrix}
1 & x_{1,1} & ... & x_{1,p} \\ 
1 & x_{2,1} & ... & x_{2,p} \\ 
1 & \vdots  & \ddots  & \vdots \\ 
1 & x_{N,1} & ... & x_{N,p}
\end{pmatrix}, \;\;\;\;\; \mathbf{w}=\begin{pmatrix}
w_0 \\ 
w_1 \\ 
w_2 \\ 
\vdots \\ 
w_p
\end{pmatrix}, \;\;\;\;\; $$

$X$는 기존 feature 데이터에서 1만으로 이루어진 column을 추가한 형태를 의미합니다. 

$\mathbf{w}$는 파라미터로 이루어진 벡터를 의미합니다.

##### <예제 1> 다중 선형 회귀 모델링

다중 선형 회귀 모델을 만들어 2개 이상의 column 배열을 갖는 feature 데이터를 입력하고 예측값을 출력하여 봅시다.

In [21]:
import numpy as np

# feature 데이터
X_feature = np.array([[1, 2, 3, 4],[3, 6, 7, 8]]).transpose()
# 1 column 이 추가된 feature 데이터
X = np.c_[np.ones((X_feature.shape[0],1)),X_feature]
# label 데이터
Y = np.array([3.1, 4.9, 7.2, 8.9]).reshape((-1,1))

print("X_feature: \n{}\n".format(X_feature))
print("X: \n{}\n".format(X))
print("Y: \n{}\n".format(Y))

X_feature: 
[[1 3]
 [2 6]
 [3 7]
 [4 8]]

X: 
[[1. 1. 3.]
 [1. 2. 6.]
 [1. 3. 7.]
 [1. 4. 8.]]

Y: 
[[3.1]
 [4.9]
 [7.2]
 [8.9]]



In [22]:
# 파라미터 column 설정
w = np.array([1,1,1]).reshape((-1,1))

# 다중 선형 모델 함수
def F_X(w,X):
    return np.dot(X,w)

print("F(X): \n{}\n".format(F_X(w,X)))

F(X): 
[[ 5.]
 [ 9.]
 [11.]
 [13.]]



#### loss 함수 최적화

다중 선형 회귀 모델을 정리 했으니 마지막으로 loss 함수를 정리해 봅시다.

##### loss 함수

> $$
\begin{aligned}
Loss(\mathbf{w})&=\frac{1}{N}\sum_{i=1}^{N}(y_i-f(\mathbf{x_i}))^{2} \\
&=\frac{1}{N}(\mathbf{y}-X\mathbf{w})^{T}(\mathbf{y}-X\mathbf{w})
\end{aligned}$$

행렬 수식이 등장해 다소 헷갈릴 수 있지만 이것을 풀어보면 결국 같다는 것을 확인 할 수 있습니다.

##### 오차

> $$(\mathbf{y}-X\mathbf{w})=\begin{pmatrix}
y_1-(w_0 + w_1 x_{1,1} + .... + w_p x_{1,p}) \\ 
y_2-(w_0 + w_1 x_{2,1} + .... + w_p x_{2,p}) \\ 
\vdots \\ 
y_p-(w_0 + w_1 x_{p,1} + .... + w_p x_{p,p})
\end{pmatrix}. \;\;\;\;\; $$

여기서 least square solution을 구하게 되면 다음과 같이 구할 수 있습니다.

##### least sqaure solution

> $$\mathbf{\widehat{w}}=(X^{T}X)^{-1}X^{T}\mathbf{y}$$

$\mathbf{\widehat{w}}$은 loss 값을 최소로 만드는 파라미터 벡터를 의미합니다.

이에 대한 유도 과정은 뒤의 심화 과정에서 설명하도록 하겠습니다.

##### <예제 2> 다중 선형 회귀 구현 - least square 

다중 선형 회귀 최적의 파라미터를 least square로 구하고 최소화 된 loss 값을 출력해 봅시다.

In [20]:
import numpy as np


# feature 데이터
X_feature = np.array([[1, 2, 3, 4],[3, 6, 7, 8]]).transpose()
# 1 column 이 추가된 feature 데이터
X = np.c_[np.ones((X_feature.shape[0],1)),X_feature]
# label 데이터
Y = np.array([3.1, 4.9, 7.2, 8.9]).reshape((-1,1))


w = np.dot(np.linalg.inv(np.dot(X.transpose(),X)),np.dot(X.transpose(),Y))

# 다중 선형 모델 함수
def F_X(w,X):
    return np.dot(X,w)


def loss(f_x, label_data):
    error = label_data - f_x
    ls = np.mean(error**2)
    return ls

print("loss: {}\n".format(loss(F_X(w,X),Y)))

loss: 0.014999999999999982



 ---

**심화 학습 - 다중 선형 회귀 least square 유도**

단순 선형 회귀 때와 마찬가지로 파라미터의 이차 함수 형태로 정의된 loss 함수는 최소인 지점에서 기울기가 0입니다. 

단순 선형 회귀에서는 이러한 이차 함수의 특성을 이용하여 단 2개의 파리미터에 대한 편미분 구하였습니다.

하지만 다중 선형 회귀에서는 $p+1$ 개의 파라미터가 존재하기에 이 모든 것에 대해서 편미분을 하기는 쉽지 않습니다.

따라서 벡터 형태인 파라미터로 미분을 하는 방식을 사용하여 편미분을 수행합니다.

미분을 하기 위하여 loss 함수의 행렬 수식을 다시 정리를 하자면 다음과 같습니다.

##### loss 함수 - 행렬을 사용한 표현

> $$\begin{aligned}
Loss(\mathbf{w})&=\frac{1}{N}(\mathbf{y}^{T}-\mathbf{w}^{T}X^{T})(\mathbf{y}-X\mathbf{w}) \\
&=\frac{1}{N}(\mathbf{y}^{T}\mathbf{y} -\mathbf{y}^{T}X\mathbf{w} - \mathbf{w}^{T}X^{T}\mathbf{y} + \mathbf{w}^{T}X^{T}X\mathbf{w}) \end{aligned}$$

이제 loss 함수를 $\mathbf{w}$ 을 사용하여 편미분하면 다음과 같습니다.

##### loss 함수 편미분

> $$\begin{aligned}
\frac{\partial Loss}{\partial \mathbf{w}}&=\frac{1}{N}(\frac{\partial \mathbf{y}^{T}\mathbf{y}}{\partial \mathbf{w}} - \frac{\partial \mathbf{y}^{T}X\mathbf{w}}{\partial \mathbf{w}} - \frac{\partial \mathbf{w}^{T}X^{T}\mathbf{y}}{\partial \mathbf{w}} + \frac{\partial \mathbf{w}^{T}X^{T}X\mathbf{w}}{\partial \mathbf{w}})\\
&=\frac{1}{N}(0-\mathbf{y}^{T}X-(X^{T}\mathbf{y})^{T}+2\mathbf{w}^{T}X^{T}X)
\end{aligned}$$

기울기가 0인 지점을 찾기 위하여 편미분 한 것이므로 다음과 같은 방정식을 만족하는 $\mathbf{w}$는 $\mathbf{\widehat{w}}$입니다.

##### 최적의 w 값을 찾는 과정

> $$\begin{aligned}
\frac{\partial Loss}{\partial \mathbf{\widehat{w}}}&=0\\
\frac{1}{N}(0-\mathbf{y}^{T}X-(X^{T}\mathbf{y})^{T}+2\mathbf{\widehat{w}}^{T}X^{T}X)&=0\\
\mathbf{\widehat{w}}^{T}X^{T}X &= \mathbf{y}^{T}X\\
X^{T}X\mathbf{\widehat{w}} &= X\mathbf{y}
\end{aligned}$$

여기서 $X^{T}X$의 역행렬이 존재한다 가정한다면, $\widehat{w}$는 다음과 같이 정리할 수 있습니다.

##### 최적의 해

> $$\mathbf{\widehat{w}}=(X^{T}X)^{-1}X^{T}\mathbf{y}$$

역행렬의 존재 조건은 $X$의 rank 값이 full rank인 경우이기에 feature column 벡터 간의 선형 독립을 만족해야하 합니다.

추가로 least square solution 유도에 필요한 벡터 미분에 대해서 아래와 같이 정리합니다.

##### 행렬 크기 정리

> $$\mathbf{w} : mx1 \; matrix$$

> $$X: Nxm \;matrix$$

##### 벡터 미분 정리

> $$\begin{aligned}
y=X \;\;\;\;\;\;\;\;\;&-> \frac{\partial y}{\partial \mathbf{w}}=0\\
y=X\mathbf{w}\;\;\;\;\;\;\; &-> \frac{\partial y}{\partial \mathbf{w}}=X\\
y=\mathbf{w}^{T}X^{T} \;\;\; &-> \frac{\partial y}{\partial \mathbf{w}}=X^{T}\\
y=\mathbf{w}^{T}X^{T}\mathbf{w}\; &-> \frac{\partial y}{\partial \mathbf{w}}=2\mathbf{w}^{T}X^{T}
\end{aligned}$$

벡터 미분에 대한 더 자세한 설명은 다음 링크를 참고해서 학습해 봅시다. https://en.wikipedia.org/wiki/Matrix_calculus

---