이번 챕터에서는 속성이 여러 개일 때 선형 회귀를 하는 다중선형회귀에 대해서 알아봤는데요.  
마찬가지로 배운 내용을 코드로 구현하기 쉽게 바꾸는 걸 한 번 해 볼게요.

## 입력 변수와 파라미터 표현
먼저 입력 변수를 표현하는 방법을 볼게요. **속성이 하나일 때**는 모든 데이터를 하나의 벡터로

$$
x=
\begin{bmatrix}
x^{(1)}\\
x^{(2)}\\
\vdots \\
x^{(m)}
\end{bmatrix}
$$

이렇게 표현했는데요. **다중선형회귀**에서는 이 방법을 좀 바꿔서 생각해야겠죠?  
기본적으로 한 행에 하나의 데이터를 표현하는 건 똑같은데요. 이렇게 표현할 수 있습니다.

$$
X=
\begin{bmatrix}
x_0^{(1)} & x_1^{(1)} & \cdots & x_n^{(1)} \\
x_0^{(2)} & x_1^{(2)} & \cdots & x_n^{(2)} \\
\vdots & \vdots & \phantom{\ddots} & \vdots \\
x_0^{(m)} & x_1^{(m)} & \cdots & x_n^{(m)}
\end{bmatrix}
$$
- 첫 번째 행: 첫 번째 데이터(1)의 0~n번째 속성
- 두 번째 행: 두 번째 데이터(2)의 0~n번째 속성  
$\vdots$

오른쪽 위에 있는 숫자는 몇 번째 데이터인지를, 그리고 오른쪽 아래에 있는 숫자는 몇 번째 속성인지를  
나타낸다고 했는데요.

즉, 1행에는 첫 번째 데이터가, 2행에는 두 번째 데이터가 저장돼 있습니다. 데이터 개수는 총 m개이고요.

이 부분이 조금 헷갈리실 수도 있지만 첫 번째 열인 0번째 속성은 1이 됩니다. 보통 선형회귀의 가설함수를  

$$
h_\theta(x) = \theta_0 + \theta_1x_1 + \theta_2x_2 + \cdots + \theta_nx_n
$$

이렇게 표현하는데요. 이 식에는 0번 속성이 없지만, 행렬로 표현할 때는 좀 더 통일성 있게 표현하기 위해  
가상의 0번 속성 $x_0$을 만든 거예요. 그리고 이 값을 항상 1로 설정해 줍니다.  
식으로는 이렇게 표현할 수 있어요.  

$h_\theta(x) = \theta_0x_0 + \theta_1x_1 + \theta_2x_2 + \cdots + \theta_nx_n \qquad (단, x_0 = 1)$

이어서 2열에는 1번 속성이, 3열에는 2번 속성이 들어가고, 마지막으로 n+1열에 n번 속성이 들어갑니다.  
그럼 모든 데이터를 하나의 행렬 $X$에 묶어서 표현할 수 있죠.  
이렇게 입력 변수 데이터를 행렬로 묶어서 표현한 걸 설계행렬, 영어로는 Design Matrix라고 합니다.

$\theta$값들도 두 개에서 그 이상으로 넘어갈 때 1부터 n까지의 모든 $\theta$값들을 묶어서 이렇게 하나의 벡터로 표현합니다.

$$
\theta =
\begin{bmatrix}
\theta_0 \\
\theta_1 \\
\vdots \\ 
\theta_n
\end{bmatrix}
$$

## 모든 데이터 예측값
자, 이번에는 가설 함수를 행렬 연산에서 어떻게 표현할 수 있는지 알아볼게요.  

<span style='color:yellowgreen'>**가설 함수**</span>:  

$\textcolor{lightblue}{h_\theta(x) = \theta_0x_0 + \theta_1x_1 + \theta_2x_2 + \cdots + \theta_nx_n \qquad (단, x_0 = 1)}$

위에서 한 것처럼 입력 변수와 파라미터를 

$$
X =
\begin{bmatrix}
x_0^{(1)} & x_1^{(1)} & \cdots & x_n^{(1)} \\
x_0^{(2)} & x_1^{(2)} & \cdots & x_n^{(2)} \\
\vdots & \vdots & \phantom{\ddots} & \vdots \\
x_0^{(m)} & x_1^{(m)} & \cdots & x_n^{(m)}
\end{bmatrix}
$$
.
$$
\theta =
\begin{bmatrix}
\theta_0 \\
\theta_1 \\
\vdots \\ 
\theta_n
\end{bmatrix}
$$

이렇게 표현하면 모든 데이터에 대한 예측 값은 두 행렬의 곱으로 나타낼 수 있습니다. 

$$
X \theta =
\begin{bmatrix}
x_0^{(1)} & x_1^{(1)} & \cdots & x_n^{(1)} \\
x_0^{(2)} & x_1^{(2)} & \cdots & x_n^{(2)} \\
\vdots & \vdots & \phantom{\ddots} & \vdots \\
x_0^{(m)} & x_1^{(m)} & \cdots & x_n^{(m)}
\end{bmatrix}
\times
\begin{bmatrix}
\theta_0 \\
\theta_1 \\
\vdots \\
\theta_n
\end{bmatrix}
=
\begin{bmatrix}
\theta_0 x_0^{(1)} + \theta_1 x_1^{(1)} + \cdots + \theta_n x_n^{(1)} \\
\theta_0 x_0^{(2)} + \theta_1 x_1^{(2)} + \cdots + \theta_n x_n^{(2)} \\
\vdots \\
\theta_0 x_0^{(m)} + \theta_1 x_1^{(m)} + \cdots + \theta_n x_n^{(m)}
\end{bmatrix}
=
\begin{bmatrix}
h_\theta(x^{(1)}) \\
h_\theta(x^{(2)}) \\
\vdots \\
h_\theta(x^{(m)}) \\
\end{bmatrix}
$$

각 열에 각 데이터에 대한 예측값이 계산된 걸 확인할 수 있습니다.

## 예측 오차
각 데이터의 목표변수는 값이 하나이기 때문에 단일변수 선형회귀와 마찬가지로

$$
y =
\begin{bmatrix}
y^{(1)} \\
y^{(2)} \\
\vdots \\
y^{(m)}
\end{bmatrix}
$$

이렇게 표현할 수 있습니다.

$X\theta$에서 $y$를 빼면, 이렇게 표현할 수 있겠네요 :

$$
X\theta - y =
\begin{bmatrix}
h_\theta(x^{(1)}) \\
h_\theta(x^{(2)}) \\
\vdots \\
h_\theta(x^{(m)}) \\
\end{bmatrix}
-
\begin{bmatrix}
y^{(1)} \\
y^{(2)} \\
\vdots \\
y^{(m)} \\
\end{bmatrix}
=
\begin{bmatrix}
h_\theta(x^{(1)}) - y^{(1)} \\
h_\theta(x^{(2)}) - y^{(2)} \\
\vdots \\
h_\theta(x^{(m)}) - y^{(m)} \\
\end{bmatrix}
$$

모든 예측값들과 목표 변수의 차이를 간단히 행렬 연산으로 구할 수 있는거죠. 뒤에서는 표현하기 쉽게  
이 값을 $\textcolor{yellowgreen}{error}$라고 부르겠습니다.

$$
error = X\theta - y =
\begin{bmatrix}
h_\theta(x^{(1)}) \\
h_\theta(x^{(2)}) \\
\vdots \\
h_\theta(x^{(m)}) \\
\end{bmatrix}
-
\begin{bmatrix}
y^{(1)} \\
y^{(2)} \\
\vdots \\
y^{(m)} \\
\end{bmatrix}
=
\begin{bmatrix}
h_\theta(x^{(1)}) - y^{(1)} \\
h_\theta(x^{(2)}) - y^{(2)} \\
\vdots \\
h_\theta(x^{(m)}) - y^{(m)} \\
\end{bmatrix}
$$

## 경사하강법
영상에서 다중선형회귀도 일반선형회귀와 마찬가지로 0부터 n까지의 $\theta$값들을 이렇게 업데이트 한다고  
했는데요. ($a$는 학습률, $m$은 데이터 개수)

$$
\theta_0 \leftarrow \theta_0 - a\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)}) \cdot x_0^{(i)} \\
\theta_1 \leftarrow \theta_1 - a\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)}) \cdot x_1^{(i)} \\
\vdots \\
\theta_n \leftarrow \theta_n - a\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)}) \cdot x_n^{(i)}
$$

이 부분도 행렬 연산을 사용하면 훨씬 더 짧고 간결하게 표현할 수 있습니다. 바로 볼게요.

위에서 했던 것처럼 입력변수, 파라미터, 예측값 오차를 이렇게

$$
X = 
\begin{bmatrix}
x_0^{(1)} & x_1^{(1)} & \cdots & x_n^{(1)} \\
x_0^{(2)} & x_1^{(2)} & \cdots & x_n^{(2)} \\
\vdots \\
x_0^{(m)} & x_1^{(m)} & \cdots & x_n^{(m)}
\end{bmatrix}
$$
.
$$
\theta = 
\begin{bmatrix}
\theta_0 \\
\theta_1 \\
\vdots \\
\theta_n
\end{bmatrix}
$$
.
$$
error = X\theta - y = 
\begin{bmatrix}
h_\theta(x^{(1)}) - y^{(1)} \\
h_\theta(x^{(2)}) - y^{(2)} \\
\vdots \\
h_\theta(x^{(m)}) - y^{(m)}
\end{bmatrix}
$$

표현할 때, 똑같은 경사 하강법 공식을 간단한 행렬 연산으로 이렇게 나타낼 수 있습니다.

$$
\theta \leftarrow \theta - a\frac{1}{m}(X^T \times error)
$$

왜 그런지 한 단계씩 직접 계산해보면서 확인해볼게요.

<span style='color:lightblue'>1단계</span>  
$$
X^T \times error =
\begin{bmatrix}
x_0^{(1)} & x_0^{(2)} & \cdots & x_0^{(m)} \\
x_1^{(1)} & x_1^{(2)} & \cdots & x_1^{(m)} \\
\vdots \\
x_n^{(1)} & x_n^{(2)} & \cdots & x_n^{(m)}
\end{bmatrix}
\times
\begin{bmatrix}
h_\theta(x^{(1)}) - y^{(1)} \\
h_\theta(x^{(2)}) - y^{(2)} \\
\vdots \\
h_\theta(x^{(m)}) - y^{(m)}
\end{bmatrix}
=
\begin{bmatrix}
\sum_{i=1}^m \big( h_\theta(x^{(i)}) - y^{(i)} \big) \cdot x_0^{(i)} \\
\sum_{i=1}^m \big( h_\theta(x^{(i)}) - y^{(i)} \big) \cdot x_1^{(i)} \\
\vdots \\
\sum_{i=1}^m \big( h_\theta(x^{(i)}) - y^{(i)} \big) \cdot x_n^{(i)}
\end{bmatrix}
$$

<span style='color:lightblue'>2단계</span>  
$$
\theta - \alpha \frac{1}{m} \left( X^T \times \text{error} \right) =
\begin{bmatrix}
\theta_0 - \alpha \frac{1}{m} \sum_{i=1}^m \big( h_\theta(x^{(i)}) - y^{(i)} \big) \cdot x_0^{(i)} \\
\theta_1 - \alpha \frac{1}{m} \sum_{i=1}^m \big( h_\theta(x^{(i)}) - y^{(i)} \big) \cdot x_1^{(i)} \\
\vdots \\
\theta_n - \alpha \frac{1}{m} \sum_{i=1}^m \big( h_\theta(x^{(i)}) - y^{(i)} \big) \cdot x_n^{(i)}
\end{bmatrix}
$$

<span style='color:lightblue'>3단계</span>  
$$
\theta \gets \theta - \alpha \frac{1}{m} \left( X^T \times \text{error} \right) =
\begin{bmatrix}
\theta_0 \\
\theta_1 \\
\vdots \\
\theta_n
\end{bmatrix}
\gets
\begin{bmatrix}
\theta_0 - \alpha \frac{1}{m} \sum_{i=1}^m \big( h_\theta(x^{(i)}) - y^{(i)} \big) \cdot x_0^{(i)} \\
\theta_1 - \alpha \frac{1}{m} \sum_{i=1}^m \big( h_\theta(x^{(i)}) - y^{(i)} \big) \cdot x_1^{(i)} \\
\vdots \\
\theta_n - \alpha \frac{1}{m} \sum_{i=1}^m \big( h_\theta(x^{(i)}) - y^{(i)} \big) \cdot x_n^{(i)}
\end{bmatrix}
$$

이렇게 되는 걸 확인할 수 있습니다. 꽤나 복잡해 보였던 경사하강법 공식을

$$
\theta \leftarrow - a\frac{1}{m}(X^T \times (X\theta - y))
$$

이렇게 간단한 행렬식으로 표현할 수 있는 거죠.  
행렬식으로 표현할 수 있기만 하면 numpy를 이용해서 수학식들을 쉽게 구현할 수 있는데요. 이번 노트에서 배운 내용을 바탕으로  
이제 직접 구현하는 과제들을 해봅시다!