# 7장 - 수학을 기계학습에 응용

이 장에서는 여기까지 배운 수학을 인공지능의 일종인 기계학습에 응용합니다.  
기계학습에서 다루는 문제는 크게 회귀와 분류로 나눌 수 있는데 각각의 예를 처음에 하나씩 설명합니다. 그 후, 기계학습의 일종, 뉴럴 네트워크의 개요를 배우고 나서 단일 뉴런에 학습을 시킵니다. 최소한의 구현으로 기계학습을 시행, 수학을 어떻게 기계학습에 활용할 것인지를 조금씩 배웁니다.

## 7.1 회귀와 과학습

비교적 간단한 기계학습인 회귀 분석을 사용해서 데이터의 경향을 학습합니다.

### 회귀와 분류

데이터의 경향을 $Y = f(X)$ 모델(정량적인 룰을 수식 등으로 나타낸 것)로 파악하는 경우를 생각합시다. 이 경우 $X$와 $Y$는 $Y  = \{y_1, y_2, ···, y_m\}, X = \{x_1, x_2, ···, x_n\}$처럼 각각 $m$ 개, $n$ 개의 값으로 이뤄집니다.  
이 때 $Y$의 각 값이 연속값이면 **회귀**, $Y$의 각 값이 0, 1 등의 이산적인 값이면 **분류**라고 합니다. 기계학습에서 다룰 문제는 크게 이 「회귀」와 「분류」로 나눌 수 있습니다.

### 회귀 분석과 다항식 회귀

회귀에 의한 분석을 실시하는 것을 **회귀 분석**이라고 합니다. 회귀 분석은 모델이 데이터의 경향을 학습하기 위한 기계학습의 일종이라고 생각할 수 있습니다. 가장 간단한 회귀 분석은 직선의 식 $y = ax ＋ b$를 데이터에 적용합니다.  
여기에서는 다항식을 데이터에 적용하는 **다항식 회귀**를 사용해서 기계학습을 실시합니다. 이전 장에서 설명했는데 $n$차의 다항식은 다음과 같이 총합의 형태로 나타낼 수 있습니다.

$$ f(x) = \sum_{k=1}^n a_kx^k ··· (식1)$$

이 경우, $a_0, a_1, ···, a_n$이 함수의 파라미터가 됩니다.  
이 식을 데이터에 적용시킴으로써 데이터의 특징을 파악해 미지의 값 예측을 할 수 있습니다.

### 최소제곱법

**최소제곱법**은 다음에 나타내는 제곱합 $J$를 최소로 하는 함수 $f(x)$의 파라미터를 구하는 것입니다.  

$$ J = \sum_{j=1}^m \left( f(x_j) － t_j \right) ^2 $$

여기에서 $t_j$는 각 데이터를 나타냅니다. 이처럼 함수의 출력과 각 데이터의 차를 제곱하고 총합을 취함으로써 제곱합을 구합니다.  
기계학습에서는 이것에 $\frac{1}{2}$을 곱해서 오차로 하는 다음의 오차제곱합이 자주 사용됩니다.  

$$ E = \frac{1}{2} \sum_{j=1}^m \left( f(x_j) － t_j \right) ^2 ··· (식2)$$

$\frac{1}{2}$을 곱하는 것은 미분할 때에 다루기 쉽게 하기 위함입니다.  
이 오차를 최소가 되도록 함수의 파라미터를 조정하는 것은 함수가 데이터의 경향을 나타내도록 학습하는 것을 의미합니다.

### 최급강하법을 이용해서 오차를 최소로 한다

**(식1)** 에 표시된 다항실을 이용한 다항식 회귀의 경우, **(식2)** 의 오차제곱합을 최소로 하도록 각 파라미터를 조정합니다.  
**(식1)** 을 **(식2)** 에 대입하면 다음과 같이 됩니다.  

$$ E = \frac{1}{2} \sum_{j=1}^m \left( \sum_{k=0}^n a_k x_j^k － t_j \right) ^2 ··· (식3)$$

여기에서는 이 오차를 최소화하기 위해서 이전의 장에서 설명한 최급강하법을 사용합니다.  
위 식의 $E$를 최소화하는 경우, 최급강하법은 다음의 식으로 표현됩니다. $0 \leqq i \leqq n$으로 합니다.  

$$ a_i \leftarrow  a_i － \eta \frac{\delta E}{\delta a_i} ···(식4)$$

파라미터 $a_0, a_1, ···, a_n$을 위에 적은 식으로 갱신하는 것인데 그러기 위해서는 오차 $E$의 $a_i$에 의한 편미분 $\frac{\delta E}{\delta a_i}$를 구해야 합니다.  
$\frac{\delta E}{\delta a_i}$는 다음과 같이 연쇄율을 이용해서 구할 수 있습니다.  
먼저 다음과 같이 $u_j$를 설정합니다.  

$$ u_j = \sum_{k=0}^n a_k x_j^k － t_j ···(식5)$$

이 때, $E$는 다음과 같이 나타냅니다.

$$ E = \frac{1}{2} \sum_{j=1}^m u_j^2 $$

따라서 $E$는 $a_i$로 편미분하는데, 연쇄율을 이용해서 다음과 같이 전개할 수 있습니다.  

$$ \frac{\delta E}{\delta a_i} = \frac{1}{2} \sum_{j=1}^m \frac{\delta u_j^2}{\delta u_j} \frac{\delta u_j}{\delta a_i} ···(식6)$$

여기서 $\Sigma$의 내용은 각각 다음과 같이 구할 수 있습니다.

$$ \frac{\delta u_j^2}{\delta u_j} = 2u_j $$
$$ \\ $$
$$ \frac{\delta u_J}{\delta a_i} = x_j^i $$

위에 적은 것은 **(식5)** 의 편미분에 의해 구했습니다.  
이상으로부터 **(식6)** 은 다음의 형태가 됩니다.