# "Deep" learning 
왜 'hidden' 레이어를 두는 것이 예측 성능을 높일까요?

### XOR gate
OR과 XOR 게이트를 비교해봅시다.  

| $x_1$ | $x_2$ | XOR | OR  |
| --- | --- | --- | --- |
| 1   |  1  |  0  |   1  |
| 1   |  0  |  1  |   1  |
| 0   |  1  |  1  |   1  |
| 0   |  0  |  0  |   0  |

### OR gate: 
$x_1$, $x_2$와 OR 게이트는 비례합니다. 즉 $x$가 증가하면 OR값도 증가하는 경향을 보입니다. 반복해서 말씀드렸지만 기계학습이란 결국 $f(w \cdot x)$로 원하는 결과가 나오도록 w와 f를 찾는 과정을 말합니다. 따라서 OR 경우는 $w>0$인 어떤 영역에서 "좋은" 결과를 보여줄 것입니다. 그러므로 단층 퍼셉트론으로 충분히 좋은 결과를 얻을 수 있습니다.

### XOR gate: 
XOR 게이트의 경우는 그렇게 쉽지가 않습니다. $x_1$, $x_2$와 XOR 게이트의 값은 비례 혹은 반비례 관계가 없습니다. $(x_1,XOR)$, $(x_2,XOR)$관계를 보면 $x$가 증가하거나 감소하는 것과 무관하게 XOR값이 주어집니다. 즉 선형 함수로 학습을 한다고 가정하면 $w=0$이 되어야 하며 학습이 이루어지지 않습니다. 이런 예시처럼 입력값과 출력값의 상관관계가 없거나 뚜렷하지 않을 경우 나쁜 학습 결과가 나오게 됩니다. 

히든 레이어는 이런 문제를 해결할 수 있습니다. 예를 들어 $(x_1, x_2)$ 대신 히든레이어를 거쳐 $(x_1+x_2, x_1 x_2)$를 출력층에 입력변수가 되었다고 가정해보자. 여기에 비선형 함수를 거쳐 0보다 작은 값은 0으로 1보다 큰 값은 1로 출력한다고 가정하자. 그러면 $(f(x1+x2), XOR)$, $(f(x1-x2), XOR)$은 상관관계가 생긴다. 딥러닝에서 히든레이어는 입력값이 출력값과 상관관계가 없거나 비선형적일 때 출력값과 상관관계를 가지도록 변환해주는 역할을 한다. 


| $x_1$ | $x_2$ | $f(x_1+x_2)$ | $ f(x_1 - x_2)$ | XOR  |
| ----- | ----- | ----- | ----- | ----- | 
| 1   |  1  |  1  | 0 | 0  | 
| 1   |  0  |  1  | 1 | 1  | 
| 0   |  1  |  1  | 0 | 1  | 
| 0   |  0  |  0  | 0 | 0  | 

In [1]:
import matplotlib.pyplot as plt

plt.subplot(121)
plt.title('x1+x2')
plt.plot([2,1,1,0],[0,1,1,0],'o')
plt.plot([0,2],[0,1])

plt.subplot(122)
plt.title('x1-x2')
plt.plot([0,1,-1,0],[0,1,1,0],'o')
plt.plot([-1,1],[1,0])

[<matplotlib.lines.Line2D at 0x7fba394a1750>]