## 2. 퍼셉트론

<img src="img/deep_learning_images/fig_2-1.png" width="224" height="224">

입력신호 $x_1, x_2$에 가중치 $w_1, w_2$가 각각 곱해지고, 이들을 모두 더한 값이 임계값 $\theta$보다 크면 1을 반환하는 원리.

가중치는 각 신호가 결과에 주는 영향력을 조절하는 요소이기에, 특정 가중치의 값이 더 크다면, 그에 해당하는 입력 신호가 더 중요하다는 것.

<img src="img/deep_learning_images/perceptron.png" width="512" height="512">

In [1]:
import random
import numpy as np
import matplotlib.pylab as plt

In [2]:
def perceptron(x1, x2):
    w1 = random.uniform(0.1, 0.9)
    w2 = random.uniform(0.1, 0.9)
    theta = random.uniform(0.1, 0.9)
    
    total = (x1 * w1) + (x2 * w2)
    if total >= theta:
        return 1
        
    else:
        return 0

In [3]:
x1, x2 = random.randint(0, 1), random.randint(0, 1)
perceptron(x1, x2)

1

### [Reference](https://sacko.tistory.com/10)

<img src="img/deep_learning_images/e_3.1.png" width="360" height="360">

처음에 봤던 수식에서 $\theta$를 $-b$로 치환한 것으로 bias, 편향이라고 부른다.

입력 신호에 가중치를 곱한 값과 편향을 합해서 그 값이 0을 넘으면 1을 출력하고 그렇지 않으면 0을 출력한다.

- ***가중치는 각 입력 신호가 결과에 주는 영향력(중요도)를 조절하는 매개변수.***
- ***편향은 뉴런이 얼마나 쉽게 활성화하느냐를 조정하는 매개변수.***

편향은 θ(theta)로 학습 데이터(Input)이 가중치와 계산되어 넘어야 하는 임계점으로 이 값이 높으면 높을 수록 그만큼 분류의 기준이 엄격하다는 것을 의미한다.

그래서 편향이 높을 수록 모델이 간단해지는 경향이 있으며 (변수가 적고 더 일반화 되는 경우) 오히려 과소적합(underfitting)의 위험이 발생하게 된다.

반대로 편향이 낮을수록 한계점이 낮아 데이터의 허용범위가 넓어지는 만큼 학습 데이터에만 잘 들어맞는 모델이 만들어질 수 있으며 모델이 더욱 복잡해질 것이다. 허용범위가 넓어지는 만큼 필요 없는 노이즈가 포함될 가능성도 높다.

In [4]:
x = np.array([0, 1]) # input
w = np.array([0.5, 0.5]) # weights
b = -0.7

In [5]:
x * w

array([0. , 0.5])

In [6]:
np.sum(x * w) + b

-0.19999999999999996

### AND gate

<img src="img/deep_learning_images/fig_2-2.png" width="360" height="360">

In [19]:
def AND(x1, x2):
    x = np.array([x1, x2])
    w = np.array([0.5, 0.5])
    b = -0.7
    
    tmp = sum(w * x) + b
    if tmp <= 0:
        return 0
    else:
        return 1

In [20]:
print(AND(0, 0))
print(AND(1, 0))
print(AND(0, 1))
print(AND(1, 1))

0
0
0
1


### OR, NAND

<img src="img/deep_learning_images/fig_2-3.png" width="360" height="360">
<img src="img/deep_learning_images/fig_2-4.png" width="360" height="360">

In [21]:
def OR(x1, x2):
    x = np.array([x1, x2])
    w = np.array([0.5, 0.5])
    b = -0.2
    
    tmp = np.sum(w * x) + b
    if tmp <= 0:
        return 0
    else:
        return 1
    
def NAND(x1, x2):
    x = np.array([x1, x2])
    w = np.array([-0.5, -0.5])
    b = 0.7

    tmp = np.sum(w * x) + b
    if tmp <= 0:
        return 0
    else:
        return 1

In [22]:
print(OR(0, 0))
print(OR(1, 0))
print(OR(0, 1))
print(OR(1, 1))

0
1
1
1


<img src="img/deep_learning_images/fig_2-6.png" width="360" height="360">

위 그래프는 OR그래프를 그린 것으로, 0을 출력하는 영역이 회색으로 표기되어 있다.  
즉, 0이 출력되는 경우와 1이 출력되는 경우가 명확하게 구분된다는 것이다.

반면에 XOR게이트를 그려보면 어떨지 보자.
<img src="img/deep_learning_images/fig_2-5.png" width="224" height="224">
<img src="img/deep_learning_images/fig_2-7.png" width="360" height="360">

그림에서 보이듯, XOR게이트는 직선으로 0이 출력되는 경우와 1이 출력되는 경우를 구분할 수가 없다.  
따라서 비선형인 곡선을 그려야 두 경우를 구분할 수 있다.
<img src="img/deep_learning_images/fig_2-8.png" width="360" height="360">

이를 위해서는 퍼셉트론 하나로는 불가능하기 때문에, 다층 퍼셉트론의 개념을 접목해야한다.
<img src="img/deep_learning_images/fig_2-11.png" width="360" height="360">

In [23]:
def XOR(x1, x2):
    result1 = OR(x1, x2)
    result2 = NAND(x1, x2)
    result3 = AND(result1, result2)
    
    return result3

In [24]:
print(XOR(0, 0))
print(XOR(1, 0))
print(XOR(0, 1))
print(XOR(1, 1))

0
1
1
0
