## Chapter 2 퍼셉트론 (perceptron)

퍼셉트론 알고리즘
- 프랑크 로젠블라트(Frank Rosenbaltt)가 1957년 고안한 알고리즘
- 딥러닝의 기원이 되는 알고리즘으로 신경망 딥러닝으로 나가는 중요한 아이디어를 배우는 일

신경망의 역사 
- 1943년 신경생리학자 워런 매컬러(Warren McCulloch)와 수학자 월터 피츠(Walter pitts)가 쓴 논문에서 소개되었다. 명제 논리를 사용해 동물 뇌의 생물학적 뉴런이 복잡한 계산을 위해 어떻게 상호작용하는지에 대한 간단한 계산 모델 제시  
[A Logical calculus of ideas Immanent In Nervous Activity](https://www.cs.cmu.edu/~./epxing/Class/10715/reading/McCulloch.and.Pitts.pdf)
- 1969년 [perceptron]논문에서 마빈 민스키(Marvin Minsky)와 시모어 페퍼트(Seymour Parpert)는 퍼셉트론의 여러가지 심각한 약점을 언급했다. (XOR 분류문제) 
- 1986년 데이비드 루멜하트(David Rumelhart), 제프리 힌턴, 로날드 윌리엄스(Ronald Williams)가 역전파(backpropagation) 훈련 알고리즘을 소개하는 획기적인 논문 공개(이 알고리즘은 오늘날도 사용함- gredient descent)
- 1990년 


### 2.1 퍼셉트론이란?

- 다수의 신호를 입력값으로 받아서 하나의 신호를 출력한다. 
- TLU(Threshold Logic Unit) 또는 LTU(Linear Threshold Unit)이라고 불리는 조금 다른 형태의 인공뉴런을 기반으로 한다.  
- 입력이 출력이 어떤 숫자이고, 각각의 입력 연결은 가중치와 연관되어 있다.
- TLU는 입력의 가중치 합을 계산($z= w_1z_1 + w_2z_2+...+w_nz_n=X^TW$)한 뒤에 계단 함수(step function)를 적용하여 결과를 출력합니다. 

$$h_w(x)=step(z), z=x^Tw$$

$$y=\begin{cases}
0 \;(w_1z_1 + w_2z_2)\leq\theta\\
1 \;(w_1z_1 + w_2z_2)\gt\theta
\end{cases}$$

- $x_1$과 $x_2$: 입력값 (input)
- $w_1$과 $w_2$: 가중치 (weight)
- $\theta$: 임계값(threshold)




### 2.2 단순한 논리회로

#### 2.2.1 AND게이트
- 진리표

|$x_1$|$x_2$|$y$|
|-|-|-|
|0|0|0|
|1|0|0|
|0|1|0|
|1|1|1|

- 이 AND 게이트 진리표대로 작동하는 $w_1, w_2, \theta$ 값을 정하는 것이 목표
- 이 매개변수 조합($w_1, w_2, \theta$)은 무한히 많다. (0.5,0.5,0.7), (0.5,0.5,0.8) 등등...

#### 2.2.2 NAND게이트와 OR게이트

|$x_1$|$x_2$|$y_{NAND}$|$y_{OR}$|
|-|-|-|-|
|0|0|1|0|
|1|0|1|1|
|0|1|1|1|
|1|1|0|1|

- NAND게이트의 weight 조합은 ($w_1, w_2, \theta$)=(-0.5, -0.5, 0.7) 조합이 있다. 사실 AND게이트를 구현하는 매개변수의 부호를 모두 반전하면 NAND게이트이다.

- 여기서 중요한 점은 __퍼셉트론의 구조는 AND, NAND, OR 게이트 모두 똑같다는 점__ 이다. 세가지 게이트에서 다른 것은 매개변수(가중치와 임계값)의 값 뿐이다. 똑같은 구조의 퍼셉트론이 매개변수의 값만 적절히 조정해서 AND, NAND, OR로 변신한다.



### 2.3 퍼셉트론 구현하기

#### 2.3.1 간단한 구현부터: AND 게이트


In [1]:
def AND(x1, x2):
    w1, w2, theta=0.5, 0.5, 0.7
    tmp=x1 * w1 + x2 *w2
    if tmp<=theta:
        print("w1*x1 + w2*x2=%f"%tmp)
        return 0
    elif tmp>theta:
        print("w1*x1 + w2*x2=%f"%tmp)
        return 1
    

In [19]:
print(AND(0, 0))
print(AND(1, 0))
print(AND(0, 1))
print(AND(1, 1))


0.500000 *0.000000 + 0.500000*0.000000=-0.700000
0
0.500000 *1.000000 + 0.500000*0.000000=-0.200000
0
0.500000 *0.000000 + 0.500000*1.000000=-0.200000
0
0.500000 *1.000000 + 0.500000*1.000000=0.300000
1


#### 2.3.2  가중치와 편향(bias) 도입

- $\theta$ 를 $-b$로 치환하면 페셉트론의 동작이 다음과 같이 된다.
$$y=\begin{cases}
0 \;(b+w_1z_1 + w_2z_2\leq0)\\
1 \;(b+w_1z_1 + w_2z_2\gt0)
\end{cases}$$

- 이 $b$를 편향(bias)라고 하며, $w_1$과 $w_2$는 그대로 가중치(weight)이다.

In [3]:
import numpy as np

x=np.array([0,1])      # 입력
w=np.array([0.5, 0.5]) # 가중치
b=-0.7                 # 편향

print(w*x)
print(np.sum(w*x))
print(np.sum(w*x)+b)

[0.  0.5]
0.5
-0.19999999999999996


### 2.3.3 가중치와 편향 구하기

- $-\theta$가 편향 $b$로 치환되었다. 편향은 가중치 $w_1, w_2$와 

In [12]:
def AND(x1, x2):
    x=np.array([x1,x2])      # 입력
    w=np.array([0.5, 0.5]) # 가중치
    b=-0.7                 # 편향
    tmp=np.sum(w*x)+b

    if tmp<=0:
        print("%f *%f + %f*%f=%f"%(w[0],x[0],w[1],x[1],tmp))
        return 0
    else:
        print("%f *%f + %f*%f=%f"%(w[0],x[0],w[1],x[1],tmp))
        return 1
    

In [20]:
print(AND(0, 0))
print(AND(1, 0))
print(AND(0, 1))
print(AND(1, 1))

0.500000 *0.000000 + 0.500000*0.000000=-0.700000
0
0.500000 *1.000000 + 0.500000*0.000000=-0.200000
0
0.500000 *0.000000 + 0.500000*1.000000=-0.200000
0
0.500000 *1.000000 + 0.500000*1.000000=0.300000
1


In [14]:
def NAND(x1, x2):
    x=np.array([x1,x2])      # 입력
    w=np.array([-0.5, -0.5]) # 가중치
    b=0.7                 # 편향
    tmp=np.sum(w*x)+b

    if tmp<=0:
        print("%f *%f + %f*%f=%f"%(w[0],x[0],w[1],x[1],tmp))
        return 0
    else:
        print("%f *%f + %f*%f=%f"%(w[0],x[0],w[1],x[1],tmp))
        return 1

def OR(x1, x2):
    x=np.array([x1,x2])      # 입력
    w=np.array([0.5, 0.5]) # 가중치
    b=-0.2                 # 편향
    tmp=np.sum(w*x)+b

    if tmp<=0:
        print("%f *%f + %f*%f=%f"%(w[0],x[0],w[1],x[1],tmp))
        return 0
    else:
        print("%f *%f + %f*%f=%f"%(w[0],x[0],w[1],x[1],tmp))
        return 1
    

In [18]:
print(NAND(0, 0))
print(NAND(1, 0))
print(NAND(0, 1))
print(NAND(1, 1))
print("-"*50)
print(OR(0, 0))
print(OR(1, 0))
print(OR(0, 1))
print(OR(1, 1))

-0.500000 *0.000000 + -0.500000*0.000000=0.700000
1
-0.500000 *1.000000 + -0.500000*0.000000=0.200000
1
-0.500000 *0.000000 + -0.500000*1.000000=0.200000
1
-0.500000 *1.000000 + -0.500000*1.000000=-0.300000
0
--------------------------------------------------
0.500000 *0.000000 + 0.500000*0.000000=-0.200000
0
0.500000 *1.000000 + 0.500000*0.000000=0.300000
1
0.500000 *0.000000 + 0.500000*1.000000=0.300000
1
0.500000 *1.000000 + 0.500000*1.000000=0.800000
1


### 2.4 퍼셉트론의 한계

#### 2.4.1 XOR게이트

- XOR 게이트는 배타적 논리합이라는 논리회로입니다. $x_1$과 $x_2$ 중 한쪽이 1일 때만 1을 출력합니다. ('배타적'이란 자기 외에는 거부한다는 의미죠). 자, 이 XOR 게이트를 퍼셉트론으로 구현하려면 가중치 매개변수 값을 어떻게 설정하면 될까? 


|$x_1$|$x_2$|$y$|
|-|-|-|
|0|0|0|
|1|0|1|
|0|1|1|
|1|1|0|


- 사실 지금까지 본 퍼셉트론으로는 이 XOR게이트를 구현할 수 없습니다. 왜 AND와 OR는 되고 안되는 이유는 선형성과 비선형성에 있다.
- 그림 2-7(XOR게이트의 출력)의 삼각형(0)과 원(1)을 직선으로는 나눌 수는 없다.

#### 2.4.2 선형과 비선형  

- 직선이라는 제약을 없애서 퍼셉트론을 곡선(비선형)으로 나누어서 표현하는 방법을 사용하면 XOR를 구현할 수 있다.


In [25]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import Perceptron

iris=load_iris()
X=iris.data[:, (2,3)] # 꽃잎의 길이와 너비
Y=(iris.target==0).astype(np.int)

per_clf=Perceptron()
per_clf.fit(X,Y)

y_pred=per_clf.predict([[2, 0.5]])

In [26]:
y_pred

array([0])

In [32]:
X.shape

(2, 4)

OR Gate

In [43]:
X=np.array([[0,0],[0,1],[1,0],[1,1]])
Y=np.array([0,0,0,1])
per_clf=Perceptron()
per_clf.fit(X,Y)

y_pred=per_clf.predict([[0,0],[0,1],[1,0],[1,1]])

In [44]:
y_pred

array([0, 0, 0, 1])

XOR Gate

In [46]:
X=np.array([[0,0],[0,1],[1,0],[1,1]])
Y=np.array([0,1,1,0])
per_clf=Perceptron()
per_clf.fit(X,Y)

y_pred=per_clf.predict([[0,0],[0,1],[1,0],[1,1]])

In [47]:
y_pred

array([0, 0, 0, 0])