# 20220624

#### CHAPTER 2 : 퍼셉트론


- 퍼셉트론이란?
  - 다수의 신호를 입력으로 받아 하나의 신호를 출력
  - 퍼셉트론 신호는 흐른다/안 흐른다의 두 가지 값을 가질 수 있다.
  - 입력 신호가 뉴런에 보내질 때는 각각 `고유한` 가중치가 곱해진다.
  - 뉴런에서 보내온 신호의 `총합`이 정해진 한계를 넘어설 때만 1을 출력한다.
    - 이를 `'뉴런이 활성화한다'`라고 표현한다. 이때 그 한계를 임계값이라 하며 대개 $\theta$로 표현한다.
  - 퍼셉트론은 `복수의 입력 신호 각각`에 `고유한 가중치를 부여`한다.
  - `가중치`는 각 신호가 `결과에 주는 영향력을 조절`하는 요소로 적용
    - 즉 가중치가 클수록 해당 신호가 그만큼 더 중요함을 뜻함.
    - 퍼셉트론의 가중치는 그 값이 클수록 강한 신호를 흘려보낸다.

- 단순한 논리 회로
  - AND 게이트
    - 입력이 둘이고 출력은 하나이다.(참고 : 입력 신호와 출력 신호의 대응 표를 `진리표`라 한다)
    - 두 입력이 모두 1일 때만 1을 출력하고, 그 외에는 0을 출력한다.
  - NAND 게이트와 OR 게이트
    - NAND 게이트 : AND 게이트의 출력을 뒤집은 것
    - 두 입력이 모두 1일 때만 0을 출력하고 그 외에는 1을 출력한다.
    - 이때 매개변수의 조합은 AND 게이트를 구현하는 매개변수의 부호를 모두 반전하기만 하면 NAND 게이트가 된다.
    - OR 게이트 : 입력 신호 중 하나 이상이 1이면 출력이 1이 되는 논리 회로이다.

---

#### 퍼셉트론의 구조는 AND, NAND, OR 게이트 모두에서 똑같다. 
#### 세 가지 게이트에서 다른 것은 매개변수(가중치와 임계값)의 값 뿐이다.
#### 즉, 똑같은 구조의 퍼셉트론이 매개변수의 값만 적절히 조정하여 AND, NAND, OR로 사용할 수 있게 된다.

> 퍼셉트론의 매개변수 값을 정하는 것은 컴퓨터가 아니라 인간이다. 인간이 직접 진리표라는 학습 데이터를 보면서 매개변수의 값을 생각한다. 기계학습 문제는 이 매개변수의 값을 정하는 작업을 컴퓨터가 자동으로 하도록 한다. 학습이란 적절한 매개변수 값을 정하는 작업이며, 사람은 퍼셉트론의 구조를 고민하고 컴퓨터에 학습할 데이터를 주는 일을 한다. 

---

- 퍼셉트론 구현해보자

In [1]:
def AND(x1, x2):
    # 매개변수(가중치와 임계값)는 함수 안에서 초기화한다.
    w1, w2, theta = 0.5, 0.5, 0.7
    tmp = x1*w1 + x2*w2
    
    # 이때, 부등식에 등호가 어디에 들어가 있는지 중요!!!
    
    if tmp <= theta:
        return 0
    elif tmp> theta:
        return 1

In [2]:
print(AND(0,0))
print(AND(1,0))
print(AND(0,1))
print(AND(1,1))

0
0
0
1


- 위 AND 게이트를 좀 더 효율적인 방식으로 수정해보자
- 함수 AND에서 tmp <= theta에서 theta를 좌항으로 옮겨서 정리한다.
- 즉, b + x1*w1 + x2*w2 <= 0 이 되고
- 이때, b를 편향이라고 바꿔부른다. 
  - 원래 b는 임계값! (=theta)

> 즉, 퍼셉트론은 입력 신호에 가중치를 곱한 값과 편향을 합하여 그 값이 0을 초과하면 1을 출력하고, 그렇지 않으면 0을 출력한다. 

-  넘파이를 이용하여 가중치와 편향 개념 구현해보자

In [7]:
import numpy as np
x = np.array([0,1]) # 두 입력 값
w = np.array([0.5,0.5]) # 가중치
b = -0.7 # 편향
# 원래 우항에 있던 임계값을 좌항으로 옮겼기 때문에 마이너스! 그런데 이건 게이트마다 임계값이 다르기 때문에 좌항으로 옮겼을 때
# 음수일 수도 있고 양수일 수도 있음
np.sum(w*x)

0.5

In [4]:
np.sum(w*x) + b

-0.19999999999999996

- 가중치와 편향을 도입한 AND 게이트를 구현해보자

In [5]:
def AND(x1,x2):
    x = np.array([x1,x2])
    w = np.array([0.5,0.5])
    b = -0.7
    
    tmp = np.sum(w*x) + b
    
    if tmp <= 0 :
        return 0 
    else :
        return 1

> 가중치는 각 입력 신호가 결과에 주는 영향력(중요도)을 조절하는 매개변수고, 편향은 뉴런이 얼마나 쉽게 활성화(결과로 1을 출력) 하느냐를 조정하는 매개변수이다. (책에 따라 셋 모두(가중치와 편향)를 가중치라고 할 때도 있다)

- NAND 게이트와 OR 게이트 구현

In [6]:
def NAND(x1,x2):
    x = np.array([x1,x2])
    w = np.array([-0.5,-0.5])
    b = 0.7
    
    tmp = np.sum(w*x) + b
    
    if tmp <= 0 :
        return 0
    else : 
        return 1

def OR(x1,x2):
    x = np.array([x1,x2])
    w = np.array([0.5,0.5])
    b = -0.2
    
    tmp = np.sum(w*x) + b
    
    if tmp <= 0 :
        return 0
    else : 
        return 1

- AND, NAND, OR 게이트 `모두 같은 구조`의 퍼셉트론이며, 차이는 가중치 매개변수의 값 뿐이다.

---

- 퍼셉트론의 한계
  - 무슨 한계?
    - 직선 하나로 나눈 영역만 표현할 수 있다는 한계
- XOR 게이트 (배타적 논리합)
  - 한쪽이 1일 때만 1을 출력
  - 지금까지 본 퍼셉트론으로는 XOR 게이트를 구현할 수 없다.
    - 왜?
      - XOR 게이트는 한 쪽이 1일 때만 1을 출력한다고 했다.
      - 이 입력값들을 좌표평면에 나타내면 입력 값들을 하나의 직선으로 분리하는 것은 불가능하다. 
      - 따라서 기존의 AND, NAND, OR 게이트의 퍼셉트론으로는 XOR 게이트를 구현할 수 없다. 
      - 책 55p ~ 56p 참고

- 이때, 직선이라는 제약을 없앤다면 주어진 입력값들을 두 구간으로 분류할 수 있을 것이다. 
- 퍼셉트론은 직선 하나로 나눈 영역만 표현할 수 있다는 한계가 있다. 
  - 그렇다면 방법은?
  - 층을 쌓아, 다층 퍼셉트론을 만든다.
  - 층을 하나 더 쌓아 XOR를 표현해보자

---

> 0627~

- 기존 게이트 조합하기
  - AND, NAND, OR 게이트를 조합하기
    - 퍼셉트론의 한계 : 단층 퍼셉트론으로는 XOR 게이트를 표현할 수 없음
    - 즉, 단층 퍼셉트론으로는 비선형 영역을 분리할 수 없음
    - 따라서 퍼셉트론을 조합하여, 즉 층을 쌓아서 XOR 게이트를 구현하면 됨
  - 이때 XOR 게이트는 입력 중 하나만 1일 때, 출력 1이 가능

In [10]:
# 지금까지 정의한 함수 AND, NAND, OR를 사용하면 XOR 게이트를 쉽게 구현할 수 있음
def XOR(x1,x2) : 
    s1 = NAND(x1,x2)
    s2 = OR(x1,x2)
    y = AND(s1,s2)
    
    return y

In [11]:
print(XOR(0,0))
print(XOR(0,1)) # 이때 1을 출력해야 함
print(XOR(1,0)) # # 이때 1을 출력해야 함
print(XOR(1,1))

0
1
1
0


- 단층 퍼셉트론으로는 표현하지 못한 것을 층을 하나 늘려 구현할 수 있게 됨

> 정리

    1. 퍼셉트론에서는 가중치와 편향을 매개변수로 설정
    2. XOR 게이트는 단층 퍼셉트론으로는 표현할 수 없다
    3. 2층 퍼셉트론을 이용하면 XOR 게이트를 표현할 수 있다
    4. 단층 퍼셉트론은 직선형 영역만 표현할 수 있고, 다층 퍼셉트론은 비선형 영역도 표현할 수 있다
    5. 다층 퍼셉트론은 (이론상) 컴퓨터를 표현할 수 있다

----

----

----

### 신경망

#### - 퍼셉트론에서 신경망으로
- 신경망은 퍼셉트론과 유사한 점이 많으나, 퍼셉트론과 다른 점을 중심으로 신경망의 구조를 설명해보자
- 신경망은 입력층, 은닉층, 출력층으로 구성되어 있음
  - 이때 은닉층의 뉴런은 입력층이나 출력층과 달리 사람 눈에 보이지 않음
    - (아마 이게 블랙박스라고 일컬었던 것 같음)
  - rewiew
    - 편향 : 뉴런이 얼마나 쉽게 활성화되느냐를 제어
    - 가중치 : 각 신호의 영향력을 제어

- 활성화 함수의 등장
  - 입력 신호의 총합을 출력 신호로 변환하는 함수를 일반적으로 활성화 함수라 한다.
  - 입력 신호의 총합이 활성화를 일으키는지를 정하는 역할을 한다.

- 종전에 설명한 활성화 함수는 임계값을 경계로 출력이 바뀌는데, 이런 함수를 계단 함수라 한다.
  - 그래서 '퍼셉트론에서는 활성화 함수로 계단 함수를 이용한다'고 할 수 있다.
  - 즉, 활성화 함수로 쓸 수 있는 여러 후보 중에서 퍼셉트론은 계단 함수를 채용한 것
    - 그 외, 시그모이드 함수도 활성화 함수로 사용할 수 있음

- 활성화 함수 中 시그모이드 함수

$$h(x) = {\frac{1}{1+exp(-x)}}$$

- 활성화 함수로 이용되는 시그모이드 함수를 계단 함수와 비교하면서 자세히 살펴보자

In [12]:
def step_function(x):
    if x>0:
        return 1
    else :
        return 0 

- 해당 함수는 실수만 받아들임
  - 즉, 넘파이 배열을 인수로 넣을 순 없음
    - 이를테면, np.array([1.3,23.3])
    - 가능하게 해보자

In [13]:
def step_function(x):
    y = x>0
    return y.astype(np.int)

In [16]:
step_function(np.array([23.123,-213,123,333.2,0]))

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  return y.astype(np.int)


array([1, 0, 1, 1, 0])