# 인공 신경망(ANN)
## 다층 퍼셉트론(Multi-Layer Perceptron, MLP)

# 퍼셉트론
* 입력을 받아서 신호로 출력
* 퍼셉트론은 직선으로 나뉜 두 영역을 만듦
    - AND
    - OR
* 2개의 계층을 만들어 XOR 계산 가능
    - XOR

In [25]:
import numpy as np
def AND(x1, x2):
    X = np.array([x1, x2])
    W = np.array([0.5, 0.5])
    b = -0.6
    tmp = np.sum(W*X)+b
    if tmp <= 0 :
        return 0
    else:
        return 1
    
AND(1,1), AND(1,0), AND(0,1), AND(0,0)

(1, 0, 0, 0)

In [28]:
def OR(x1, x2):
    X = np.array([x1, x2])
    W = np.array([0.5, 0.5])
    b = -0.3
    tmp = np.sum(W*X)+b
    if tmp <= 0 :
        return 0
    else:
        return 1
    
OR(1,1), OR(1,0), OR(0,1), OR(0,0)

(1, 1, 1, 0)

In [16]:
def NAND(x1, x2):
    X = np.array([x1, x2])
    W = np.array([-0.5, -0.5])
    b = 0.6
    tmp = np.sum(W*X)+b
    if tmp <= 0 :
        return 0
    else:
        return 1
    
NAND(1,1), NAND(1,0), NAND(0,1), NAND(0,0)

(0, 1, 1, 1)

In [31]:
def XOR(x1, x2):
    S1 = NAND(x1,x2)
    S2 = OR(x1,x2)
    return AND(S1, S2)

XOR(1,1), XOR(1,0), XOR(0,1), XOR(0,0)

(0, 1, 1, 0)

# 신경망
* 입력층
* 은닉층
    - 사람 눈에는 보이지 않는다.
    - 많이 존재할 수 있으며, 싶어지면 딥러닝이라 한다.
* 출력층
* 뉴런(노드)

### 신경망은 데이터를 통해 학습할 수 있다.
* 데이터에서 _학습_한다는 것은 '가중치' 매개 변수의 값을 데이터를 통해 자동으로 결정한다는 뜻
* 자동으로 결정된다는 것은 수작업으로 매개변수 값을 설정할 필요가 없다는 뜻임
    - 편향도 자동으로 결정됨, 큰의미에서는 입력값이 1인 가중치라고 생각해도 됨


## 활성화 함수
* 임계값을 경계로 출력이 바뀜
* Activattion Funtion에 미분함 왜?(오차역전파법을 이용해 가중치를 업데이트 하기 위해)
    - Liner function : 사용하는 의미가 없다.
        + 점수 -> 점수
    - 계단함수(Step function)
        + 0, 1로 출력(입력이 0을 넘기면 1, 이외에는 0)
    - 시그모이드 함수(Sigmoid function)
        + ${\displaystyle S(x)={\frac {1}{1+e^{-x}}}={\frac {e^{x}}{e^{x}+1}}.}$
        + 로지스틱 함수?
        + 결과값을 0 ~ 1사이로 나타냄
        + 점수 -> '확률'로 출력함
        + 초기에는 많이 사용하였지만
            * __기울기 소실(gradient vanishing) 문제가 발생함__
            * 일정값 이상의 input을 입력하면 미분값이 0에 가까워진다.
        + __함수의 중심값이 0이 아니다.__
            * 학습의 속도가 느려질 수 있다.
    - Tanh
        + $tanh(x)=ex−e−xex+e−x$
        + 대칭형
        + -1 ~ 1로 나타냄
        + sigmoid처럼 범위 안의 값을 예측할 때 사용
        + __함수의 중심값이 0이 아닌 문제를 해결__
        + __기울기 소실 문제는 계속 남아있다.__
    - ReLU
        + $f(x) = max(0, x)$
        + 0 보다 작으면 0으로, 0보다 크면 입력값 그대로 출력
        + 출력값이 항상 양수여야 한다면 사용
        + __학습이 빠르다.__
        + __구현이 쉽다.__
        + __음수의 node들은 학습이 안될 수도 있다.__
        + 가장 많이 쓰임
    - Leakly ReLU
        + $f(x)=max(0.01x,x)$
        + 음수 값도 조금씩이라도 학습이 된다.
        

## 손실함수
* 신경망 성능의 '나쁨'을 나타내는 지표
    - 비용함수(Cost Function)이라고도 불린다.
    - 손실에는 그만큼 비용이 발생하기 때문
    - loss function : 개별적
    - Cost Function : 1/m (평균을 냄)
* 손실함수 종류
    - 평균 제곱 오차(MSE, Mean Squared Error)
        + $MSE = {\dfrac {1}{m}}\sum_{i=1}^{n}(Y_{i}-{b_{i}})^{2}$
    - 교차 엔트로피 오차(Cross Entropy)
        + 필요없는 정보를 제거
        
* 손실함수를 사용하는 이유?
    - 우리의 목적은 높은 '정확도'를 끌어내는 매개변수 값을 찾는 것!
    - '정확도'라는 실제적인 값이 있지만, 이를 사용하지 않고 함수를 사용하는 이유는 __미분을 통해 최적 값을 찾아낼수 있기 때문__
        + 미분(기울기)을 계산을 반복, 미분값이 0이되면 최적값

## tenserflow
* 고수준 미분기

## 케라스
* 모든 종류의 신경망을 손쉽게 만들고 훈련 평가, 실행할 수 있는 고수준 딥러닝 API

# tensorflow 설치
* gpu 드라이버(최신)
* cuda(10.1)
* cuDNN(10.1)
* pip로 tensorflow(2.3) 설치

In [2]:
# 실습 문제
import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(0)

def make_random_data():
    x = np.random.uniform(low=-2, high=2, size=200)
    y = []
    for t in x:
        r = np.random.normal(loc=0.0, scale=(0.5 + t*t/3), size=None)
        y.append(r)
    return  x, 1.726*x -0.84 + np.array(y)


x, y = make_random_data() 

plt.plot(x, y, 'o')
plt.show()

ModuleNotFoundError: No module named 'tensorflow'

##### 실습 문제
1. 데이터 분리 안해도 됨
2. Sequential
3. Layer???
4. optimizer 'sgd'
5. loss = 'mse' # 회귀 모뎅에서 사용


# 학습 알고리즘 구현
* Goal : 가중치와 편향을 훈련데이터에 맞게 update
    1. 데이터 입력(미니배치)
    2. 신경망을 지나고 손실함수에 대한 loss 값을 계산
    3. 손실함수에 대한 미분값을 계산 ,| __activation function 사용__
    4. 경사하강법 사용 -> update(가중치 매개변수 갱신)
    => 수치 미분(계산이 오래걸림)     |=> 오차역전파법(activation function 사용)
    5. 최적값 구할때까지 2,3,4 반복

## 오차역전파법
* 오차를 역으로 전파시켜준다. (역으로 보정해준다.)
* 오차 : 실제값 - 예측값
* Layer -> layer -> layer -> ... -> 결과
* Layer오차 <- layer오차 -> layer오차 <- ... <- 결과의 오차
* 경사하강법을 이용해 각각의 오차를 보정해 준다.
* 경사하강법
    - 미분값을 구함 -> 수치미분 -> 컴퓨팅 파워가 많이 필요함
    - 미분값을 구함 -> Chain Rule을 이용해 구한다. -> 각 function의 미분 결과를 저장해놓고 입력에 대한 결과를 호출만함
    
##### 미분
* x값에 대한 y값의 순간 변화율(순간 기울기)
    - 변화율를 측정하기 위해 '미분'함

* 수치 미분은 단순하지만 계산이 오래 걸림 -> 효율적인 방법은?
* Backpropagation(오차역전파법) :가중치 매개변수의 기울기를 효융적을 계산
    - 오차를 역방햑으로 전파하는 방법

사과| *2| *1.1 |-> 장바구니
---|---|---|---
100| 200| 220 |-> 220
90| (<-2.2)180| (<-1.1)198| <- 1
* 사과에 가격이 장바구니에 2.2배의 영향을 줌
* 참고 : week3.pdf - p15

* 덧셈 노드
    - 그대로 역으로 진행
* 곱셈 노드
    - x와 y값을 반대로(바꿔서) 곱셈 후 역으로 진행

## 연쇄 법칙(Chain Rule)
* $z = g(f(x))$
* ${\displaystyle {\frac {dz}{dx}}={\frac {dz}{dt}}\cdot {\frac {dt}{dx}}}$
* 역전파 법은 '국소적 미분'을 전달하는 방식
* 국소적 미분을 전달하는 원리는 __연쇄법칙__에 따른 것
* '수치 미분'으로 전 과정(layer)을 미분하면 복잡하니, 과정(layer)을 나누어 미분하여 계산함

#### 결국 '__Cost function__'을 미분해서 반영하기에, '__활성화 함수__' 선택이 중요!

### 예제
#### W_5의 가중치 update
* 참고 : https://wikidocs.net/37406
* 참고 : 이미지 노트(원노트)

#### W_1의 가중치 update
*  ${\displaystyle {\frac {d(MSE)}{dW_1}}={\frac {d(MSE)}{dh_1}}\cdot {\frac {dh_1}{dz_1}} \cdot {\frac {dz_1}{dW_1}}}$
* 결국 '__Cost function__'을 미분해서 반영하기에, '__활성화 함수__' 선택이 중요!
    - Loss function : MSE, MAE, binary/categorical/sparse categorical crossentropy 등