# 신경망 - Neural network

- [Neural network](http://matrix.skku.ac.kr/math4ai-intro/W13/)

---

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

plt.rc('figure', figsize=(10, 6))

from matplotlib import rcParams
rcParams['font.family'] = 'New Gulim'
rcParams['font.size'] = 10
rcParams['axes.unicode_minus'] = False

# 1 퍼셉트론과 신경망

### 1.1 신경망

- 신경망의 예
<img src="./images/fig_3-1.png" width="300"/>

### 1.2 퍼셉트론 복습

- 퍼셉트론
<img src="./images/fig_3-2.png" width="200"/>

- 퍼셉트론 수식
<img src="./images/e_3.1.png" width="300"/>

- 편향을 명시한 퍼셉트론
<img src="./images/fig_3-3.png" width="200"/>

- 퍼셉트론의 활성화 함수 - 계단 함수(step function)
<img src="./images/e_3.2.png" width="300"/>
<img src="./images/e_3.3.png" width="200"/>

### 1.3 활성화 함수 표현

- 활성화 함수 표현
<img src="./images/e_3.4.png" width="250"/>
<img src="./images/e_3.5.png" width="150"/>

- 활성화 함수 처리 과정
<img src="./images/fig_3-4.png" width="250"/>

- 활성화 함수 처리 과정을 명시한 뉴런 (a()는 입력 신호의 총합, h()는 활성화 함수, y는 출력)
<img src="./images/fig_3-5.png" width="500"/>

# 2 활성화 함수 - Activation function

### 2.1 계단 함수 - Step function

#### 2.1.1 계단 함수 구현

In [None]:
def step_function(x):
    if x > 0:
        return 1
    else:
        return 0

In [None]:
print('입력:  5, 출력:', step_function( 5))
print('입력: -5, 출력:', step_function(-5))

#### 2.1.2 계단 함수: 배열 처리 기능 추가

In [None]:
def step_function(x):
    return np.array(x > 0, dtype=np.int32)

In [None]:
print('입력:  5, 출력:', step_function( 5))
print('입력: -5, 출력:', step_function(-5))

In [None]:
# 배열 처리
x =  np.array([-1, 1, 2, -2, 3])

print('입력:', x )
print('출력:', step_function(x))

#### 2.1.3 계단 함수 그래프

In [None]:
X = np.arange(-5.0, 5.0, 0.1)
Y = step_function(X)

plt.plot(X, Y)
plt.ylim(-0.1, 1.1)  # y축의 범위 지정
plt.show()

### 2.2 시그모이드 함수 - Sigmoid function

- 시그모이드 함수 수식
<img src="./images/e_3.6.png" width="250"/>

#### 2.2.1 시그모이드 함수 구현

In [None]:
def sigmoid(x):
    return 1 / (1 + np.exp(-x))    

In [None]:
# 배열 처리
x =  np.array([-100, -1, 0, 1, 100])

print('입력:', x )
print('출력:', np.round(sigmoid(x), 1))

#### 2.2.2 시그모이드 함수 그래프

In [None]:
X = np.arange(-5.0, 5.0, 0.1)
Y = sigmoid(X)

plt.plot(X, Y)
plt.ylim(-0.1, 1.1)  # y축의 범위 지정
plt.show()

#### 2.2.3 시그모이드 함수와 계단 함수 비교
- 신경망에서 비선형 함수(활성화 함수)의 역할 - 합성 함수

In [None]:
X = np.arange(-5.0, 5.0, 0.1)
Y1 = sigmoid(X)
Y2 = step_function(X)

plt.plot(X, Y1)
plt.plot(X, Y2, 'k--')
plt.ylim(-0.1, 1.1) # y축 범위 지정
plt.show()

### 2.3 ReLU 함수 - Rectified Linear Unit

- ReLU 함수 수식
<img src="./images/e_3.7.png" width="200"/>

#### 2.3.1 ReLU 함수 구현

In [None]:
def relu(x):
    return np.maximum(0, x)

In [None]:
# 배열 처리
x =  np.array([-100, -1, 0, 1, 100])

print('입력:', x )
print('출력:', relu(x))

#### 2.3.2 ReLU 함수 그래프

In [None]:
X = np.arange(-5.0, 5.0, 0.1)
Y = relu(X)

plt.plot(X, Y)
plt.ylim(-0.1, 1.1)  # y축의 범위 지정
plt.show()

# 3 다차원 배열 계산

### 3.1 행렬의 곱

- 행렬: 2차원 배열
<img src="./images/fig_3-10.png" width="200"/>

- 행렬의 곱
<img src="./images/fig_3-11.png" width="400"/>

In [None]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

In [None]:
# 행렬의 곱
np.dot(A, B)
#A @ B

- 행렬의 곱: 차원의 원소 수 일치
<img src="./images/fig_3-12.png" width="400"/>

In [None]:
A = np.array([[1, 2, 3], [4, 5, 6]])
B = np.array([[1, 2], [3, 4], [5, 6]])
C = np.array([[1, 2], [3, 4]])

In [None]:
# 행렬의 곱
np.dot(A, B)

In [None]:
# 행렬의 곱: 에러
#np.dot(A, C)

- 행렬의 곱: 2차원 X 1차원
<img src="./images/fig_3-13.png" width="400"/>

In [None]:
A = np.array([[1, 2], [3, 4], [5, 6]])
B = np.array([7, 8])

In [None]:
# 행렬의 곱
np.dot(A, B)

### 3.2 신경망에서의 행렬 곱

- 신경망 행렬의 곱
<img src="./images/fig_3-14.png" width="500"/>

In [None]:
X = np.array([1, 2])
W = np.array([[1, 3, 5], [2, 4, 6]])

In [None]:
Y = np.dot(X, W)
Y

# 4 3층 신경망 구현

- 3층 신경망: 입력층(O층)은 2개, 첫 번째 은닉층(1층)은 3개, 두 번째 은닉층(2층)은 2개, 출력층(3층)은 2개의 뉴런으로구성
<img src="./images/fig_3-15.png" width="500"/>

- 신경망 표기법
<img src="./images/fig_3-16.png" width="500"/>

### 4.1 각 층의 신호 전달

#### 4.1.1 입력층에서 1층으로 신호 전달

- 입력층에서 1층으로 신호 전달
<img src="./images/fig_3-17.png" width="500"/>

- 입력층에서 1층으로 신호 전달 - 수식
<img src="./images/e_3.8.png" width="300"/>

- 입력층에서 1층으로 신호 전달 - 수식(행렬곱 표현)
<img src="./images/e_3.9.png" width="300"/>

- 입력층에서 1층으로 신호 전달 - 행렬 A, X, W, B
<img src="./images/e_3.9-1.png" width="500"/>

In [None]:
# 입력층에서 1층으로 신호 전달 - 코드 구현
X  = np.array([1.0, 0.5])
W1 = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
B1 = np.array([0.1, 0.2, 0.3])

print(W1.shape)  # (2, 3)
print(X.shape)   # (2,)
print(B1 .shape) # (3,)

A1 = np.dot(X, W1) + B1
A1

- 입력층에서 1층으로 신호 전달 - 활성화 함수 처리
<img src="./images/fig_3-18.png" width="500"/>

In [None]:
# 입력층에서 1층으로 신호 전달 - 활성화 함수 코드 구현
Z1 = sigmoid(A1)

print(A1) # [0.3 0.7 1.1]
print(Z1) # [0.57444252 0.66818777 0.75026011]

#### 4.1.2 1층에서 2층으로 신호 전달

- 1층에서 2층으로 신호 전달
<img src="./images/fig_3-19.png" width="500"/>

In [None]:
# 1층에서 2층으로 신호 전달 - 코드 구현
W2 = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
B2 = np.array([0.1, 0.2])

print(Z1.shape)  # (3,)
print(W2.shape)  # (3, 2)
print(B2 .shape) # (2,)

A2 = np.dot(Z1, W2) + B2
Z2 = sigmoid(A2)
Z2

#### 4.1.3 2층에서 출력층으로 신호 전달

- 2층에서 출력층으로 신호 전달
<img src="./images/fig_3-20.png" width="500"/>

In [None]:
# 2층에서 출력층으로 신호 전달 - 코드 구현
def identity_function(x):
    return x
    
W3 = np.array([[0.1, 0.3], [0.2, 0.4]])
B3 = np.array([0.1, 0.2])

A3 = np.dot(Z2, W3) + B3
Y  = identity_function(A3)
Y

### 4.2 3층 신경망 코드 구현 정리

#### 4.2.1 함수 정의

In [None]:
def identity_function(x):
    return x

def init_network():
    network = {}
    network['W1'] = np.array([[0.1, 0.3, 0.5],[0.2, 0.4, 0.6]])
    network['b1'] = np.array([0.1, 0.2, 0.3])
    network['W2'] = np.array([[0.1, 0.4],[0.2, 0.5],[0.3, 0.6]])
    network['b2'] = np.array([0.1, 0.2])
    network['W3'] = np.array([[0.1, 0.3],[0.2, 0.4]])
    network['b3'] = np.array([0.1, 0.2])
    
    return network
    
def forward(network, x):
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']
    
    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)
    
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)
    
    a3 = np.dot(z2, W3) + b3
    y  = identity_function(a3)
    
    return y
    

#### 4.2.2 네트워크 실행

In [None]:
network = init_network()
x = np.array([1.0, 0.5])
y = forward(network, x)

# [0.31682708 0.69627909]
print(y)

# 5 출력층 설계

### 5.1 출력층의 활성화 함수
- 회귀: 항등 함수
- 분류: 소프트맥스 함수

#### 5.1.1 항등 함수 - identity function

- 항등 함수(identity function)
<img src="./images/fig_3-21.png" width="150"/>

#### 5.1.2 소프트맥스 함수 - softmax function
- *계산 비용 감소를 위해 추론시 소프트맥수 함수 생략 가능*

- 소프트맥스 함수(softmax function)
<img src="./images/fig_3-22.png" width="150"/>

- 소프트맥스 함수(softmax function) - 수식
<img src="./images/e_3.10.png" width="200"/>

In [None]:
# 소프트맥스 함수(softmax function) - 코드 구현
def softmax(a):
    exp_a = np.exp(a)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    
    return y

In [None]:
a = np.array([0.3, 2.9, 4.0])
y = softmax(a)
print(y)

#### 5.1.3 소프트맥스 함수 개선
- overflow 문제

In [None]:
a = np.array([1010, 1000, 990])
y = softmax(a)
print(y)

- 소프트맥스 함수(softmax function) - 수식 개선
- C': 입력값의 최대값을 이용
<img src="./images/e_3.11.png" width="300"/>

In [None]:
# 소프트맥스 함수 개선 - 코드 구현 
def softmax(a):
    c = np.max(a)
    exp_a = np.exp(a - c) # overflow 방지
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    
    return y

In [None]:
a = np.array([1010, 1000, 990])
y = softmax(a)
print(y)

In [None]:
np.sum(y)

### 5.2 출력층의 뉴런 수
- 회귀: 1개
- 분류: 분류 문제의 클래스 수

- 출력층의 뉴런은 각 클래스에 대응
<img src="./images/fig_3-23.png" width="500"/>

# 6 손글씨 숫자 인식 - MNIST
- 추론 과정만 구현: 학습된 매개변수(w, b) 사용
- 추론 과정: 순전파(forward propagation)

### 6.1 Load Dataset - MNIST

- MNIST 이미지 데이터셋
<img src="./images/fig_3-24.png" width="400"/>

In [None]:
# Load MNIST
from dataset.mnist import load_mnist

(x_train, t_train), (x_test, t_test) = load_mnist(normalize=False, flatten=True)

print(x_train.shape)
print(t_train.shape)
print(x_test.shape)
print(t_test.shape)

In [None]:
# Display MNIST
from dataset.mnist import load_mnist

(x_train, t_train), (x_test, t_test) = load_mnist(normalize=False, flatten=True)

img = x_train[0]
label = t_train[0]
print('Label: ',label)

img_2d = img.reshape(28, 28)  # 형상을 원래 이미지의 크기로 변형
plt.imshow(img_2d)
plt.show()

### 6.2 신경망 추론
- 학습된 매개변수(w, b) 사용

In [None]:
# 함수 정의

import pickle
from dataset.mnist import load_mnist
from common.functions import sigmoid, softmax

def get_data():
    (x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, flatten=True, one_hot_label=False)
    return x_test, t_test

def init_network():
    with open('data/sample_weight.pkl', 'rb') as f:
        network = pickle.load(f)
    return network

def predict(network, x):
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']

    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, W3) + b3
    y = softmax(a3)

    return y

#### 6.2.1 신경망 추론 실행

- 신경망 각 층의 배열 형상
<img src="./images/fig_3-26.png" width="500"/>

In [None]:
# 신경망 추론 실행
x, t = get_data()
network = init_network()
accuracy_cnt = 0
for i in range(len(x)):
    y = predict(network, x[i])
    p= np.argmax(y) # 확률이 가장 높은 원소의 인덱스를 얻는다.
    if p == t[i]:
        accuracy_cnt += 1

print('Accuracy:' + str(float(accuracy_cnt) / len(x)))

#### 6.2.2 신경망 추론 실행 - 배치 처리

- 신경망 각 층의 배열 형상 - 배치 처리
<img src="./images/fig_3-27.png" width="500"/>

In [None]:
# 신경망 추론 실행 - 배치 처리
x, t = get_data()
network = init_network()

batch_size = 100
accuracy_cnt = 0

for i in range(0, len(x), batch_size):
    x_batch = x[i:i+batch_size]
    y_batch = predict(network, x_batch)
    p = np.argmax(y_batch, axis=1)
    accuracy_cnt += np.sum(p == t[i:i+batch_size])

print("Accuracy:" + str(float(accuracy_cnt) / len(x)))

# 정리

- 신경망에서는 활성화 함수로 시그모이드 함수와 ReLU 함수 같은 매끄럽게 변화하는 함수를 이용한다.
- 넘파이의 다차원 배열을 잘 사용하면 신경망을 효율적으로 구현할 수 있다.
- 기계학습 문제는 크게 회귀와 분류로 나눌 수 있다.
- 출력층의 활성화 함수로는 회귀에서는주로 항등 함수를, 분류에서는 주로 소프트맥스 함수를 이용한다.
- 분류에서는 출력층의 뉴런 수를 분류하려는클래스 수와 같게 설정한다.
- 입력 데이터를 묶은 것을 배치라 하며, 추론 처리를 이 배치 단위로 진행하면 결괴를 훨씬 빠르게 얻을 수 있다.

---

In [None]:
# End of file