In [1]:
import numpy as np
import matplotlib.pylab as plt

# 3. 신경망

## 3.1 퍼셉트론에서 신경망으로

### 3.1.3 활성화 함수의 등장

<code>활성화 함수(activation function)</code>: 입력 신호의 총합이 활성화를 일으키는지 정하는 역할

## 3.2 활성화 함수

퍼셉트론에서는 활성화 함수로 계단 함수(step function)을 활용  
신경망에서는 활성화 함수로 시그모이드 함수, 렐루 함수 등을 활용

### 3.2.1 시그모이드 함수

<code>시그모이드 함수(sigmoid function)</code>

$$ h(x) = \frac{1}{1+e^{-x}} $$

$e$는 자연상수로 $2.7182...$의 값을 갖는 실수

### 3.2.4 시그모이드 함수 구현하기

In [2]:
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

### 3.2.6 비선형 함수

- 선형 함수: 무언가 입력했을 때 출력이 입력의 상수배만큼 변하는 함수, $f(x) = ax + b$, $a$와 $b$는 상수  
- 비선형 함수: 선형이 아닌 함수, 직선 1개로는 그릴 수 없는 함수

신경망에서는 활성화 함수로 비선형 함수를 사용해야 함  
선형 함수를 이용하면 신경망의 층을 깊게 하는 의미가 없어지기 때문

선형 함수인 $h(x) = cx$를 활성화 함수로 사용한 3층 네트워크를 식으로 나타내보면  
$y(x) = h(h(h(x)))$가 되고, 이 계산은 $y(x) = c*c*c*x$처럼 세 번의 곱셈을 수행하지만  
실은 $y(x) = ax$와 똑같은 식임, $a = c^3$이라고 하면 끝임
즉, 은닉층이 없는 네트워크로 표현 가능

### 3.2.7 ReLU 함수

<code>ReLU 함수(Rectified Linear Unit function)</code>

$$ h(x) = \begin{cases} x, & (x>0) \\ 0, & (x\le0) \end{cases} $$

In [3]:
def relu(x):
    return np.maximum(0, x)

## 3.5 출력층 설계하기

- <code>분류(classification)</code>: 데이터가 어느 클래스(class)에 속하느냐는 문제  
  \- 시그모이드(sigmoid) 함수: 이진 클래스 분류  
  \- 소프트맥스(softmax) 함수: 다중 클래스 분류  
- <code>회귀(regression)</code>: 입력 데이터에서 (연속적인) 수치를 예측하는 문제  
  \- 항등(identity) 함수: 입력 = 출력 (입력을 그대로 출력)

### 3.5.1 항등 함수와 소프트맥스 함수 구현하기

<code>소프트맥스(Softmax)</code> 함수 구현

$$ y_k = \frac{\exp(a_k)}{\sum_{i=1}^{n} \exp(a_i)} $$

In [4]:
def softmax(a):
    exp_a = np.exp(a)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    
    return y

### 3.5.2 소프트맥스 함수 구현 시 주의점

#### 오버플로 문제
소프트맥스 함수는 지수 함수를 사용하는데, 아주 큰 값을 출력하기 쉬움

In [5]:
for x in range(0, 1001, 50):
    print(f'x = {x}, exp(x) = {np.exp(x)}')

x = 0, exp(x) = 1.0
x = 50, exp(x) = 5.184705528587072e+21
x = 100, exp(x) = 2.6881171418161356e+43
x = 150, exp(x) = 1.3937095806663797e+65
x = 200, exp(x) = 7.225973768125749e+86
x = 250, exp(x) = 3.7464546145026734e+108
x = 300, exp(x) = 1.9424263952412558e+130
x = 350, exp(x) = 1.0070908870280797e+152
x = 400, exp(x) = 5.221469689764144e+173
x = 450, exp(x) = 2.7071782767869983e+195
x = 500, exp(x) = 1.4035922178528375e+217
x = 550, exp(x) = 7.277212331783397e+238
x = 600, exp(x) = 3.7730203009299397e+260
x = 650, exp(x) = 1.956199921370272e+282
x = 700, exp(x) = 1.0142320547350045e+304
x = 750, exp(x) = inf
x = 800, exp(x) = inf
x = 850, exp(x) = inf
x = 900, exp(x) = inf
x = 950, exp(x) = inf
x = 1000, exp(x) = inf


  print(f'x = {x}, exp(x) = {np.exp(x)}')


무한대(inf)와 같은 큰 값끼리 나눗셈을 하면 결과 수치가 불안정해짐

In [6]:
a = np.array([1010, 1000, 990])
np.exp(a) / np.sum(np.exp(a))

  np.exp(a) / np.sum(np.exp(a))
  np.exp(a) / np.sum(np.exp(a))


array([nan, nan, nan])

아무런 조치 없이 그냥 계산하면 nan이 출력됨

In [7]:
c = np.max(a)
a - c

array([  0, -10, -20])

In [8]:
result = np.exp(a-c) / np.sum(np.exp(a-c))
result

array([9.99954600e-01, 4.53978686e-05, 2.06106005e-09])

입력 신호 중 최댓값을 빼주면 올바르게 계산 가능

In [9]:
def softmax(a):
    c = np.max(a)
    exp_a = np.exp(a - c) # 오버플로 대책
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    
    return y

### 3.5.3 소프트맥스 함수의 특징

In [10]:
a = np.array([0.3, 2.9, 4.0])
y = softmax(a)
print(y)

[0.01821127 0.24519181 0.73659691]


In [11]:
np.sum(y)

1.0

소프트맥스 함수 출력의 총합은 1 → <code>확률</code>로 해석 가능  
위에서는 y[0]의 확률은 1.8%, y[1]의 확률은 24.5%, y[2]의 확률은 73.7%라고 해석 가능

기계학습의 문제 풀이는 <code>학습(training)</code>과 <code>추론(inference)</code>의 두 단계를 거쳐 이뤄짐  
학습 단계에서 모델을 학습하고, 추론 단계에서 앞서 학습한 모델로 미지의 데이터에 대해서 추론(분류)을 수행함  
학습 시, 출력층에서 소프트맥스 함수를 사용하지만  
추론 시, (현업에서는) 지수 함수 계산에 드는 자원 낭비를 줄이고자 출력층의 소프트맥스 함수는 생략하는 것이 일반적임

### 3.5.4 출력층의 뉴런 수 정하기

출력층의 뉴런 수는 풀려는 문제에 맞게 적절히 정해야함  
분류에서는 분류하고 싶은 클래스 수로 정하는 것이 일반적임  
ex. 이미지를 숫자 0부터 9 중 하나로 분류하는 문제라면 출력층의 뉴런을 10개로 설정

## 3.6 손글씨 숫자 인식

### 3.6.1 MNIST 데이터셋

In [12]:
import sys, os
sys.path.append(os.pardir)
from dataset.mnist import load_mnist

In [13]:
(x_train, t_train), (x_test, t_test) = load_mnist(flatten=True, normalize=False)

In [14]:
print(x_train.shape)
print(t_train.shape)
print(x_test.shape)
print(t_test.shape)

(60000, 784)
(60000,)
(10000, 784)
(10000,)


In [15]:
import sys, os
sys.path.append(os.pardir)
import numpy as np
from dataset.mnist import load_mnist
from PIL import Image

In [16]:
def img_show(img):
    pil_img = Image.fromarray(np.uint8(img))
    pil_img.show()

In [17]:
(x_train, t_train), (x_test, t_test) = load_mnist(flatten=True, normalize=False)

In [18]:
img = x_train[0]
label = t_train[0]
print(label)

5


In [19]:
print(img.shape)
img = img.reshape(28, 28)
print(img.shape)

(784,)
(28, 28)


In [20]:
img_show(img)

### 3.6.2 신경망의 추론 처리

In [21]:
def get_data():
    (x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, flatten=True, one_hot_label=False)
    return x_test, t_test

In [22]:
import pickle
def init_network():
    with open("dataset/sample_weight.pkl", 'rb') as f:
        network = pickle.load(f)

    return network

In [23]:
def predict(network, x):
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']

    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, W3) + b3
    y = softmax(a3)

    return y

In [24]:
x, t = get_data()
network = init_network()

accuracy_cnt = 0
for i in range(len(x)):
    y = predict(network, x[i])
    p = np.argmax(y)
    if p == t[i]:
        accuracy_cnt += 1

print("Accuracy:" + str(float(accuracy_cnt) / len(x)))

Accuracy:0.9352


### 3.6.3 배치 처리

In [25]:
x, t = get_data()
network = init_network()

batch_size = 100
accuracy_cnt = 0

for i in range(0, len(x), batch_size):
    x_batch = x[i:i+batch_size]
    y_batch = predict(network, x_batch)
    p = np.argmax(y_batch, axis=1)
    accuracy_cnt += np.sum(p == t[i:i+batch_size])

print("Accuracy:" + str(float(accuracy_cnt) / len(x)))

Accuracy:0.9352
