### 손글씨 숫자 인식
신경망의 구조를 활용하여 실제 사례를 살펴본다. 이미 학습된 매개변수를 사용하여 학습 과정은 생략하고, 추론 과정만 살펴 볼 예정이다. 이러한 추론 과정을 순전파라고 한다.

In [2]:
# 데이터셋 불러오기
from mnist import load_mnist

# flatten 인자값은 책의 저자가 만든 옵션으로, flatten=True로 읽어들인 이미지들은 모두 1차원 넘파이 배열로 읽힌다.
(X_train, t_train), (X_test, t_test) = load_mnist(flatten=True, normalize=False)

print(X_train.shape)
print(X_test.shape)
print(t_train.shape)
print(t_test.shape)

(60000, 784)
(10000, 784)
(60000,)
(10000,)


In [3]:
# 이미지 확인하기
import numpy as np
from PIL import Image

def img_show(img):
    pil_img = Image.fromarray(np.uint8(img)) # numpy배열로 넘어온 이미지를 PIL의 Image모듈에 있는 fromarray라는 메소드를 이용해 PIL전용 데이터 객체로 변환한다.
    pil_img.show()
    
img = X_train[0]
label = t_train[0]
print(label) # label은 target 데이터로, 0번째 인덱스값에는 5가 저장되어 있다.
print(img.shape)
img = img.reshape(28, 28) # flatten=True로 설정하여 1차원 넘파이 배열로 저장된 값이 넘어오기에 이미지는 원래 형상인 28by28크기로 다시 변형해야 한다.

img_show(img)

5
(784,)


### 신경망의 추론 처리
현재 이 신경망은 784개의 입력층 노드와 10개의 출력층 노드로 구성되어 있습니다. 입력층 노드가 784개인 이유는 이미지 크기가 28x28 = 784이기 때문이고, 출력층 노드가 10개인 이유는 0~9까지의 손글씨 숫자를 구분하는 문제이기 때문이다.

한편, 은닉층은 총 두개로, 첫 번째 은닉층에서는 50개의 노드를, 두 번째 은닉층에서는 100개의 노드를 배치할 계획이다. 이 때 은닉층 노드의 개수는 임의로 선정한 것이다.

In [4]:
# 필요 함수들 정의
import pickle

def sigmoid(x): # 입력층, 은닉층 활성화 함수
    return 1/(1+np.exp(-x))

def softmax(a): # 출력층 활성화 함수
    c = np.max(a)
    exp_a = np.exp(a - c) # over flow error 방지
    sum_exp_a = np.sum(exp_a)
    
    return exp_a/sum_exp_a

def get_data(): # 데이터 로드 함수
    (X_train, t_train), (X_test, t_test) = load_mnist(flatten=True, normalize=True, one_hot_label=False)
    print(X_test.shape)
    print(t_test.shape)
    return X_test, t_test

def init_network(): # 학습된 가중치 매개변수를 읽어온다.
    with open("./sample_weight.pkl", "rb") as f:
        network = pickle.load(f)
    
    return network

def predict(network, x):
    W1, W2, W3 = network["W1"], network["W2"], network["W3"]
    print(W1.shape)
    print(W2.shape)
    print(W3.shape)
    b1, b2, b3 = network["b1"], network["b2"], network["b3"]
    
    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1) # 은닉1층 활성화함수
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2) # 은닉2층 활성화함수
    a3 = np.dot(z2, W3) + b3
    y = softmax(a3) # 출력층 활성화 함수 : 결과는 0~9까지의 각 숫자가 어느정도의 확률로 일치하는지에 대한 배열값으로 나온다.
    print(y.shape)
    
    return y

In [5]:
x, t = get_data() # 데이터 셋 생성
network = init_network() # 가중치, 편향값 loading : nn 생성

accuracy_cnt = 0
for i in range(len(x)): # 데이터를 순회하면서
    y = predict(network, x[i]) # 예측을 진행한다. 
    p = np.argmax(y) # 확률이 가장 높은 원소의 인덱스값을 가져온다.
    if p == t[i]:
        accuracy_cnt += 1

print(f"Accuracy : {accuracy_cnt / len(x)}")

(10000, 784)
(10000,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 50)
(50, 100)
(100, 10)
(10,)
(784, 

현재 위에서 살펴본 바에 의하면, 입력 데이터부터 출력 데이터 까지의 shape을 확인하면 아래와 같다.
> X : 784 ➡️ W1 : 784x50 ➡️ W2 : 50x100 ➡️ W3 : 100x10 ➡️ y : 10 <br>
다차원 배열에 대응하는 원소의 수가 일치함을 확인할 수 있다.(784➡️784, 50➡️50, 100➡️100, 10➡️10)

전체적으로 흐름을 살펴보면 원소 784개로 구성된 1차원 배열(원래는 28x28인 2차원 배열)이 입력되어 마지막에는 원소가 10개인 1차원 배열이 출력되는 흐름을 살펴볼 수 있다. 이는 이미지 데이터 1장을 입력했을 때에 대한 출력이다.

이미지 여러 장을 입력한다고 가정하자. 이미지 100개를 묶어서 predict()함수에 한 번에 넘기는 것 처럼 말이다. x의 형상을 100x784로 바꿔 100장 분량의 데이터를 하나의 입력 데이터로 표현하면 될 것이다. 흐름은 아래와 같다.
> X : 100x784 ➡️ W1 : 784x50 ➡️ W2 : 50x100 ➡️ W3 : 100x10 ➡️ y : 100x10

입력 데이터의 형상은 100x784, 출력 데이터의 형상은 100x10이 될 것이다. 100장 분량의 입력 데이터의 결과가 한 번에 출력됨을 나타낸다. x[0]y[0]에는 0번째 이미지와 그 추론 결과가, x[1]y[1]에는 1번째 이미지와 그 추론결과가 담기는 방식일 것이다.

이렇게 하나로 묶은 입력 데이터를 `batch`라고 한다.

### 배치처리 구현하기

In [6]:
x, t = get_data()
network = init_network()

batch_size = 100
accuracy_cnt = 0
for i in range(0, len(x), batch_size): # 0~784개까지 100개씩 건너뛰면서 배열을 탐색
    x_batch = x[i:i+batch_size] # 1번째 시행: x[0:100], 2번째 시행: x[100:200] ....
    y_batch = predict(network, x_batch) # 100개의 데이터를 
    p = np.argmax(y_batch, axis = 1) # 각 행별 최대값의 인덱스
    accuracy_cnt += np.sum(p==t[i:i+batch_size]) # 예측 결과와 t[0~100]까지의 값들 중 같은 것들을 boolean indexing한다. 이 때 True인 값들을 sum함수로 합쳐 acc_cnt에 합친다.
print(f"Accuracy : {accuracy_cnt / len(x)}")

(10000, 784)
(10000,)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100)
(100, 10)
(100, 10)
(784, 50)
(50, 100