# *Neural Network*
## 6. 손글씨 숫자 인식
> - 학습 과정은 생략, 추론 과정만 구현
- 이를 신경망의 **forward propagation(순전파)** 라고 함
- 참고로 기계학습의 문제풀이는 학습과 추론 두단계를 거쳐 이루어짐 (모델의 학습, 미지의 데이터에 대해 추론 수행)

___

### 1) MNIST 데이터셋
___
- 기계학습 데이터 셋 MNIST 가져오기
- 사전 정의되어 잇는 minst.py 내 함수 통해 데이터셋 호출 

In [3]:
import sys, os
sys.path.append(os.pardir)
from data.mnist import load_mnist

- mnist.py 내 user defined function 사용

In [4]:
(x_train, t_train), (x_test, t_test) = load_mnist(flatten =  True, normalize = False)

In [9]:
print(x_train.shape)
print(t_train.shape)
print(x_test.shape)
print(t_test.shape)

(60000, 784)
(60000,)
(10000, 784)
(10000,)


- load_mnist() 함수는 읽은 MNIST데이터를 **(훈련이미지, 훈련레이블), (시험이미지, 시험레이블)** 형식으로 반환
- 함수 내 인수는 총 3가지로 normalize(0-1정규화), flatten (1차원배열 or 3차원배열), one_hot_label(1,0으로 이루어진 배열 or 숫자배열)이 있음
- 이미지 데이터는 원래 1 X 28 X 28의 3차원 배열로 이루어짐
- Python의 pickle 기능을 활용하여 데이터를 파일로 저장/불러오기

In [1]:
import numpy as np
from PIL import Image
import pickle

In [5]:
def img_show(img):
    pil_img = Image.fromarray(np.uint8(img))
    pil_img.show()

img = x_train[0]
label = t_train[0]
print(label)


print(img.shape)
img = img.reshape(28,28)
print(img.shape)

img_show(img)

5
(784,)
(28, 28)


- flatten 된 1차원 넘파이 배열을 28 x 28 배열로 다시 변형해서 이미지로 표시
___

### 2) 신경망의 추론 처리

> - 입력층 뉴런을 784개, 출력층 뉴런을 10개로 구성 (이미지 크기 784 = 28 * 28, 0부터 9까지 총 10개의 숫자 구분)
- 은닉층은 임의로 지정하되 본 예제에서는 2개의 은닉층, 각 50, 100개의 뉴런으로 구성

In [6]:
def sigmoid(x):
    return 1 / (1 + np.exp(-x))


def softmax(a):
    c = a.max()               #오버플로우 방지
    exp_a = np.exp(a-c)
    sum_exp_a = exp_a.sum()
    y = exp_a / sum_exp_a
    
    return y

- 은닉층과 출력층의 activation function 정의

In [7]:
def get_data():
    (x_train, t_train), (x_test, t_test) = load_mnist(normalize = True, flatten = True, one_hot_label = False)
    return x_test, t_test


def init_network():
    with open('data/sample_weight[ch3].pkl', 'rb') as f:
        network = pickle.load(f)

    return network


def predict(network, x):
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']
    
    a1 = np.dot(x,W1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1,W2) + b2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, W3) + b3
    y = softmax(a3)
    
    return y

- sampel_weight[ch3].pkl 에는 **학습된 가중치와 편향 매개변수**가 딕셔너리 변수로 저장되어 있음

In [42]:
x, t = get_data()
network = init_network()

In [51]:
accuracy_cnt = 0
for i in range(len(x)):
    y = predict(network, x[i])
    p = np.argmax(y) #확률이 가장 높은 원소의 인덱스
    if p == t[i]:
        accuracy_cnt += 1

        
print('Accuracy: ' + str(float(accuracy_cnt) / len(x)))

Accuracy: 0.9352


In [55]:
y = predict(network, x[0])
print(y)
print(np.argmax(y))

[8.4412488e-05 2.6350631e-06 7.1549421e-04 1.2586262e-03 1.1727954e-06
 4.4990808e-05 1.6269318e-08 9.9706501e-01 9.3744793e-06 8.1831159e-04]
7


- 학습된 가중치와 편향 매개변수로 신경망을 활용한 추론 결과는 93.52% 정확도임
- predict 함수는 각 이미지 별로 10개의 확률 배열 반환
- 가장 확률이 높은 원소의 인덱스가 신경망을 통해 추론한 숫자임
- normalize로 0~255값을 0~1사이의 값으로 변환하였고, 이를 정규화, 큰틀에서 전처리라고 함

___
### 3) 배치 처리

- 위에서 처리한 신경망의 차원 review
- **batch(배치)**는 하나의 배열로 묶은 입력 데이터를 명칭

In [59]:
x, _ = get_data()
network = init_network()

W1, W2, W3 = network['W1'], network['W2'], network['W3']
b1, b2, b3 = network['b1'], network['b2'], network['b3']

In [57]:
print(x.shape)
print(x[0].shape)

(10000, 784)
(784,)


In [58]:
print(W1.shape)
print(W2.shape)
print(W3.shape)

(784, 50)
(50, 100)
(100, 10)


In [60]:
print(b1.shape)
print(b2.shape)
print(b3.shape)

(50,)
(100,)
(10,)


![](image/fig 3-26.png)

- 위 그림과 같이 하나의 이미지 처리하는 과정 설명 가능
- 784개로 구성된 1차원 배열의 (28\*28 2차원 배열) 원소가 입력되어 10개인 1차원 확률 배열이 출력되는 흐름
- 편향(b)의 차원은 각 층의 원소 개수와 일치

![](image/fig 3-27.png)

- 여러장의 이미지가 (가령 100장) 입력된다면 위와 같이 계산 가능
- 이처럼 하나로 묶은 입력 데이터를 **batch(배치)**라고 함
- batch 처리는 컴퓨터 계산에서 큰 자원 효율성을 가져다 줌

In [9]:
x,t = get_data()
network = init_network()

batch_size = 100
accuracy_cnt = 0

for i in range(0, len(x), batch_size):
    x_batch = x[i:i+batch_size]
    y_batch = predict(network, x_batch)
    p = np.argmax(y_batch, axis = 1)
    accuracy_cnt += np.sum(p == t[i:i+batch_size])

print('Accuracy: ' + str(float(accuracy_cnt) / len(x)))

Accuracy: 0.9352


- for문에 range(,,step)을 지정하여 한번에 100개씩 묶인 batch 별로 처리 (x[0:100], x[100:200], x[200:300]...)
- argmax()에 axis = 1 인수를 추가함에 따라 100X10 배열의 1첫번째 차원을 구성하는 각 원소로부터 최대값의 인덱스 반환

In [32]:
## argmax(,axis = 1) 예제

x = np.array([[.1, .8, .1], [.3, .1, .6], [.2, .5, .3], [.8, .1, .1]])
y = np.argmax(x, axis = 1)
y

array([1, 2, 1, 0], dtype=int64)

In [34]:
## boolean 타입 비교 예제

y = np.array([1, 2, 1, 0])
t = np.array([1, 2, 0, 0])
print(y == t)
print(sum(y == t))

[ True  True False  True]
3
