In [72]:
import numpy as np

In [73]:
X = np.array([1.0, 0.5])
W1 = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
B1 = np.array([0.1, 0.2, 0.3])

print(W1.shape)
print(X.shape)
print(B1.shape)

A1 = np.dot(X, W1) + B1 # A1(1, 3) = X(1, 2)*W1(2, 3) + B1(1, 3)

(2, 3)
(2,)
(3,)


In [74]:
def sigmoid(x):
    return 1 / (1 + np.exp(x))

In [75]:
Z1 = sigmoid(A1)

print(A1)
print(Z1)

[0.3 0.7 1.1]
[0.42555748 0.33181223 0.24973989]


In [76]:
W2 = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
B2 = np.array([0.1, 0.2])

print(Z1.shape)
print(W1.shape)
print(B2.shape)

A2 = np.dot(Z1, W2) + B2 # A2(1, 2) = Z1(1, 3)*W2(3, 2) + B2(1, 2)
Z2 = sigmoid(A2)

(3,)
(2, 3)
(2,)


In [77]:
def identity_function(x): # 항등함수
    return x

W3 = np.array([[0.1, 0.3], [0.2, 0.4]])
B3 = np.array([0.1, 0.2])

A3 = np.dot(Z2, W3) + B3 # A3(1, 2) = Z2(1, 2)*W3(2, 2) + B3(1, 2)
Y = identity_function(A3)

앞에서 사용하는 활성화 함수 : h()
출력층의 활성화 함수 : σ()(시그마)
- 회귀; 항등 함수
- 시그모이드 함수; 2클래스 분류
- 소프트맥스 함수; 다중 클래스 분류

In [78]:
def init_network(): # 가중치와 편향 초기화
    network = {} # 딕셔너리 변수 : 순차적으로 요소를 구하는 리스트 혹은 튜플과 달리 Key를 통해 값을 얻는 자료형
    network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
    network['b1'] = np.array([0.1, 0.2, 0.3])
    network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
    network['b2'] = np.array([0.1, 0.2])
    network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
    network['b3'] = np.array([0.1, 0.2])
    
    return network

# 입력 신호를 출력으로 변환하는 처리 과정
def forward(network, x): # 순전파(신호가 순방향으로 전달) <-> 역전파
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']
    
    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, W3) + b3
    y = identity_function(a3)
    
    return y

network = init_network()
x = np.array([1.0, 0.5])
y = forward(network, x)
print(y)

[0.20993715 0.46282556]


기계학습 - 출력층 활성화 함수
- 분류 : 데이터가 어느 클래스에 속하는가? - 소프트맥스 함수
- 회귀 : 수치 예측 - 항등 함수

소프트맥스 함수
- n : 출력층 뉴런의 수
- k번째 y = exp(k번째 입력 신호 a) / 1부터 n번째까지 exp(k번째 입력 신호 a)의 합

In [79]:
a = np.array([0.3, 2.9, 4.0])

exp_a = np.exp(a)
print(exp_a)

sum_exp_a = np.sum(exp_a)
print(sum_exp_a)

y = exp_a / sum_exp_a
print(y)

[ 1.34985881 18.17414537 54.59815003]
74.1221542101633
[0.01821127 0.24519181 0.73659691]


In [80]:
def softmax(a):
    exp_a = np.exp(a)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    
    return y

소프트맥스 함수의 지수 함수는 입력값이 클수록 출력값이 매우 커지는 단조 증가 함수이기 때문에 오버플로의 발생이 쉬움. 따라서 개선이 필요.
소프트맥스의 지수 함수 계산 시 어떤 정수를 더해도 결과는 똑같다는 것을 이용.

In [81]:
a = np.array([1010, 1000, 990])
# np.exp(a) / np.sum(np.exp(a))
# [nan nan nan(not a number)]

c = np.max(a)
print(a - c)

np.exp(a - c) / np.sum(np.exp(a - c))

[  0 -10 -20]


array([9.99954600e-01, 4.53978686e-05, 2.06106005e-09])

In [82]:
def softmax(a):
    c = np.max(a)
    exp_a = np.exp(a - c)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    
    return y

In [83]:
a = np.array([0.3, 2.9, 4.0])
y = softmax(a)
print(y)

print(np.sum(y)) # 출력의 총합이 1 -> 확률로 해석 가능

[0.01821127 0.24519181 0.73659691]
1.0


소프트맥스 함수를 적용해도 각 원소의 대소 관계는 변하지 않음.
지수 함수의 계산에 드는 자원 낭비를 줄이고자 현업에서는 소프트맥스 함수를 생략하고, 학습 시에만 사용함.

MNIST 데이터베이스는 손으로 쓴 숫자들로 이루어진 대형 데이터베이스이며, 다양한 화상 처리 시스템을 트레이닝하기 위해 일반적으로 사용된다. 이 데이터베이스는 또한 기계 학습 분야의 트레이닝 및 테스트에 널리 사용된다.

In [84]:
import sys, os
sys.path.append(os.pardir)
from mnist import load_mnist

(x_train, t_train), (x_test, t_test) = load_mnist(flatten=True, normalize=False)

print(x_train.shape)
print(t_train.shape)
print(x_test.shape)
print(t_test.shape)

(60000, 784)
(60000,)
(10000, 784)
(10000,)


load_mnist 함수 리턴 : (훈련 이미지, 훈련 레이블), (시험 이미지, 시험 레이블)
 - 인수(bool형)
    1) normalize : 입력 이미지의 픽셀값을 정규화할 것인가?
        - False : 0 ~ 255
        - True : 0.0 ~ 1.0
    2) flatten : 입력 이미지를 1차원 배열로 만들 것인가?
        - False : 3차원 배열(1*28*28)
        - True : 1차원 배열(784개의 원소)
    3) one_hot_label : 원-핫 인코딩 형태로 저장할 것인가?
        - False : 숫자 형태의 레이블을 저장
        - True : 원-핫 인코딩하여 저장

* 원-핫 인코딩(one-hot encoding) : 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 벡터 표현 방식

* pickle : 프로그램 실행 중에 특정 객체를 파일로 저장하는 기능

In [85]:
import sys, os
sys.path.append(os.pardir)
import numpy as np
from mnist import load_mnist
from PIL import Image # PIL : Python Image Library

def img_show(img):
    pil_img = Image.fromarray(np.uint8(img))
    pil_img.show()
    
(x_train, t_train), (x_test, t_test) = load_mnist(flatten=True, normalize=False)
# flatten=True로 설정해 읽은 이미지 -> 1차원 넘파이 배열로 저장

img = x_train[0]
label = t_train[0]
print(label)

print(img.shape)
img = img.reshape(28, 28) # 원 이미지 모양으로 변형
print(img.shape)

img_show(img)

5
(784,)
(28, 28)


- 입력층 뉴런 784개 : 이미지 크기 28*28 = 784
- 출력층 뉴런 10개 : 이미지 0 ~ 9

In [86]:
import pickle

def get_data():
    (x_train, t_train), (x_test, t_test) = \
        load_mnist(normalize=True, flatten=True, one_hot_label=False)
    return x_test, t_test

def init_network(): # sample_weight.pkl에 저장된 학습된 가중치 매개변수를 읽음
    with open("sample_weight.pkl", 'rb') as f:
        network = pickle.load(f)
        
        return network
    
def predict(network, x): # 분류
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']

    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, W3) + b3
    y = softmax(a3)

    return y
# 각 레이블의 확률을 넘파이 배열로 반환

In [87]:
x, t = get_data()
network = init_network() # 데이터셋을 얻어 네트워크 생성

# 정확도
accuracy_cnt = 0
for i in range(len(x)):
    y = predict(network, x[i])
    p = np.argmax(y) # 넘파이 배열에서 가장 큰 원소의 인덱스
    if p == t[i]:
        accuracy_cnt += 1
        
print("Accuracy:" + str(float(accuracy_cnt) / len(x)))

Accuracy:0.7967


전처리 : 신경망의 입력 데이터에 특정 변환을 가함
- ex) 정규화(normalize=True), 데이터 전체 평균과 표준편차를 이용해 데이터들이 0을 중심으로 분포하도록 이동하거나 데이터의 확산 범위를 제한하는 정규화 수행, 전체 데이터를 균일하게 분포시키는 데이터 백색화

In [88]:
x, _ = get_data()
network = init_network()
W1, W2, W3 = network['W1'], network['W2'], network['W3']

print(x.shape) # 2차원 배열
print(x[0].shape) # 1차원 배열
print(W1.shape) # 2차원 배열
print(W2.shape)
print(W3.shape) # 최종적으로 10개가 출력

(10000, 784)
(784,)
(784, 50)
(50, 100)
(100, 10)


배치 : 하나로 묶은 입력 데이터
 - 배치 처리는 처리 시간을 대폭 감소시킴
    1) 수치 계산 라이브러리 대부분이 큰 배열을 효율적으로 처리할 수 있도록 최적화돼있기 때문
    2) 데이터 전송 시 버스에 주는 부하를 줄임

In [89]:
x, t = get_data()
network = init_network()

batch_size = 100
accuracy_cnt = 0

for i in range(0, len(x), batch_size): # 0부터 x 길이까지 batch_size씩 증가하며
    x_batch = x[i:i+batch_size] # x의 i부터 i+batch_size 인덱스까지
    y_batch = predict(network, x_batch) # x_batch를 분류
    p = np.argmax(y_batch, axis=1)
    # axis=1 : 배열에서 1번째 차원을 구성하는 각 원소에서 최댓값의 '인덱스' 검색
    # '축' 기준으로 작동, 즉, '열' 기준
    accuracy_cnt += np.sum(p == t[i:i+batch_size])
    
print("Accuracy:" + str(float(accuracy_cnt / len(x))))

Accuracy:0.7967


In [90]:
print(list(range(0, 10)))
print(list(range(0, 10, 3)))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[0, 3, 6, 9]


In [91]:
x = np.array([[0.1, 0.8, 0.1], [0.3, 0.1, 0.6], [0.2, 0.5, 0.3], [0.8, 0.1, 0.1]])
y = np.argmax(x, axis=1)
print(y)

[1 2 1 0]


In [92]:
y = np.array([1, 2, 1, 0])
t = np.array([1, 2, 0, 0])
print(y==t)
print(np.sum(y==t))

[ True  True False  True]
3
