3.4 3층 신경망 구현
3.4.2 각 층의 신호 전달 구현

In [16]:
# 입력층 구현
import numpy as np

X=np.array([1.0, 0.5])
W1=np.array([[0.1, 0.3, 0.5],[0.2, 0.4, 0.6]])
B1=np.array([0.1, 0.2, 0.3])

print(W1.shape)
print(X.shape)
print(B1.shape)

A1=np.dot(X, W1) + B1
print(A1)

(2, 3)
(2,)
(3,)
[0.3 0.7 1.1]


In [17]:
def sigmoid(x):
    return (1 / (1 + np.exp(-x)))

In [18]:
Z1=sigmoid(A1)

print(A1)
print(Z1)

[0.3 0.7 1.1]
[0.57444252 0.66818777 0.75026011]


In [19]:
# 은닉층 구현

W2=np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
B2=np.array([0.1, 0.2])

print(Z1.shape)
print(W2.shape)
print(B2.shape)

A2=np.dot(Z1, W2) + B2
Z2=sigmoid(A2) # 은닉층의 활성화 함수
print(Z2)

(3,)
(3, 2)
(2,)
[0.62624937 0.7710107 ]


In [20]:
# 출력층 구현

def identity_function(x): # 출력층의 활성화 함수(항등 함수)
    return X

W3=np.array([[0.1, 0.3], [0.2, 0.4]])
B3=np.array([0.1, 0.2])

A3=np.dot(Z2, W3) + B3
Y=identity_function(A3)

print(Y)

[1.  0.5]


* 출력층의 활성화 함수
    - 회귀: 항등 함수
    - 2클래스 분류: sigmoid 함수
    - 다중 클래스 분류: softmax 함수

3.4.3 구현 정리
    - 가중치만 대문자 표기, 편향과 중간 결과 소문자 표기

In [35]:
def init_network(): # 각 층에 필요한 매개변수(가중치와 편향)을 딕셔너리 변수인 network에 저장
    network={}
    network['W1']=np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
    network['b1']=np.array([0.1, 0.2, 0.3])
    network['W2']=np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
    network['b2']=np.array([0.1, 0.2])
    network['W3']=np.array([[0.1, 0.3], [0.2, 0.4]])
    network['b3']=np.array([0.1, 0.2])

    return network

def identity_function(x): # 출력층의 활성화 함수(항등 함수)
    return X

def forward(network, x): # 입력 신호를 출력으로 변환하는 처리과정 구현, 수누전파(입력에서 출력 방향)
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']

    a1=np.dot(x, W1) + b1
    z1=sigmoid(a1)
    # print(z1)
    a2=np.dot(z1, W2) + b2
    z2=sigmoid(a2)
    # print(z2)
    a3=np.dot(z2, W3) + b3
    # print(a3)
    y=identity_function(a3)

    return y

def identity_function(x): # 출력층의 활성화 함수(항등 함수)
    return x

network=init_network()
x=np.array([1.0, 0.5])
y=forward(network, x)
print(y)

[0.31682708 0.69627909]


3.5 출력층 설계
    - 회귀(입력 데이터에서 연속적인 수치를 예측): 항등 함수
    - 분류(데이터가 어느 class에 속하는지): softmax 함수

3.5.1 항등 함수와 소프트맥스 함수 구현
    - 항등 함수: 입력 신호가 그대로 출력
    - softmax 함수: yk=exp(ak)/1~n까지의 exp(ai)
        - softmax의 출력은 모든 입력 신호로부터 영향을 받음

In [22]:
a=np.array([0.3, 2.9, 4.0])
exp_a=np.exp(a)
print(exp_a)

sum_exp_a=np.sum(exp_a)
print(sum_exp_a)

y=exp_a/sum_exp_a
print(y)

[ 1.34985881 18.17414537 54.59815003]
74.1221542101633
[0.01821127 0.24519181 0.73659691]


In [23]:
# 함수화

def softmax(a):
    exp_a=np.exp(a)
    sum_exp_a=np.sum(exp_a)
    y=exp_a/sum_exp_a
    
    return y

a=np.array([0.3, 2.9, 4.0])
print(softmax(a))

[0.01821127 0.24519181 0.73659691]


3.5.2 softmax 함수 구현 시 주의점
    - 위 함수로 구현 시, 지수 함수 연산으로 인한 오버플로 문제 발생
    = e^1000는 inf(무한대)
    - softmax 연산 시, 어떤 정수를 더하여도 결과는 변하지 않음
    -> 입력 신호의 최대값을 이용하여 오버플로 방지

In [24]:
import numpy as np

a=np.array([1010, 1000, 990])
print(np.exp(a)/np.sum(np.exp(a))) # 오버플로 발생

c=np.max(a)
print(a-c) # 오버플로 방지

print(np.exp(a-c)/np.sum(np.exp(a-c)))

[nan nan nan]
[  0 -10 -20]
[9.99954600e-01 4.53978686e-05 2.06106005e-09]


  print(np.exp(a)/np.sum(np.exp(a))) # 오버플로 발생
  print(np.exp(a)/np.sum(np.exp(a))) # 오버플로 발생


In [25]:
def softmax(a):
    c=np.max(a)
    exp_a=np.exp(a-c) # 오버플로 방지
    sum_exp_a=np.sum(exp_a)
    y=exp_a/sum_exp_a
    
    return y

a=np.array([1010, 1000, 990])
print(softmax(a))

[9.99954600e-01 4.53978686e-05 2.06106005e-09]


3.5.3 softmax 함수의 특징
    - softmax 함수 출력의 총합은 1-> 확률로 해석
    - softmax를 적용해도 각 원소의 대소 관계는 변하지 않음(지수 함수가 단조 증가 함수이기 때문) = 입력의 대소 관계가 출력에서도 유지
    = 지수 함수 계산에 드는 자원 낭비를 줄이고자 출력층의 softmax 함수는 생략하는 것이 일반적(ㅊ론 단계에서, 학습 단계에서는 생략 X)

In [26]:
a=np.array([0.3, 2.9, 4.0])
y=softmax(a)
print(y)
print(np.sum(y))

[0.01821127 0.24519181 0.73659691]
1.0


3.5.4 출력층의 뉴런 수 정하기
    - 분류: 분류하고자 하는 class 수로 설정

3.6 손글씨 숫자 인식
    - 추론 과정, 순전파(forward propagation)
    - 신경망: 훈련 데이터로 가중치 매개변수 학습-> 추론 단계에서 해당 매개변수로 입력 데이터 분류

3.6.1 MNIST 데이터셋
    - 손글씨 숫자 이미지 데이터셋
    - 0~9까지의 숫자 이미지로 구성
    - 6,000장 훈련 이미지 + 10,000장 시험 이미지
    - 28*28 크기의 회색조 이미지(1채널)

In [27]:
import sys, os
sys.path.append(os.pardir)  # 부모 디렉터리의 파일을 가져올 수 있도록 설정
from mnist import load_mnist

# (훈련 이미지, 훈련 레이블), (시험 이미지, 시험 레이블) 형식으로 반환
(x_train, t_train), (x_test, t_test)=load_mnist(flatten=True, normalize=False)
# normalize: 입력 이미지의 픽셀값을 0.0~1.0 사이의 값으로 정규화할 지 결정 - False: 원래 값 그대로 0~255 유지
# flatten: 입력 이미지를 평탄하게, 즉 1차원 배열로 만들지 결정- False: 1*28*28의 3차원 배열, True: 784개의 원소로 이뤄진 1차원 배열
# one_hot_label: 원-핫 인코딩 형태로 저장할지 결정 - False: 숫자 형태의 레이블로 저장

# 각 데이터의 형상 출력
print(x_train.shape)
print(t_train.shape)
print(x_test.shape)
print(t_test.shape)


Downloading train-images-idx3-ubyte.gz ... 
Done
Downloading train-labels-idx1-ubyte.gz ... 
Done
Downloading t10k-images-idx3-ubyte.gz ... 
Done
Downloading t10k-labels-idx1-ubyte.gz ... 
Done
Converting train-images-idx3-ubyte.gz to NumPy Array ...
Done
Converting train-labels-idx1-ubyte.gz to NumPy Array ...
Done
Converting t10k-images-idx3-ubyte.gz to NumPy Array ...
Done
Converting t10k-labels-idx1-ubyte.gz to NumPy Array ...
Done
Creating pickle file ...
Done!
(60000, 784)
(60000,)
(10000, 784)
(10000,)


In [28]:
# MNIST 데이터셋 확인

import sys, os
sys.path.append(os.pardir)
import numpy as np
from mnist import load_mnist
from PIL import Image

def img_show(img):
    pil_img=Image.fromarray(np.uint8(img))
    pil_img.show()

(x_train, t_train), (x_test, t_test) = load_mnist(flatten=True, normalize=False)
# flatten=True == 1차원 넘파이 배열 형태로 이미지 저장

img=x_train[0]
label=t_train[0]
print(label)

print(img.shape)
img=img.reshape(28, 28) # 원래 이미지 모양으로 변형, 원래 형상인 28*28 크기로 복구
print(img.shape)

img_show(img) # 내부의 Image.fromarray(): 넘파이로 저장된 이미지 데이터를 PIL용 데이터 객체로 변환

5
(784,)
(28, 28)
