In [52]:
# 3층 신경망 구현하기 
import numpy as np

x = np.array([1.0, 0.5])
w1 = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
b1 = np.array([0.1, 0.2, 0.3])

print(w1.shape) # (2,3)
print(x.shape)  # (2, )
print(b1.shape) # (3, )

A1 = np.dot(x, w1) + b1

(2, 3)
(2,)
(3,)


In [53]:
# 1층 활성화 함수에서 처리 
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

z1 = sigmoid(A1)

print(A1)  
print(z1)  

[0.3 0.7 1.1]
[0.57444252 0.66818777 0.75026011]


In [54]:
# 1층 → 2층 과정

w2 = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
b2 = np.array([0.1, 0.2])

print(z1.shape)
print(w2.shape)
print(b2.shape)

a2 = np.dot(z1, w2) + b2
z2 = sigmoid(a2)

(3,)
(3, 2)
(2,)


In [55]:
# 2층 → 출력층 

def identity_function(x): # 항등 함수 정의 ( 입력을 그대로 출력하는 함수) 
    return x

w3 = np.array([[0.1, 0.3], [0.2, 0.4]])
b3 = np.array([0.1, 0.2])

a3 = np.dot(z2, w3) + b3
y = identity_function(a3)  # 혹은 y = a3

∙ init_network() : 가중치, 편향 초기화하고 딕셔너리 변수인 network 저장 
#####
∙ 딕셔너리 변수 network : 각 층에 필요한 매개변수(가중치,편향) 저장
#####
∙ forword() : 입력 신호를 출력으로 변환하는 처리 과정 모두 구현

In [56]:
# 구현 정리

def int_network():
    network = {}
    network['w1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
    network['b1'] = np.array([[0.1, 0.2, 0.3]])
    network['w2'] = np.array([[0.1, 0.4], [0.2, 0.5],[0.3, 0.6]])
    network['b2'] = np.array([[0.1, 0.2]])
    network['w3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
    network['b3'] = np.array([[0.1, 0.2]])

    return network

def forword(network, x):
    w1, w2, w3 = network['w1'], network['w2'], network['w3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']

    a1 = np.dot(x, w1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, w2) + b2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, w3) + b3
    y = identity_function(a3)

    return y

network = int_network()
x = np.array([1.0, 0.5])
y = forword(network, x)
print(y)

[[0.31682708 0.69627909]]


### ∙ 회귀 - 입력 데이터에서 (연속적인) 수치 예측 / 항등 함수      
######
ex) 사진 속 인물 몸무게 예측
#####
### ∙ 분류  - 데이터가 어느 클래스에 속하는지 / 소프트맥스          
######
ex) 사진 속 인물 성별 분류

In [57]:
# 소프트맥스 함수 구현 → 소프트맥스 출력은 모든 입력 신호로부터 화살표 받는다. 

a = np.array([0.3, 2.9, 4.0])

exp_a = np.exp(a)
print(exp_a)

sum_exp_a = np.sum(exp_a)
print(sum_exp_a)

y = exp_a / sum_exp_a
print(y)

[ 1.34985881 18.17414537 54.59815003]
74.1221542101633
[0.01821127 0.24519181 0.73659691]


In [58]:
def softmax(a):
    exp_a = np.exp(a)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a

    return y 

In [59]:
a = np.array([1010, 1000, 990])
np.exp(a) / np.sum(np.exp(a))  # 소프트맥스 함수의 계산

c = np.max(a)
a - c

np.exp(a-c) / np.sum(np.exp(a-c))

  np.exp(a) / np.sum(np.exp(a))  # 소프트맥스 함수의 계산
  np.exp(a) / np.sum(np.exp(a))  # 소프트맥스 함수의 계산


array([9.99954600e-01, 4.53978686e-05, 2.06106005e-09])

In [60]:
def softmax(a):
    c = np.max(a)
    exp_a = np.exp(a-c) # 오버플로 대책
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a

    return y 

#### 소프트맥스 함수 특징
∙ 0에서 1.0 사이 실수로 출력 ( 총합이 1 ) 

∙ 각 원소의 대소 관계는 변하지 않는다. 

∙ 신경망으로 분류할 때 출력층의 소프트맥스 함수 생략해도 된다.

In [61]:
# 손글씨 숫자 인식 

import sys, os
sys.path.append("/Users/krc/Downloads/deep-learning-from-scratch-master")  # 부모 디렉터리의 파일을 가져올 수 있도록 설정
from dataset.mnist import load_mnist

(x_train, t_train), (x_test, t_test) = load_mnist(flatten=True, normalize=False)

# 각 데이터의 형상 출력
print(x_train.shape)
print(t_train.shape)
print(x_test.shape)
print(t_test.shape)



(60000, 784)
(60000,)
(10000, 784)
(10000,)


In [62]:
import sys, os
# sys.path.append("/Users/krc/Downloads/deep-learning-from-scratch-master")  # 부모 디렉터리의 파일을 가져올 수 있도록 설정
import numpy as np
from dataset.mnist import load_mnist
from PIL import Image


def img_show(img):
    pil_img = Image.fromarray(np.uint8(img))
    pil_img.show()

(x_train, t_train), (x_test, t_test) = load_mnist(flatten=True, normalize=False)  # flatten=True 설정한 이미지는 1차원 넘파이 배열로 저장 

img = x_train[0]
label = t_train[0]
print(label)  # 5

print(img.shape)  # (784,)
img = img.reshape(28, 28)  # 형상을 원래 이미지의 크기로 변형
print(img.shape)  # (28, 28)

img_show(img)

# reshape() 메서드에 원하는 형상 인수 지정하면 넘파이 배열 형상 바꿀 수 있다.

5
(784,)
(28, 28)


밑의 예제 문제
- load_mnist 함수 인수 normalize를 True로 설정 
- 0 ~ 255 범위인 각 픽셀 값 0.0 ~ 1.0 범위로 변환 

#### • 정규화 
: 이처럼 데이터를 특정 범위로 변환하는 처리 

#### • 전처리 
: 신경망의 입력 데이터에 특정 변환을 가하는 것
#####
► 여기서는 입력 이미지 데이터에 대한 전처리 작업으로 정규화를 수행함

In [63]:
# 추론 수행 → 신경망 구현
# 입력층 뉴련 28 * 28 = 784, 출력층 뉴련 10개 → 0에서 9까지 숫자 구분하는 문제
import numpy as np
import pickle
from dataset.mnist import load_mnist
from common.functions import sigmoid, softmax

def get_data():
    (x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, flatten=True, one_hot_label=False)
    return x_test, t_test


# init_network() : pickle 파일인 sample_weight.pkl 저장된 '학습된 가중치 매개변수' 읽음
# 가중치와 편향 매개변수가 딕셔너리 변수로 저장되어 있다. 

def init_network():
    with open("/Users/krc/Downloads/deep-learning-from-scratch-master/ch03/sample_weight.pkl", 'rb') as f:
        network = pickle.load(f)
    return network


def predict(network, x):
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']

    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, W3) + b3
    y = softmax(a3)

    return y

# 신경망에 의한 추론 수행한 후, 정확도 평가

x, t = get_data()
network = init_network()
accuracy_cnt = 0
for i in range(len(x)):  # for문 돌며 x에 저장된 이미지 데이터 1장씩 predict() 함수로 분류
    y = predict(network, x[i])
    p= np.argmax(y) # 확률이 가장 높은 원소의 인덱스를 얻는다. 
    if p == t[i]:
        accuracy_cnt += 1

print("Accuracy:" + str(float(accuracy_cnt) / len(x)))

Accuracy:0.9352


In [67]:
# 배치 : 하나로 묶은 입력 데이터 , 곧 묶음 → 이미지가 지폐처럼 다발로 묶여 있다. 

x, _ = get_data()
network = init_network()
W1, W2, W3 = network['W1'], network['W2'], network['W3']

print(x.shape)
print(x[0].shape)
print(W1.shape)
print(W2.shape)
print(W3.shape)

# 다차원 배열의 대응하는 차원의 원소 수가 일치함을 확인 

(10000, 784)
(784,)
(784, 50)
(50, 100)
(100, 10)


In [69]:
# 배치 처리 

x, t = get_data()
network = init_network()

batch_size = 100
accuracy_cnt = 0

# range(start, end) → 인수 2개 지정해 호출하면 start에서 end-1까지 정수를 차례로 반환하는 반복자 돌려줌
# range(start, end,, step) → 인수 3개 지정하면 start에서 end-1까지 step 간격으로 증가하는 정수 반환하는 반복자 돌려줌 

for i in range(0, len(x), batch_size):  
    x_batch = x[i:i+batch_size]         # 반복자를 바탕으로 입력 데이터를 묶음 → batch_size = 100이므로  x[0:100],x[100:200] 묶임
    y_batch = predict(network, x_batch)
    p = np.argmax(y_batch, axis = 1)    # argmax() : 최댓값의 인덱스 가져옴 → 100 x 10 배열 중 1번째 차원을 축으로 인덱스 찾도록 한 것
    accuracy_cnt += np.sum(p == t[i:i+batch_size])

print("Accuracy:" + str(float(accuracy_cnt) / len(x)))

Accuracy:0.9352


In [71]:
list(range(0, 10))    # 인덱스가 0번째 차원이 가장 처음인데 위에서는 axis=1 이므로 1번째 차원을 축으로

list(range(0, 10, 3))

[0, 3, 6, 9]

In [72]:
x = np.array([[0.1, 0.8, 0.1], [0.3, 0.1, 0.6],[0.2, 0.5, 0.3], [0.8, 0.1, 0.1]])
y = np.argmax(x, axis=1)

print(y)

[1 2 1 0]


In [75]:
# == 연산자 이용해 넘파이 배열 비교, bool 배열 만든 후, True 개수 출력

y = np.array([1, 2, 1, 0])
t = np.array([1, 2, 0, 0])

print(y==t)

np.sum(y==t)

[ True  True False  True]


3

## 결론

### 신경망 
- 각 층의 뉴런들이 다음 층의 뉴런으로 신호를 전달한다는 점이 퍼셉트론과 같다. 

- 하지만, 다음 뉴런으로 갈 때 신호를 변화시키는 활성화 함수에 큰 차이가 있다. 

- 신경망은 매끄럽게 변화하는 시그모이드 함수, 퍼셉트론은 갑자기 변화하는 계단 함수를 활성화 함수로 사용  