## 신경망 구현

In [1]:
import numpy as np
import numpy as np 

def sigmoid(x):
    return (1 / (1 + np.exp(-x)))
def identity_function(x):
    return x


def init_network():
    network={}
    network['W1'] = np.array([[0.1,0.3,0.5],[0.2,0.4,0.6]])
    network['b1'] = np.array([0.1,0.2,0.3])
    network['W2'] = np.array([[0.1,0.4],[0.2,0.5],[0.3,0.6]])
    network['b2'] = np.array([0.1,0.2])
    network['W3'] = np.array([[0.1,0.3],[0.2,0.4]])
    network['b3'] = np.array([0.1,0.2])
    
    return network

def forward(network, x):
    W1,W2,W3 = network['W1'], network['W2'], network['W3']
    b1,b2,b3 = network['b1'], network['b2'], network['b3']
    
    a1=np.dot(x,W1)+b1
    z1=sigmoid(a1)
    a2=np.dot(z1,W2)+b2
    z2=sigmoid(a2)
    a3=np.dot(z2,W3)+b3
    y=identity_function(a3)
    
    return y

network=init_network()
x=np.array([1.0,0.5])
y=forward(network,x)
print(y)
    

[0.31682708 0.69627909]


init_network()와 forward()라는 함수를 정의 했는데 init_network()는 가중치와 편향을 초기화 하고 이들을 딕셔너리 변수인 network에 저장한다.  
network()에는 각 층에 필요한 매개변수(가중치와 편향)을 저장한다

항등함수는 입력을 그대로 출력한다. 입력과 출력이 항상 같다는 뜻의 항등이다.  



분류에서 사용하는 **소프트맥스**의 식은 다음과 같다.   

$$y_k = \frac{exp(a_k)}{\sum exp(a_i)} $$

In [2]:
a=np.array([0.3,2.9,4.0])
exp_a=np.exp(a)
print(exp_a)

[ 1.34985881 18.17414537 54.59815003]


In [3]:
sum_exp_a=np.sum(exp_a)
print(sum_exp_a)

74.1221542101633


In [4]:
y=exp_a/sum_exp_a
print(y)

[0.01821127 0.24519181 0.73659691]


### softmax 구현

In [5]:
def softmax(a):
    exp_a=np.exp(a)
    sum_exp_a=np.sum(exp_a)
    y=exp_a/sum_exp_a
    
    return y

**소프트맥스 함수 구현 시 주의점**  

컴퓨터로 계산할 때는 결함이 있는데 바로 오버플로 문제이다. 지수함수는 쉽게 큰 값을 내뱉고 이런 큰 값끼리 나누면 수치가 불안정해진다. 

In [6]:
a=np.array([1010,1000,990])
np.exp(a)/np.sum(np.exp(a))

  
  


array([nan, nan, nan])

In [7]:
c=np.max(a)
a-c

array([  0, -10, -20])

In [8]:
#최댓값을 빼주면 올바르게 구현
np.exp(a-c)/np.sum(np.exp(a-c))

array([9.99954600e-01, 4.53978686e-05, 2.06106005e-09])

In [9]:
def softmax(a):
    c=np.max(a)
    exp_a=np.exp(a-c)
    sum_exp_a=np.sum(exp_a)
    y=exp_a/sum_exp_a
    
    return y

In [10]:
import sys, os
sys.path.append("C:/Users/chlgy/Documents/deep-learning-from-scratch/what-i-learn-today")
from dataset.mnist import load_mnist

(x_train,t_train),(x_test,t_test)= load_mnist(flatten=True, normalize=False)

print(x_train.shape)
print(t_train.shape)
print(x_test.shape)
print(t_test.shape)

Downloading train-images-idx3-ubyte.gz ... 
Done
Downloading train-labels-idx1-ubyte.gz ... 
Done
Downloading t10k-images-idx3-ubyte.gz ... 
Done
Downloading t10k-labels-idx1-ubyte.gz ... 
Done
Converting train-images-idx3-ubyte.gz to NumPy Array ...
Done
Converting train-labels-idx1-ubyte.gz to NumPy Array ...
Done
Converting t10k-images-idx3-ubyte.gz to NumPy Array ...
Done
Converting t10k-labels-idx1-ubyte.gz to NumPy Array ...
Done
Creating pickle file ...
Done!
(60000, 784)
(60000,)
(10000, 784)
(10000,)


(훈련이미지, 훈련 레이블), (시험이미지, 시험레이블) 형식으로 반환   


normalize: 입력이미지의 픽셀 값을 0 ~ 1 사이의 값으로 정규화 할지를 정함 , False로 설정하면 입력 이미지의 픽셀은 0 ~ 255 사이의 값을 유지  
flatten: 입력이미지를 평탄하게, 즉 1차원 배열로 만들지를 정함  

one_hot_label: 원-핫 인코딩 형태로 저장할 지를 정함  




In [13]:
from PIL import Image

def img_show(img):
    pil_img = Image.fromarray(np.uint8(img))
    pil_img.show()
    
(x_train,t_train), (x_test,t_test)=load_mnist(flatten=True, normalize=False)

img=x_train[0]
label=t_train[0]
print(label)

print(img.shape)
img=img.reshape(28,28)
print(img.shape)

img_show(img)

5
(784,)
(28, 28)
