#### Deep Neural Network 알고리즘을 Python의 Numpy를 기반으로 class와 def 모듈화로 구현

![image.png](attachment:image.png)

- 밑바닥부터 시작하는 딥러닝에서는 다음과 같은 class, def 모듈을 모아놓은 파일이 있음.
- 이를 사용하여 DNN을 구현해볼 것임

![image-4.png](attachment:image-4.png)

# 
- jupyter notebook 을 사용하여 다른 폴더에 py 파일들을 import 하는 과정

In [1]:
import sys, os

# 1) 현재 노트북(Project/)의 상위 폴더(2025 비교과특강/) 절대경로
base_dir = os.path.abspath('..')

# 2) 중복 추가 방지 후 sys.path에 삽입
if base_dir not in sys.path:
    sys.path.append(base_dir)

# (옵션) 변경된 모듈 자동 반영
%load_ext autoreload
%autoreload 2

In [2]:
# 함수·레이어·최적화 기법 등 필요한 모듈을 한 번에 가져오기
from common.functions               import *
from common.gradient                import *
from common.layers                  import *
from common.multi_layer_net         import *
from common.multi_layer_net_extend  import *
from common.optimizer               import *
from common.trainer                 import *
from common.util                    import *

# 
## XOR 데이터 Neural Network로 학습하기

#### 1. XOR 데이터 선언

![image.png](attachment:image.png)

In [3]:
import numpy as np
X = np.array([[1.0, 1.0],
              [1.0, 0.0],
              [0.0, 1.0],
              [0.0, 0.0]])
y = np.array([[0.0],
              [1.0],
              [1.0],
              [0.0]])
print(X)
print(y)

[[1. 1.]
 [1. 0.]
 [0. 1.]
 [0. 0.]]
[[0.]
 [1.]
 [1.]
 [0.]]


# 
#### 2. XOR 문제를 학습할 은닉층이 1개이고, 노드가 2개인, Simgoid를 사용하는 신경망 class 선언

![image.png](attachment:image.png)

![image.png](attachment:image.png)

In [4]:
input_size = 2
output_size = 1
hidden_size_list = [2]
activation = 'sigmoid'
weight_init_std = 'sigmoid'

XOR_network = MultiLayerNet(input_size=input_size, hidden_size_list=hidden_size_list, output_size=output_size,
             activation=activation, weight_init_std=weight_init_std)

# 
#### 3. 선언한 XOR 신경망 초기 파라미터들 출력해보기

In [5]:
print(XOR_network.input_size)

2


In [6]:
print(XOR_network.output_size)

1


In [7]:
print(XOR_network.hidden_size_list)

[2]


In [8]:
print(XOR_network.hidden_layer_num)

1


In [9]:
print(XOR_network.params)

{'W1': array([[-0.16541351,  0.37174481],
       [-0.39501537, -0.32828833]]), 'b1': array([0., 0.]), 'W2': array([[-0.65323058],
       [ 1.34953164]]), 'b2': array([0.])}


In [10]:
print(XOR_network.params['W1'])

[[-0.16541351  0.37174481]
 [-0.39501537 -0.32828833]]


In [11]:
print(XOR_network.params['b1'])

[0. 0.]


In [12]:
print(XOR_network.params['W2'])

[[-0.65323058]
 [ 1.34953164]]


In [13]:
print(XOR_network.params['b2'])

[0.]


In [14]:
print(XOR_network.layers)

OrderedDict([('Affine1', <common.layers.Affine object at 0x00000276C10DC3D0>), ('Activation_function1', <common.layers.Sigmoid object at 0x00000276C10DF100>), ('Affine2', <common.layers.Affine object at 0x00000276C10DF070>)])


In [15]:
print(XOR_network.layers.keys())

odict_keys(['Affine1', 'Activation_function1', 'Affine2'])


In [16]:
print(XOR_network.layers['Affine1'])

<common.layers.Affine object at 0x00000276C10DC3D0>


In [17]:
print(XOR_network.layers['Activation_function1'])

<common.layers.Sigmoid object at 0x00000276C10DF100>


In [18]:
print(XOR_network.layers['Affine2'])

<common.layers.Affine object at 0x00000276C10DF070>


In [19]:
print(XOR_network.last_layer)

<common.layers.MeanSquaredError object at 0x00000276C10DF040>


In [20]:
print(XOR_network.layers['Affine1'].W)

[[-0.16541351  0.37174481]
 [-0.39501537 -0.32828833]]


In [21]:
print(XOR_network.layers['Affine1'].b)

[0. 0.]


In [38]:
print(XOR_network.layers['Affine2'].W)

[[-0.65323058]
 [ 1.34953164]]


In [23]:
print(XOR_network.layers['Affine2'].b)

[0.]


# 
#### 4. 초기화된 파라미터를 가지고 XOR 입력을 받은 초기 신경망 출력

In [39]:
print(XOR_network.predict(X))

[[0.45200949]
 [0.49909806]
 [0.30205889]
 [0.34815053]]


- Loss 함수는 Mean suqared error를 사용함

In [40]:
prediction = XOR_network.predict(X)
loss = 0.5 * np.mean((prediction - y)**2)
print(loss)

0.13294323962279747


In [41]:
print(XOR_network.loss(X,y))

0.13294323962279747


- 각 선형변환과 비선형변환 층의 출력 보기

In [42]:
out = XOR_network.layers['Affine1'].forward(X)
print("1번째 Affine layer 전파(forward) 값 : \n", out)

1번째 Affine layer 전파(forward) 값 : 
 [[-0.56042888  0.04345649]
 [-0.16541351  0.37174481]
 [-0.39501537 -0.32828833]
 [ 0.          0.        ]]


In [43]:
out = XOR_network.layers['Activation_function1'].forward(out)
print("1번째 Activation layer 전파(forward) 값 : \n", out)

1번째 Activation layer 전파(forward) 값 : 
 [[0.36344823 0.51086241]
 [0.45874066 0.59188052]
 [0.40251054 0.41865716]
 [0.5        0.5       ]]


In [44]:
out = XOR_network.layers['Affine2'].forward(out)
print("2번째 Affine layer 전파(forward) 값 : \n", out)

2번째 Affine layer 전파(forward) 값 : 
 [[0.45200949]
 [0.49909806]
 [0.30205889]
 [0.34815053]]


In [47]:
loss = XOR_network.last_layer.forward(out,y)
print(loss)

0.13294323962279747


# 
#### 5. 첫 번째 iteration의 손실함수 값에 대한 기울기 계산 출력과 파라미터 업데이트하기

In [48]:
iters_num = 1
learning_rate = 0.01
for i in range(iters_num):
    # 기울기 계산
    grad = XOR_network.gradient(X, y) # 오차역전파법 방식(훨씬 빠르다)
    print("Gradient 값 : ", grad)

    print("초기 파라미터 값 : ", XOR_network.params)
    # 갱신
    for key in ('W1', 'b1', 'W2', 'b2'):
        XOR_network.params[key] -= learning_rate * grad[key]
    print("1번 업데이트된 파라미터 값 : ", XOR_network.params)

    predict = XOR_network.predict(X)
    print("1번 업데이트된 후 예측 값 : ", predict)
    loss = XOR_network.loss(X,y)
    print("1번 업데이트된 후 손실함수 값 : ", loss)

Gradient 값 :  {'W1': array([[ 0.00323329, -0.0027152 ],
       [ 0.01033376, -0.01920323]]), 'b1': array([ 0.01643088, -0.03066049]), 'W2': array([[-0.04308886],
       [-0.04592055]]), 'b2': array([-0.09967076])}
초기 파라미터 값 :  {'W1': array([[-0.16541351,  0.37174481],
       [-0.39501537, -0.32828833]]), 'b1': array([0., 0.]), 'W2': array([[-0.65323058],
       [ 1.34953164]]), 'b2': array([0.])}
1번 업데이트된 파라미터 값 :  {'W1': array([[-0.16544585,  0.37177197],
       [-0.3951187 , -0.3280963 ]]), 'b1': array([-0.00016431,  0.0003066 ]), 'W2': array([[-0.65279969],
       [ 1.34999084]]), 'b2': array([0.00099671])}
1번 업데이트된 후 예측 값 :  [[0.45362006]
 [0.50070494]
 [0.30362714]
 [0.34972258]]
1번 업데이트된 후 손실함수 값 :  0.13278846997000657


# 
#### 6. 이제 XOR 데이터에 대해 100,000번 학습하는 코드 출력

In [49]:
iters_num = 100001
learning_rate = 0.01
for i in range(iters_num):
    # 기울기 계산
    grad = XOR_network.gradient(X, y) # 오차역전파법 방식(훨씬 빠르다)

    # 갱신
    for key in ('W1', 'b1', 'W2', 'b2'):
        XOR_network.params[key] -= learning_rate * grad[key]

    if i % 10000 == 0:
        print("{}th Gradient 값 : {}".format(i, grad))
        print("{}번 업데이트된 파라미터 값 : {}".format(i, XOR_network.params))
    
        predict = XOR_network.predict(X)
        print("{}번 업데이트된 후 예측 값 : {}".format(i, predict))
        loss = XOR_network.loss(X,y)
        print("{}번 업데이트된 후 손실함수 값 : {}".format(i, loss))
        print('\n\n')

0th Gradient 값 : {'W1': array([[ 0.00310631, -0.00244723],
       [ 0.01020456, -0.01895019]]), 'b1': array([ 0.01616807, -0.03014521]), 'W2': array([[-0.04239808],
       [-0.04512603]]), 'b2': array([-0.09808132])}
0번 업데이트된 파라미터 값 : {'W1': array([[-0.16547691,  0.37179644],
       [-0.39522075, -0.32790679]]), 'b1': array([-0.00032599,  0.00060806]), 'W2': array([[-0.65237571],
       [ 1.3504421 ]]), 'b2': array([0.00197752])}
0번 업데이트된 후 예측 값 : [[0.45520395]
 [0.50228489]
 [0.30517032]
 [0.35126917]]
0번 업데이트된 후 손실함수 값 : 0.1326386603888573



10000th Gradient 값 : {'W1': array([[1.54053120e-03, 8.89681098e-04],
       [8.69901283e-04, 3.30656714e-06]]), 'b1': array([ 6.80039056e-04, -5.70550243e-05]), 'W2': array([[ 2.89074599e-04],
       [-8.00403524e-06]]), 'b2': array([2.88584037e-05])}
10000번 업데이트된 파라미터 값 : {'W1': array([[-0.15759539, -0.01366911],
       [-0.51774036, -0.22982702]]), 'b1': array([-0.06849114, -0.01333695]), 'W2': array([[-0.62634646],
       [ 1.33872439]]), 'b2

# 
#### 7. 학습 완료 후 XOR 신경망 최종 예측 값 출력

In [50]:
prediction = XOR_network.predict(X)
prediction = np.round(prediction, 0)
print(prediction)

[[0.]
 [1.]
 [1.]
 [0.]]


- 신경망 알고리즘을 구현하는 Class, def 구조가 익숙해지게 코드 복습