### 준비 운동 : NumPy를 이용한 신경망 구성
: 연산 그래프나 딥러닝, 변화도에 대해서는 구성하지 못하지만 순전파 단계와 역전파 단계를 직접 구현 가능  
: 2층 신경망이 무작위의 데이터를 맞추도록 구성해보자!

In [5]:
import numpy as np

# N : 배치 크기
# D_in : 입력의 차원
# H : 은닉 계층의 차원
# D_out : 출력 차원
N, D_in, H, D_out = 64, 1000, 100, 10

# 무작위의 입력과 출력 데이터 생성
x = np.random.randn(N, D_in)
y = np.random.randn(N, D_out)

# 무작위로 가중치 초기화
w1 = np.random.randn(D_in, H)
w2 = np.random.randn(H, D_out)

learning_rate = 1e-6

for t in range(500):
    # 순전파 단계: 예측값 y를 계산합니다.
    h = x.dot(w1)
    h_relu = np.maximum(h,0)  # max(0, ax) = a*max(0,x)
    y_pred = h_relu.dot(w2)
    
    # 손실(Loss)을 계산하고 출력
    loss = np.square(y_pred-y).sum() # MSE 방식으로 loss 계산
    print(t, loss)
    
    # 손실에 따른 w1, w2의 변화도를 계산하고 역전파합니다.
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.T.dot(grad_y_pred)
    grad_h_relu = grad_y_pred.dot(w2.T)
    grad_h = grad_h_relu.copy()
    grad_h[h < 0] = 0
    grad_w1 = x.T.dot(grad_h)
    
    # 가중치를 갱신
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

0 36252029.738657854
1 34766518.50788955
2 37393362.10001785
3 36935140.78575541
4 29359029.575022172
5 18125050.121476308
6 9145345.441595355
7 4432495.556169996
8 2377863.9308727114
9 1509596.5343825843
10 1099359.3550613688
11 869571.438673207
12 718149.3935610562
13 606655.9632780915
14 519409.54533106467
15 448543.4706698336
16 389964.663189746
17 340771.6560309671
18 299235.08577369474
19 263886.7771595237
20 233627.20675049475
21 207573.9277738941
22 185038.57241775555
23 165458.36753346736
24 148389.09150667163
25 133433.93223824888
26 120286.5289039209
27 108682.2672522412
28 98412.45314370006
29 89293.5603601098
30 81181.19737673024
31 73937.32711414227
32 67452.04917113335
33 61651.82016291461
34 56447.84743316645
35 51760.25356009838
36 47525.922856038895
37 43694.602259528234
38 40219.4877914946
39 37064.959674072525
40 34196.221976607325
41 31584.034978866188
42 29198.76337089298
43 27020.76129212352
44 25027.90475235115
45 23201.73546318873
46 21526.945759648996
47 19992

420 0.003221021459025798
421 0.003111630101961205
422 0.003005963945093641
423 0.002903901090799079
424 0.002805319433244865
425 0.0027101022920723128
426 0.002618126987676501
427 0.0025292826410579436
428 0.0024434787664755807
429 0.0023606297942387533
430 0.0022805651982789393
431 0.0022032201953147285
432 0.0021285117681058598
433 0.0020563564427383977
434 0.0019866444931618136
435 0.0019193040715255365
436 0.0018542689978702349
437 0.0017914361614623175
438 0.0017307381496972146
439 0.0016721041115596697
440 0.0016154655675658805
441 0.0015607522274383083
442 0.0015078997660252478
443 0.0014568696278009902
444 0.0014075511510969819
445 0.0013599035901016201
446 0.0013138746490602379
447 0.0012694140306455056
448 0.0012264692952645775
449 0.001184973443236136
450 0.0011448907600325104
451 0.0011061663859635246
452 0.001068754703702451
453 0.0010326111447822991
454 0.0009976934454434445
455 0.0009639593892567192
456 0.0009313698615307394
457 0.0008999031616333245
458 0.00086948551428

### projection matrix 공식 이용한 간이 linear regression
: A^TAx = A^Tb

In [29]:
b1 = np.array([[1,1]])
b2 = np.array([[1,2]])
b3 = np.array([[1,3]])

In [30]:
A = np.concatenate((b1,b2,b3), axis = 0)

In [34]:
b = np.array([[1],[2],[2]])

In [38]:
x = A.T.dot(A)

In [39]:
y = A.T.dot(b)

In [42]:
x

array([[ 3,  6],
       [ 6, 14]])

In [43]:
y

array([[ 5],
       [11]])

In [48]:
np.linalg.inv(x).dot(y)

array([[0.66666667],
       [0.5       ]])