# 利用Delta學習法更新單一神經元網路之權重 #

## 範例一：推求W2 ##

### Hint：W(下一個權重) = W(上一個權重) - 斜率 * 步長 ###

In [1]:
import numpy as np
W1 = np.array([1, -1, 0, 0.5]).reshape(-1,1)
W1

array([[ 1. ],
       [-1. ],
       [ 0. ],
       [ 0.5]])

In [2]:
W1.T

array([[ 1. , -1. ,  0. ,  0.5]])

In [3]:
X1 = np.array([1, -2, 0, -1]).reshape(-1,1)
X1

array([[ 1],
       [-2],
       [ 0],
       [-1]])

In [4]:
print(*np.dot((W1.T),X1)[0])

2.5


In [5]:
net1 = np.dot((W1.T),X1)[0][0]
net1

2.5

In [6]:
import math
y1 = round((2/(1+math.exp(-1*net1)))-1,2)
y1 # 預測值

0.85

In [7]:
y_1 = round(0.5*(1-(y1**2)),2)
y_1

0.14

In [8]:
d1 = -1
W2 = W1 + 1*(d1-y1)*y_1*X1
W2 # 下一個權重 Weight

array([[ 0.741],
       [-0.482],
       [ 0.   ],
       [ 0.759]])

## 範例二：推求W3 ##

In [9]:
# W2承接範例一

In [10]:
X2 = np.array([0, 1.5, -0.5, -1]).reshape(-1,1)
X2

array([[ 0. ],
       [ 1.5],
       [-0.5],
       [-1. ]])

In [11]:
print(*np.dot((W2.T),X2)[0])

-1.482


In [12]:
net2 = np.dot((W2.T),X2)[0][0]
net2

-1.482

In [13]:
y2 = round((2/(1+math.exp(-1*net2)))-1,2)
y2 # 預測值

-0.63

In [14]:
y_2 = 0.5*(1-(y2**2))
y_2

0.30155

In [15]:
d2 = -1
W3 = W2 + 1*(d2-y2)*y_2*X2
W3 # 下一個權重 Weight

array([[ 0.741     ],
       [-0.64936025],
       [ 0.05578675],
       [ 0.8705735 ]])

## 題目：使用上課講義 CH03-1演算法 P34-35之 Delta學習法 (例題 3.5)，使用第二小題更新之 W3，驗證 X2的產出結果是否比使用W2誤差更小。 如果誤差變得更小了，請你說明原因。##

In [16]:
print(*np.dot((W3.T),X2)[0])

-1.8725072499999997


In [17]:
net3 = np.dot((W3.T),X2)[0][0]
net3

-1.8725072499999997

In [18]:
y3 = round((2/(1+math.exp(-1*net3)))-1,2)
y3

-0.73

In [19]:
# W2的誤差
print(f'W2的誤差: {abs(y2-d2)}')
# W3的誤差
print(f'W3的誤差: {abs(y3-d2)}')

W2的誤差: 0.37
W3的誤差: 0.27


In [20]:
# ↑證明誤差有縮小

In [21]:
# 說明：
# 1. 權重更新公式：W(下一個權重) = W(上一個權重) - 斜率 * 步長(學習速率)
# 2. 藉由隨機梯度下降(Stochastic Gradient Descent)，起初先隨機給予權重，得出Loss值，之後逐步朝負斜率的方向調整權重，減少Loss值，使預測值與正確答案的差距逐漸縮小；當Loss值為最小值或等於0時，預測值會最貼近或等於正確答案。
# 3. 負斜率的微分可以改由微分連鎖法則求得，即對 MSE微分(y-d)、Activation活化函數微分(0.5*(1-(y2**2)))、W3X2微分(X2)。

<img src=https://assets.website-files.com/5ac6b7f2924c652fd013a891/5d377196349c9f16a57e8130_5b8046ed22c3e396507d37bd_Screen%2520Shot%25202018-08-24%2520at%252010.56.46%2520AM.png width=85% />
<center><h2>Multilayer Perceptrons Illustration 1</h2></center>
<br>
<left>Loss Function is the difference between the target and actual output.</left>

<img src=https://miro.medium.com/max/828/1*tYQrcNF2rPAETvzpqGX0PA.png width=80% />
<center><h2>Multilayer Perceptrons Illustration 2</h2></center>

![MSE](https://miro.medium.com/max/640/1*-e1QGatrODWpJkEwqP4Jyg.png)
<center><h2>MSE(Mean Squared Error)</h2></center>
<br>
<left>MSE：加總每一個預測值與正確值的距離後取平均（距離可由歐幾里得公式求得）。</left>

In [22]:
# MSE loss function
def mse_loss(y_pred, y_true):
    squared_error = (y_pred - y_true) ** 2
    sum_squared_error = np.sum(squared_error)
    loss = sum_squared_error / y_true.size
    return loss