# 作業: 
3  層神經網路

通過增加更多的中間層，以對更多關係的組合進行建模

syn1 權值矩陣將隱層的組合輸出映射到最終結果，

而在更新 syn1 的同時，還需要更新 syn0 權值矩陣，

以從輸入資料中更好地產生這些組合

# BP 演算法訓練的神經網路


目標: 嘗試著用輸入去預測輸出
 
考慮以上情形：
給定三列輸入，試著去預測對應的一列輸出。

我們可以通過簡單測量輸入與輸出值的資料來解決這一問題。

最左邊的一列輸入值和輸出值是完美匹配/完全相關的。

反向傳播演算法便是通過這種方式來衡量資料間統計關係進而得到模型的。


# 更新3 Layers 所需參數定義

X 輸入資料集，形式為矩陣，每 1 行代表 1 個訓練樣本。

y 輸出資料集，形式為矩陣，每 1 行代表 1 個訓練樣本。

l0 網路第 1 層，即網路輸入層。

l1 網路第 2 層，常稱作隱藏層。

l2 假定為網路最後一層，隨著訓練進行，其輸出應該逐漸接近正確結果

syn0 第一層權值

syn1 第二層權值

l2_error 該值說明了神經網路預測時“丟失”的數目。

l2_delta 該值為經確信度加權後的神經網路的誤差，除了確信誤差很小時，它近似等於預測誤差。

l1_error 該值為 l2_delta 經 syn1 加權後的結果，從而能夠計算得到中間層/隱層的誤差。

l1_delta 該值為經確信度加權後的神經網路 l1 層的誤差，除了確信誤差很小時，它近似等於 l1_error 。

In [134]:
import numpy as np
 
# Sigmoid 函數可以將任何值都映射到一個位於 0 到  1 範圍內的值。通過它，我們可以將實數轉化為概率值
def nonlin(x, deriv=False):
    if deriv == True:
        return x * (1 - x)
    return 1 / (1 + np.exp(-x))

X = np.array([
    [0, 0, 1],
    [0, 1, 1],
    [1, 0, 1],
    [1, 1, 1]
])

# define y for output dataset            
y = np.array([[0, 1, 0, 1]]).T

X.shape, y.shape

((4, 3), (4, 1))

In [135]:
# seed random numbers to make calculation
# deterministic (just a good practice)
np.random.seed(1)
#亂數設定產生種子得到的權重初始化集仍是隨機分佈的，
#但每次開始訓練時，得到的權重初始集分佈都是完全一致的。

n = 12
    
# initialize weights randomly with mean 0
syn0 = 2 * np.random.random((3, n)) - 1
# define syn1
syn1 = 2 * np.random.random((n, 1)) - 1

#該神經網路權重矩陣的初始化操作。
#用 “syn0” 來代指 (即“輸入層-第一層隱層”間權重矩陣）
#用 “syn1” 來代指 (即“輸入層-第二層隱層”間權重矩陣）
syn0.shape, syn1.shape

((3, 12), (12, 1))

神經網路訓練
for 迴圈反覆運算式地多次執行訓練代碼，使得我們的網路能更好地擬合訓練集

In [136]:
for iter in range(10000):
    # forward propagation
    l0 = X
    if iter == 0:
        print('l0 shape: {}\n'.format(l0.shape))
        
    l1 = nonlin(np.dot(l0, syn0))
    if iter == 0:
        print('l1 shape: {} x {} = {}\n'.format(l0.shape, syn0.shape, l1.shape))
        
    l2 = nonlin(np.dot(l1, syn1))
    if iter == 0:
        print('l2 shape {} x {} = {}\n'.format(l1.shape, syn1.shape, l2.shape))
    
    '''
    新增
    l2_error 該值說明了神經網路預測時“丟失”的數目。
    l2_delta 該值為經確信度加權後的神經網路的誤差，除了確信誤差很小時，它近似等於預測誤差。
    '''
    
    # how much did we miss?
    # multiply how much we missed by the 
    # slope of the sigmoid at the values in l1
    # update weights
     # syn1 update weights
    
    l2_error = y - l2
    l2_delta = l2_error * nonlin(l2, True)
    syn1 += np.dot(l1.T, l2_delta)
    
    l1_error = np.dot(l2_error, syn1.T) 
    l1_delta = l1_error * nonlin(l1, True)
    syn0 += np.dot(l0.T,  l1_delta)
    
    
print("Output After Training:")
print(l1)
print("\n\n")
print(l2)

l0 shape: (4, 3)

l1 shape: (4, 3) x (3, 12) = (4, 12)

l2 shape (4, 12) x (12, 1) = (4, 1)

Output After Training:
[[0.86513836 0.05127799 0.97676521 0.04871056 0.0373788  0.12336121
  0.95970021 0.22632474 0.96602707 0.29445067 0.06295091 0.93599295]
 [0.06578799 0.97813275 0.01060343 0.97891411 0.98434568 0.96281826
  0.0177566  0.91525217 0.01588071 0.88781467 0.97465849 0.02502664]
 [0.87247782 0.04087717 0.98067692 0.0392657  0.02911414 0.07683552
  0.96717031 0.18431716 0.97099504 0.26714214 0.04811042 0.95224949]
 [0.06985887 0.97242978 0.01277295 0.97372257 0.97982246 0.9387097
  0.02187452 0.89295943 0.01864392 0.87361479 0.96659499 0.03382167]]



[[0.00144824]
 [0.99843249]
 [0.00122738]
 [0.99828631]]
