# 人工神經網路 (Artificial Neural Network)
### 當訊號量超過了某個閾值 (Threshold) 時，細胞體就會產生電流、通過突觸傳到其他神經元，建立一個"萬用函數"
# 感知機(Perceptron)模型 :
### 單層感知機：邏輯門、無法處理XOR 問題 [ n個輸入值x 乘以 神經元(權重) = 輸出值y]
### 多層感知機：Rumelhart、Hinton 等人提出「反向傳播演算法」(Backpropagation) 訓練神經網路， 催生出具備非線性學習能力的多層感知機(Multi-Layer Perceptron)


# 參考資料
### http://debussy.im.nuu.edu.tw/sjchen/MachineLearning/final/NN_BPN.pdf
### http://chur.chu.edu.tw/bitstream/987654321/1823/7/NC089CHPI039201507.pdf

# 邏輯門 https://zh.wikipedia.org/wiki/%E9%82%8F%E8%BC%AF%E9%96%98
###        
### AND：  a為1且b為1，才會輸出1
### OR：   a、b任一為1即可
### XOR：  a或b任一為1才會是1，同時為1輸出是0
### NOT：  0變1、1變0
# 必須使用兩層，才能解決XOR


# 建構神經網路：輸入層(N個模型混和) X 隱藏層 = 輸出層

# 輸入值 X 神經元 = 輸出值
### 輸入值:來自同一個觀察的獨立變數，必須要標準化
### 神經元:啟動函數或稱激活函數ACTIVATION FUNCTION，種類有Threshold Function, Sigmoid Function, Tangent Function, ReLU Function
### 輸出值

# 激活函數(Activation Function)

## (一)Threshold Function

In [1]:
def threshold_function(x):
    y = x > 0
    return y.astype(int)

import numpy as np
x = np.array([-1,1,2])
threshold_function(x)

array([0, 1, 1])

## (二)Sigmoid Function：
### 1. 求導數容易
### 2. 無法表示負數的結果
### 3. 梯度消失

In [2]:
def sigmoid_function(x):
    return 1/ (1 + np.exp(-x))

x = np.array([-1,1,2])
sigmoid_function(x)

array([0.26894142, 0.73105858, 0.88079708])

## (三) Tangent Function ：
### 1. 收斂速度比sigmoid塊
### 2. 可產生負
### 3. 梯度消失

In [3]:
def tangent_function(x):
    return (1 - np.exp(-2*x)) / (1 +np.exp(-2*x))

x = np.array([-1,1,2])
tangent_function(x)

array([-0.76159416,  0.76159416,  0.96402758])

## (四)ReLU Function：
### 1. 模擬動物，有閥值，超過閥值等比例輸出
### 2. 解決梯度消失
### 3. 神經元死亡問題

In [4]:
def relu_function(x):
    return np.maximum(0,x)

x = np.array([-1,1,2])
relu_function(x)

array([0, 1, 2])

# 單層神經網路前向傳播過程（Forward Propagation）

### 寫成演算法，讓電腦去運算矩陣，提升效率
### 矩陣乘法 24:44分處 https://www.youtube.com/watch?v=T5iC9zs0ykc
### np.array https://allaboutdataanalysis.medium.com/python%E8%B3%87%E6%96%99%E5%88%86%E6%9E%90-%E4%B8%89-numpy-3a938f435286

In [9]:
import numpy as np
X = np.array([1,2])
W = np.array([[1,3,5],\
              [2,4,6]])

In [11]:
#矩陣乘積
Y = np.dot(X,W)
Y

array([ 5, 11, 17])

# 多層神經網路前向傳播過程（Forward Propagation）

In [13]:
import numpy as np
X = np.array([1,2])
W = np.array([[1,3,5],\
              [2,4,6]])
W2= np.array([[1,2],\
              [3,4],
              [5,6],])
Y  = np.dot(X,W)
Y2 = np.dot(Y,W2)
Y2

array([123, 156])

# 增加偏倚（bias）
## 可以充當閥值調整激活難度，類似截距的概念，e.g. 調整分類結果的參數

### 1. 初始神經網路

In [15]:
network = {}
network['w1'] = np.array([[0.1,0.3,0.5],[0.2,0.4,0.6]])
network['b1'] = np.array([0.1,0.2,0.3])
network['w2'] = np.array([[0.1,0.4],[0.2,0.5],[0.3,0.6]])
network['b2'] = np.array([0.1,0.2])

In [16]:
network['w1'].shape,network['b1'].shape,network['w2'].shape,network['b2'].shape #權重

((2, 3), (3,), (3, 2), (2,))

### 2.計算傳遞過程

### 第一層

In [17]:
x = np.array([1,0.5])
x

array([1. , 0.5])

### 乘以權重，加上偏倚

In [18]:
a = np.dot(x, network['w1']) + network['b1']
a

array([0.3, 0.7, 1.1])

### 套用激活函數，做非線性轉換

In [19]:
z = sigmoid_function(a)
z

array([0.57444252, 0.66818777, 0.75026011])

### 乘上第二層權重，加上偏倚

In [20]:
# 輸出值y
y = np.dot(z, network['w2']) + network['b2']
y

array([0.51615984, 1.21402696])

# 輸出層函數Softmax：Identity Function(一比一輸出) &  Softmax Function(把結果用機率做表示)

### identity function

In [23]:
y_hat = y
y

array([0.51615984, 1.21402696])

### softmax function

In [24]:
y / y.sum() #變成機率值

array([0.29832608, 0.70167392])

In [25]:
a = np.array([-1,1,2]) #如果有負值，就此路不通
a / a.sum()

array([-0.5,  0.5,  1. ])

In [26]:
np.exp(-0.5)  #必須用指數化

0.6065306597126334

In [27]:
def softmax_function(x):
    return np.exp(x) / np.sum(np.exp(x))

softmax_function(y)

array([0.33228528, 0.66771472])

# 神經網路學習過程

### 「代價函數」(Cost Function) 或「損失函數」 ，(Loss Function)：一開始權重會隨機亂設，而代價函數是預測結果和真實結果之間的差距，再去調整權重

## 回歸：均方誤差 Mean Squared Error來判斷差距

In [28]:
def mean_squared_err(y_hat, y):
    return 0.5 * np.sum((y_hat - y) ** 2)

In [29]:
np.log(0)

  np.log(0)


-inf

In [32]:
np.log(0 + 1e-8) #加入delta，避免為0

-18.420680743952367

## 分類問題：看交叉熵 Cross Entropy

In [33]:
def cross_entropy_err(y_hat, y):
    delta = 1e-8
    return -np.sum(y*np.log(y_hat + delta))