In [None]:
import numpy as np

## Sigmoid: 
<hr>
Sigmoid (AKA logistic regression) 是一個用來把資料壓到 0 跟 1 之間的一個 function<br>
雖然 Sigmoid 非常好用 <br>
不過之後的課程也會提到 Sigmoid 的一些壞處<br>
請各位另用以下的算式寫出一個 Sigmoid 的 function<br>


### $ Z(x_i) = \frac{1}{1+e^{-x_i}}$
<hr>

>提示：可以使用 np.exp 來算 e

In [None]:
# define activation: sigmoid
def sigmoid(X):
    output = 1 / (1 + np.exp(-X)) 
    return output

In [None]:
# Examples
X = np.arange(5)
sigmoid(X)

Your code should return <br>
array([0.5       , 0.73105858, 0.88079708, 0.95257413, 0.98201379])

## Sigmoid Gradient: 
<hr>
因為後面要倒推回來<br>
在微分的過程中Sigmoid也需要作微分<br>
雖然很想叫你們自己推<br>
但是這樣好像太殘忍了<br>
所以下面給你們sigmoid gradient的式子<br>

### $ \frac{d}{dx} Z(x_i) = Z(x_i) \times (1-Z(x_i))$
這邊的Z代表Sigmoid<br>
如果你對怎麼推導的有興趣<br>
以下附上式子推導的過程<br>
[數學推導過程](http://www.ai.mit.edu/courses/6.892/lecture8-html/sld015.htm)
<hr>

In [None]:
def sigmoid_gradient(X):
    output = sigmoid(X)*(1-sigmoid(X))
    return output

In [None]:
# Examples
X = np.arange(5)
sigmoid_gradient(X)

Your code should return <br>
array([0.25      , 0.19661193, 0.10499359, 0.04517666, 0.01766271])

## Softmax:
<hr>
Softmax (AKA normalized exponential function) 與 Sigmoid 有點類似 <br>
不過 Softmax 是針對一整組數字做壓縮 <br>
而 Sigmoid 是直接對單一的數值做壓縮
請各位另用以下的算式寫出一個 Softmax 的 function<br>


### $\sigma(\mathbf{x})_j = \frac{e^{x_j}}{\sum_{i=1}^K e^{x_i}}\,for\,j\,\in\,1,\,\ldots\,,\,K$ 

For example:<br>
如果我們有一組數列 $1,\,3,\,5$ <br>
Softmax 會回傳 $0.016,\,0.117,\,0.867$

<hr>

>提示：python 會自動 broadcast

In [None]:
# define activation: softmax
def softmax(X): 
    return np.exp(X) / np.sum(np.exp(X), axis=1, keepdims=True)

In [None]:
# Examples
X = np.array([np.arange(5)])
softmax(X)

Your code should return array([[0.01165623, 0.03168492, 0.08612854, 0.23412166, 0.63640865]])

## Cross entropy (Multiclass)
<hr>
Definition: Cross-entropy loss, or log loss, measures the performance of a classification model<br>
whose output is a probability value between 0 and 1. Cross-entropy loss increases as the predicted<br>
probability diverges from the actual label. So predicting a probability of .012 when the actual<br>
observation label is 1 would be bad and result in a high loss value. A perfect model would have a <br>
log loss of 0.<br><br>
Cross entropy 的算式如下：<br>

### $H(p,q)=-\displaystyle\sum _{i=1}^m  p(x_i)\,\log q(x_i).\!$
在這邊 p 代表的是我們的實際值，q 代表的是我們的預測值，$x_i$ 是我們的samples，m 是sample總數。<br>
如果還是不太清楚的話以下提供一個例子： <br><br>
>假設我們的第一個Y值(實際值)為 \[1, 0, 0\]，預測值為 \[0.7, 0.2, 0.1\] 的話
>#### $p(x_{0})\,\log q(x_{0})=1\times \log 0.7 + 0\times \log 0.2 + 0\times \log 0.1 \approx -0.357$
<!---
1. 假設我們的實際值為0，預測值為0.1的話
#### $-\sum_{x_i}p(x_{i})\,\log q(x_{i})=0\times \log 0.1 +(1-0) \times \log (1-0.1) = 0.105$
--->
這邊會是負數是因為log 1 到 0 之間的數值的話都會回傳負值<br>
但是沒關係  <br>
我們做完sum之後會在乘上 -1  <br><br>
請大家用這個算式自己寫寫看一個cross entropy 的function <br>
<hr>

><b>提示：</b> <br>
>由於log(0)會出現錯誤，所以我們通常會加一個epsilon，通常會設定為1e-15

In [None]:
def cross_entropy(p, q):
    epsilon = 1e-15
    H = 0
    for i in range(len(p)):
        H += -p[i]*np.log(q[i]+epsilon)
        
    H = H.sum()/p.shape[0]
    return H

In [None]:
# Example
p = np.array([[1,0,0]])
q = np.array([[0.7, 0.2, 0.1]])
cross_entropy(p,q)

Your code should return 0.356674943938731 in this example

## One Hot Encoding
<hr>
如果你有認真在做上一個練習的話(拜託說有，說沒有我會難過) <br>
你可能會發現我們的 class 是用 0，1，跟 2 在做區分的<br>
這樣的分法叫做 Label Encoding<br>
雖然這個方法很方便<br>
但是由於數值大小不同有時候會造成一些偏差<br>
所以這邊我們給大家介紹另一種分類的方法<br>
叫做 One Hot Encoding<br>
<br>
One Hot Encoding 做的事情就是把一個有 N 個不同種類的 array<br>
變成一個有 N 個 Column 的矩陣<br>
然後每一個 Column 都只會出現 1 或是 0<br>
每一個 Column 也都對應到 N 個種類中的其中一種<br>
雖然網路上有很多 package 在做這件事了<br>
但到現在你們可能已經發現我不太喜歡用 package 了<br>
所以我們就來自己寫一個吧!<br>

<hr>

>這邊可以偷用 np.sort <br>
> 因為我覺得這個 function 很基本 <br>
>所以勉強給大家直接用

In [None]:
def one_hot_encoding(array):
    
    sorted_array = np.sort(array)
    count = 1
    unique = [sorted_array[0]]
    
    temp = sorted_array[0]
    for i in range(len(array)):
        if sorted_array[i] != temp:
            count += 1
            temp = sorted_array[i]
            unique.append(temp)
            
    eye = np.zeros((len(unique), len(unique)))
    for i in range(len(unique)):
        eye[i, i] = 1
    
    for i in range(len(array)):
        for j in range(len(unique)):
            if array[i] == unique[j]:
                array[i] = j
                break
                
    result = eye[array]
    
    return result

In [None]:
# Example.
array = np.array([1,2,3,2])
one_hot_encoding(array)

Your code should return<br>
[1., 0., 0.],<br>
[0., 1., 0.],<br>
[0., 0., 1.],<br>
[0., 1., 0.]<br>

# Neural Network
<hr>
看了這麼多邪惡的數學 <br>
現在終於要開始寫比較善良的神經網路了<br>
不過我們這邊還是要定義一些變數<br>
我們先來看一下我們今天要做的Neural Network的架構

![alt text](https://cdn-images-1.medium.com/max/1600/0*hzIQ5Fs-g8iBpVWq.jpg)<br>
[image source](https://towardsdatascience.com/coding-neural-network-forward-propagation-and-backpropagtion-ccf8cf369f76) <br> <br>

以上是我們今天要寫的神經網路的架構<br>
我們今天要做的流程是<br>
Forward
1. $layer_1 = X \times weight_1 $
2. $activation_1 = activation(z_1)$
3. $layer_2 = a_1 \times weight_2$
4. $prediction = activationo(z_2)$<br>

Loss Function<br>

1. $loss = loss\,function(true\,value,\,prediction)$<br>

Backward<br>

1. $derivative\,of\,layer_2 = prediction - true\,value$
2. $derivative\,of\,weight_2  = activation_1\times derivative\,of\,layer_2$
3. $derivative\,of\,layer_1 = derivative\,of\,layer_2\times weight_2\times gradient\,of\,activation_1$
4. $derivative\,of\,weight_1  = X\times derivative\,of\,layer_1$

看到這邊你應該會注意到兩件事情<br>
第一件事情是我們這邊沒有加上bias<br>
這邊沒有加上bias是因為會讓model變得比較複雜<br>
為了簡化model所以沒有加上去<br>
第二件事情是Backward的第一步<br>
為什麼我們沒有做 softmax 和 cross entropy 的微分<br>
然後就模明奇妙用 prediction 減掉 true value<br>
其實是因為這個就是 cross entropy 加上 softmax 後的微分<br>
以下提供美麗的數學推導<br>
[Beautiful Math](https://deepnotes.io/softmax-crossentropy)
<!---
首先看到最左邊的input layer <br>
這一層是用來放我們整理好的資料 <br>
它們的呈現方式通常會是一個很大的Matrix <br>
只是這邊為了方便呈現 <br>
我們把Matrix裡面的每一列都用一個圓圈表示<br>
<br>
接下來就進到我們的第一層神經網路<br>
我們所有的資料都會進入到第一層神經網路裡面的每一個神經元<br>
--->
<hr>

In [None]:
def two_layer_net(X, Y, W1, W2):
    # Forward
    z1 = np.matmul(X, W1) 
    a1 = sigmoid(z1)
    z2 = np.matmul(a1, W2) 
    out = softmax(z2)
    J = cross_entropy(Y, out)
    # Backward
    d2 = out - Y
    dW2 = np.matmul(a1.T, d2)
    d1 = np.matmul(d2, (W2.T))*sigmoid_gradient(a1)
    dW1 = np.matmul(X.T, d1)
    
    return J, dW1, dW2

## Importing Data
<hr>
終於到了要來測試我們的NN有多好的時候了<br>
但首先我們跟上一份一樣<br>
先偷偷 import sklearn 來下載 iris 的資料<br>
如果你問我為什麼又要用 iris 的資料<br>
那我... 也回答不出來<br>
反正這麼乾淨的資料就用嘛 <br>
不要想那麼多<br>
<hr>

In [None]:
from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
Y = iris.target
Y = one_hot_encoding(Y)
names = iris.target_names

X_train = np.vstack([X[0:40], X[50:90], X[100:140]])
X_valid = np.vstack([X[40:45], X[90:95], X[140:145]])
X_test = np.vstack([X[45:50], X[95:100], X[145:150]])

Y_train = np.vstack([Y[0:40], Y[50:90], Y[100:140]])
Y_valid = np.vstack([Y[40:45], Y[90:95], Y[140:145]])
Y_test = np.vstack([Y[45:50], Y[95:100], Y[145:150]])

# Time to train
<hr>
這邊有很多參數可以調<br>
唯一需要特別注意的是<br>
如果你要想要改變 weight<br>
記得 W1 後面要跟 W2 前面一樣<br>
原因自己想!<br>
好啦因為矩陣相乘所以需要一樣<br>
<hr>

>提示：如果 Function output 三個東西可是我們只要一個東西的話<br>
>     我們可以用底線 _ 來忽略
```python 
J_valid, _, _ = two_layer_net......
``` 
><br>或是我們可以直接用中括弧跟數字來代表<br>
```python
J_valid = two_layer_net(......)[0]
```

In [None]:
iteration = 1000
alpha = 0.01
history_train = np.zeros((iteration, 1))
history_valid = np.zeros((iteration, 1))

np.random.seed(37)
W1 = np.random.randn(4,10)
W2 = np.random.randn(10,3)

for i in range(iteration):
    J_train, dW1, dW2 = two_layer_net(X_train, Y_train, W1, W2)
    J_valid, _, _ = two_layer_net(X_valid, Y_valid, W1, W2)
    W1 -= alpha*dW1
    #b1 -= alpha*db1
    W2 -= alpha*dW2
    #b2 -= alpha*db2
    
    history_train[i] = J_train
    history_valid[i] = J_valid
    if (i+1)%50 == 0:
        print('The training loss of the', i+1, 'epoch is', history_train[i][0].round(4), ', ', end='')
        print('The validation loss of the', i+1, 'epoch is', history_valid[i][0].round(4))
        
print('\nThe loss of our testing set is ', two_layer_net(X_test, Y_test, W1, W2)[0].round(4))