In [1]:
import numpy as np

In [2]:
import numpy as np

def Matrix(*a):
    if len(a)==1 and isinstance(a[0], np.ndarray):
        a = a[0]
    return np.array([[float(x) for x in r] for r in a])

def Vector(*a):
    if len(a)==1 and isinstance(a[0], np.ndarray):
        a = a[0]
    return np.array([float(x) for x in a]).reshape(-1,1)

In [5]:
# Black magic
from IPython.display import Latex, SVG, display
from IPython.core.interactiveshell import InteractiveShell

def ndarray_to_latex(arr): 
    if len(arr.shape)==1: 
        arr=arr.reshape(1,-1)
    if len(arr.shape) != 2:
        return None
    str_arr = np.vectorize("{:.3f}".format)(arr)
    return r'\begin{{pmatrix}}{}\end{{pmatrix}}'.format(r'\\ '.join(map('&'.join, str_arr))) 
sh = InteractiveShell.instance()
sh.display_formatter.formatters['text/latex'].type_printers[np.ndarray]=ndarray_to_latex


### Supervised learning for classification
給一堆 x, 我們想用 x 來預測他的分類

### One hot encoding
如果我們有三類東西， 我們可以來編碼這三個類別
* $(1,0,0)$
* $(0,1,0)$
* $(0,0,1)$

### 問題
* 為什麼不直接用 1,2,3 這樣的編碼呢？


### Softmax Regression 的模型是這樣的
我們的輸入 $x=\begin{pmatrix} x_0 \\ x_1 \\ x_2 \\ x_3 \end{pmatrix} $ 是一個向量，我們看成 column vector 好了

而 Weight: $W = \begin{pmatrix} W_0 \\ W_1 \\ W_2 \end{pmatrix} =  
\begin{pmatrix} W_{0,0} & W_{0,1} &  W_{0,2} & W_{0,3}\\ 
 W_{1,0} & W_{1,1} &  W_{1,2} & W_{1,3} \\ 
 W_{2,0} & W_{2,1} &  W_{2,2} & W_{2,3} \end{pmatrix} $
 
 Bias: $b=\begin{pmatrix} b_0 \\ b_1 \\ b_2 \end{pmatrix} $ 


我們先計算"線性輸出"  $ c = \begin{pmatrix} c_0 \\ c_1 \\ c_2 \end{pmatrix} =  Wx+b =
\begin{pmatrix} W_0 x + b_0 \\ W_1 x + b_1 \\ W_2 x + b_2 \end{pmatrix}   $， 然後再取 $exp$ (逐項取)。 最後得到一個向量。
 
 $d = \begin{pmatrix} d_0 \\ d_1 \\ d_2 \end{pmatrix} = e^{W x + b} = \begin{pmatrix} e^{c_0} \\ e^{c_1} \\ e^{c_2} \end{pmatrix}$


將這些數值除以他們的總和。
我們希望出來的數字會符合這張圖片是這個數字的條件機率。

###  $q(i) = Predict(Y=i|x, W, b)  = \frac {e^{W_i x + b_i}} {\sum_j e^{W_j x + b_j}} = \frac {d_i} {\sum_j d_j}$

### 問題
* 為什麼要用 $exp$?


先隨便算一個 $\mathbb{R}^2 \rightarrow \mathbb{R}^3$ 的網路

In [10]:
# Weight
W = Matrix([1,2],[3,4], [5,6])
W

array([[ 1.,  2.],
       [ 3.,  4.],
       [ 5.,  6.]])

In [11]:
# Bias
b = Vector(1,0,-1)
b

array([[ 1.],
       [ 0.],
       [-1.]])

In [19]:
# 輸入
x = Vector(2,-1)
x

array([[ 2.],
       [-1.]])

### 請計算 最後的 $\Pr$ 
Hint: `np.exp` 可以算 $exp$

In [28]:
# Wx+b
c = W @ x + b
c

array([[ 1.],
       [ 2.],
       [ 3.]])

In [29]:
# exp(Wx+b)
d = np.exp(c)
d

array([[  2.71828183],
       [  7.3890561 ],
       [ 20.08553692]])

In [30]:
# softmax
Q = d/d.sum()
Q

array([[ 0.09003057],
       [ 0.24472847],
       [ 0.66524096]])

### 練習
設計一個網路:
* 輸入是二進位 0 ~ 15
* 輸出依照對於 4 的餘數分成四類

In [69]:
# 參考答案
W = Matrix([-1,-1,0,0], [1,-1,0,0], [-1,1,0,0], [1,1,0,0])
b = Vector(0,0,0,0)
for i in range(16):
    x = Vector(i%2, (i>>1)%2, (i>>2)%2, (i>>3)%2)
    r = W @ x + b
    print("i=", i, "predict:", r.argmax(), "ground truth:", i%4)


i= 0 predict: 0 ground truth: 0
i= 1 predict: 1 ground truth: 1
i= 2 predict: 2 ground truth: 2
i= 3 predict: 3 ground truth: 3
i= 4 predict: 0 ground truth: 0
i= 5 predict: 1 ground truth: 1
i= 6 predict: 2 ground truth: 2
i= 7 predict: 3 ground truth: 3
i= 8 predict: 0 ground truth: 0
i= 9 predict: 1 ground truth: 1
i= 10 predict: 2 ground truth: 2
i= 11 predict: 3 ground truth: 3
i= 12 predict: 0 ground truth: 0
i= 13 predict: 1 ground truth: 1
i= 14 predict: 2 ground truth: 2
i= 15 predict: 3 ground truth: 3


### 練習
設計一個網路:
* 輸入是二進位 0 ~ 15
* 輸出依照對於 3 的餘數分成三類

Hint: 不用全部正確，用猜的，但正確率要比亂猜高。可以利用統計的結果猜猜看。

In [73]:
# 參考答案
W = Matrix([0,0,0,0], [1,-1,1,-1], [-1,1,-1,1])
b = Vector(0.1,0,0)
for i in range(16):
    x = Vector(i%2, (i>>1)%2, (i>>2)%2, (i>>3)%2)
    r = W @ x + b
    print("i=", i, "predict:", r.argmax(), "ground truth:", i%3)


i= 0 predict: 0 ground truth: 0
i= 1 predict: 1 ground truth: 1
i= 2 predict: 2 ground truth: 2
i= 3 predict: 0 ground truth: 0
i= 4 predict: 1 ground truth: 1
i= 5 predict: 1 ground truth: 2
i= 6 predict: 0 ground truth: 0
i= 7 predict: 1 ground truth: 1
i= 8 predict: 2 ground truth: 2
i= 9 predict: 0 ground truth: 0
i= 10 predict: 2 ground truth: 1
i= 11 predict: 2 ground truth: 2
i= 12 predict: 0 ground truth: 0
i= 13 predict: 1 ground truth: 1
i= 14 predict: 2 ground truth: 2
i= 15 predict: 0 ground truth: 0


## Gradient descent

### 誤差函數
為了要評斷我們的預測的品質，要設計一個評斷誤差的方式

假設輸入值 $x$ 對應到的真實類別是 $y$, 那我們定義誤差函數

## $ loss = -\log(q(y))=- \log(Predict(Y=y|x, W,b)) $


其實比較一般但比較複雜一點的寫法是

## $ loss = - \sum_i p(i)\log(q(i))  $

其中 $i$ 是所有類別， 而 $ p(i) = \Pr(Y=i|x) $ 是真實發生的機率

但我們目前 $x$ 對應到的真實類別是 $y$， 所以直接 $p(y)=1$


### 想辦法改進。 
我們用一種被稱作是 gradient descent 的方式來改善我們的誤差。

因為我們知道 gradient 是讓函數上升最快的方向。所以我們如果朝 gradient 的反方向走一點點（也就是下降最快的方向），那麼得到的函數值應該會小一點。

記得我們的變數是 $W$ 和 $b$ (裡面有一堆 W_i,j b_i 這些變數)，所以我們要把 $loss$ 對 $W$ 和 $b$ 裡面的每一個參數來偏微分。

還好這個偏微分是可以用手算出他的形式，而最後偏微分的式子也不會很複雜。

$loss$ 展開後可以寫成
## $loss = -\log(q(y)) = \log(\sum_j d_j) - d_i \\
 = \log(\sum_j e^{W_j x + b_j}) - W_i x - b_i$

注意 $d_j = e^{W_j x + b_j}$ 只有變數 $b_j, W_j$ 

 對 $k \neq i$ 時, $loss$ 對 $b_k$ 的偏微分是 
 $$ \frac{e^{W_k x + b_k}}{\sum_j e^{W_j x + b_j}} = q(k)$$
對 $k = i$ 時, $loss$ 對 $b_k$ 的偏微分是 
$$ q(k) - 1$$



對 $W$ 的偏微分也不難

 對 $k \neq i$ 時, $loss$ 對 $W_{k,t}$ 的偏微分是 
 $$ \frac{e^{W_k x + b_k} W_{k,t} x_t}{\sum_j e^{W_j x + b_j}} = q(k) x_t$$
對 $k = i$ 時, $loss$ 對 $W_{k,t}$ 的偏微分是 
$$ q(k) x_t - x_t$$



In [105]:
W = Matrix(np.random.normal(size=(3,4)))
b = Vector(np.random.normal(size=(3,)))

In [106]:
W

array([[-0.02316323,  0.67736647,  0.24009028,  0.78964975],
       [ 1.61717265, -0.27397296, -2.33857055,  0.91615159],
       [-1.03655084, -0.50555928, -0.04595218, -0.22805642]])

In [107]:
b

array([[ 1.67812739],
       [ 0.49914493],
       [-0.8202958 ]])

In [108]:
i = 14
x = Vector(i%2, (i>>1)%2, (i>>2)%2, (i>>3)%2)
y = i%3
d = np.exp(W @ x + b)
q = d/d.sum()
q

array([[ 0.98321785],
       [ 0.01005781],
       [ 0.00672434]])

In [109]:
loss = -np.log(q[y])
loss

array([ 5.00202213])

In [110]:
grad_b = q.copy()
grad_b[y] -= 1
grad_b

array([[ 0.98321785],
       [ 0.01005781],
       [-0.99327566]])

In [111]:
grad_W =   q @ x.T
grad_W[y] -= x.ravel()
grad_W

array([[ 0.        ,  0.98321785,  0.98321785,  0.98321785],
       [ 0.        ,  0.01005781,  0.01005781,  0.01005781],
       [ 0.        , -0.99327566, -0.99327566, -0.99327566]])

In [115]:
W -= 0.5 * grad_W
b -= 0.5 * grad_b

In [116]:
d = np.exp(W @ x + b)
q = d/d.sum()
q

array([[ 0.52877451],
       [ 0.05590564],
       [ 0.41531985]])

In [117]:
loss = -np.log(q[y])
loss

array([ 0.87870633])