### Broadcasting

- Numpy 只能支援相同形狀相加，所以要把較小的tensor進行broadcasting.
    - y要能broadcasting要後面項相等

In [6]:
import numpy as np
x = np.random.random((64,3,32,10))
y = np.random.random((32,10))
z = np.maximum(x,y)
print(z.shape)

(64, 3, 32, 10)


### Dot

##### numpy的dot


<img src = "https://www.mathsisfun.com/algebra/images/matrix-multiply-a.svg" width="40%">

In [7]:
x = np.array([[1,2],[1,3]])
y = np.array([[1,1],[2,2]])

z = np.dot(x,y)



##### dot的數學表示，用python呈現

In [8]:
def vector_dot(x,y):
    z=0.
    for i in range(x.shape[0]):
        z+=x[i]*y[i] #x[0]y[0]+x[1]y[1].....
    return z

def matrix_dot(x,y):
    z = np.zeros((x.shape[0],y.shape[0])) #建立數值為0的np.array
    for i in range(x.shape[0]):
        for j in range(y.shape[1]):
            row_x = x[i,:]
            column_y = y[:,j]
            z[i,j] = vector_dot(row_x,column_y)
    return z

In [9]:
print(matrix_dot(x,y))

[[5. 5.]
 [7. 7.]]


###  Type of Neural Network
不論哪種神經網路，都是在找層與層之間的權重，不斷變更權重，去最小化損失函數的值。
###  gradient descent，GD

<img src = "https://miro.medium.com/max/892/1*zgcke0uQx87GAhCwTsIGag.png" width="40%">
這邊的t是第幾次更新參數，γ是學習率(Learning rate)

### 隨機梯度下降法(Stochastic gradient descent, SGD)

   - GD我們是一次用全部訓練集的數據去計算損失函數的梯度就更新一次參數。
   - SGD就是一次跑一個樣本或是小批次(mini-batch)樣本然後算出一次梯度或是小批次梯度的平均後就更新一次，
        那這個樣本或是小批次的樣本是隨機抽取的，所以才會稱為隨機梯度下降法。
        
* 而SGD和GD的缺點在於學習率是固定的，如果學習率太小，學習速度太慢，
    但學習率太大，雖然還是可以往最佳解走，可是在最後幾部，會走不進最佳解。

### Momentum

<img src = "https://miro.medium.com/max/1400/1*ZoRXwJ3xXxwxXPtKPAsRHg.png" width="50%" align="left">

- 這邊的t是第幾次更新參數，γ是學習率(Learning rate)，m是momentum項(一般設定為0.9)
- 相對於SGD的優點在於，如果學習率很小，SGD會在local minimum就停住，但是Momentum會跳出

### Adagrad

<img src = "https://miro.medium.com/max/1006/1*db1qSL5OkwvF1uUm_rWexg.png" width='40%' align = 'left'>

* ε是平滑項，主要避免分母為0的問題，一般設定為1e-7。Gt這邊定義是一個對角矩陣，對角線每一個元素是相對應每一個參數梯度的平方和
* Adagrad缺點是在訓練中後段時，有可能因為分母累積越來越大(因為是從第1次梯度到第t次梯度的和)導致γ被分母稀釋變接近於零

### RMSProp
<img src = "https://miro.medium.com/max/1290/1*kw_KP5SmJljmVfWTq-mD9g.png" width='40%' align = 'left'>


* E[]在統計上就是取期望值，所以是取gi²的期望值，白話說就是他的平均數。ρ是過去t-1時間的梯度平均數的權重，一般建議設成0.9
* 所以就不會出現分母越來越大的問題

### keras的hello world

In [10]:
from keras.datasets import mnist
import numpy as np
(train_images,train_labels),(test_images,test_labels) = mnist.load_data()

In [11]:
train_images=train_images.reshape((60000,28*28))
train_images = train_images.astype('float32')/255

test_images = test_images.reshape((10000,28*28))
test_images = test_images.astype('float32')/255

In [12]:
from keras import models
from keras import layers
from keras.utils import to_categorical
network = models.Sequential()
network.add(layers.Dense(512,activation='relu', input_shape=(28*28,)))
network.add(layers.Dense(10,activation='softmax'))

train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)


network.compile(optimizer='rmsprop',loss = 'categorical_crossentropy',metrics =['accuracy'])
network.fit(train_images,train_labels,epochs=5,batch_size = 128)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<tensorflow.python.keras.callbacks.History at 0x132e7c668>