# 勾配を求める関数を2次元に拡張し、目的関数をニューラルネットワークの損失関数にする
* 2_4_gradient_trainee.ipynbでは、1次元配列(ベクトル)が入力された場合に勾配を算出する関数を実装した。  
* ここでは、2次元配列(行列)が入力された場合に勾配を算出する関数を実装する。
* 目的関数が、ニューラルネットワークの損失関数になっていることに注意。

In [None]:
import numpy as np
from common.activations import softmax
from common.loss import mean_squared_error

### [演習]
* 勾配を求める以下の関数を完成させましょう。
* Wは2次元配列になっています。

In [None]:
# ヒント
W = np.random.randn(2,3).round(3)
print("W=", W)
print()

for r in range(W.shape[0]):
    for c in range(W.shape[1]):
        print("r=%s"%r, "c=%s"%c, "W[%s,%s]=%s"%(r, c, W[r,c]))

In [None]:
def predict(x, W):
    """
    予測関数
    """
    return np.dot(x, W)

def loss(x, W, t):
    """
    損失関数
    """
    y = predict(x, W)
    return  mean_squared_error(y, t) #平均二乗和誤差

def numerical_gradient(f, x, W, t):
    """
    f : 目的関数
    x : 入力データ
    W : 重み行列
    t : 正解データ
    """
    h = 1e-4 # 0.0001
    grad = np.zeros_like(W)
    
    for r in range(W.shape[0]):
        for c in range(W.shape[1]):
            tmp_val = W[r,c]

            W[r,c] = tmp_val + h
            fxh1 = f(         )

            W[r,c] = tmp_val - h 
            fxh2 = f(         )
            grad[r,c] = (fxh1 - fxh2) / (2*h)

            W[r,c] = tmp_val # 値を元に戻す

    return grad

In [None]:
np.random.seed(1234)

# 学習用データ
x = np.array([[1, 2],[1, -2]])
t = np.array([[5, 6, 7],[7, 8, 9]])

# 重みの初期値
W = np.random.randn(2, 3).round(3)
print("W=", W)
print()

# 損失
print("loss=", loss(x, W, t))
print()

# 勾配の算出
grad = numerical_gradient(loss, x, W, t)
print("grad=", grad)
print()

### [gradの解釈]
* 求められたgradは、例えば、次のように解釈できる。
    * $w_{11}$を負の方向に微小量$h$だけ変化させたとき、$loss$は約5.529増える。
    * $w_{23}$を正の方向に微小量$h$だけ変化させたとき、$loss$は約5.548増える。
    * $loss$は$0$に近づけたいので、$w_{11}$は正の方向に更新し、$w_{23}$は負の方向に更新するのが良い、となる。

### [演習]
* 学習用データを変えてみましょう。
* 重みの初期値を変えてみましょう。

## Wの配列形状に依存しない実装
### [演習]
* 上記numerical_gradientをWの配列形状に依存しない形で実装してみましょう。
* np.nditerを用います。

In [None]:
# ヒント
W = np.random.randn(2,3).round(3)
print("W=", W)
print()

it = np.nditer(W, flags=['multi_index'])
while not it.finished: # Wの全要素を捜査する
    idx = it.multi_index # indexを1つ取り出す
    print("idx=",idx, "W[idx]=",W[idx])
    it.iternext() # indexを1つ進める


In [None]:
def numerical_gradient(f, x, W, t):
    """
    f : 目的関数
    x : 入力データ
    W : 重み行列
    t : 正解データ   
    """
    h = 1e-4 # 0.0001
    grad = np.zeros_like(W)
    
    it = np.nditer(W, flags=['multi_index'])
    
    while not it.finished:
        idx =           # indexを取り出す
        tmp_val = W[idx]
        
        W[idx] = tmp_val + h
        fxh1 = f(x, W, t)
        
        W[idx] = tmp_val - h 
        fxh2 = f(x, W, t)
        grad[idx] = (fxh1 - fxh2) / (2*h)
        
        W[idx] = tmp_val # 値を元に戻す
        
        it.          # 次のindexへ進める
        
    return grad


np.random.seed(1234)

# 学習用データ
x = np.array([[1, 2],[1, -2]])
t = np.array([[5, 6, 7],[7, 8, 9]])

# 重みの初期値
W = np.random.randn(2,3).round(3)
print("W=", W)
print()

# 損失
print("loss=", loss(x, W, t))
print()

# 勾配の算出
grad = numerical_gradient(loss, x, W, t)
print("grad=", grad)
print()