# 勾配を求める関数を2次元に拡張し、目的関数をニューラルネットワークの損失関数にする
* 2_5_gradient_trainee.ipynbでは、1次元配列(ベクトル)が入力された場合に勾配を算出する関数を実装した。  
* ここでは、2次元配列(行列)が入力された場合に勾配を算出する関数を実装する。
* 目的関数が、ニューラルネットワークの損失関数になっていることに注意。

In [1]:
import numpy as np
from common.activations import softmax
from common.loss import mean_squared_error

### [演習]
* 勾配を求める以下の関数を完成させましょう
* Wは2次元配列になっています

In [2]:
# ヒント
W = np.random.randn(2,3).round(3)
print("W=", W)
print()

for r in range(W.shape[0]):
    for c in range(W.shape[1]):
        print("r=%s"%r, "c=%s"%c, "W[%s,%s]=%s"%(r, c, W[r,c]))

W= [[-1.67   0.726  0.462]
 [-0.671  0.131 -0.672]]

r=0 c=0 W[0,0]=-1.67
r=0 c=1 W[0,1]=0.726
r=0 c=2 W[0,2]=0.462
r=1 c=0 W[1,0]=-0.671
r=1 c=1 W[1,1]=0.131
r=1 c=2 W[1,2]=-0.672


In [3]:
def predict(x, W):
    """
    予測関数
    """
    return np.dot(x, W)

def loss(x, W, y):
    """
    損失関数
    """
    y_pred = predict(x, W)
    return  mean_squared_error(y_pred, y) #平均二乗和誤差

def f(W):
    """
    引数を調整するための関数
    """
    return loss(x, W, y) 

def numerical_gradient(f, W):
    """
    f : 損失関数
    W : 重み行列
    """
    h = 1e-4 # 0.0001
    grad = np.zeros_like(W)
    
    for r in range(W.shape[0]):
        for c in range(W.shape[1]):
            tmp_val = W[r,c]

            W[r,c] = tmp_val + h
            fxh1 = f(W)

            W[r,c] = tmp_val - h 
            fxh2 = f(W)
            grad[r,c] = (fxh1 - fxh2) / (2*h)

            W[r,c] = tmp_val # 値を元に戻す

    return grad

In [4]:
np.random.seed(1234)

# 学習用データ
x = np.array([[1,2],[1,-2]])
y = np.array([[5, 6, 7],[7,8,9]])

# 重みの初期値
W = np.random.randn(2,3).round(3)
print("W=", W)
print()

# 損失
print("loss=", loss(x, W, y))
print()

# 勾配の算出
grad = numerical_gradient(f, W)
print("grad=", grad)
print()

W= [[ 0.471 -1.191  1.433]
 [-0.313 -0.721  0.887]]

loss= 74.4090635

grad= [[-5.529 -8.191 -6.567]
 [ 0.748 -0.884  5.548]]



### [gradの解釈]
* 求められたgradは、例えば、次のように解釈できる
    * $w_{11}$を負の方向に微小量$h$だけ変化させたとき、$loss$は約5.529増える。
    * $w_{23}$を正の方向に微小量$h$だけ変化させたとき、$loss$は約5.548増える。
    * $loss$は$0$に近づけたいので、$w_{11}$は正の方向に更新し、$w_{23}$は負の方向に更新するのが良い、となる。

### [演習]
* 初期値を変えると結果がどう変わるか確認しましょう

### [宿題] 
* numerical_gradientをWの配列形状に依存しない形で実装してみましょう

In [5]:
# ヒント
W = np.random.randn(2,3).round(3)
print("W=", W)
print()

it = np.nditer(W, flags=['multi_index'])
while not it.finished:
    idx = it.multi_index
    print("idx=",idx, "W[idx]=",W[idx])
    it.iternext()  


W= [[ 0.86  -0.637  0.016]
 [-2.243  1.15   0.992]]

idx= (0, 0) W[idx]= 0.86
idx= (0, 1) W[idx]= -0.637
idx= (0, 2) W[idx]= 0.016
idx= (1, 0) W[idx]= -2.243
idx= (1, 1) W[idx]= 1.15
idx= (1, 2) W[idx]= 0.992


In [6]:
def numerical_gradient(f, W):
    """
    全ての次元について、個々の次元だけの微分を求める
    f : 関数
    W : 偏微分を求めたい場所の座標。多次元配列
    """
    h = 1e-4 # 0.0001
    grad = np.zeros_like(W)
    
    it = np.nditer(W, flags=['multi_index'])
    
    while not it.finished:
        idx = it.multi_index
        tmp_val = W[idx]
        
        W[idx] = tmp_val + h
        fxh1 = f(W)
        
        W[idx] = tmp_val - h 
        fxh2 = f(W)
        grad[idx] = (fxh1 - fxh2) / (2*h)
        
        W[idx] = tmp_val # 値を元に戻す
        
        # 次のindexへ進める
        it.iternext()   
        
    return grad


np.random.seed(1234)

# 学習用データ
x = np.array([[1,2],[1,-2]])
y = np.array([[5, 6, 7],[7,8,9]])

# 重みの初期値
W = np.random.randn(2,3).round(3)
print("W=", W)
print()

# 損失
print("loss=", loss(x, W, y))
print()

# 勾配の算出
grad = numerical_gradient(f, W)
print("grad=", grad)
print()

W= [[ 0.471 -1.191  1.433]
 [-0.313 -0.721  0.887]]

loss= 74.4090635

grad= [[-5.529 -8.191 -6.567]
 [ 0.748 -0.884  5.548]]

