In [None]:
'''
# 四章 NNの学習
- NNの学習 = 訓練データから最適な重みパラメータの値を自動で獲得すること
- NNが学習を行えるようにするため、損失関数を導入する
    - この値が最も小さくなる重みパラメータを探し出すのが学習の目的
    - まずは勾配法を導入する
- NNはデータから学習できることが特徴
- 機械学習はデータが中心
    - ex: パーセプトロン
    - データをまず用意する必要がある
    - また、推測を介さず、データからのみストーリーを語る    
- たとえば、ゼロから「5」を認識するアルゴリズムをひねり出すより、画像から特徴量を抽出して、そのパターンを学習する方法がある
    - 特徴量とは、入力データから、本質的なデータを的確に抽出できるように設計された「変換器」を指す
    - 画像の特徴量は一般的にベクトルで記述される
        - コンピュータビジョンで有名な特徴量としては、SIFT, SURF, HOGなどがある
    - 画像データを変換器　= 特徴量によってベクトルに変換し、そのベクトルに対して「識別器」で学習させる
        - [ ] 識別器とは
            - SVN, KNN等があるらしい
- この「特徴量」については人間が設計する必要がある
    - 問題に応じて特徴量 = 変換器を使い分ける必要がある
    - ココには人の手が介在する
- ここまでの推測の種類の生理
    1. 入力 -> 人間の考えたアルゴリズム -> 出力
    2. 入力 -> 人間の考えた特徴量 -> 機械学習 -> 出力
    3. 入力 -> NN(deep learning) -> 出力
- よって、NN(DL)はend-to-end-machine-learningと呼ばれることがある

## データの取扱について
- 機械学習の問題では、訓練データとテストデータの2つにデータを分けて学習やじっけんを行なう
    1. 訓練データで適切なパラメータを探索
    2. テストデータでモデルの実力を評価
- 汎化能力を正しく評価するためにデータを2つに分離する必要がある
    - 汎化能力 = まだ見ぬデータへの推測力
    - データセットが偏っていると、特定のデータセットにうまく対応できても、他のには対応できなくなると行った状況に陥る
    - これを過学習 = overfittingという

## 損失関数
- NN性能の「悪さ」を示す指標
- 通常は二乗和誤差や、交差エントロピー誤差などが用いられる

### 二乗和誤差
- E = 0.5 * ∑(yk - tk)^2 ... kは添字
    - y: NNの出力, tは教師データ
- 教師データにおいて、正解データを1, それ以外を0と置く表記をone-hot表現という
'''

import numpy as np

# chapter3の例
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0] # softmax関数の出力
t = [    0,       0,    1,     0,        0,   0,     0,    0,     0,    0] # 教師データ


def mean_squared_error(y, t):
    return 0.5 * np.sum((y-t)**2)
    
# 「２」を正解とする
t = [    0,       0,    1,     0,        0,   0,     0,    0,     0,    0] 

# ex1: 2の確率が最も高いと弾き出すモデルの出力の例
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
mean_squared_error(np.array(y), np.array(t)) # 0.097...

# ex2: 7の確率が最も高いと弾き出すモデルの出力の例
y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]
mean_squared_error(np.array(y), np.array(t)) # 0.597...

# 確かにこの損失関数は誤っているex2の方でおおきな値を返している

'''
### 交差エントロピー誤差
- E = - ∑(tk * log(yk)) ... kは添字
- one-hot表現だとすると、tk=1、つまり正解ラベルのときだけ計算する
- また、softmaxの出力値で正解の確率を仮に1と出していた時、損失は0になる = 優秀であると判断できる
'''

def cross_entropy_error(y, t):
    delta = 1e-7 # 微小な値
    return -np.sum(t * np.log(y + delta))

# np.log(0)を計算してしまうとnp.log(0)が-infとなり、エラーが起きてしまうため


# 「2」を正解とする
t = [    0,       0,    1,     0,        0,   0,     0,    0,     0,    0] 

# ex1: 2の確率が最も高いと弾き出すモデルの出力の例
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
cross_entropy_error(np.array(y), np.array(t)) # 0.510825457099

# ex2: 7の確率が最も高いと弾き出すモデルの出力の例
y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]
cross_entropy_error(np.array(y), np.array(t)) # 2.3025840929945458


'''
## ミニバッチ学習
- 全ての訓練データに対して損失関数を求め、その値をできるだけ小さくするようなパラメータを探し出す必要がある
- よって、先程までの一つの訓練データの損失関数を求める式の更に総和を求める
    - E = -(1/N) * ∑(∑(tnk * logynk)) ... n, kは添字
- しかし、MNISTのデータセットであっても6万件あり、bigdataにもなればかなりのデータ量になる
    - 全てのデータを対象に損失関数を計算するのは非現実的
- そこで、訓練データからある枚数だけを選び出し、その塊ごとに学習を行なう
    - この選びだしたものをミニバッチ = 小さな塊という
    - [ ] 選び出す数 = batch_sizeの適切な決め方は？
'''

import sys, os
sys.path.append('./deep-learning-from-scratch')
from dataset.mnist import load_mnist

(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_labeｌ=True)

train_size = x_train.shape[0] # 60000
batch_size = 10
batch_mask = np.random.choice(train_size, batch_size)
# ex: array([25286, 10861, 55404, 16791, 26595, 34692, 39286,  9747, 15529, 18955])
x_batch = x_train[batch_mask]
t_batch = t_train[batch_mask]

def cross_entropy_error(y, t):
    if y.ndim == 1:
        # reshape: n * m行列を、n' * m'行列に変形してくれる。ただし、要素数がおなじになるような変形に限る
        # つまりここでは1次元配列を1 * nの2次元行列に変更している [1,2] => [[1. 2]]
        t = t.reshape(1, t.size) 
        y = y.reshape(1, y.size)
        
        batch_size = y.shape[0] 
        return -np.sum(t * np.log(y)) / batch_size
    

'''
### 補足
- なぜ損失関数を設けるのか
    - モデルの精度をパラメータで微分しても大きく変動しない => どの方向のパラメーターを動かせばいいのかわからない
- なぜNNではステップ関数ではなくsigmoidのような非線形関数を用いるのか
    - step関数の微分は大体の箇所で0なので、損失関数(実際は定数 - 活性化関数の返り値なので、活性化関数の微分とほぼ同形)の微分も大体０になってしまう
'''

'''
## 数値微分 Numerical Gradient
### 数値微分
'''
# 数値微分を実装する
# 中央微分にすることで丸め誤差を減らせるらしい
def numerical_diff(f, x):
    h = 1e-4 # 0.0001
    return (f(x + h) - f(x - h)) / (2 * h)

# 数値微分の例
def func_1(x):
    return 0.01 * x ** 2 + 0.1 * x    

import numpy as np
import matplotlib.pylab as plt
x = np.arange(0.0, 20.0, 0.1)
y = func_1(x)
plt.xlabel('x')
plt.ylabel('y')
# plt.plot(x, y)
# plt.show()

def targent_line(f, x):
    a = numerical_diff(f, x) # 傾き
    def line(t):
        return a * t - a * x + f(x)
        
    return line
       
        
tl = targent_line(func_1, 5)
y2 = tl(x)
# plt.plot(x, y2)

#plt.show()

'''
### 偏微分
- 変数が２つの関数の実装
'''

def func_2(x):
    return x[0] ** 2 + x[1] ** 2
    # or return np.sum(x**2)

# たとえばx0 = 3, x1 = 4のときのx０に対する偏微分
def func_2_tmp1(x0):
    return x0 ** 2.0 + 4.0 ** 2.0

# print(numerical_diff(func_2_tmp1, 3.0))


# たとえばx0=3, x1=4のときのx1に対する偏微分
def func_2_tmp2(x1):
    return 3.0 ** 2.0 + x1 ** 2.0

# print(numerical_diff(func_2_tmp2, 4.0))

'''
## 勾配
- x0, x1の偏微分をまとめて計算したい
- 勾配 = 全ての変数についての偏微分をベクトルとしてまとめたもの
    - p105
    - 勾配が示す方向は関数の値を最も減らす方向 = 局値を示す
'''

# ある座標における勾配(ベクトル)を返す
# つまり数値微分
def numerical_gradient(f, x):
    h = 1e-10
    grad = np.zeros_like(x) # xと同じ形状のゼロ行列を生成
    for idx in range(x.size):
        tmp_val = x[idx]
        
        x[idx] = tmp_val + h
        fxh1 = f(x)
        
        x[idx] = tmp_val - h
        fxh2 = f(x)
        
        grad[idx] = (fxh1 - fxh2)  / (2 * h)
        x[idx] = tmp_val # 値を元に戻す
        
    return grad

# 試しに。
f = lambda x: x[0] ** 2 + x[1] ** 2
x = np.array([1,2])
numerical_gradient(f, x)

f = lambda x: x**2
x = np.array([2])
numerical_gradient(f, x)

'''
### 勾配法
- 機械学習の最適なパラメータ探索では損失関数が最小値を撮るようなパラメータを探したいというのが目的
- 勾配は各地点において、関数の値を最も減らす方向を示すという特徴を利用する
    - とはいっても、勾配の先が真に関数の最小値なのかは担保されない
        - 極小値や鞍点の場合も勾配は0になる
        - [ ] 鞍点とは
        - 関数が複雑で歪な形をしていると、平らな土地に入り込み、プラトーと呼ばれる学習が進まない停滞期に陥ることがある
- 具体的には、ある関数の極小値を求めたい時、
    1. ある点をスタート地点として任意に定め
    2. そこから勾配を算出して、勾配の方向に学習率分だけ歩を進め、
    3. さらに2を任意の一定回数繰り返す、ということをくり返す
- 勾配法（gradient method）の式
    - x0 := x0 - μ * (δf / δx0)
        - μは学習率と呼ばれ、一回の学習でどれだけ学習するか = 歩を進めるかを決める
        - 一般に大きすぎても小さすぎてもいけない
        - 経験値的に0.01 - 0.001当たりをとるが、適切かどうかは適宜確認する
    - 特にNNでよく使われる
- 下記実例でもあげているが、learning rateをどう設定するか、間違っていないかどうかをどう確かめればいいのか
- ハイパーパラメーター
    - 学習率など。
    - 重みなどのパラメーターは学習によって勝手に取得されるが、学習率は人の手によって設定する必要がある
'''

def gradient_descent(f, init_x, lr = 0.01, step_num = 100):
    x = init_x
    
    for i in range(step_num):
        grad = numerical_gradient(f, x)
        x = x - lr * grad
        
    return x

# 試しに。
f = lambda x: x[0] ** 2 + x[1] ** 2
init_x = np.array([-3.0, 4.0])
gradient_descent(f, init_x, lr = 0.01, step_num=100) # array([ -6.11110734e-10,   8.14814083e-10])
# たとえば、lr=0.001とかにすると、[-2.45570027,  3.27426721]にまでしか到達しない。


'''
## NNの勾配
- NNにおける勾配とは、重みパラメーターを変数とした損失関数の勾配のこと
- 損失関数をL, 重みをWで表現する時、δL/δWを勾配とする
'''

# 実際のNNで実装する
# 3章で実装したものを再度呼び出している
import sys, os
from common.functions import *
from common.gradient import numerical_gradient
# このnumerical_gradientは

class simpleNet:
    def __init__(self):
        self.W = np.random.randn(2, 3) # ガウス分布で2*3の行列を初期化して取得
        
    def predict(self, x):
        return np.dot(x, self.W)
    
    def loss(self, x, t):
        z = self.predict(x)
        y = softmax(x)
        return  cross_entropy_error(y, t)
    
net = simpleNet()

x = np.array([0.6, 0.9])
p = net.predict(x)
np.argmax(p)

t = np.array([0, 0, 1]) # 正解ラベル
net.loss(x, t)

f = lambda w: net.loss(x, t)

dW = numerical_gradient(f, net.W)

'''
## 学習アルゴリズムの実装
- 一旦まとめる
    1. 前提
        - NNは適応可能な重みとバイアスがあり、この思おみトバイアスを訓練データに適応するように調整することを学習と呼ぶ.4stepある
    2. step1 ミニバッチ
        - 訓練データの中からランダムに一部のデータを選び出し、そのミニバッチに対する損失関数を小さくすることを目的とする
    3. step2 勾配の算出
        - スタート地点となるパラメーター(W, b)は適当におく
        - ミニバッチの損失関数を減らすために各重みパラメーターの勾配(各wに対する偏微分. ここでは定数が出て来る)を求める
        - 勾配は損失関数を最も減らす方向を示す
    4. step3 パラメタの更新
        - 重みパラメータを勾配方向に微小量 = 学習率だけ更新する
    5. step4 繰り返す
        - step_numだけ繰り返す
- ミニバッチでの勾配降下法は通称確率的勾配降下法と呼ばれる。Stochastic Gradient Descentの頭文字をとり、通常SGDという名前の関数で実装される
- [ ] hidden_sizeはどう定めるのか
- gradの理解
    - N個のレコードとN個の正解データから1個の損失関数を生成している(ref: L = -∑(1ペアの損失差分) )
    - これで生成された損失関数を元にWのgradを生成し、Wの更新をしている
    - (よく考えれば当たり前だが)batch処理をすれば、各イテレーション毎の損失関数は(とても似ているとは思われるが)毎回異なる形をしている
'''
# いよいよMNISTを実装する

class TwoLayerNet:
    # input_size: 1レコードがもつニューロンの個数
    # hidden_size: 中間層のニューロンの個数
    # output_size: 出力層のニューロンの個数 = 分類問題であれば分類のカテゴリ数
    
    def __init__(self, input_size, hidden_size, output_size, weight_init_std=0.01):
        self.params = {}
        self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size) # 784 * 100の行列
        self.params['W2'] = weight_init_std * np.random.randn(hidden_size, output_size)
        # バイアスを0で実装する
        self.params['b1'] = np.zeros(hidden_size) 
        self.params['b2'] = np.zeros(output_size)
        
    def predict(self, x):
        W1, W2 = self.params['W1'], self.params['W2']
        b1, b2 = self.params['b1'], self.params['b2']
        a1 = np.dot(x, W1) + b1
        z1 = sigmoid(a1)
        a2 = np.dot(z1, W2) + b2
        z2 = softmax(a2)
        return z2
    
    def loss(self, x, t):
        y = self.predict(x)
        return cross_entropy_error(y, t)
    
    def accracy(self, x, t):
        y = self.predict(x)
        y = np.argmax(y, axis=1)
        t = np.argmax(t, axis=1)
        accracy = np.sum(y == t) / float(x.shape[0])
        return accracy
    
    # 損失関数に対する現在位置での勾配を返す
    def numerical_gradient(self, x, t):
        loss_W = lambda W: self.loss(x, t) # self.lossが返す、cross_entropy_error(y, t)はWにのみ依存する関数
        grads = {}
        grads['W1'] = numerical_gradient(loss_W, self.params['W1'])
        grads['W2'] = numerical_gradient(loss_W, self.params['W2'])
        grads['b1'] = numerical_gradient(loss_W, self.params['b1'])
        grads['b2'] = numerical_gradient(loss_W, self.params['b2'])
        return grads
    
    
# example
net = TwoLayerNet(input_size=784, hidden_size=100, output_size=10)
x = np.random.rand(100, 784) # 100 * 784のダミーデータ
t = np.random.rand(100, 10)    # 100 * 10のダミーデータ
grads = net.numerical_gradient(x, t)

# MNISTでの実用
from dataset.mnist import load_mnist

(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)
train_loss_list = []

# hyper parameter
iters_num = 100 # 1万回繰り返す
train_size = x_train.shape[0] # 60000個の訓練データ. shape[0]はレコード数を返す
batch_size = 100
learning_rate = 0.1

nw = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

# N個のレコードとN個の正解データで1個のloss_W関数をまず作っている. これがself.loss
# L(W) = -∑(l(w)) ... l(w)は1個のレコードと正解データから作られる
# for i in range(iters_num):
#     # ミニバッチの取得
#     batch_mask = np.random.choice(train_size, batch_size)
#     x_batch = x_train[batch_mask]
#     t_batch = t_train[batch_mask]
    
#     # 勾配の計算(損失関数L(W)の生成 => 数値微分)
#     grad = nw.numerical_gradient(x_batch, t_batch)
#     # (δL/δw1, δL/δw2, ...)と、偏微分の結果となる定数がベクトルとして出力される
#     # grad = nw.gradient(x_batch, t_batch) # 後ほど高速な処理方法を導入
#     # print(grad)
    
#     # パラメータの更新
#     for key in ('W1', 'W2', 'b1', 'b2'):
#         nw.params[key] -= learning_rate * grad[key]
        
#     # 学習経過の記録
#     # 損失関数の値 = 誤差の大きさが徐々に小さくなっていくことを確認できる
#     loss = nw.loss(x_batch, t_batch)
#     train_loss_list.append(loss)
    
# print('train', train_loss_list)


'''
## モデルの評価
- 訓練データでモデルを作成したら、それをテストデータで試す
    - 訓練データのx, tは「入力値と正解データ（教師データ）」
    - testデータのx, tは「入力値と、精度確認データ」
- エポック単位で精度を測る
    - エポック = 訓練データを全て使い切ったときの回数に対応する
    - たとえば、1万個の訓練データに対して100個のミニバッチで学習する場合、100回勾配降下法を繰り返したら全ての訓練データを見たことになる
    - よって、この場合、１エポック= 100回となる
    - なので、100階ごとに精度を出す
'''

train_loss_list = []
train_acc_list = []
test_acc_list = []

# 1エポック当たりの繰り返し数
iter_per_epoch = max(train_size / batch_size, 1)

train_size = x_train.shape[0] # 60000
iters_num = 10000 # 1万回繰り返す
batch_size = 100
learning_rate = 0.1

nw = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

for i in range(iters_num):
    # ミニバッチの取得
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]
    
    # 勾配の計算(損失関数L(W)の生成 => 数値微分)
    grad = nw.numerical_gradient(x_batch, t_batch)
    
    # パラメータの更新
    for key in ('W1', 'W2', 'b1', 'b2'):
        nw.params[key] -= learning_rate * grad[key]
        
    # 学習経過の記録
    # 損失関数の値 = 誤差の大きさが徐々に小さくなっていくことを確認できる
    loss = nw.loss(x_batch, t_batch)
    train_loss_list.append(loss)
    
    if i % iter_per_epoch == 0:
        train_acc = nw.accracy(x_train, t_train)
        test_acc = nw.accracy(x_test, t_test)
        train_acc_list.append(train_acc)
        test_acc_list.append(test_acc)
        print("train acc, test acc | " + str(train_acc) + ", " + str(test_acc))
        
        
plot.plot([0,1,2,3,4,5,6,7,8], test_acc_list) # こんな使い方できるの...?

x = np.arange(0, 16, 2) # [0, 2, 4, ... 16]
y = np.array(test_acc_list)[x]
plt.plot(x, y)
plt.show()



train acc, test acc | 0.104416666667, 0.1028
