# 第4回講義 宿題

## 課題. MNISTデータセットを多層パーセプトロン(MLP)で学習せよ

### 注意
- homework関数を完成させて提出してください
    - 訓練データはtrain_X, train_y, テストデータはtest_Xで与えられます
    - train_Xとtrain_yをtrain_X, train_yとvalid_X, valid_yに分けるなどしてモデルを学習させてください
    - test_Xに対して予想ラベルpred_yを作り, homework関数の戻り値としてください\
- pred_yのtest_yに対する精度(F値)で評価します
- 全体の実行時間がiLect上で60分を超えないようにしてください
- homework関数の外には何も書かないでください (必要なものは全てhomework関数に入れてください)
- 解答提出時には Answer Cell の内容のみを提出してください

- MLPの実装にTensorflowなどのライブラリを使わないでください

### ヒント
- 出力y(softmaxの?)はone-of-k表現 * ある要素のみ1，それ以外の要素が0のベクトル． 
- 最終層の活性化関数はソフトマックス関数, 誤差関数は多クラス交差エントロピー
- 最終層のデルタは教科書参照

次のセルのhomework関数を完成させて提出してください

# Answer Cell

In [24]:
# 他クラス分類であることに注意．誤差関数と出力が変わる．
# k近傍方は97~8%．これは98%くらい出る．
# tensorflowは使用禁止．
# メーリングリストで注意事項流す．

In [1]:
def homework(train_X, train_y, test_X): 

    from collections import OrderedDict
    
    # Softmax   
    def softmax(x):
        if x.ndim == 2: # バッチ処理が行われている場合．
            x = x.T
            x = x - np.max(x, axis=0)
            y = np.exp(x) / np.sum(np.exp(x), axis=0)            
            return y.T 
        else:
            x = x - np.max(x) # オーバーフロー対策        
            return np.exp(x) / np.sum(np.exp(x))

    #　交差エントロピー  
    def cross_entropy_error(y, t):
        if y.ndim == 1:
            t = t.reshape(1, t.size)
            y = y.reshape(1, y.size)
        batch_size = y.shape[0]      
        return -np.sum(np.log(y[np.arange(batch_size), t])) / batch_size

    # ReLUレイヤ
    class Relu:
        def __init__(self):
            self.mask = None

        def forward(self, x):
            self.mask = (x <= 0)
            out = x.copy()
            out[self.mask] = 0
            return out

        def backward(self, dout):
            dout[self.mask] = 0
            dx = dout
            return dx

    # Affineレイヤ     
    class Affine:
        def __init__(self, W, b):
            self.W =W
            self.b = b

            self.x = None
            self.original_x_shape = None
            # 重み・バイアスパラメータの微分
            self.dW = None
            self.db = None

        def forward(self, x):
            self.x = x
            out = np.dot(self.x, self.W) + self.b
            return out

        def backward(self, dout):
            dx = np.dot(dout, self.W.T)
            self.dW = np.dot(self.x.T, dout)
            self.db = np.sum(dout, axis=0)
            return dx

    # Softmaxレイヤ     
    class SoftmaxWithLoss:
        def __init__(self):
            self.loss = None
            self.y = None # softmaxの出力
            self.t = None # 教師データ

        def forward(self, x, t):
            self.t = t
            self.y = softmax(x)
            self.loss = cross_entropy_error(self.y, self.t)
            return self.loss

        def backward(self, dout=1):
            batch_size = self.t.shape[0]
            dx = self.y.copy()
            dx[np.arange(batch_size), self.t] -= 1
            dx = dx / batch_size
            return dx
    
    # ニューラルネットワーク     
    class TwoLayerNet:

        def __init__(self, input_size, hidden_size, output_size, weight_init_std = 0.01):
            # 重みの初期化
            self.params = {}
            self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size)
            self.params['b1'] = np.zeros(hidden_size)
            self.params['W2'] = weight_init_std * np.random.randn(hidden_size, output_size)
            self.params['b2'] = np.zeros(output_size)

            # レイヤの生成
            self.layers = OrderedDict()
            self.layers['Affine1'] = Affine(self.params['W1'], self.params['b1'])
            self.layers['Relu1'] = Relu()
            self.layers['Affine2'] = Affine(self.params['W2'], self.params['b2'])

            self.lastLayer = SoftmaxWithLoss()

        def predict(self, x):
            for layer in self.layers.values():
                x = layer.forward(x)
            return x

        def loss(self, x, t): 
            y = self.predict(x)
            return self.lastLayer.forward(y, t)

        def gradient(self, x, t): #
            # forward
            self.loss(x, t)

            # backward
            dout = 1
            dout = self.lastLayer.backward(dout)

            layers = list(self.layers.values())
            layers.reverse()
            for layer in layers:
                dout = layer.backward(dout)

            grads = {}
            grads['W1'], grads['b1'] = self.layers['Affine1'].dW, self.layers['Affine1'].db
            grads['W2'], grads['b2'] = self.layers['Affine2'].dW, self.layers['Affine2'].db
            return grads

    network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

    iters_num = 10000
    train_size = train_X.shape[0]
    batch_size = 100
    learning_rate = 0.1 # 改善の余地あり．

    iter_per_epoch = max(train_size / batch_size, 1) # 何やってるの？

    for i in range(iters_num):
        batch_mask = np.random.choice(train_size, batch_size)
        x_batch = train_X[batch_mask]
        t_batch = train_y[batch_mask]

        # 勾配
        grad = network.gradient(x_batch, t_batch)

        # 更新
        for key in ('W1', 'b1', 'W2', 'b2'):
            network.params[key] -= learning_rate * grad[key]

    # 出力     
    pred_y = network.predict(test_X) # これはone of k 表現
    pred_y = np.argmax(pred_y, axis = 1)
    
    return pred_y

- 以下のvalidate_homework関数を用いてエラーが起きないか動作確認をして下さい。
- 提出に際して、score_homework関数で60分で実行が終わることを確認して下さい。
- 評価は以下のscore_homework関数で行われますが、random_stateの値は変更されます。

# Checker Cell (for student)

In [2]:
from sklearn.utils import shuffle
from sklearn.metrics import f1_score
from sklearn.datasets import fetch_mldata
from sklearn.model_selection import train_test_split

import numpy as np

def load_mnist():
    mnist = fetch_mldata('MNIST original')
    mnist_X, mnist_y = shuffle(mnist.data.astype('float32'),
                               mnist.target.astype('int32'), random_state=42)

    mnist_X = mnist_X / 255.0

    return train_test_split(mnist_X, mnist_y,
                test_size=0.2,
                random_state=42)

def validate_homework():
    train_X, test_X, train_y, test_y = load_mnist()

    # validate for small dataset
    train_X_mini = train_X[:100]
    train_y_mini = train_y[:100]
    test_X_mini = test_X[:100]
    test_y_mini = test_y[:100]

    pred_y = homework(train_X_mini, train_y_mini, test_X_mini)
    print(f1_score(test_y_mini, pred_y, average='macro'))

def score_homework():
    train_X, test_X, train_y, test_y = load_mnist()
    pred_y = homework(train_X, train_y, test_X)
    print(f1_score(test_y, pred_y, average='macro'))

In [3]:
validate_homework()
score_homework()

0.646597856534
