# Kuzushiji MNIST challenge / くずし字MNISTチャレンジ



> What accuracy can you achieve on the Kuzushiji MNIST testing set?
<br>
くずし字MNISTテストセットでどんな精度を達成できますか？


## KMNIST dataset

The [Kuzushiji MNIST dataset](http://codh.rois.ac.jp/kmnist/index.html.en) (KMNIST dataset) is taken from a larger dataset of _kuzushiji_ characters. Kuzushiji is a cursive style of writing Japanese characters which was in use for over a thousand years in Japan, until the beginning of the 20th century. Nowadays kuzushiji is difficult to read for most Japanese people.

The KMNIST dataset is of the exactly same format as the MNIST dataset (same number of samples and same image sizes), so it can be used with the same code that was used for MNIST.

[くずし字MNISTデータセット](http://codh.rois.ac.jp/kmnist/index.html.en)（KMNISTデータセット）は、_くずし字_の大きなデータセットから派生されたデータセットです。くずし字は、日本語の文字を書く筆記体のスタイルです。日本では20世紀初頭まで1000年以上使用されていました。現在、くずし字はほとんどの日本人にとって読みづらいものです。

KMNISTデータセットはMNISTデータセットとまったく同じ形式（同じ数のサンプルと同じ画像サイズ）であるため、MNISTに使用されたのと同じコードで使用できます。

## About the challenge / チャレンジについて

### How to improve the performance

In principle, you can start with the different classifiers / network structures from the practice. Try changing the classifier parameters (e.g. number of layers, number of channels in the layers, etc.) to find which will give you better accuracy.

原則として、この実習で学んだ様々な分類器・ニューラルネットワーク構造から始めることができます。分類器のパラメーター（たとえば、層の数、層内のニューロンの数など）を変更し、精度がより良くなるパラメータを見つけてください。

#### Advanced tips / 高度なヒント (optional)

A few advanced things you can try with neural networks:
- Add BatchNormalization layers (we did not learn about it, but in general normalization layers can give improved results)
- Data augmentation: apply image transformations on the training dataset to artificially create additional samples, e.g. add small rotations, stretch or shrink in the width or height direction, etc. (check also the ImageDataGenerator class in Keras)
- Try using transfer learning by pretraining on a similar dataset (but see "Don'ts" below)
- Try replacing convolutional layers with "depthwise separable convolutional layers" (SeparableConv2D instead of Conv2D). 
- You may try playing around with a tool to automatically search for good network parameters, such as Hyperas.

ニューラルネットワークの精度を向上させるために何ができるか？
- BatchNormalization層を追加みる（実習では学んでいないが、正規化層を使用するとよりいい結果が得られる場合がある）
- データ拡張：トレーニングデータセットに画像変換を適用して、追加のサンプルを人工的に作成する。少し回転させる、幅または高さの伸縮など（KerasのImageDataGeneratorクラスも役に立つかもしれない）
- 同様のデータセットで事前トレーニングすることで転移学習を使用してみる（ただし、以下の「禁止事項」を参照）
- 畳込み層を「深度ごとに分離可能な畳込み層」に置き換えてみる（Conv2Dの代わりにSeparableConv2Dを使用）。
- 適切なネットワークパラメータを自動的に検索するツールを試してみる（Hyperasなど）。

### Don'ts / 禁止事項
The following is not allowed!
- Do not do pretraining, data augmentation, etc. with other data from the Kuzushiji datasets. Only use the provided training and testing dataset of Kuzushiji data!
- Do not copy other solutions for the Kuzushiji-MNIST problem from the Internet.
- Do not copy the work of other students.

以下は禁止します。
- くずし字データセットの他のデータを使用して、事前トレーニングやデータ拡張などを行わないでください。提供されているくずし字データのトレーニングおよびテストデータセットのみを使用してください。
- くずし字MNIST問題の他の解答法をインターネットからコピーしないでください。
- 他の学生からコードをコピーしないでください。

### How to submit the solution / 結果の提出

When you are done with the challenge save this notebook and also export it as .html file. Use `File -> Download as -> HTML (.html)` from the menu.
<br>
Check that the output from all cells is visible in the .html file.
<br>
Make sure that the whole procedure is contained in the notebook.
<br>
Submit both the .ipynb and .html files on PandA until the prescribed deadline.


チャレンジのタスクが完了したら、ノートブックを保存してください。また、.htmlファイルとしてエクスポートしてください。メニューから`File -> Download as -> HTML (.html)`を使用できます。
<br>
すべてのセルからの出力がhtmlファイルに表示されることを確認してください。
<br>
ノートブックが手順全体を含まれなければなりません。
<br>
締め切りまではPandAで.ipynbファイルと.htmlファイルの両方を提出してください。

### What accuracy to expect / どんな精度が得られるか

If you use the methods learned in the mandatory (not marked as optional) materials during this practice, you should be able to achieve _80%_ accuracy or more. Try to get at least this accuracy.
<br>
Students who have learned the optional materials should aim for an accuracy of _96% or higher_. For that you will probably need to use a convolutional network.

この課題では、オプション以外のノートブックで学んだ内容だけを利用した場合でも、80％程度の精度が得られるはずです。少なくてもこの程度の精度を得るようにしてください。
<br>
オプション課題も学ぶことができた受講生は、96％以上の精度を目指してください。そのためには、おそらく畳込みネットワークを使用する必要があります。

#### Ranking / ランキング

The ranking of the submitted solutions will be published on PandA. 

提出された結果のランキングはPandAで公開されます。

---

## Starting code

#### Imports

In [None]:
# Usual imports
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import tensorflow as tf

The next cell contains imports for the "building blocks" of the neural networks we trained in the previous sessions.
<br>
(You can check the documentation of `keras` for additional functionalities at: https://keras.io/)

次のセルには、今までのセッションで作成したニューラルネットワークの「構成要素」をインポートします。
<br>
（他の`keras`の機能が知りたい場合、https://keras.io/ をチェックしてください。）

In [None]:
# Network building and training
from tensorflow.keras.layers import Input, Conv2D, MaxPooling2D, Flatten, Dense, Dropout
from tensorflow.keras.models import Model
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.callbacks import ModelCheckpoint, EarlyStopping
from tensorflow.keras.utils import to_categorical

#### Load the dataset
Use the following cell to obtain the training set and the testing set:

次のセルのコードを使用してトレーニングセットとテストセットを入手できます。

In [None]:
from mnist_loader import KMNISTContestLoader
kmnist_contest_loader = KMNISTContestLoader()
kX_train, ky_train = kmnist_contest_loader.get_training_set()
kX_test, ky_test = kmnist_contest_loader.get_testing_set()

print("{} training samples".format(kX_train.shape[0]))
print("{} testing samples".format(kX_test.shape[0]))

`kX_train` and `kX_test` contain images. If you need vector inputs (e.g. for trying fully connected neural networks or SVMs), run also the following cell and use `kXvec_train` and `kXvec_test`. You should probably standardize them before use!

`kX_train`と`kX_test`には画像が入っています。ベクトル入力が必要な場合（たとえば、全結合ニューラルネットワークまたはSVMなどを使うため）、次のセルも実行し、その後`kXvec_train`および`kXvec_test`を使用してください。使用する前にその変数を標準化したほうがいいと思われます。

In [None]:
kXvec_train = np.reshape(kX_train,(kX_train.shape[0],kX_train.shape[1]*kX_train.shape[2]))
kXvec_test = np.reshape(kX_test,(kX_test.shape[0],kX_test.shape[1]*kX_test.shape[2]))

---

## Your code

### Create and train your classifier / 分類器を作成してトレーニングする

In [None]:
## YOUR CODE HERE (ADD MORE CELLS IF YOU WANT)
## ここにコード（必要に応じてセルを追加）

### Test your classifier /  / 分類器をテストする

Note: Be sure to print the accuracy obtained for the test data set!
<br>
注：テストデータセットで得られた精度を必ずプリントしてください！

In [None]:
## YOUR CODE HERE (ADD MORE CELLS IF YOU WANT)
## ここにコード（必要に応じてセルを追加）