# Number Recognizer

今回は、ブラウザ上に書いた手書きの数字を認識させます。具体的には、canvasに書かれた数字が0～9のどれであるかを当てさせます。  
その予測を行うためのモデルを、以下のステップに沿って作成していきます。


* [データロード](#Load-the-Data)
* [モデル構築](#Create-the-Model)
* [学習](#Training-the-Model)
* [評価](#Evaluate-the-Model)
* [保存](#Store-the-Model)


In [48]:
# グラフが文章中に表示されるようにするおまじない
%matplotlib inline
import numpy as np

In [49]:
mydata = np.loadtxt("C:/git_number/number_recognizer/data_text.txt")
mytarget = np.loadtxt("C:/git_number/number_recognizer/new_number.txt")

In [50]:
mydata.shape

(864, 64)

In [51]:
mytarget.shape

(864,)

## Load the Data

scikit-learnには、最初から手書きの数字を認識するための学習データ(手書き数字の画像データと、その画像の数字が0～9の何れであるかという答えのセット)が搭載されているため、それを利用します。

## Create the Model

今回扱うのは画像の分類問題になります。そこで、シンプルな線形分類機であるSGDClassifierを利用します。

In [76]:
def make_model():
    from sklearn.linear_model import SGDClassifier    
    clf = SGDClassifier(alpha=0.0022, fit_intercept=True, n_iter=200)
    return clf
    
classifier = make_model()

## Training the Model

データとモデルがそろったため、学習させてみます。

In [77]:
classifier.fit(mydata, mytarget)

SGDClassifier(alpha=0.0022, average=False, class_weight=None, epsilon=0.1,
       eta0=0.0, fit_intercept=True, l1_ratio=0.15,
       learning_rate='optimal', loss='hinge', n_iter=200, n_jobs=1,
       penalty='l2', power_t=0.5, random_state=None, shuffle=True,
       verbose=0, warm_start=False)

## Evaluate the Model

学習させたモデルの精度を計測してみます。`predict`で予測させることができるので、これで予測させた値と実際の答え(`digits.target`)を比べてみます。

In [78]:
def calculate_accuracy(model, dataset):
    from sklearn import metrics

    predicted = model.predict(mydata)
    score = metrics.accuracy_score(mytarget, predicted)
    return score

print(calculate_accuracy(classifier, digits))

0.564814814815


## Store the Model

最後に、学習させたモデルを保存します。アプリケーション側で、その結果を確認してみてください。

In [79]:
from sklearn.externals import joblib

joblib.dump(classifier, "./machine3.pkl") 

['./machine3.pkl',
 './machine3.pkl_01.npy',
 './machine3.pkl_02.npy',
 './machine3.pkl_03.npy',
 './machine3.pkl_04.npy']