# Scikit-learnによる手書き数字認識

## Preparation

まず必要なモジュールを読み込みましょう。今回利用するライブラリはscikit-learnです。

* pythonでは、基本的にファイルの頭で外部モジュールのインポートを行います
* pythonを書く際のコード規約については[pep8](http://pep8-ja.readthedocs.org/ja/latest/)をご覧ください

In [1]:
# coding: utf-8

# scikit-learn
## dataset読み込みツール
from sklearn.datasets import fetch_mldata
## random forestを定義したクラス
from sklearn.ensemble import RandomForestClassifier
##評価ツール
from sklearn.metrics import accuracy_score
## 交差検証（クロス・バリデーション）ツール
from sklearn import cross_validation

まず、** fetch_mldata **を使って手書き文字データを読み込みます。読み込んだデータは、** mnist ** という変数に格納します

In [2]:
mnist = fetch_mldata('MNIST original')

mnistは、説明変数 ** mnist["data"] ** とラベル ** mnist["target"] ** から構成されます。  
printして中身を覗いてみましょう。

In [3]:
print mnist["data"].shape
print mnist["target"].shape

(70000, 784)
(70000,)


** shape **で、構造を確認することができます。たとえば** mnist["data"].shape **の(70000, 784)というのは長さ784の配列が70000個格納された二重配列を表しています。ここで、長さ784の配列というのは、縦28×横28の画像一枚のピクセルデータを表しています。つまり、** mnist["data"] **に入っているのは、70000枚の画像のピクセルデータということになります  
また、** mnist["target"].shape **の(70000, )というのは単に長さ70000の配列のことで、これは70000件の各画像ピクセルデータがどの数字なのかを表すラベルになっています。

では、これらのデータを使って機械学習をしてみます。学習器には、ランダムフォレストという決定木を用いたものを使います。  
ランダムフォレストのアルゴリズムは、scikit-learnですでに用意されていて、先に読み込んだ ** RandomForestClassifier **を介して利用することができます。

In [4]:
rfc = RandomForestClassifier(n_estimators=10)

たったこれだけで、rfcという名前でランダムフォレストの学習器が手に入ってしまいました。早速、ランダムフォレストを使って機械学習を行っていきましょう。まず、mnistを訓練用データと評価用データに分ける必要があります。データの分割には、** cross_validation **モジュールの** train_test_split **メソッドが便利です。

In [5]:
train_data, test_data, train_target, test_target = cross_validation.train_test_split(mnist["data"], mnist["target"], train_size=0.4)

** train_data **, ** train_target **がそれぞれ訓練用の説明変数とラベル、** test_data **, ** test_target **がそれぞれ評価用の説明変数とラベルになっています。** train_size **というのは、元のデータのうち何割を訓練用に使うのかを指定する項目です。ここでは、0.4となっているので4割を訓練用に、残りの6割を評価に利用します。  
printして、中身を確認してみましょう。

In [6]:
print train_data.shape, train_target.shape
print test_data.shape, test_target.shape

(28000, 784) (28000,)
(42000, 784) (42000,)


## Fit / Predict

実際に学習を行うために、ランダムフォレストなどのscikit-learnが提供する学習器には ** fit ** メソッドと ** predict ** メソッドが実装されています。

* fit : 訓練データを用いて学習する
* predict : 学習結果を用いて予測する

fitメソッドによって訓練を行った後、predictメソッドで予測した結果を評価するという手順になります。予測結果の評価には、** accuracy_score **メソッドを使います。

In [7]:
trained_rfc = rfc.fit(train_data, train_target) # 訓練用データを用いて、学習器を訓練する
predicted_target = trained_rfc.predict(test_data) # 訓練済みの学習器を用いて、評価用の説明変数からラベルを予測
score = accuracy_score(test_target, predicted_target) # 実際のラベルと予測したラベルを比較して正答率を計算する
print score

0.932761904762


ここで、0.9というスコアは、正答率90%を表しています。かなり高い精度で数字の判別ができていることがわかります

## Cross Validation（交差検証）

訓練に用いたデータの偏りが、学習精度のブレを引き起こすことがあります。手書き数字認識のケースとしては、訓練データがもし1という数字ばかりだったとしたら、学習器は1以外の数字を判別できなくなってしまいます。この訓練データで学習した学習器を、1以外の数字しか入っていない評価用データを使って検証したとしたらどうでしょう。どう考えても、正しいラベルを予測することは不可能です。

そこで、こうしたデータの偏りによる問題を回避するために、クロスバリデーション（交差検証）と呼ばれる方法が存在します。クロスバリデーションでは、訓練用データと評価用データの取り方を変えて、訓練と評価を複数回行います。これら複数回の検証結果を統合することで、データの偏りによる学習精度のブレを考慮した検証を実現します。

scikit-learnでは、** cross_validation **モジュールとして、交差検証用のツールが一揃い提供されています。先ほど使った、訓練用データと評価用データの分割メソッドもその一つです。ここでは、 ** cross_val_score **メソッドを用いて、手軽に学習器の精度を検証する方法をご紹介します。使い方は至って簡単で、学習器(rfc)、説明変数(mnist.data)、ラベル(mnist.target)を順番に引数として渡すだけです。**cv**というパラメータで、交差検証を行う回数を指定することができます。

In [8]:
score = cross_validation.cross_val_score(rfc, mnist.data, mnist.target, cv=3)
print score

[ 0.94082105  0.93995629  0.94449445]


訓練/評価データの取り方を変えて3回行われた検証の全てにおいて、かなり高いスコアが出ていることがわかります。これらの結果から、「ランダムフォレストは手書き数字認識において、高い精度で学習することが可能である」と言えます