### <font color='blue'>評価</font>

学習したモデルがどれくらい信頼に足るものか、そしてどんな目的に利用できるかを決定する。<br>
また、評価は将来のモデルの改良の為にも良い指針となる。<br>

### <font color='blue'>テストセット</font>

テストセットと開発セットにおける、データの類似度について考えなけれないけない。<br>
それらのデータセットが似ていれば似ているほど、その評価結果が他のデータセットにも一般化できる信頼性は低くなる。<br>

例として品詞タグ付けのタスクについて考える。<br>
以下のように、訓練セットとテストセットを作成する。<br>

In [16]:
# ライブラリのimport 
import random
from nltk.corpus import brown
import nltk

In [2]:
# 品詞タグが付与された文章の読み込み
tagged_sents = list(brown.tagged_sents(categories='news'))

In [3]:
# shuffleする
random.shuffle(tagged_sents)

In [4]:
size = int(len(tagged_sents) * 0.1)

In [5]:
# 学習セットとテストセットの作成
train_set, test_set = tagged_sents[size:], tagged_sents[:size]

上記の場合、訓練セットとテストセットが非常に似たものになる。<br>
文章が同じジャンルから取られてきており、他のジャンルに活用できる確証がない。<br>
さらにrandom.shuffle()を用いていることから、テストセットには訓練に利用された文章と同じ文章が含まれる。<br>

上記の解決策として、訓練セットとテストセットが必ず異なる文章から取られるようにする。<br>
下のコードでは、学習セットとテストセットに同じ文章が含まれない。<br>

In [6]:
# ブラウンコーパスのニュースカテゴリから、file idを取り出す
file_ids = brown.fileids(categories='news')

In [7]:
size = int(len(file_ids) * 0.1)

In [19]:
# 学習セット
train_set = brown.tagged_sents(file_ids[size:])

In [20]:
# テストセット
test_set = brown.tagged_sents(file_ids[:size])

より厳密な評価を行う場合に、訓練セットに含まれる文章とより関連性の低い文章からテストセットを作成する。<br>

In [23]:
# 学習データにニュースカテゴリの文章
train_set = brown.tagged_sents(categories='news')

In [24]:
# 訓練データにfictionカテゴリの文章
test_set = brown.tagged_sents(categories='fiction')

### <font color='blue'>正解率</font>

In [None]:
classifier = nltk.NaiveBayesClassifier.train(train_set) 

In [None]:
'Accuracy: {:4.2f}'.format(nltk.classify.accuracy(classifier, test_set))

### <font color='blue'>精度と再現率、混同行列、交差検定、決定木</font>

上記のことについては、Python機械学習プログラミングを参考にすること。<br>