この章の目的は以下のことに答えるためである。<br>
<ol>
<li>言語データを分類するにあたって、それぞれの顕著な特徴を発見する方法</li>
<li>言語処理のタスクを自動的にこなす、言語モデルの構築</li>
<li>そのモデルから言語に関する何を学ぶことができるか</li>
</ol>

上記を見ていく過程で<br>
<ul>
<li>決定木</li>
<li>単純ベイズ分類器</li>
<li>最大エントロピー分類器</li>
</ul>
などの、いくつかの重要な機械学習のテクニックをみることができる。<br>

### <font color='blue'>教師あり学習</font>

分類 : 与えられた入力に対して正しいクラスラベルを選ぶ。<br>
例<br>
<ul>
<li>電子メールがスパムかどうかを決定</li>
<li>新しい記事がどの分野に属するか</li>
<li>bankという単語が土手なのか、銀行なのか、横に傾くことなのか、銀行に何かを預けていることなのかを決定する</li>
</ul>

### <font color='blue'>性別の決定</font>

名前をより正確にモデル化するための分類器を作成する。<br>

分類器の最初のステップは、入力における素性の選択。<br>
次にその素性をどのように符号化するか。<br>

今回の例では名前の最後の文字を見るところから始める。

In [16]:
import nltk

# 抽出
def gender_features(word):
    return {'last_letter' : word[-1]}

In [2]:
# 最後の文字をみる
gender_features('Sherk')

{'last_letter': 'k'}

<font color='red'>ほとんどの分類方法では、素性を真偽値や数値、文字列などの単純なデータ型で符号化する。<font color='red'><br>

名前に関しての素性抽出器を定義した。<br>
次はサンプルデータと対応するクラスラベルを用意。<br>

In [6]:
# 男性、女性の名前を抽出
from nltk.corpus import names
import random
names = ([(name, 'male') for name in names.words('male.txt')] + [(name, 'female') for name in names.words('female.txt')])
random.shuffle(names)

In [8]:
# 名前
names

[('Guinna', 'female'),
 ('Domenic', 'male'),
 ('Sascha', 'male'),
 ('Joannes', 'female'),
 ('Linnie', 'female'),
 ('Jean-Pierre', 'male'),
 ('Cinnamon', 'female'),
 ('Samuele', 'male'),
 ('Bill', 'male'),
 ('Talbot', 'male'),
 ('Christorpher', 'male'),
 ('Carlen', 'female'),
 ('Carrie', 'female'),
 ('Emanuela', 'female'),
 ('Trescha', 'female'),
 ('Susanne', 'female'),
 ('Dolora', 'female'),
 ('Arabele', 'female'),
 ('Jillana', 'female'),
 ('Elbert', 'male'),
 ('Carleigh', 'male'),
 ('Nicolas', 'male'),
 ('Selie', 'female'),
 ('Melvyn', 'male'),
 ('Brier', 'female'),
 ('Stafani', 'female'),
 ('Johnna', 'female'),
 ('Arlinda', 'female'),
 ('Laetitia', 'female'),
 ('Sawyere', 'male'),
 ('Lynnell', 'female'),
 ('Fallon', 'female'),
 ('Nicol', 'female'),
 ('Rosene', 'female'),
 ('Astrix', 'female'),
 ('Jillian', 'female'),
 ('Rhett', 'male'),
 ('Jeannine', 'female'),
 ('Francis', 'female'),
 ('Aldrich', 'male'),
 ('Cybel', 'female'),
 ('Meggi', 'female'),
 ('Helga', 'female'),
 ('Whitney',

素性抽出器を使って名前のデータを処理。<br>
結果として得られる素性集合を訓練セットとテストセットに分ける。<br> 

In [11]:
# 素性抽出器を使って、名前のデータを処理
featuresets = [(gender_features(n), g) for (n, g) in names]

In [13]:
# 素性抽出器から得たデータの列挙
featuresets

[({'last_letter': 'a'}, 'female'),
 ({'last_letter': 'c'}, 'male'),
 ({'last_letter': 'a'}, 'male'),
 ({'last_letter': 's'}, 'female'),
 ({'last_letter': 'e'}, 'female'),
 ({'last_letter': 'e'}, 'male'),
 ({'last_letter': 'n'}, 'female'),
 ({'last_letter': 'e'}, 'male'),
 ({'last_letter': 'l'}, 'male'),
 ({'last_letter': 't'}, 'male'),
 ({'last_letter': 'r'}, 'male'),
 ({'last_letter': 'n'}, 'female'),
 ({'last_letter': 'e'}, 'female'),
 ({'last_letter': 'a'}, 'female'),
 ({'last_letter': 'a'}, 'female'),
 ({'last_letter': 'e'}, 'female'),
 ({'last_letter': 'a'}, 'female'),
 ({'last_letter': 'e'}, 'female'),
 ({'last_letter': 'a'}, 'female'),
 ({'last_letter': 't'}, 'male'),
 ({'last_letter': 'h'}, 'male'),
 ({'last_letter': 's'}, 'male'),
 ({'last_letter': 'e'}, 'female'),
 ({'last_letter': 'n'}, 'male'),
 ({'last_letter': 'r'}, 'female'),
 ({'last_letter': 'i'}, 'female'),
 ({'last_letter': 'a'}, 'female'),
 ({'last_letter': 'a'}, 'female'),
 ({'last_letter': 'a'}, 'female'),
 ({'las

In [22]:
# 学習データとテストデータ
train_set, test_set = featuresets[500:], featuresets[:500]

In [24]:
# 学習データ
train_set

([({'last_letter': 'e'}, 'female'),
  ({'last_letter': 'a'}, 'female'),
  ({'last_letter': 'y'}, 'female'),
  ({'last_letter': 'y'}, 'male'),
  ({'last_letter': 'e'}, 'female'),
  ({'last_letter': 'y'}, 'female'),
  ({'last_letter': 'a'}, 'female'),
  ({'last_letter': 'e'}, 'female'),
  ({'last_letter': 'a'}, 'female'),
  ({'last_letter': 'e'}, 'female'),
  ({'last_letter': 'e'}, 'female'),
  ({'last_letter': 'y'}, 'female'),
  ({'last_letter': 'a'}, 'female'),
  ({'last_letter': 'y'}, 'male'),
  ({'last_letter': 'e'}, 'female'),
  ({'last_letter': 'e'}, 'male'),
  ({'last_letter': 's'}, 'male'),
  ({'last_letter': 'r'}, 'male'),
  ({'last_letter': 'i'}, 'female'),
  ({'last_letter': 'd'}, 'male'),
  ({'last_letter': 'y'}, 'female'),
  ({'last_letter': 'a'}, 'female'),
  ({'last_letter': 'e'}, 'female'),
  ({'last_letter': 'i'}, 'female'),
  ({'last_letter': 'e'}, 'female'),
  ({'last_letter': 'd'}, 'female'),
  ({'last_letter': 'a'}, 'female'),
  ({'last_letter': 'z'}, 'male'),
  ({'l

In [25]:
# テストデータ
test_set

[({'last_letter': 'a'}, 'female'),
 ({'last_letter': 'c'}, 'male'),
 ({'last_letter': 'a'}, 'male'),
 ({'last_letter': 's'}, 'female'),
 ({'last_letter': 'e'}, 'female'),
 ({'last_letter': 'e'}, 'male'),
 ({'last_letter': 'n'}, 'female'),
 ({'last_letter': 'e'}, 'male'),
 ({'last_letter': 'l'}, 'male'),
 ({'last_letter': 't'}, 'male'),
 ({'last_letter': 'r'}, 'male'),
 ({'last_letter': 'n'}, 'female'),
 ({'last_letter': 'e'}, 'female'),
 ({'last_letter': 'a'}, 'female'),
 ({'last_letter': 'a'}, 'female'),
 ({'last_letter': 'e'}, 'female'),
 ({'last_letter': 'a'}, 'female'),
 ({'last_letter': 'e'}, 'female'),
 ({'last_letter': 'a'}, 'female'),
 ({'last_letter': 't'}, 'male'),
 ({'last_letter': 'h'}, 'male'),
 ({'last_letter': 's'}, 'male'),
 ({'last_letter': 'e'}, 'female'),
 ({'last_letter': 'n'}, 'male'),
 ({'last_letter': 'r'}, 'female'),
 ({'last_letter': 'i'}, 'female'),
 ({'last_letter': 'a'}, 'female'),
 ({'last_letter': 'a'}, 'female'),
 ({'last_letter': 'a'}, 'female'),
 ({'las

In [19]:
# 分類器の作成
classifier = nltk.NaiveBayesClassifier.train(train_set)

以下、訓練データに出てこない名前で、分類器を試す。

In [20]:
# 名前Neoの分類
classifier.classify(gender_features('Neo'))

'male'

In [21]:
# 名前Trinityの分類
classifier.classify(gender_features('Trinity'))

'female'

テストデータについて

In [26]:
print(nltk.classify.accuracy(classifier, test_set))

0.73


最後に、どの素性が名前から性別を区別するのにもっとも効果的か<br>

In [29]:
# もっとも効果的なものを10個抜き出す
classifier.show_most_informative_features(10)

Most Informative Features
             last_letter = 'k'              male : female =     77.0 : 1.0
             last_letter = 'a'            female : male   =     36.8 : 1.0
             last_letter = 'v'              male : female =     17.7 : 1.0
             last_letter = 'f'              male : female =     16.1 : 1.0
             last_letter = 'p'              male : female =     12.0 : 1.0
             last_letter = 'd'              male : female =      9.4 : 1.0
             last_letter = 'm'              male : female =      8.6 : 1.0
             last_letter = 'o'              male : female =      8.6 : 1.0
             last_letter = 'r'              male : female =      7.2 : 1.0
             last_letter = 'w'              male : female =      6.3 : 1.0


上記から、'k'で終わる名前は女性よりも男性の方が77倍多い。<br>
この比率は尤度比と呼ばれる。<br>

大きなコーパスを使って作業をしていると、大量にメモリを消費する。<br>
対処法としてnltkの以下のものを用いる。<br>

In [31]:
# 大きなコーパスを用いる時の対処法
from nltk.classify import apply_features
train_set = apply_features(gender_features, names[500:])
test_set = apply_features(gender_features, names[:500])

### <font color='blue'>正しい素性の選択</font>

機械学習にかける際に、どのようなデータを使うか。<br>
つまり、最初にどのような素性選択を行うかということはとても重要なことになる。<br>

一般的に考えられる素性選択の全ての方法を試してみて、どの素性選択が一番役にたつかを考える。<br>

最初の素性集合を選んだ後に、その素性集合を洗練するための生産的な手法は、エラー分析という。<br>
まずはモデルを構築するための開発セット(Development Set)を選択。<br>
この開発セットは訓練セットと検証セットにさらに分割される。<br>

In [32]:
# 
train_names = names[1500:]
# 
devtest_names = names[500:1500]
# 
test_names = names[:500]

訓練セットはモデルの訓練。<br>
検証セットはエラー分析のため。<br>