### <font color='blue'>文章分類</font>

まずは、映画のレビューであるMovie　Reviews Corpusを用いる。<br>
このコーパスでは、それぞれのレビューが肯定的か否定的かに分類されている。<br>

In [1]:
# 文章の読み込み
from nltk.corpus import movie_reviews
documents = [(list(movie_reviews.words(fileid)), category)
                        for category in movie_reviews.categories()
                        for fileid in movie_reviews.fileids(category)]

In [3]:
# 読み込んだ文章の種類をみる
type(documents)

list

In [15]:
# 肯定的なレビューが出てくるのを待つ
for i in range(0, len(documents)):
    
    if documents[i][1] == 'pos':
        print(i, documents[i][1])
        break

1000 pos


In [20]:
# データをシャッフル
import nltk
import random
random.shuffle(documents)

In [21]:
# 肯定的なレビューが出てくるのを待つ
for i in range(0, len(documents)):
    
    if documents[i][1] == 'pos':
        print(i, documents[i][1])
        break

0 pos


続いて、文章用の素性抽出器を定義する。<br>
結果、文章のどのような側面に注意を払えば良いかわかる。<br>
以下では、文章中に存在する2,000個の単語を抜き出す。<br>
そして、それぞれの頻出単語が文章中に存在するかを確かめるだけの単純な素性抽出器を構築している。<br>

In [23]:
# 全ての単語を小文字化する
all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())
word_features = list(all_words)[:2000]

def document_features(document):
    # 重複する単語を１つにまとめる
    document_words = set(document)
    # 特徴量を保存する辞書
    features = {}
    # 単語が含まれているかどうか
    for word in word_features:
        features['contains(%s) ' % word] = (word in document_words)
    return features

In [25]:
# 単語が含まれているかどうか
print(document_features(movie_reviews.words('pos/cv957_8737.txt')))

{'contains(plot) ': True, 'contains(:) ': True, 'contains(two) ': True, 'contains(teen) ': False, 'contains(couples) ': False, 'contains(go) ': False, 'contains(to) ': True, 'contains(a) ': True, 'contains(church) ': False, 'contains(party) ': False, 'contains(,) ': True, 'contains(drink) ': False, 'contains(and) ': True, 'contains(then) ': True, 'contains(drive) ': False, 'contains(.) ': True, 'contains(they) ': True, 'contains(get) ': True, 'contains(into) ': True, 'contains(an) ': True, 'contains(accident) ': False, 'contains(one) ': True, 'contains(of) ': True, 'contains(the) ': True, 'contains(guys) ': False, 'contains(dies) ': False, 'contains(but) ': True, 'contains(his) ': True, 'contains(girlfriend) ': True, 'contains(continues) ': False, 'contains(see) ': False, 'contains(him) ': True, 'contains(in) ': True, 'contains(her) ': False, 'contains(life) ': False, 'contains(has) ': True, 'contains(nightmares) ': False, 'contains(what) ': True, "contains(') ": True, 'contains(s) ': 

上記から、全て文章中から頻出単語2000個を抜き出し、その単語が含まれているかという素性抽出器を作成した。

### <font color='blue'>文章分類のための分類器の訓練とテスト</font>

In [32]:
featuresets = [(document_features(d), c) for (d, c) in documents]

In [37]:
featuresets[0]

({'contains(plot) ': False,
  'contains(:) ': True,
  'contains(two) ': False,
  'contains(teen) ': True,
  'contains(couples) ': False,
  'contains(go) ': False,
  'contains(to) ': True,
  'contains(a) ': True,
  'contains(church) ': False,
  'contains(party) ': False,
  'contains(,) ': True,
  'contains(drink) ': False,
  'contains(and) ': True,
  'contains(then) ': True,
  'contains(drive) ': False,
  'contains(.) ': True,
  'contains(they) ': False,
  'contains(get) ': True,
  'contains(into) ': True,
  'contains(an) ': True,
  'contains(accident) ': False,
  'contains(one) ': True,
  'contains(of) ': True,
  'contains(the) ': True,
  'contains(guys) ': False,
  'contains(dies) ': False,
  'contains(but) ': True,
  'contains(his) ': True,
  'contains(girlfriend) ': False,
  'contains(continues) ': False,
  'contains(see) ': False,
  'contains(him) ': False,
  'contains(in) ': True,
  'contains(her) ': False,
  'contains(life) ': False,
  'contains(has) ': False,
  'contains(nightma

In [38]:
# 頻出単語と評価
len(featuresets[0])

2

In [39]:
# 頻出単語2000個に対して出現したか否か
len(featuresets[0][0])

2000

In [46]:
# 学習セットとテストセットに分ける
train_set, test_set = featuresets[100:], featuresets[:100]

In [75]:
# 学習セット、テストセット
len(train_set), len(test_set)

(90499, 10055)

In [51]:
# nltkのNaiveBayesを用いて学習器の構築
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [52]:
# nltkのNaiveBayesを用いてテスト
print(nltk.classify.accuracy(classifier, test_set))

0.87


In [54]:
# もっとも重要な言葉を抽出
classifier.show_most_informative_features(5)

Most Informative Features
contains(unimaginative)  = True              neg : pos    =      7.7 : 1.0
         contains(mena)  = True              neg : pos    =      7.1 : 1.0
       contains(suvari)  = True              neg : pos    =      7.1 : 1.0
    contains(atrocious)  = True              neg : pos    =      6.7 : 1.0
   contains(schumacher)  = True              neg : pos    =      6.7 : 1.0


### <font color='blue'>品詞のタグつけ</font>

接尾辞について<br>
https://ja.wikipedia.org/wiki/%E6%8E%A5%E5%B0%BE%E8%BE%9E

品詞を分類するタガーを人手で作成するのではなく、機械学習を用いて作成する。<br>

In [56]:
# ブラウンコーパスの読み込み
from nltk.corpus import brown

In [59]:
suffix_fdist = nltk.FreqDist()

In [61]:
# 各接尾辞のカウントをしている
for word in brown.words():
    word = word.lower()
    suffix_fdist[word[-1:]] += 1
    suffix_fdist[word[-2:]] += 1
    suffix_fdist[word[-3:]] += 1

In [67]:
# 最もカウントされた接尾辞100個の取り出し
common_suffixes = [suffix for (suffix, count) in suffix_fdist.most_common(100)]

In [68]:
# 表示
print(common_suffixes)

['e', ',', '.', 's', 'd', 't', 'he', 'n', 'a', 'of', 'the', 'y', 'r', 'to', 'in', 'f', 'o', 'ed', 'nd', 'is', 'on', 'l', 'g', 'and', 'ng', 'er', 'as', 'ing', 'h', 'at', 'es', 'or', 're', 'it', '``', 'an', "''", 'm', ';', 'i', 'ly', 'ion', 'en', 'al', '?', 'nt', 'be', 'hat', 'st', 'his', 'th', 'll', 'le', 'ce', 'by', 'ts', 'me', 've', "'", 'se', 'ut', 'was', 'for', 'ent', 'ch', 'k', 'w', 'ld', '`', 'rs', 'ted', 'ere', 'her', 'ne', 'ns', 'ith', 'ad', 'ry', ')', '(', 'te', '--', 'ay', 'ty', 'ot', 'p', 'nce', "'s", 'ter', 'om', 'ss', ':', 'we', 'are', 'c', 'ers', 'uld', 'had', 'so', 'ey']


In [66]:
# 素性抽出器
# 特徴量を返す
def pos_features(word):
    # 特徴量を保存する
    features = {}
    for suffix in common_suffixes:
        # 
        features['endswith({})'.format(suffix)] = word.lower().endswith(suffix)
    return features

素性抽出器が定義できたので、新しい決定木分類器を訓練する。<br>

In [69]:
# ブラウンコーパスからnewsカテゴリを抽出
tagged_words = brown.tagged_words(categories='news')

In [70]:
# 特徴量の選択
featuresets = [(pos_features(n), g) for (n,g) in tagged_words]

In [72]:
# 訓練サイズとテストサイズの決定
size = int(len(featuresets) * 0.1)

In [73]:
# 訓練データとテストデータ
train_set, test_set = featuresets[size:], featuresets[:size]

In [74]:
# 決定木の学習
classifier = nltk.DecisionTreeClassifier.train(train_set)

In [76]:
# テストデータに対する精度を算出
nltk.classify.accuracy(classifier, test_set)

0.6270512182993535

In [77]:
# catsに対する品詞を付与
classifier.classify(pos_features('cats'))

'NNS'