# 太宰治と宮沢健二の文を２値分類するモデル


## やったこと

青空文庫にある本の作者２人の文を、名詞を特徴量として分類するモデルの作成。


## 太宰治と宮沢健二を選んだ理由

作品の数が多く、二人とも有名だからというのが一番の理由。
宮沢健二は、詩人・童話作家であり、優しそうな言葉がたくさんありそうだと思った。
太宰治は、演技性の高い作家と聞き、「人間失格」などから宮沢とは異なる言葉選びが見れそうだと考えた。


## どうやってやったかの手順

- 形態素解析された作品ファイル.csvの3カラム目の品詞が「名詞」であるもののみを、作品ごとにリスト化して抽出。
- 次にその名詞リスト群から、Gensimで特徴語の辞書を定義した。
- 文のベクトル表現方法として、Bag of wordsを使った。形態素解析の三番目の品詞が「名詞」の単語をどんどんと集めて、それの頻度をカウントし、ベクトルで表現する。
- BoWで各文章に特徴語が何個あるかカウントして特徴ベクトルを作成する。
- 作った特徴ベクトルを使って学習して、分類する。



## データ整形作業

 まず、青空文庫形態素解析データ集から、データとして欲しい作者の作品をダウンロードしていく。。
http://aozora-word.hahasoha.net/person_index.html


### ダウンロードしたCSVファイルを一つのフォルダにまとめる。
### フォルダ内で以下のコマンドを入力し、作品すべての形態素解析された文章をall.csvとしてまとめる。


- cat * > all.csv


### まとめたファイルの欲しい情報である、「123_4567.html, 明日, 名詞」 のタイトル示すファイル名、分かち文、品詞をカットしてCSVファイルを作る

- cut -f 1 -d ',' all.csv > html.csv
- cut -f 4 -d ',' all.csv > noun.csv
- cut -f 5 -d ',' all.csv > shape.csv

### これらのCSVファイルを一つにする。

- paste -d "," html.csv noun.csv shape.csv > segment_file.csv



### 品詞が「名詞」であるものを抽出して、CSVファイルを作成する。


- cat segment_file.csv | cut -f 2 "," segment_file.csv | grep "名詞" > miyazawa_html_noun.csv

### 名詞の分かち文のみのCSVファイルを作成
- cut -f 1,2 -d ',' dazai_html_noun.csv > dazai_noun.csv

## 太宰治の作品ごとの名詞のリストを作成

In [49]:
import csv
import re
from gensim import corpora, matutils
from sklearn.ensemble import RandomForestClassifier
from sklearn.cross_validation import train_test_split
from sklearn.metrics import confusion_matrix

# dazai_wordlistの中に、181個(作品)の名詞のリストを追加。

dazai_wordlist = []
dazai_tmp_list = []
file_name = ""
with open("dazai_noun.csv", "r") as dazai_n:
    reader = csv.reader(dazai_n)
    for dazai_word in reader:
        #print(dazai_word) >> ['1047_20130.html', 'むかし']
        if file_name == "":
            file_name = dazai_word[0]
            #仮のリストに名詞を入れる
            dazai_tmp_list.append(dazai_word[1])
        elif file_name == dazai_word[0]:
            dazai_tmp_list.append(dazai_word[1])
        else:
            file_name = dazai_word[0] 
            dazai_wordlist.append(dazai_tmp_list)
            dazai_tmp_list = [dazai_word[1]]
    
    #print(dazai_wordlist) 180個リストがあるリスト(行列)ができる
    
    
#ファイルに書き出し
"""
with open("dazai_wordsList.csv", "w")as dazai_w:
    writer = csv.writer(dazai_w)
    writer.writerow(dazai_wordlist)
"""

'\nwith open("dazai_wordsList.csv", "w")as dazai_w:\n    writer = csv.writer(dazai_w)\n    writer.writerow(dazai_wordlist)\n'

## 宮沢健二の作品ごとの名詞のリストを作成。

In [50]:
# miyazawa_wordlistの中に、161個(作品)の名詞のリストを追加。

miyazawa_wordlist = []
miyazawa_tmp_list = []
file_name = ""
with open("miyazawa_noun.csv", "r") as miyazawa_n:
    reader = csv.reader(miyazawa_n)
    
    for miyazawa_word in reader:
        if file_name == "":
            file_name = miyazawa_word[0]
            miyazawa_tmp_list.append(miyazawa_word[1])
        elif file_name == miyazawa_word[0]:
            miyazawa_tmp_list.append(miyazawa_word[1])
        else:
            file_name = miyazawa_word[0] 
            miyazawa_wordlist.append(miyazawa_tmp_list)
            miyazawa_tmp_list = [miyazawa_word[1]]
    
"""
with open("miyazawa_wordsList.csv", "w")as dazai_w:
    writer = csv.writer(dazai_w)
    writer.writerow(miyazawa_wordlist)
"""

'\nwith open("miyazawa_wordsList.csv", "w")as dazai_w:\n    writer = csv.writer(dazai_w)\n    writer.writerow(miyazawa_wordlist)\n'

## ２人のすべての作品で使われている名詞の辞書を作るため名詞リストを結合

In [51]:
#print(len(miyazawa_wordlist))
#print(len(dazai_wordlist))

#宮沢健二と太宰治の名詞リストを結合. 
#print(len(word_list)) >> 342
word_list = miyazawa_wordlist + dazai_wordlist


#print(word_list)

## corpora.Dictionary関数で辞書を作成
## BoWで単語の頻度をカウント


In [90]:
#gensimのcorporaライブラリを使って、辞書を作成
#words = word_list
dictionary = corpora.Dictionary(word_list)

print(dictionary.token2id)
dictionary.save('deerwester.dict')

#bag of wordで、単語の頻度をカウント
corpus = [dictionary.doc2bow(word) for word in word_list ]
corpora.MmCorpus.serialize('deerwester.mm', corpus)

dictionary.doc2bow(word_list[0])

{'あき地': 0, 'あすこ': 1, 'あたり': 2, 'あちこち': 3, 'あれ': 4, 'いちばん': 5, 'いつ': 6, 'いや': 7, 'いらっしゃい': 8, 'うず': 9, 'おいで': 10, 'おきなぐさ': 11, 'おまえ': 12, 'お前': 13, 'お天気': 14, 'お待ち': 15, 'かがやき': 16, 'かげ': 17, 'かすか': 18, 'かずら': 19, 'かたくり': 20, 'からだ': 21, 'かれ草': 22, 'か月': 23, 'きみ': 24, 'きらい': 25, 'ぐあい': 26, 'ここ': 27, 'こころもち': 28, 'こと': 29, 'こんど': 30, 'ごらん': 31, 'ごろ': 32, 'さっき': 33, 'さま': 34, 'さん': 35, 'しずか': 36, 'せいせい': 37, 'そう': 38, 'そこ': 39, 'そば': 40, 'それ': 41, 'そん': 42, 'たち': 43, 'たましい': 44, 'たまり': 45, 'だい': 46, 'だめ': 47, 'ちゃん': 48, 'とき': 49, 'とこ': 50, 'ともだち': 51, 'どこ': 52, 'ども': 53, 'なめらか': 54, 'なん': 55, 'ねこやなぎ': 56, 'の': 57, 'はじめ': 58, 'はずれ': 59, 'ばらばら': 60, 'ひかり': 61, 'ひのき': 62, 'ひばり': 63, 'ひびき': 64, 'ひるま': 65, 'びろうど': 66, 'ふもと': 67, 'ぷるぷるふるえて': 68, 'べ': 69, 'べろ': 70, 'ぺん': 71, 'ほたる': 72, 'まっしろ': 73, 'まっすぐ': 74, 'まっ白': 75, 'まっ黒': 76, 'みな': 77, 'みなさん': 78, 'め': 79, 'もうふ': 80, 'もと': 81, 'もの': 82, 'やわらか': 83, 'ゅげ': 84, 'ゅげが': 85, 'ゅげというときは': 86, 'ゅげとはなんのことかと': 87, 'ゅげのたましいが': 88, 'ゅげはすきかい': 89, 'ゆるやか':

[(0, 1),
 (1, 3),
 (2, 1),
 (3, 1),
 (4, 1),
 (5, 1),
 (6, 3),
 (7, 2),
 (8, 1),
 (9, 14),
 (10, 1),
 (11, 4),
 (12, 1),
 (13, 3),
 (14, 1),
 (15, 1),
 (16, 1),
 (17, 2),
 (18, 1),
 (19, 1),
 (20, 1),
 (21, 3),
 (22, 2),
 (23, 2),
 (24, 1),
 (25, 3),
 (26, 2),
 (27, 3),
 (28, 1),
 (29, 3),
 (30, 1),
 (31, 2),
 (32, 1),
 (33, 2),
 (34, 3),
 (35, 4),
 (36, 2),
 (37, 1),
 (38, 3),
 (39, 1),
 (40, 1),
 (41, 7),
 (42, 2),
 (43, 4),
 (44, 1),
 (45, 1),
 (46, 1),
 (47, 1),
 (48, 1),
 (49, 6),
 (50, 2),
 (51, 1),
 (52, 5),
 (53, 1),
 (54, 1),
 (55, 1),
 (56, 1),
 (57, 13),
 (58, 1),
 (59, 1),
 (60, 2),
 (61, 1),
 (62, 1),
 (63, 9),
 (64, 1),
 (65, 1),
 (66, 2),
 (67, 1),
 (68, 1),
 (69, 3),
 (70, 3),
 (71, 2),
 (72, 1),
 (73, 1),
 (74, 1),
 (75, 1),
 (76, 1),
 (77, 1),
 (78, 1),
 (79, 1),
 (80, 1),
 (81, 1),
 (82, 2),
 (83, 2),
 (84, 9),
 (85, 1),
 (86, 1),
 (87, 1),
 (88, 1),
 (89, 1),
 (90, 1),
 (91, 25),
 (92, 2),
 (93, 9),
 (94, 1),
 (95, 1),
 (96, 1),
 (97, 3),
 (98, 4),
 (99, 1),
 (100, 

## まずvec2dense関数を作成する
## その関数内で、dictionary.doc2bow(list)関数を使って、BoWで各物語の文の特徴語をカウント&特徴ベクトルを作成

In [53]:
#dictionary.filter_extremes(no_below=20, no_above=0.3)
# 使われてる文章がno_berow個以下の単語を無視し、
# 使われている文章の割合がno_above以上の場合無視

# 作成したタプルと辞書を特徴ベクトルに変換する。

#print(word_list) > [['うず', 'ゅげ', 'うず', 'ゅげ', '植物', '学',

def vec2dense(vec, num_terms):
    return list(matutils.corpus2dense([vec], num_terms=num_terms).T[0])

data_all = [vec2dense(dictionary.doc2bow(word_list[i]), len(dictionary)) for i in range(len(word_list))]
#print(data_all)

## label_trainを正解ラベルとする。

In [54]:
from sklearn.ensemble import RandomForestClassifier

#太宰治: 1 , 宮沢健二: 0

data_train = data_all

label_train = []

for i in range(len(dazai_wordlist)):
    i = 1
    label_train.append(i)
    
for j in range(len(miyazawa_wordlist)):
    j = 0
    label_train.append(j)

    
print(label_train)


[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

## RandomForestClassifierを使って、モデルを作成。
## パラメータはデフォルト値に設定した。



In [55]:
#data_train = []
#data_train.append(dense)

estimator = RandomForestClassifier()
#estimator = RandomForestClassifier(random_state=777)

#学習
estimator.fit(data_train, label_train)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
            oob_score=False, random_state=None, verbose=0,
            warm_start=False)

## 動作確認 未知データ代わりに訓練データでもう一度予測

In [56]:
label_predict = estimator.predict(data_train)
print(label_predict)

[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 1 1 1 1 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0]


In [57]:
# 六割を学習用、四割を試験用とする
data_train_s, data_test_s, label_train_s, label_test_s = train_test_split(data_train, label_train, test_size=0.4)

# 学習用に切り出したデータのみで学習
estimator.fit(data_train_s, label_train_s)

# 予測
# estimator.scoreで、正解率を出力
print(estimator.score(data_test_s, label_test_s))

0.9124087591240876


## 混同行列の作成

In [79]:
label_predict_s = estimator.predict(data_test_s)
confusion_matrix(label_test_s, label_predict_s, labels=[1, 0])

array([[66,  6],
       [ 6, 59]])

### 真陽性: TP (True-Positive)
### 真陰性: TN (True-Negative)
### 偽陽性: FP (False-Positive)
### 偽陽性: FN (False-Negative)

In [80]:
tp, fn, fp, tn = confusion_matrix(label_test_s, label_predict_s).ravel()
(tp, fn, fp, tn)

(59, 6, 6, 66)

## 正解率(Accuracy)

In [81]:
from sklearn.metrics import accuracy_score
accuracy_score(label_test_s, label_predict_s)

0.9124087591240876

## 精度

In [82]:
from sklearn.metrics import precision_score
precision_score(label_test_s, label_predict_s)

0.9166666666666666

## 検出率

In [83]:
from sklearn.metrics import recall_score
recall_score(label_test_s, label_predict_s)

0.9166666666666666

## F値

In [85]:
from sklearn.metrics import f1_score
f1_score(label_test_s, label_predict_s)

0.9166666666666666

## 試行錯誤の過程

最初にやろうとしていたことは「未知のテキストを入力するとそれが夏目漱石の文章か福沢諭吉の文章か分類するモデルの作成」だったが、変わって「太宰治と宮沢健二の文章の２値分類のモデルの作成」となった。

1~4日目は夏目漱石と福沢諭吉のデータ整形をして、その２人の全物語の全名詞を元に
学習モデルを作って分類しようとしたが、結果的に２つしか学習データが存在しないという自体に陥った。夏目漱石の名詞リスト、福沢諭吉の名詞リストしか用意出来ていなかったから。

word2vecなどを使って、単語を入れたらそれの関連度を返すというのも試してみたりしていた。


4日目の午後に入ったくらいで、道を変えて作品ごとの名詞データを多く集めるため、作品数の多い太宰治と宮沢健二を選択し、再び整形作業に入った。

ドキュメントやqiitaなどの記事を参考にし、gensimのライブラリやsklearnのライブラリなどを使ってモデルを作成した。

テキストの処理やLinuxのコマンド、機械学習の手法について知識が少なかったので上手く行かないことがとてもおおくあった。配列の形がおかしいというエラーが度々起こり、リストの変形がとても大変でした。

夜の時間を使って、なんとか完成させられて良かったです。

## 採用したアルゴリズムや特徴量選定についての説明

### ランダムフォレスト

### ランダムフォレストの学習手順
- ランダムにデータを選択する
- 複数の決定木を作る
- 複数の決定木の結果を多数決して分類結果を決定する

### ランダムフォレストの特徴
- 多数決によるアンサンブル学習のため過学習が起こりにくい
- 特徴量の標準化や正規化の処理が必要ない
- ハイパーパラメータが少ない(サンプリング数と決定木の特徴量数ほど)
- どの特徴量が重要か知ることができる

### 特徴量選定

名詞」を選んだ理由は、使う名詞に作者の特徴が表れると考え、特徴量としてふさわしいと思ったからです。