# 5.2 自然言語の処理

## 5.2.1 必要なライブラリのインストール

#### Pythonで自然言語処理を実行するライブラリ
* [MeCab](http://taku910.github.io/mecab/)
  * 定番の形態素解析エンジン
* [Janome](http://mocobeta.github.io/janome/)
  * Pythonで書かれた辞書を内包する形態素解析エンジン
  * 依存するライブラリが無いため、簡単にインストールできる
* [gensim](https://radimrehurek.com/gensim/)
  * 文書のトピックモデル（文書が扱うトピックを推定するモデル）を実行するライブラリ
  * Word2Decなどの手法も提供
    * Word2Dec
      * 深層学習を用いて単語を分散表現と呼ばれるベクトルで表現
      * ベクトル表現することにより、単語の意味の近さを計算したり、関係性の足し算や引き算が可能になる
* [NLTK](https://www.nltk.org/)
  * 自然言語処理全般をサポートするライブラリ
  * 英語で形態素解析処理を行う場合に使用される

## 5.2.2 形態素解析

### mecabコマンド
1. ターミナル（windowsの場合はコマンドプロンプト）から`mecab`コマンドを実行する
1. 適当な文を入力し、mecabで形態素解析を実行する

### mecab-pythonライブラリ
* `mecab-python`ライブラリ（windowsの場合は`mecab-python-windows`ライブラリ）を用いてPythonで形態素解析を実行する


1. Taggerクラスをインスタンス化する
1. parseメソッドに文を文字列で指定する
1. ChaSenを用いた形態素解析の出力形式で実行される

#### MeCab.Taggerクラス
* 形態素解析を行うためのクラス
* 第1引数：文字列を渡し、出力形式を指定する

#### MeCab.Tagger.parseメソッド
* 形態素解析を実行し、Taggerクラスのインスタンス作成時に指定した出力形式で結果を取得する
* 第1引数：文字列を渡し、形態素解析を行いたい文章を指定する

MeCab.Taggerクラスのインスタンスを作成し、MeCabを用いた形態素解析を実行する

In [1]:
import MeCab
text = '吾輩は猫である'
# 形態素解析の結果をChasenの出力形式で表示
t = MeCab.Tagger('-Ochasen')
result = t.parse(text)
print(result)

吾輩	ワガハイ	吾輩	名詞-代名詞-一般		
は	ハ	は	助詞-係助詞		
猫	ネコ	猫	名詞-一般		
で	デ	だ	助動詞	特殊・ダ	連用形
ある	アル	ある	助動詞	五段・ラ行アル	基本形
EOS



形態素解析の実行結果を出力する

In [2]:
result

'吾輩\tワガハイ\t吾輩\t名詞-代名詞-一般\t\t\nは\tハ\tは\t助詞-係助詞\t\t\n猫\tネコ\t猫\t名詞-一般\t\t\nで\tデ\tだ\t助動詞\t特殊・ダ\t連用形\nある\tアル\tある\t助動詞\t五段・ラ行アル\t基本形\nEOS\n'

#### mecab-pythonライブラリでの形態素解析実行結果
1. `\n`：行の区切り
1. `\t`：要素の区切り


したがって、以下の通り分割する
1. `\n`で行ごとに分割
1. `\t`で要素ごとに分割

形態素解析の実行結果を分割する

In [3]:
# 形態素解析の結果を、改行を区切りとして行ごとに分割
results = result.splitlines()
# EOSの行は対象外とする
for res in results[:-1]:
    # タブを区切りとして各要素に分割
    res_split = res.split('\t')
    print(res_split)

['吾輩', 'ワガハイ', '吾輩', '名詞-代名詞-一般', '', '']
['は', 'ハ', 'は', '助詞-係助詞', '', '']
['猫', 'ネコ', '猫', '名詞-一般', '', '']
['で', 'デ', 'だ', '助動詞', '特殊・ダ', '連用形']
['ある', 'アル', 'ある', '助動詞', '五段・ラ行アル', '基本形']


## 5.2.3 Bag of Words（BoW）

#### Bag of Wordsとは
* 各文書の形態素解析をの結果をもとに、単語ごとに出現回数をカウントしたもの

以下の3つの文書に対してMeCabを用いて形態素解析を行う
* 子供が走る
* 車が走る
* 子供の脇を車が走る

In [4]:
import MeCab

documents = ['子供が走る', '車が走る', '子供の脇を車が走る']

words_list = []

# 形態素解析の結果をChasenの出力形式で表示
t = MeCab.Tagger('-Ochasen')

# 各文に形態素解析を実行
for s in documents:
    s_parsed = t.parse(s)
    words_s = []
    # 各文の形態素をリストにまとめる
    for line in s_parsed.splitlines()[:-1]:
        words_s.append(line.split('\t')[0])
    words_list.append(words_s)
    
print(words_list)

[['子供', 'が', '走る'], ['車', 'が', '走る'], ['子供', 'の', '脇', 'を', '車', 'が', '走る']]


形態素解析の結果から、単語と1対1で対応する整数を保持する辞書を作成

In [5]:
# 生成する辞書
word2int = {}
i = 0

# 各文書の単語のリストに対して処理を反復
for words in words_list:
    # 文書内の各単語に対して処理を反復
    for word in words:
        # 単語が辞書に含まれていれば追加して対応する整数を割り当てる
        if word not in word2int:
            word2int[word] = i
            i += 1
            
print(word2int)

{'子供': 0, 'が': 1, '走る': 2, '車': 3, 'の': 4, '脇': 5, 'を': 6}


辞書からBoWを計算し、文書×単語の行列を生成

In [6]:
import numpy as np
# BoWを計算し、文書×単語の行列を生成
bow = np.zeros((len(words_list), len(word2int)), dtype = np.int)
# 各行の単語を抽出し単語の出現回数をカウント
for i, words in enumerate(words_list):
    for word in words:
        bow[i, word2int[word]] += 1

print(bow)

[[1 1 1 0 0 0 0]
 [0 1 1 1 0 0 0]
 [1 1 1 1 1 1 1]]


生成した行列をpandasのDataFrameに変換

In [7]:
import pandas as pd
pd.DataFrame(bow, columns = list(word2int))

Unnamed: 0,子供,が,走る,車,の,脇,を
0,1,1,1,0,0,0,0
1,0,1,1,1,0,0,0
2,1,1,1,1,1,1,1


### gensimライブラリを用いた計算

#### gensim.corpora.Dictionaryクラス
* gensimライブラリを用いてBag of Wordsを計算するための辞書を作成する
* 第1引数：ワードリスト

gensimライブラリを用いた辞書の作成

In [8]:
from gensim import corpora
# 辞書を作成する
word2int_gs = corpora.Dictionary(words_list)
print(word2int_gs)

Dictionary(7 unique tokens: ['が', '子供', '走る', '車', 'の']...)


#### gensim.corpora.Dictionary.token2id属性
* 作成した辞書の単語と整数の対応辞書を取得する

In [9]:
# 単語と整数の対応
print(word2int_gs.token2id)

{'が': 0, '子供': 1, '走る': 2, '車': 3, 'の': 4, 'を': 5, '脇': 6}


#### gensim.corpora.Dictionary.doc2bowメソッド
* 作成した辞書を用いて、Bag of Wordsを取得する
* 第1引数：解析対象の文章


**取得したBag od Wordsについて**
* リストの1要素：辞書内の単語に振られた番号と出現回数のタプル
* タプルの要素
  1. 辞書内の単語に振られた番号
  1. 出現回数

作成した辞書を用いて、Bag of Wordsを取得する

In [10]:
# 1番めの文書に含まれる単語の出現回数をカウント
print(word2int_gs.doc2bow(words_list[0]))

[(0, 1), (1, 1), (2, 1)]


#### gensim.matutils.corpus2dense関数
* 辞書からの処理を繰り返して適用し、文書×単語の行列を生成する
* 第1引数：繰り返す処理のリスト
* num_terms引数
  * 数値を渡し、単語数を指定する

corpus2dense関数を用いて、複数の文書のBoWを計算した行列を生成する

In [11]:
import numpy as np
from gensim import matutils
# Bag of Wordsを計算し、文書×単語の行列を生成
bow_gs = np.array(
    [matutils.corpus2dense(
        [word2int_gs.doc2bow(words)],
        num_terms = len(word2int)).T[0]
        for words in words_list]
).astype(np.int)

print(bow_gs)

[[1 1 1 0 0 0 0]
 [1 0 1 1 0 0 0]
 [1 1 1 1 1 1 1]]


生成した行列を、pandasのDataFrameに変換する

In [12]:
# pandasのデータフレームに変換
bow_gs_df = pd.DataFrame(bow_gs, columns = list(word2int_gs.values()))

bow_gs_df

Unnamed: 0,が,子供,走る,車,の,を,脇
0,1,1,1,0,0,0,0
1,1,0,1,1,0,0,0
2,1,1,1,1,1,1,1


### scikit-learnを用いた計算

#### sklearn.feature_extraction.text.CountVectorizerクラス
* scikit-learnでBag of Wordsを計算するためのクラス

単語をスペース区切りで並べた文を生成

In [13]:
words_split = np.array([' '.join(words) for words in words_list])

print(words_split)

['子供 が 走る' '車 が 走る' '子供 の 脇 を 車 が 走る']


#### sklearn.feature_extraction.text.CountVectorizer.fit_transformメソッド
* Bag of Wordsを計算した結果を取得する
* 第1引数：解析対象の文（単語ごとにスペース区切りしたもの）

scikit-learnを用いてBoWを計算する

In [14]:
from sklearn.feature_extraction.text import CountVectorizer

# Bag od Wordsを計算
vectorizer = CountVectorizer(token_pattern = u'(?u)\\b\\w+\\b')
bow_vec = vectorizer.fit_transform(words_split)

# Numpy配列に変換
bow_vec.toarray()

array([[1, 0, 0, 1, 0, 1, 0],
       [1, 0, 0, 0, 0, 1, 1],
       [1, 1, 1, 1, 1, 1, 1]], dtype=int64)

#### sklearn.feature_extraction.text.CountVectorizer.get_feature_namesメソッド
* BoWを表す行列の各列が対応する単語の配列を取得する

In [15]:
vectorizer.get_feature_names()

['が', 'の', 'を', '子供', '脇', '走る', '車']

scikit-learnで生成したBoWの行列をpandasのDetaFrameに変換

In [16]:
import pandas as pd
pd.DataFrame(bow_vec.toarray(), columns = vectorizer.get_feature_names())

Unnamed: 0,が,の,を,子供,脇,走る,車
0,1,0,0,1,0,1,0
1,1,0,0,0,0,1,1
2,1,1,1,1,1,1,1


## 5.2.4 TF-IDF
* TF-IDF（Term Frequency-Inverse Document Frequency）
  * すべての文書に出現する単語と、一部の文書にしか出現しない単語を区別するための方法を提供する
  * カウントされた単語の出現回数に重みが付けられる

### 直感的な説明
* TF：Term Frequency
  * ある1つの文書の1つの単語に対して定まる指標
  * 「1つの文書の中に現れる全単語の合計出現回数のうち、1つの単語がどれだけの割合で出現したか」を定量化する指標
* IDF：Inverse Document Frequency
  * 1つの単語に対して定まる指標
  * 「ある単語が出現する文書が文書全体の中でどれくらいの割合を占めていたか」を定量化する指標
  * 実際にはその単語が文書全体でなく、一部のの文書にしか現れなかった度合い
* TF-IDF
  * TFとIDFの掛け算で定義される：$TF-IDF = TF \times IDF$
  * 以下の条件の時、高い値をとる
    * 対象とする単語が1つの文書の中で大量に出現する
    * しかし、その単語は文書全体で頻繁に現れるわけではなく、一部の特定の文書にしか現れない


### 数式による説明
* 文書$d$で単語$t$が出現する回数を$n_d,_t$、単語tが出現する文書数を$df_t$、全体の文書数を$N$、単語数を$T$とした時、<br />TF-IDFは以下の式で表すことができる
  * $TF-IDF_d,_t = TF_d,_t \times IDF_t$
* TFの計算
  * 文書$d$で出現する単語の合計出現回数のうち、単語$t$が出現する割合として定義される
  * $\therefore TF_d,_t = \frac{n_d,_t}{\sum_{t=1}^T n_d,_t}$
* IDFの計算
  * 単語$t$が出現する文書数$df_t$の全体の文書数$N$に対する割合の逆数に対して、対数をとったものとして定義される
  * $\therefore IDF_t = \log\frac{N}{df_t}$

### scikit-learnを用いた計算


#### sklearm.feature_extraction.text.TfidfTransformerクラス
* TFについては以下の数式（各文書の単語の出現回数）として定義されている
  * $TF_d,_t = n_d,_t$
* IDFの計算方法については、複数提供されている
* TF-IDFの計算方法に工夫が行われ、IDFの計算後に正規化が行われる
* use_idfパラメータ
  * True：以下の数式で計算
    * $IDF_t = \log{\frac{N+1}{df_t+1}}$
    * すべての単語で0以外の値となるようにし、ゼロ除算による計算結果の不定、不能を回避する
  * False：以下の数式で計算
    * $IDF_t = \log\frac{N}{df_t}$
* smooth_idfパラメータ
  * True：以下の数式で計算
    * $TF-IDF_{d,t} = TF_d,_t \times (IDF_t + 1)$
    * すべての文に出現する単語（$IDF = 0$となる）も完全には無視しないようにする
  * False：以下の数式で計算
    * $TF-IDF_{d,t} = TF_{d,t} \times IDF_t$
* 正規化
  * デフォルトのL2正規化を行った結果、TF-IDFを正規化したTD-IDF normilizedは以下の式で表現できる
    * $TF-IDF normilized \\= \frac{TF-IDF_{d,t}}{\sqrt{(TF-IDF_{d,1})^2+(TF-TDF_{d,2})^2+...+(TF-IDF_{d,T})^2}} \\= \frac{TF-IDF_{d,t}}{\sqrt{\sum_{j=1}^{T}(TF-IDF_{d,j})^2}}$

### TF-IDFの計算

各文書に出現する単語の頻度を保持するデータを再確認

In [17]:
bow_gs_df

Unnamed: 0,が,子供,走る,車,の,を,脇
0,1,1,1,0,0,0,0
1,1,0,1,1,0,0,0
2,1,1,1,1,1,1,1


TFを計算

In [18]:
# TFとしてBoWを使用
tf = bow_gs
print(tf)

[[1 1 1 0 0 0 0]
 [1 0 1 1 0 0 0]
 [1 1 1 1 1 1 1]]


IDFを計算

In [19]:
# IDFを計算
idf = np.log((bow_gs.shape[0] + 1) / (np.sum(bow_gs, axis = 0, keepdims = 0) + 1))

print(idf)

[0.         0.28768207 0.         0.28768207 0.69314718 0.69314718
 0.69314718]


TF-IDFを計算

In [20]:
# TF-IDFを計算
tf_idf = tf * ( idf + 1 )
tf_idf_normalized = tf_idf / np.sqrt(np.sum(tf_idf ** 2, axis = 1, keepdims = True))

print(tf_idf_normalized)

[[0.52284231 0.67325467 0.52284231 0.         0.         0.
  0.        ]
 [0.52284231 0.         0.52284231 0.67325467 0.         0.
  0.        ]
 [0.26806191 0.34517852 0.26806191 0.34517852 0.45386827 0.45386827
  0.45386827]]


pandasのDataFrameに変換

In [21]:
import pandas as pd
pd.DataFrame(tf_idf_normalized, columns = word2int_gs.values())

Unnamed: 0,が,子供,走る,車,の,を,脇
0,0.522842,0.673255,0.522842,0.0,0.0,0.0,0.0
1,0.522842,0.0,0.522842,0.673255,0.0,0.0,0.0
2,0.268062,0.345179,0.268062,0.345179,0.453868,0.453868,0.453868


### scikit-learnを用いた計算

scikit-learnのfeature_extraction.textモジュールのTfidfTransformerクラスを用いてTF-IDFを計算する

In [22]:
from sklearn.feature_extraction.text import TfidfTransformer

# TfidfTramsformerクラスをインスタンス化
tfidf = TfidfTransformer(use_idf = True, norm = 'l2', smooth_idf = True)
# TF-IDFを算出
print(tfidf.fit_transform(bow_gs).toarray())

[[0.52284231 0.67325467 0.52284231 0.         0.         0.
  0.        ]
 [0.52284231 0.         0.52284231 0.67325467 0.         0.
  0.        ]
 [0.26806191 0.34517852 0.26806191 0.34517852 0.45386827 0.45386827
  0.45386827]]


pandasのDataFrameに変換

In [23]:
import pandas as pd
pd.DataFrame(tfidf.fit_transform(bow_gs).toarray(), columns = word2int_gs.values())

Unnamed: 0,が,子供,走る,車,の,を,脇
0,0.522842,0.673255,0.522842,0.0,0.0,0.0,0.0
1,0.522842,0.0,0.522842,0.673255,0.0,0.0,0.0
2,0.268062,0.345179,0.268062,0.345179,0.453868,0.453868,0.453868


## 5.2.5 極性判定

#### 極性判定とは
* それぞれの文書が肯定的（ポジティブ）か否定的（ネガティブ）かを判定するタスク

[青空文庫](https://www.aozora.gr.jp/)から[夏目漱石の「吾輩は猫である」](https://www.aozora.gr.jp/cards/000148/card789.html)をダウンロードして読み込む

In [29]:
import zipfile
import urllib.request

# 青空文庫「吾輩は猫である」のファイルをダウンロード
urllib.request.urlretrieve('https://www.aozora.gr.jp/cards/000148/files/789_ruby_5639.zip', '789_ruby_5639.zip')

# zipファイルを解凍し、データを読み込む
with zipfile.ZipFile('789_ruby_5639.zip', 'r') as zipf:
    data = zipf.read('wagahaiwa_nekodearu.txt')

# bytesを変換
text = data.decode('shift_jis') # shift-jisに変換

#### reライブラリ
* 正規表現による処理を行うためのライブラリ

reライブラリを使用して正規表現を用いることにより、ルビや注釈等を除去する

In [30]:
import re

# ルビ、注釈、改行コード等を除去
text = re.split(r'\-{5,}', text)[2]
text = text.split('底本：')[0]
text = re.sub(r'《.+?》', '', text)
text = re.sub(r'［＃.+?］', '', text)
text = text.strip()

# 空白文字などを除去
text = text.replace('\u3000', '')
# 改行コードを除去
text = text.replace('\r', '').replace('\n', '')
# 「。」を区切り文字として分割
sentences = text.split('。')
print(sentences[:5])

['一吾輩は猫である', '名前はまだ無い', 'どこで生れたかとんと見当がつかぬ', '何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している', '吾輩はここで始めて人間というものを見た']


MeCabを用いて形態素解析を実行する

In [38]:
import MeCab

words_list = []

# 各文に形態素解析を実行
t = MeCab.Tagger('^Ochasen')
# 各文書に対して処理を反復（最後の要素は単語がないため除外）
for sentence in sentences[:-1]:
    sentence_parsed = t.parse(sentence)
    word_s = []
    # print(sentence_parsed)
    # 各文書に現れる単語のリストに対して処理を反復
    for line in sentence_parsed.splitlines()[:-1]:
        # print(line)
        # print(line.split('\t'))
        word_s.append(line.split('\t')[1].split(',')[-3])
    words_list.append(word_s)
    
print(words_list[:10])

[['一', '吾輩', 'は', '猫', 'だ', 'ある'], ['名前', 'は', 'まだ', '無い'], ['どこ', 'で', '生れる', 'た', 'か', 'とんと', '見当', 'が', 'つく', 'ぬ'], ['何', 'でも', '薄暗い', 'じめじめ', 'する', 'た', '所', 'で', '*', '泣く', 'て', 'いた事', 'だけ', 'は', '記憶', 'する', 'て', 'いる'], ['吾輩', 'は', 'ここ', 'で', '始める', 'て', '人間', 'という', 'もの', 'を', '見る', 'た'], ['しかも', 'あと', 'で', '聞く', 'と', 'それ', 'は', '書生', 'という', '人間', '中', 'で', '一番', '｜', '獰悪', 'だ', '種族', 'だ', 'ある', 'た', 'そう', 'だ'], ['この', '書生', 'という', 'の', 'は', '時々', '我々', 'を', '捕える', 'て', '煮る', 'て', '食う', 'という', '話', 'だ', 'ある'], ['しかし', 'その', '当時', 'は', '何', 'という', '考', 'も', 'ない', 'た', 'から', '別段', '恐い', 'いとも', '思う', 'ない', 'た'], ['ただ', '彼', 'の', '掌', 'に', '載せる', 'られる', 'て', 'スー', 'と', '持ち上げる', 'られる', 'た', '時', '何だか', 'フワフワ', 'する', 'た', '感じ', 'が', 'ある', 'た', 'ばかり', 'だ', 'ある'], ['掌', 'の', '上', 'で', '少し', '落ちつく', 'て', '書生', 'の', '顔', 'を', '見る', 'た', 'の', 'が', 'いわゆる', '人間', 'という', 'もの', 'の', '見る', '始', 'だ', 'ある', 'う']]


[「日本語評価極性辞書」](http://www.cl.ecei.tohoku.ac.jp/index.php?Open%20Resources%2FJapanese%20Sentiment%20Polarity%20Dictionary)をダウンロードする

In [39]:
# 日本語評価極性辞書をダウンロードする
urllib.request.urlretrieve('http://www.cl.ecei.tohoku.ac.jp/resources/sent_lex/wago.121808.pn', 'wago.121808.pn')

('wago.121808.pn', <http.client.HTTPMessage at 0x1749302ec88>)

pandasのread_csv関数を用いて辞書を読み込む

In [41]:
# 日本語評価極性辞書を読み込む
wago = pd.read_csv('wago.121808.pn', header = None, sep = '\t')
wago.head(3)

Unnamed: 0,0,1
0,ネガ（経験）,あがく
1,ネガ（経験）,あきらめる
2,ネガ（経験）,あきる


#### 日本語評価極性辞書について
* 以下のラベルが存在する

<table style='margin-left:5px;'>
    <tbody>
        <tr><th>ラベル</th></tr>
        <tr><td>ポジ（経験）</td></tr>
        <tr><td>ポジ（評価）</td></tr>
        <tr><td>ネガ（経験）</td></tr>
        <tr><td>ネガ（評価）</td></tr>
    </tbody>
</table>

日本語評価極性辞書を以下の通りスコア付けする辞書を作成する

<table style='margin-left: 5px;'>
    <tbody>
        <tr><th>ラベル</th><th>スコア</th></tr>
        <tr><td>ポジ（経験）</td><td>1</td></tr>
        <tr><td>ポジ（評価）</td><td>1</td></tr>
        <tr><td>ネガ（経験）</td><td>-1</td></tr>
        <tr><td>ネガ（評価）</td><td>-1</td></tr>
    </tbody>
</table>

In [42]:
# 単語とスコアを対応させる辞書を作成
word2score = {}
values = {'ポジ（経験）':1, 'ポジ（評価）':1, 'ネガ（経験）':-1, 'ネガ（評価）':-1}
for word, label in zip(wago.loc[:, 1], wago.loc[:, 0]):
    word2score[word]  = values[label]

作成した辞書の最初の3要素を確認

In [43]:
# 最初の3要素を確認する
list(word2score.items())[:3]

[('あがく', -1), ('あきらめる', -1), ('あきる', -1)]

各文書のスコアを算出

In [44]:
scores = []

# 各文書のスコアを算出
for words in words_list:
    score = 0
    # 単語が辞書に現れていれば、そのスコアを加算
    for word in words:
        if word in word2score:
            score += word2score[word]
    scores.append(score)

文書とそのスコアの対応をpandasのデータフレームに格納

In [47]:
scores_df = pd.DataFrame({'sentence': sentences[:-1], 'score': scores}, columns = ['sentence', 'score'])
scores_df.head(5)

Unnamed: 0,sentence,score
0,一吾輩は猫である,0
1,名前はまだ無い,0
2,どこで生れたかとんと見当がつかぬ,0
3,何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している,-1
4,吾輩はここで始めて人間というものを見た,0


スコアの高い文書5件を抽出

In [48]:
# スコアの降順に並び替える
scores_df_sorted = scores_df.sort_values('score', ascending = False)
# スコアの高い文書5件を抽出
scores_df_sorted.head(5)

Unnamed: 0,sentence,score
1428,四百六十五行から、四百七十三行を御覧になると分ります」「希臘語｜云々はよした方がいい、さも希...,5
453,「厭きっぽいのじゃない薬が利かんのだ」「それだってせんだってじゅうは大変によく利くよく利くと...,5
5380,精神の修養を主張するところなぞは大に敬服していい」「敬服していいかね,4
3860,美しい？美しくても構わんから、美しい獣と見做せばいいのである,4
3871,それほど裸体がいいものなら娘を裸体にして、ついでに自分も裸になって上野公園を散歩でもするがい...,3


スコアの低い文書5件を抽出

In [50]:
# スコアの低い5件を抽出
scores_df_sorted.tail(5)

Unnamed: 0,sentence,score
7014,自殺クラブはこの第二の問題と共に起るべき運命を有している」「なるほど」「死ぬ事は苦しい、しか...,-3
7098,向うがあやまるなら特別、私の方ではそんな慾はありません」「警察が君にあやまれと命じたらどうで...,-4
3783,こんな、しつこい、毒悪な、ねちねちした、執念深い奴は大嫌だ,-4
6618,どうもいつまで行っても柿ばかり食ってて際限がないね」「私もじれったくてね」「君より聞いてる方...,-4
6687,「古人を待つ身につらき置炬燵と云われた事があるからね、また待たるる身より待つ身はつらいともあ...,-5


## 5.2.6 まとめ

#### 実際の解析時に必要になること
* 精度を高めるための工夫
  * 形態素解析に使用するために、専用の辞書を作成する
  * BoWを集計する際に助詞を除外する