## 日本語らしさを計算する

文の中の単語をランダムに並び替えて、言語モデルを使って「どの程度日本語らしいか」を計算してみる。

### 言語モデル関数の定義

In [1]:
from nltk.lm import Vocabulary
from nltk.lm.models import MLE
# MLE(Maximum Likelihood Estimator):言語モデルを作成するライブラリ
from nltk.util import ngrams

def find_xs_in_y(xs, y):
    return [x for x in xs if y['begin'] <= x['begin'] and x['end'] <= y['end']]

#言語モデルの作成
def create_language_model(doc_ids, N=3):
    sents = []
    
    # コーパスとして文ごとに単語の原型のリストをsents変数に格納する
    for doc_id in doc_ids:
        all_tokens = datastore.get_annotation(doc_id, 'token')
        
        for sent in datastore.get_annotation(doc_id, 'sentence'):
            tokens = find_xs_in_y(all_tokens, sent)
            # コーパスとして文ごとに単語の原型リストをsents変数に格納する。文頭と文末も単語として追加する。
            sents.append(['__BOS__'] + [token['lemma'] for token in tokens] + ['__EOS__'])
            
    # 作成したコーパスにおける全単語の一覧をvocabに作成
    vocab = Vocabulary([word for sent in sents for word in sent])
    # ngramsを使用し文ごとに3つの単語の並びを取り出す
    text_ngrams = [ngrams(sent, N) for sent in sents]
    '''
    ngramの第一引数には単語リスト、第2引数には関数で指定したデフォルトの3を入れる
    '''
    lm = MLE(order=N, vocabulary=vocab)
    lm.fit(text_ngrams)
    return lm

### 日本語らしさの確率を計算する関数を定義

In [2]:
# (算出した言語モデル, 単語列, n-gramのn)
def calc_prob(lm, lemmas, N=3):
    probability = 1.0
    
    # ngramsを使用しN=3の単語の並びを作成し、一つずつ言語モデルを計算する。
    for ngram in ngrams(lemmas, N):
        prob = lm.score(lm.vocab.lookup(ngram[-1]), lm.vocab.lookup(ngram[:-1]))
        # 学習したコーパスにない単語に関しては並びの確率に10の-8乗を割り当てる。
        prob = max(prob, le-8)
        #  計算した単語の並びの確率をかけ合わせて、文の確率を計算する。
        probability *= prob
    return probability

### 計算開始

#### ライブラリの読み込み

In [3]:
# https://www.sejuku.net/blog/66459
# システムに関する処理をまとめたライブラリのsysを読み込む
import sys
# 下記でライブラリを読み込めるパス一覧を表示できる。ここにパスを書き込むと異なる階層からライブラリを読み込む事が可能となる。
print(sys.path)
# sys.path.append("相対パス")でsys.pathに追加、ここではディレクトリまでを指定する
sys.path.append("src")

import sqlitedatastore as datastore
import cabochaparser as parser

['/usr/lib/python36.zip', '/usr/lib/python3.6', '/usr/lib/python3.6/lib-dynload', '', '/home/vagrant/.local/lib/python3.6/site-packages', '/usr/local/lib/python3.6/dist-packages', '/usr/lib/python3/dist-packages', '/home/vagrant/.local/lib/python3.6/site-packages/IPython/extensions', '/home/vagrant/.ipython']


In [4]:
datastore.connect()

# 全てのidで言語モデルを作成
lm = create_language_model(datastore.get_all_ids(limit=-1), N=3)

# テストする文を設定
text = '古くから人が居住する。'

# cabochaを実行し、textをtokenに分割する
sentences, chunks, tokens = parser.parse(text)

probabilities = set([])
for i in range(1000):
    # 2語目以降のtokenをシャッフルしtokens_に収納
    tokens_ = tokens[1:]
    random.shuffle(tokens_)
    # 1語目とくっつける
    tokens_shuffled = [tokens[0]] + tokens_
    lemmas = ['__BOS__'] + [token['lemma'] for token in tokens_shuffled]
    print(lemmas)

NameError: name 'find_xs_in_y' is not defined