### 言語モデルのN-gramとは

- 言語モデル  
単語の並びに対して、その発生確率を返すもの。通常はたんｇの出現頻度にもとづいて言語モデルが算出される。
- N-gramモデル  
言語モデルの一種で「単語の発生確率がその前のN-1個の単語にのみ依存する」と仮定したモデル。  
（機械学習等に使うテキストの特徴量のことをN-gramという事もある）

例）  
N=3のときの、3-gramモデルは、単語の出現確率が、その前の2（=3-1）個の単語にのみ依存すると仮定したモデル。  
- 3-gramを求める  
$$
P("[BOS]"　"古く"　"から"　"人"　"が"　"居住"　"する"　"[EOS]") = \\
P("[BOS]","古く") \times P("から" | "[BOS]","古く") \times P("人" | "古く","から") \times P("が" | "から","人") \times P("居住" |  "人","が") \times P("する" | "が","居住") \times P("[EOS]" | "居住","する")
$$

単語「人」が出現する確率に注目すると

$$
P("人" | "古く","から")= \\
\displaystyle \frac{ コーパスの中で単語の「古く」「から」が、この順で現れたあとに「人」が現れる回数 }{ コーパスの中で単語の「古く」「から」が、この順で現れる回数 } 
$$

として計算する事ができます。  
同様に全ての単語に対して3-gramを計算しておくと
$$
P("[BOS]" "古く" "から" "人" "が"　"居住"　"する"　"[EOS]") \\
P("[BOS]" "古く" "が" "人" "から"　"居住"　"する"　"[EOS]")
$$
のどちらが自然な文かを比較できる。


### N-gramを計算してみる

- nltkライブラリをインストールする  
Pythonで自然言語処理を行うために便利な機能を持つライブラリ

In [4]:
!pip3 install nltk

Collecting nltk
Collecting six (from nltk)
  Using cached https://files.pythonhosted.org/packages/73/fb/00a976f728d0d1fecfe898238ce23f502a721c0ac0ecfedb80e0d88c64e9/six-1.12.0-py2.py3-none-any.whl
Installing collected packages: six, nltk
Successfully installed nltk-3.4.5 six-1.12.0


#### sqlite3接続用

In [11]:
import json
import sqlite3

conn = None

# データベース接続
def connect():
    # global変数でconnを呼び出し
    global conn
    # データベースの場所を指定
    conn = sqlite3.connect('/vagrant/NaturalLanguageProcessing/data/sqlite3/sqlite3')

# データベース接続終了
def close():
    # 終了
    conn.close()

# テーブル作成
def create_table():
    # executeでSQL構文作成、docsがあれば削除
    conn.execute('DROP TABLE IF EXISTS docs')
    # docsテーブルを新規作成
    conn.execute('''CREATE TABLE docs (
            id          INTEGER PRIMARY KEY AUTOINCREMENT,
            content     TEXT,
            meta_info   BLOB,
            sentence    BLOB,
            chunk       BLOB,
            token       BLOB
        )''')

# データをインサートする
def load(values):
    # exucutemany()はvaluesに指定したパラメータ順序またはマッピングを?に入れて実行できる
    conn.executemany('INSERT INTO docs (content, meta_info) VALUES (?,?)', values)
    # 確定
    conn.commit()

# 一部のデータを見る
def get(doc_id, fl):
    #.fetchone()で指定した1行を取得
    row_ls = conn.execute(f"SELECT {','.join(fl)} FROM docs WHERE id = {doc_id}").fetchone()
    # row_ls = conn.execute('SELECT {} FROM docs WHERE id = ?'.format(','.join(fl)),(doc_id,)).fetchone()
    row_dict = {}
    # flとrow_lsで抜き出したデータをzipする
    for key, value in zip(fl, row_ls):
        row_dict[key] = value
    return row_dict

# id番号を抜き出す
def get_all_ids(limit, offset=0):
    return [record[0] for record in
            # limitで取得上限、OFFSETで開始位置を指定してデータを抜き出す。そのデータの1番目id番号を抜き出す
            conn.execute(f'SELECT id FROM docs LIMIT {limit} OFFSET {offset}')]
            # conn.execute('SELECT id FROM docs LIMIT ? OFFSET ?',(limit, offset))]

def set_annotation(doc_id, name, value):
    conn.execute(f'UPDATE docs SET {name} = {json.dumps(value)} where id = {doc_id}')
    conn.commit()

# アノテーションを取得
def get_annotation(doc_id, name):
    # docsのid行をwhere idで指定しnameから取り出す
    row = conn.execute(f'SELECT {name} FROM docs WHERE id = {doc_id}').fetchone()
    if row[0] is not None:
        return json.loads(row[0])
    else:
        return []

In [8]:
# 文内の単語のを取得するための関数を作成
def find_xs_in_y(xs, y):
    return [x for x in xs if y['begin'] <= x['begin'] and x['end'] <= y['end']]
'''
リスト内包表記
for x in xs:
    if y['begin'] <= x['begin'] and x['end'] <= y['end']:
        return x

xs変数に格納されているアノテーションのリストからyアノテーションの内側に存在するものだけを取り出す関数
'''

"\nリスト内包表記\nfor x in xs:\n    if y['begin'] <= x['begin'] and x['end'] <= y['end']:\n        return x\n\nxs変数に格納されているアノテーションのリストからyアノテーションの内側に存在するものだけを取り出す関数\n"

In [15]:
from nltk.lm import Vocabulary
from nltk.lm.models import MLE
from nltk.util import ngrams

#言語モデルの作成
def create_laguage_model(doc_ids, N=3):
    sents = []
    
    # コーパスとして文ごとに単語の原型のリストをsents変数に格納する
    for doc_id in doc_ids:
        all_tokens = get_annotation(doc_id, 'token')
        
        for sent in datastore.get_annotation(doc_id, 'sentence'):
            tokens = find_xs_in_y(all_tokens, sent)
            sents.append(['__BOS__'] + [token['lemma']
                                        for token in tokens] + ['__EOS__'])
    vocab = Vocabulary([word for sent in sents for word in sent])
    text_ngrams = [ngrams(sent, N) for sent in sents]
    lm = MLE(order=N, vocabulary=vocab)
    lm.fit(text_ngrams)
    return lm