### TF-IDFを計算する
文書中に含まれる単語の重要度を評価する手法
$$
\begin{eqnarray}
\mathrm{tf}-\mathrm{idf}(w, d) &=& \mathrm{tf}(w, d) \times \mathrm{idf}(w)\\
                               &=& 単語wの文書d中での出現回数 \times \log \displaystyle \frac{全文書数}{単語wが出現する文書数} 
                               \end{eqnarray}
$$

In [1]:
# !pip3 install sklearn

### SQlite用関数定義

In [2]:
import json
import sqlite3

conn = None

# データベース接続
def connect():
    # global変数でconnを呼び出し
    global conn
    # データベースの場所を指定
    conn = sqlite3.connect('/vagrant/NaturalLanguageProcessing/data/sqlite3/sqlite3')

# データベース接続終了
def close():
    # 終了
    conn.close()

# テーブル作成
def create_table():
    # executeでSQL構文作成、docsがあれば削除
    conn.execute('DROP TABLE IF EXISTS docs')
    # docsテーブルを新規作成
    conn.execute('''CREATE TABLE docs (
            id          INTEGER PRIMARY KEY AUTOINCREMENT,
            content     TEXT,
            meta_info   BLOB,
            sentence    BLOB,
            chunk       BLOB,
            token       BLOB
        )''')

# データをインサートする
def load(values):
    # exucutemany()はvaluesに指定したパラメータ順序またはマッピングを?に入れて実行できる
    conn.executemany('INSERT INTO docs (content, meta_info) VALUES (?,?)', values)
    # 確定
    conn.commit()

# 一部のデータを見る
def get(doc_id, fl):
    #.fetchone()で指定した1行を取得
    row_ls = conn.execute(f"SELECT {','.join(fl)} FROM docs WHERE id = {doc_id}").fetchone()
    # row_ls = conn.execute('SELECT {} FROM docs WHERE id = ?'.format(','.join(fl)),(doc_id,)).fetchone()
    row_dict = {}
    # flとrow_lsで抜き出したデータをzipする
    for key, value in zip(fl, row_ls):
        row_dict[key] = value
    return row_dict

# id番号を抜き出す
def get_all_ids(limit, offset=0):
    return [record[0] for record in
            # limitで取得上限、OFFSETで開始位置を指定してデータを抜き出す。そのデータの1番目id番号を抜き出す
            conn.execute(f'SELECT id FROM docs LIMIT {limit} OFFSET {offset}')]
            # conn.execute('SELECT id FROM docs LIMIT ? OFFSET ?',(limit, offset))]

def set_annotation(doc_id, name, value):
    conn.execute(f'UPDATE docs SET {name} = {json.dumps(value)} where id = {doc_id}')
    conn.commit()

# アノテーションを取得
def get_annotation(doc_id, name):
    # docsのid行をwhere idで指定しnameから取り出す
    row = conn.execute(f'SELECT {name} FROM docs WHERE id = {doc_id}').fetchone()
    if row[0] is not None:
        return json.loads(row[0])
    else:
        return []

### データの準備

In [3]:
import json

# データベースに接続
connect()

data = []
doc_ids = []
for doc_id in get_all_ids(limit = -1):
    # 文書ごとに出現する単語の原型を取り出して、joinを使用し空白区切りでdata変数にappendで格納していく
    data.append(' '.join(
        [token['lemma'] for token in get_annotation(doc_id, 'token')]))
    # 文書IDを保存しておく
    doc_ids.append(doc_id)

### TfidfVectorizerを使用し分析開始

In [10]:
# TfidVectorizerを読み込み
from sklearn.feature_extraction.text import TfidfVectorizer

# TFIDFを計算するためにインスタンス化、analyzerは分析対象が単語なのかスペース区切りの文章なのかを指定する。max_dfは全文書中の何割以上の単語を無視するか？
vectorizer = TfidfVectorizer(analyzer = 'word', max_df=0.9)
'''
fit_transform()関数の返り値は各文書に対するTF-IDFベクトル
全文書中に出現する単語1つ１つに番号（単語ID）を割り当てて、その番号順にTF-IDF値を格納したリストがTF-IDFベクトル。
例えば、「言語」という単語にID0番を割り当てた場合「言語」のTF-IDF値は、TF-IDFベクトルの0番目の要素になる
'''

# 引数で与えられた文書集合をもとに、各文書中の単語のTF-IDF値を計算する
vecs = vectorizer.fit_transform(data)

# vecsは行列であるmatrixクラスの変数になっているため、toarray()を適応しリストに変換する
for doc_id, vec in zip(doc_ids, vecs.toarray()):
        # doc_idとSQliteのmeta_infoからタイトルの表示
        meta_info = json.loads(get(doc_id, ['meta_info'])['meta_info'])
        title = meta_info['title']
        print(doc_id, title)
        
        # TF-IDFベクトルのdoc変数をenumerate関数を使って単語IDと紐つけ、TF-IDFの高い順にソートする。上位10個表示する。
        for w_id, tfidf in sorted(enumerate(vec), key=lambda x: x[1], reverse=True)[:10]:
            lemma = vectorizer.get_feature_names()[w_id]
            print(f'\t{lemma}: {tfidf}')

close()

1 ボリビア
	ボリビア: 0.7089267264479654
	ペルー: 0.17216694432478474
	ラパス: 0.1683753318458834
	スペイン: 0.139107427219877
	アマゾン: 0.13790249018123493
	アンデス: 0.13790249018123493
	スクレ: 0.12195227700798172
	年金: 0.11519146961010268
	チリ: 0.10628154055096066
	クルス: 0.09574522855566349
2 ブルネイ
	ブルネイ: 0.8163351353591278
	マレー: 0.2798079811968114
	文字: 0.1072931043685807
	標準: 0.10237207432826478
	国王: 0.1001295279910517
	語彙: 0.08895853053973903
	諮問: 0.08117559440879542
	一致: 0.07188045180408431
	休日: 0.06358057218017271
	ホーク: 0.06310644131489741
3 ブークモール
	ノルウェー: 0.4664592437662124
	文字: 0.4219482383092567
	書き言葉: 0.3158392445036937
	アルファベット: 0.2761613482865621
	規範: 0.2761613482865621
	もう: 0.22225895922098907
	二つ: 0.18258106300385743
	概要: 0.18258106300385743
	使う: 0.1818048439460224
	自治体: 0.17217528988716932
4 ブータン
	ブータン: 0.8260523616484297
	ゾンカ: 0.2669813429864414
	ネパール: 0.18545097080745856
	チベット: 0.1659298159856208
	インド: 0.11378646029454968
	国王: 0.08814435371144878
	仏教: 0.05807789356644555
	座主: 0.05339626859728827
	中