In [1]:
% matplotlib inline
from __future__ import print_function

from collections import Counter
import json
import os
import codecs

import lda
import matplotlib.pyplot as plt
import numpy as np
import scipy.sparse as sparse
from sklearn.decomposition import LatentDirichletAllocation

<h2>データを読み込もう</h2>

In [2]:
with open(os.path.normpath('document_word_data.json'), 'r') as f:
    doc_data = json.load(f)

all_doc_index = doc_data.keys()
print('Total Documents: ', len(all_doc_index))

Total Documents:  1000


Windowsの方でutf-8のテキストファイルが開けない場合は、こちらを実行してみてください。

In [3]:
# Windowsの方で上記のコードが失敗する場合
with codecs.open(os.path.normpath('document_word_data.json'), 'r', "utf-8") as f:
    doc_data = json.load(f)

all_doc_index = doc_data.keys()
print('Total Documents: ', len(all_doc_index))

Total Documents:  1000


この読み込んだjsonデータはこんな感じです。

In [4]:
','.join(doc_data['715'])
#print(doc_data['715'])

'ママ,子供,健康,づくり,新た,ライフスタイル,提案,ママ,マルシェ,府,府,市,さまざま,家族,ら,日,もん,商品,ほか,ハロ,子供,商品,プレゼント,各日,人,会場,木,ぬくもり,木,子供,づくり,会,木,日,午後,時,今年度,森林,林業,木材,大使,ミス,日本,みどり,帆,南,さん,府,木材,会,湯川,昌子,さん,ら,女性,人,参加,スギ,ヒノキ,木材,放出,健康,効果,木材,こと,女性,入場,無料,文化,園,入園,料,大人,円,円'

単語のインデックスを作るために、全ての単語のリストを作ります。

In [5]:
all_vocab = []
for doc_idx in all_doc_index:
    all_vocab += doc_data[doc_idx]

# 重複を消すためにsetしてlistにする
all_vocab = list(set(all_vocab))
vocab_num = len(all_vocab)
print('Vocablary Number: ', vocab_num)
type(all_doc_index)

Vocablary Number:  8709


dict_keys

In [6]:
#スライシングして学習データとテスト用データに分けるため、リストをNumpyの配列にしておきます。
#all_doc_indexは辞書型の辞書型のkeyである
all_doc_index_ar = np.array(list(all_doc_index))

train_portion = 0.7
train_num = int(len(all_doc_index_ar) * train_portion)

np.random.shuffle(all_doc_index_ar)
train_doc_index = all_doc_index_ar[:train_num]
test_doc_index = all_doc_index_ar[train_num:]

先にからっぽのスパース行列を定義します。

In [7]:
A_train = sparse.lil_matrix((len(train_doc_index), len(all_vocab)),
                            dtype=np.int)
A_test = sparse.lil_matrix((len(test_doc_index), len(all_vocab)),
                           dtype=np.int)

ListからNumpyのArrayに直します。

In [8]:
all_vocab_ar = np.array(all_vocab)
train_doc_index_ar = np.array(train_doc_index)
test_doc_index_ar = np.array(test_doc_index)

スパース行列に成分を入れていきます。

In [9]:
# 学習用
#Counterを冒頭でimportしている
#リストに格納されている物がkey,登場回数がvalueに格納される
train_total_elements_num = 0
for i in range(len(train_doc_index)):
    doc_idx = train_doc_index[i]
    row_data = Counter(doc_data[doc_idx])
    
    for word in row_data.keys():
        #all_vocab_ar == wordとなるwordの行番号をword_idxに格納している
        word_idx = np.where(all_vocab_ar == word)[0][0]
        #単語がいくつ出たかは列に格納するためword_idxを列に入れる
        A_train[i, word_idx] = row_data[word]
        train_total_elements_num += 1
print('Train total elements num :', train_total_elements_num)
print(word_idx)

# テスト用
test_total_elements_num = 0
for i in range(len(test_doc_index)):
    doc_idx = test_doc_index[i]
    row_data = Counter(doc_data[doc_idx])
    
    for word in row_data.keys():
        word_idx = np.where(all_vocab_ar == word)[0][0]
        A_test[i, word_idx] = row_data[word]
        test_total_elements_num += 1
print('Test total elements num :', test_total_elements_num)

Train total elements num : 34294
8473
Test total elements num : 13750


###  CountVectorizerを用いてdoc_dataから簡単に疎行列を作ることもできます

In [10]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(tokenizer=lambda a: a, analyzer=lambda a: a)
vectorizer.fit(doc_data[idx] for idx in all_doc_index)
A_train = vectorizer.transform(doc_data[idx] for idx in train_doc_index)
A_test = vectorizer.transform(doc_data[idx] for idx in test_doc_index)

## 実際にLDAを適用してみよう (Scikit-learnを使った例）

In [11]:
model1 = LatentDirichletAllocation(n_topics=20,
                                   doc_topic_prior=0.001,
                                   topic_word_prior=0.5,
                                   max_iter=5,
                                   learning_method='online',
                                   learning_offset=50.,
                                   random_state=0)

In [14]:
model1.fit(A_train)
print(model1.components_)



[[0.62874734 0.60120207 0.63093741 ... 0.60698304 0.58610315 0.60191257]
 [0.55997351 0.59715763 0.62227582 ... 0.6055909  0.59843568 0.61186333]
 [0.57264999 0.66155909 0.60704807 ... 0.59379809 0.61550943 0.61804448]
 ...
 [0.60398376 0.83305737 0.63075313 ... 0.59737468 0.57740033 0.60241614]
 [0.55302325 1.08771899 0.58169826 ... 0.57208699 1.24035172 0.64197292]
 [0.58349383 0.59543234 0.58241523 ... 0.60735426 0.59018344 0.60214521]]


まずトピック x 単語を見てみましょう

In [13]:
normalize_components = model1.components_ / model1.components_.sum(axis=0)
print(normalize_components)

[[0.05032118 0.0471789  0.04426835 ... 0.05092908 0.04633547 0.02282043]
 [0.04481694 0.04686152 0.04366063 ... 0.05081227 0.04731044 0.0231977 ]
 [0.04583149 0.05191538 0.0425922  ... 0.04982279 0.04866024 0.02343204]
 ...
 [0.04833926 0.06537358 0.04425542 ... 0.05012289 0.04564746 0.02283952]
 [0.04426068 0.08535797 0.04081359 ... 0.04800112 0.09805831 0.02433925]
 [0.04669936 0.04672613 0.04086389 ... 0.05096023 0.04665805 0.02282925]]


In [19]:
# http://scikit-learn.org/stable/auto_examples/applications/
# topics_extraction_with_nmf_lda.html　より
#n_top_words = 20
#for topic_idx, topic in enumerate(normalize_components):
#    print('Topic #%d:' % topic_idx)
#    print(' '.join([all_vocab_ar[i] for i in
#                    topic.argsort()[:-n_top_words - 1:-1]]))#-1は逆順にindex番号をsortしている,-n_top_words - 1は列に関して
 #   print()

n_top_words = 20
for topic_idx, topic in enumerate(normalize_components):
    print('Topic #%d:' % topic_idx)
    print(' '.join([all_vocab_ar[i] for i in
                    topic.argsort()[:-n_top_words-1:-1]]))#-1は逆順にindex番号をsortしている,-n_top_words - 1は列に関して
    print()

Topic #0:
インスタグラムハッシュタグ ジグ 楽 彷彿 エルドレッド 判明 本年 パズドラ ウェルカム ゼブラ 康則 武家 有名 横 冷水 ヒルトン てる 捕手 クラフト 巫女

Topic #1:
いや バイファム 烏山 イスラエル クラス アルテ カタカナ ロエベ ジュリエット 提案 合意 こと プラズマ 刺客 大忙し 彝 法政大 シッポ ぼろ マツエク

Topic #2:
トレッサ リ 割り振り ドラゴンメダルゲット 崇 唐川 エリザベス 千本 ミスコン 味方 公演 保有 インドネシア 信 大津 喧噪 ライセンス どれ 大場 ヨルダン

Topic #3:
ロッソ かい お子様 イブニングキャンプ 件 横倒し コスメショップ 今 憤慨 ロンサム シアン パラリンピック 喪 林 エッセイ アワビ 刀剣 ヒミツ 水樹 アクセシビリティ

Topic #4:
シリアル ジャイアンツ 厳密 きんちょう 匹 フランクフルト 息 ロ ヴィブロス 本展 ゲル 山出 コング 次女 コマネラ シン 本来 ホット 日曜日 ジャケット

Topic #5:
先ほど 同時 挿し木 タワマン キャラメル エネルギッシュ 外交 歳児 払拭 ハリ 無残 がらみ 宿便 バランス キャップ 市村 ダシ シュンギク ペルセポネ 引換

Topic #6:
チェンジアップ 正樹 最小 亭 デスキャップ リナ ピッチ シンギュラリティ ギャル オン ミドル 基幹 わかりやすさ 大明 内勤 次代 存分 ジョイコン ファナティック 把

Topic #7:
フリッツ タイヤ ワカメ 日ハム 本気 模型 アダルト キャラクタ 想像 ぺい バナナ 単品 来店 新卒 寝床 廉価 レポ どきどき カ月 へん

Topic #8:
暖 拡張 健 ハイライト ヨット 周波 士 合流 グセ 手動 導入 彩 排便 メンテ 以内 ケン ブレス オダギリ カルテット 瀬戸内

Topic #9:
テニス エデル 東 欲求 恋情 密 セリフ 時点 多大 ロイヤリティ ゲノム 宮原 先ごろ 榎戸 ゾブリスト 低め ごっこ お寺 屈指 希望

Topic #10:
強権 杵 オリジナルバラエティ 大差 幸 ブレ 大体 後期 プリント ティッシュ 比呂志 ツルツルフェイス 創価大 幕張 幻惑 ひよこ 和気あいあい ナビタ

文書 x トピック行列側も見てみましょう。

In [20]:
doc_topic_data = model1.transform(A_train)
doc_topic_data

array([[2.49875062e-05, 2.49875062e-05, 2.49875062e-05, ...,
        2.49875062e-05, 2.49875062e-05, 2.49875062e-05],
       [3.83112405e-06, 3.83112405e-06, 3.83112405e-06, ...,
        3.83112405e-06, 9.21757779e-02, 3.83112405e-06],
       [1.47015584e-05, 1.47015584e-05, 1.47015584e-05, ...,
        1.47015584e-05, 9.99720670e-01, 1.47015584e-05],
       ...,
       [4.95049505e-04, 4.95049505e-04, 4.95049505e-04, ...,
        4.95049505e-04, 4.95049505e-04, 4.95049505e-04],
       [1.51469252e-05, 1.51469252e-05, 1.51469252e-05, ...,
        1.51469252e-05, 1.51469252e-05, 1.51469252e-05],
       [1.99920032e-05, 1.99920032e-05, 1.99920032e-05, ...,
        1.99920032e-05, 1.99920032e-05, 1.99920032e-05]])

scikit-learnのLDAはどうやら正規化されていないため、正規化した上で、1つ目の文書がどのトピックから来ている単語が多いのかを見てみましょう。

In [21]:
normalize_doc_topic_data = \
 doc_topic_data / doc_topic_data.sum(axis=1, keepdims=True)

In [23]:
for topic_idx, prob in enumerate(normalize_doc_topic_data[0]):#[0]としているので1つ目の文書について
    print('Topic #%d: probality: %f' % (topic_idx, prob))

Topic #0: probality: 0.000025
Topic #1: probality: 0.000025
Topic #2: probality: 0.000025
Topic #3: probality: 0.000025
Topic #4: probality: 0.000025
Topic #5: probality: 0.000025
Topic #6: probality: 0.000025
Topic #7: probality: 0.000025
Topic #8: probality: 0.000025
Topic #9: probality: 0.000025
Topic #10: probality: 0.000025
Topic #11: probality: 0.999525
Topic #12: probality: 0.000025
Topic #13: probality: 0.000025
Topic #14: probality: 0.000025
Topic #15: probality: 0.000025
Topic #16: probality: 0.000025
Topic #17: probality: 0.000025
Topic #18: probality: 0.000025
Topic #19: probality: 0.000025


In [None]:
loglikelihood = model1.score(A_test)
ppl = model1.perplexity(A_test)
print('対数尤度: ', loglikelihood)
print('Perplexity: ', ppl)

テストデータに当てはめてみましょう。

In [None]:
test_doc_topic_data = model1.transform(A_test)
normalize_test_doc_topic_data = \
 test_doc_topic_data / test_doc_topic_data.sum(axis=1, keepdims=True)
for topic_idx, prob in enumerate(normalize_test_doc_topic_data[0]):
    print('Topic #%d: probality: %f' % (topic_idx, prob))

<h2> LDAを適用してみよう (ldaパッケージを使った場合)</h2> 

In [None]:
model2 = lda.LDA(n_topics=20, n_iter=1500, random_state=1, alpha=0.5, eta=0.5)

In [None]:
model2.fit(A_train)

In [None]:
topic_word = model2.topic_word_
n_top_words = 20
for topic_idx, topic in enumerate(topic_word):
    print('Topic #%d:' % topic_idx)
    print(' '.join([all_vocab_ar[i] for i in
                    topic.argsort()[:-n_top_words - 1:-1]]))
    print()

今回も精度として対数尤度を見てみましょう

In [None]:
model2.loglikelihood()

文書 x トピック行列を見てみましょう。

In [None]:
doc_topic_data2 = model2.transform(A_train)
for topic_idx, prob in enumerate(doc_topic_data2[0]):
    print('Topic #%d: probality: %f' % (topic_idx, prob))

<h2>（参考）ディリクレ分布の挙動</h2>

In [None]:
alpha = 0.1
K = 6
sampled_probs = np.random.dirichlet([alpha for i in range(K)])
for i, prob in enumerate(sampled_probs):
    print('サイコロ %d面  確率: %.2f'%(i+1, prob))