# LDAの動作確認 part 2

LDA_in_scikit_learn_00 での動作確認結果が、いまひとつ理解できなかったため、公式ドキュメントを確認しコメントを入れながら、再度調査してみました。

公式ドキュメント：

http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.LatentDirichletAllocation.html

http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html

結論から申し上げると、

(1) 使用した以下のサンプル（公式ドキュメントのサンプル）は、辞書なし学習の例でした。

(2) LatentDirichletAllocation というモジュールの仕様上、学習実行--->即結果が出力される・・・といった使い勝手のようです。

このレポートでは、公式ドキュメントから読み取れる仕様にもとづき、正しいと思われる使い方で再試行してみました。

## テスト用データ（2,000行）のロード

In [32]:
from time import time

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.datasets import fetch_20newsgroups

print("Loading dataset...")
t0 = time()
dataset = fetch_20newsgroups(shuffle=True, 
                             random_state=1,
                             remove=('headers', 'footers', 'quotes'))

n_samples = 2000
test_data = dataset.data[:n_samples]

print("done in %0.3fs." % (time() - t0))

Loading dataset...
done in 1.607s.


In [33]:
len(test_data)

2000

## コーパスの作成

In [34]:
n_features = 1000
print("Extracting tf features for LDA...")
tf_vectorizer = CountVectorizer(max_df=0.95,
                                min_df=3,
                                max_features=n_features, # 特徴語の上限
                                stop_words='english')
t0 = time()
tf = tf_vectorizer.fit_transform(test_data)
print("done in %0.3fs." % (time() - t0))

Extracting tf features for LDA...
done in 0.316s.


2,000 件のサンプルテキストから、51,754 件の単語が抽出され、戻り値の tf に単語の出現回数がセットされています。

In [35]:
len(tf.data)

51754

In [36]:
tf.data[0:99]

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 4, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 2, 1, 2, 1, 2, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 3, 1, 1, 3, 2, 1, 1, 1,
       2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1], dtype=int64)

In [37]:
tf_feature_names = tf_vectorizer.get_feature_names()
len(tf_feature_names)

1000

## 学習実行

In [38]:
print("Fitting LDA models with tf features, "
      "n_samples=%d and n_features=%d..."
      % (n_samples, n_features))
lda = LatentDirichletAllocation(n_topics=10, # １０のトピックに分類
                                max_iter=5, # ５回繰り返し実行
                                learning_method='online', # 学習実行-->即結果を出力
                                learning_offset=50.,
                                random_state=0)
t0 = time()
answers = lda.fit_transform(tf)
print("done in %0.3fs." % (time() - t0))

Fitting LDA models with tf features, n_samples=2000 and n_features=1000...
done in 2.415s.


## 学習結果

１０のトピックに含まれる上位１０件の特徴語をリストします。

In [39]:
n_top_words = 10
top_words = []
for topic_idx, topic in enumerate(lda.components_):
    print("Topic #%d:" % topic_idx)
    top_words_idx = topic.argsort()[:(-n_top_words - 1):-1]
    top_words_list = [tf_feature_names[i] for i in top_words_idx]
    top_words.append(top_words_list)
    print(",".join(top_words_list))

Topic #0:
section,armenians,armenian,turkish,military,firearm,weapon,dangerous,azerbaijan,license
Topic #1:
god,people,does,jesus,bible,church,law,christian,religion,believe
Topic #2:
edu,mail,windows,com,file,send,graphics,version,thanks,ftp
Topic #3:
game,11,10,team,play,18,flyers,period,23,19
Topic #4:
bike,rules,luck,ve,court,safety,good,exist,questions,van
Topic #5:
just,people,don,like,think,know,time,good,way,make
Topic #6:
drive,disk,hard,car,drives,card,scsi,speed,controller,rom
Topic #7:
space,earth,surface,moon,probe,data,science,lunar,nasa,orbit
Topic #8:
key,government,chip,use,public,encryption,clipper,keys,security,private
Topic #9:
55,10,new,00,1993,hiv,health,april,500,15


トピックの分類結果を表示します。

試しに、テストデータ #557 で見てみます。

In [40]:
answers[557]

array([ 0.01000015,  0.01000039,  0.27071617,  0.0100013 ,  0.01000049,
        0.0100005 ,  0.64927728,  0.01000018,  0.01000099,  0.01000255])

７番目のトピック #6 との回答です。テストデータの内容と突合すると、当たっているようです。

In [41]:
print("==========")
print("Topic #6:")
print(",".join(top_words[6]))
print("==========")
print("Sample Text:")
print(test_data[557])

Topic #6:
drive,disk,hard,car,drives,card,scsi,speed,controller,rom
Sample Text:
Is there a QIC-80 format tape drive that comes
with an EISA controller ?
Colorado's 250 only has ISA and MCA controllers.

Thanks. e-mail please.

-- 
