# LDAの動作確認 part 3 (質問文)

日本語のテストデータを使用し、part 2（LDA_in_scikit_learn_01）と同様の手順にて、再試行しております。

まずは質問文に対するLDAの動作確認を行いました。

### 日本語のテストデータを抽出

In [30]:
import os
import pandas

def replace_newline(val):
    return val.replace('\r', '').replace('\n', '')

n_samples = 100

csvDir = "../learning/tests/engine/fixtures/"
csvFile = "test_daikin_conversation.csv"
csvPath = os.path.join(csvDir, csvFile)

csvTemp = pandas.read_csv(csvPath, encoding='Shift_JIS')
csvData = csvTemp.drop_duplicates(subset=['answer_id'])

testData = csvData.ix[0:n_samples-1, ['question', 'answer_body']]
testData

Unnamed: 0,question,answer_body
0,Outlook2010にてメールを送信する際、自分宛のメールをBCCで運用したいのですが？,Thunderbirdではメールを作成した際、自動的にBCCに自分のメールアドレスが設定され...
1,Outlook2010にて、メールの署名の作り方が教えてください。,署名の作り方については『【Outlook2010操作マニュアル 応用編】 署名の作成』を参照...
2,Thunderbirdのテンプレートメールと同等の機能はOutlook2010にありますか？,Outlook2010にはThunderbirdのテンプレートと同様の機能はありません。\r...
3,Thunderbirdの場合、「宛先」に姓を入れるとアドレス帳の候補者が出ましたが、Outl...,Outlook2010では、過去に入力したアドレスを記憶するオートコンプリート機能がついてい...
4,Outlookにて、メールアドレス検索の時にアドレス一覧をいちいち選択するのがわずらわしいで...,可能です。\r方法については『【Outlook2010操作マニュアル 応用編】 アドレス検索...
5,Outlook2010にて、メールの再編集は可能ですか？,方法については『【Outlook2010操作マニュアル 基本編】 送信済メールの再利用（メー...
6,Outlook2010にて、未読メールを探すのが大変です。,方法については『【Outlook2010操作マニュアル 応用編】 検索フォルダ―(未読のメー...
7,ThunderbirdとOutlook2010では送信済トレイの違いはありますか？,Outlook2010とThunderbirdでは送信済トレイのフォルダ名が異なります。\r...
8,Outlook2010にて、メールに添付するファイルに容量の制限はありますか？,添付ファイルの容量の制限は10MBです。\r（メーリングリストも同様になります。）
9,Outlook2010にて、長期休暇など長期でメールの返事ができない際、メールの自動応答をさ...,Outlook2010には自動応答機能は存在しますが、原則利用しないでください。\r\r自動...


### MeCab を準備

In [31]:
import MeCab
meCab = MeCab.Tagger('-Owakati -d /usr/local/lib/mecab/dic/ipadic')

### コーパスを作成

In [32]:
corpus = []
origin_text = []

for i in range(0, n_samples):
    try:
        question = testData.ix[i, 'question']
    except:
        continue
    question = replace_newline(question)
    parsed_text = meCab.parse(question)
    corpus.append(replace_newline(parsed_text))
    origin_text.append(replace_newline(question))

In [33]:
n_samples = len(corpus)
print('Parsed questions (count=%d):' % n_samples)

# 最初の１０件を表示
for i in range(0, 10):
    #for debug
    print('#%d=[%s]' % (i, corpus[i]))

Parsed questions (count=99):
#0=[Outlook 2010 にて メール を 送信 する 際 、 自分 宛 の メール を BCC で 運用 し たい の です が ？ ]
#1=[Outlook 2010 にて 、 メール の 署名 の 作り方 が 教え て ください 。 ]
#2=[Thunderbird の テンプレート メール と 同等 の 機能 は Outlook 2010 に あり ます か ？ ]
#3=[Thunderbird の 場合 、 「 宛先 」 に 姓 を 入れる と アドレス 帳 の 候補 者 が 出 まし た が 、 Outlook 2010 で アドレス を 簡単 に 検索 できる 機能 は ない です か ？ ]
#4=[Outlook にて 、 メールアドレス 検索 の 時 に アドレス 一覧 を いちいち 選択 する の が わずらわしい です 、 こちら の 意図 し た アドレス 一覧 を デフォルト に 設定 でき ない の でしょ う か ？ ]
#5=[Outlook 2010 にて 、 メール の 再 編集 は 可能 です か ？ ]
#6=[Outlook 2010 にて 、 未読 メール を 探す の が 大変 です 。 ]
#7=[Thunderbird と Outlook 2010 で は 送信 済 トレイ の 違い は あり ます か ？ ]
#8=[Outlook 2010 にて 、 メール に 添付 する ファイル に 容量 の 制限 は あり ます か ？ ]
#9=[Outlook 2010 にて 、 長期 休暇 など 長期 で メール の 返事 が でき ない 際 、 メール の 自動 応答 を さ せ たい の です が 、 設定 方法 を 教え て ください 。 ]


### TFベクターを作成（＝LDAの入力イメージ）

In [34]:
from time import time
from sklearn.feature_extraction.text import CountVectorizer

n_features = 1000
print("Extracting tf features for LDA...")
tf_vectorizer = CountVectorizer(max_df=0.66,
                                min_df=1,
                                max_features=n_features # 特徴語の上限
                                )
t0 = time()
tf = tf_vectorizer.fit_transform(corpus)
print("done in %0.3fs." % (time() - t0))

Extracting tf features for LDA...
done in 0.003s.


- TFベクターは、scipy.sparse（疎行列）イメージとのことです。

 この例ですと、99 件のテキスト（コーパス）×特徴語件数（304件、後述）という行列データが疎行列化されているようです。 

In [35]:
print(type(tf))

<class 'scipy.sparse.csr.csr_matrix'>


- TFベクターの中身（抜粋）

 テキスト（コーパス）における、特徴語の出現回数であることがわかります。

In [36]:
tf.data[0:9]

array([1, 1, 1, 1, 1, 1, 1, 2, 1], dtype=int64)

### 特徴語を確認

In [37]:
tf_feature_names = tf_vectorizer.get_feature_names()
len(tf_feature_names)

304

In [38]:
tf_feature_names

['2000',
 '365',
 'bcc',
 'co',
 'daikin',
 'deleted',
 'drafts',
 'email',
 'enter',
 'hp',
 'html',
 'id',
 'ie',
 'ime',
 'items',
 'jp',
 'junk',
 'mcafee',
 'office',
 'outｌook',
 'ouｔlook',
 'owa',
 'thunderbird',
 'url',
 'vcard',
 'vpn',
 'web',
 'あり',
 'いい',
 'いいえ',
 'いちいち',
 'いる',
 'かかる',
 'かつ',
 'から',
 'ください',
 'こちら',
 'こと',
 'しまい',
 'しまう',
 'しまっ',
 'しよ',
 'すべて',
 'する',
 'すれ',
 'せる',
 'たい',
 'ため',
 'たら',
 'だっ',
 'でき',
 'できる',
 'でしょ',
 'です',
 'という',
 'として',
 'どう',
 'ない',
 'なく',
 'なっ',
 'なで',
 'など',
 'なり',
 'にくい',
 'にて',
 'ので',
 'はい',
 'はず',
 'ほしい',
 'まし',
 'ます',
 'ませ',
 'やり方',
 'よう',
 'より',
 'られ',
 'られる',
 'れる',
 'わずらわしい',
 'アイテム',
 'アカウント',
 'アドインメッセージ',
 'アドレス',
 'イン',
 'インストール',
 'インデックス',
 'インデント',
 'イントラ',
 'エクスポート',
 'エラー',
 'エラーメッセージ',
 'オフライン',
 'キャンセル',
 'クリック',
 'グループ',
 'グローバル',
 'コード',
 'サイン',
 'サーバ',
 'スパムフォルダ',
 'タイトル',
 'ダイキン',
 'テンプレート',
 'デフォルト',
 'データ',
 'トレイ',
 'ドライブ',
 'ネットワーク',
 'ハードディスク',
 'パスワード',
 'ファイル',
 'フィールド',
 'フォルダ',
 'プレビュー',
 'プロファイル',
 'ページ',

### 学習実行

In [39]:
from sklearn.decomposition import LatentDirichletAllocation

print("Fitting LDA models with tf features, "
      "n_samples=%d and n_features=%d..."
      % (n_samples, n_features))
lda = LatentDirichletAllocation(n_topics=10, # トピック分類件数
                                max_iter=20, # 繰り返し実行
                                learning_method='online', # 学習実行-->即結果を出力
                                learning_offset=25.,
                                random_state=1)
t0 = time()
answers = lda.fit_transform(tf)
print("done in %0.3fs." % (time() - t0))

Fitting LDA models with tf features, n_samples=99 and n_features=1000...
done in 0.249s.


### トピックに含まれる上位の特徴語

In [40]:
def get_top_words_in_topic(lda, tf_feature_names, n_top_words):
    top_words = []

    for topic_idx, topic in enumerate(lda.components_):
        # 特徴語のインデックスを、単語出現確率の高いもの順に取得
        top_words_idx_list = topic.argsort()
        reverse_idx = -n_top_words - 1
        top_words_idx = top_words_idx_list[:reverse_idx:-1]

        # 特徴語をリストに取得
        top_words_list = [tf_feature_names[i] for i in top_words_idx]
        top_words.append(top_words_list)

    # 上位の特徴語リストを戻す
    return top_words

In [41]:
n_top_words = 15

def print_top_words_in_topic(lda, tf_feature_names, n_top_words):
    top_words_list = get_top_words_in_topic(lda, tf_feature_names, n_top_words)
    for topic_idx, top_words in enumerate(top_words_list):
        print("Topic #%d:" % topic_idx)
        print(",".join(top_words))

print_top_words_in_topic(lda, tf_feature_names, n_top_words)

Topic #0:
しまい,まし,辞書,消え,ime,以前,インストール,登録,内容,表示,ない,アドレス,簡単,できる,検索
Topic #1:
メール,にて,迷惑,利用,たい,です,フォルダ,すれ,まし,表示,いい,junk,email,どう,なっ
Topic #2:
容量,ます,データ,制限,ドライブ,ハードディスク,ファイル,あり,圧迫,英語,する,存在,添付,ダイキン,利用
Topic #3:
表示,ない,する,起動,画面,れる,設定,アドレス,欲しい,教え,にて,よう,メール,アカウント,ouｔlook
Topic #4:
表示,ほしい,誤っ,ouｔlook,件名,方法,しまっ,トレイ,操作,教え,対応,れる,受信,フィールド,削除
Topic #5:
表示,owa,ませ,メール,数字,入力,長期,ので,欲しい,解除,変わっ,媒体,インストール,という,方法
Topic #6:
届く,正常,スパムフォルダ,トレイ,よう,受信,たい,メール,にて,です,thunderbird,同様,でしょ,可能,インデント
Topic #7:
でき,にて,ない,メール,表示,アドレス,検索,送信,ませ,設定,いる,まし,する,から,なく
Topic #8:
あり,ます,thunderbird,機能,メール,送信,トレイ,リンク,として,テンプレート,違い,同等,書か,url,受信
Topic #9:
メール,にて,教え,欲しい,方法,する,たい,thunderbird,可能,です,から,対応,送信,設定,でしょ


### トピックの分類結果（＝LDAの出力イメージ）

LDA の fit_transform 関数の実行結果は、２次元配列となっています。

１次元め＝質問文のインデックスに対応します（各質問文ごとの、トピックに該当する確率のリスト）。

In [42]:
answers[0:5]

array([[ 0.00909101,  0.00909242,  0.00909109,  0.00909148,  0.00909102,
         0.00909116,  0.00909112,  0.00909224,  0.00909126,  0.91817719],
       [ 0.01428591,  0.01428647,  0.01428594,  0.01428629,  0.01428603,
         0.01428742,  0.01428599,  0.01428675,  0.01428604,  0.87142316],
       [ 0.01250009,  0.01250255,  0.01250059,  0.01250078,  0.01250006,
         0.01250125,  0.01250025,  0.01250282,  0.88748372,  0.0125079 ],
       [ 0.006667  ,  0.00666738,  0.00666676,  0.00666701,  0.00666679,
         0.00666682,  0.0066668 ,  0.93999578,  0.00666822,  0.00666744],
       [ 0.00500009,  0.0050002 ,  0.00500013,  0.00500072,  0.00500006,
         0.0050001 ,  0.0050001 ,  0.95499736,  0.00500013,  0.0050011 ]])

２次元目＝それぞれのトピックに該当する確率になります。

（下記例では１０番目のトピックに該当する確率が91.8%とのこと）

In [43]:
answers[0]

array([ 0.00909101,  0.00909242,  0.00909109,  0.00909148,  0.00909102,
        0.00909116,  0.00909112,  0.00909224,  0.00909126,  0.91817719])

### 分類結果の検証

それぞれの質問文が、どのトピックに分類されたかを検証してみます。

In [44]:
def get_hit_topic_idx(probs):
    topic_idx = 0
    max_prob = 0.0
    for i in range(0, len(probs)):
        if max_prob < probs[i]:
            topic_idx = i
            max_prob = probs[i]

    return topic_idx

In [45]:
# トピックの上位特徴語を表示
print_top_words_in_topic(lda, tf_feature_names, n_top_words)

# 最初の１０件の質問文について検証してみます
for data_idx in range(0, 10): 
    topic_idx = get_hit_topic_idx(answers[data_idx])
    topic_prob_rate = answers[data_idx][topic_idx] * 100
    
    print("==========")
    print("Sample Text #%d ---> Topic #%d (%0.1f%%):" % (data_idx, topic_idx, topic_prob_rate))
    print(origin_text[data_idx])

Topic #0:
しまい,まし,辞書,消え,ime,以前,インストール,登録,内容,表示,ない,アドレス,簡単,できる,検索
Topic #1:
メール,にて,迷惑,利用,たい,です,フォルダ,すれ,まし,表示,いい,junk,email,どう,なっ
Topic #2:
容量,ます,データ,制限,ドライブ,ハードディスク,ファイル,あり,圧迫,英語,する,存在,添付,ダイキン,利用
Topic #3:
表示,ない,する,起動,画面,れる,設定,アドレス,欲しい,教え,にて,よう,メール,アカウント,ouｔlook
Topic #4:
表示,ほしい,誤っ,ouｔlook,件名,方法,しまっ,トレイ,操作,教え,対応,れる,受信,フィールド,削除
Topic #5:
表示,owa,ませ,メール,数字,入力,長期,ので,欲しい,解除,変わっ,媒体,インストール,という,方法
Topic #6:
届く,正常,スパムフォルダ,トレイ,よう,受信,たい,メール,にて,です,thunderbird,同様,でしょ,可能,インデント
Topic #7:
でき,にて,ない,メール,表示,アドレス,検索,送信,ませ,設定,いる,まし,する,から,なく
Topic #8:
あり,ます,thunderbird,機能,メール,送信,トレイ,リンク,として,テンプレート,違い,同等,書か,url,受信
Topic #9:
メール,にて,教え,欲しい,方法,する,たい,thunderbird,可能,です,から,対応,送信,設定,でしょ
Sample Text #0 ---> Topic #9 (91.8%):
Outlook2010にてメールを送信する際、自分宛のメールをBCCで運用したいのですが？ 
Sample Text #1 ---> Topic #9 (87.1%):
Outlook2010にて、メールの署名の作り方が教えてください。 
Sample Text #2 ---> Topic #8 (88.7%):
Thunderbirdのテンプレートメールと同等の機能はOutlook2010にありますか？ 
Sample Text #3 ---> Topic #7 (94.0%):
Thunderbirdの場合、「宛先」に姓を入れるとアドレス帳の候補者が出ましたが、Outlook2010で