# LDAの動作確認 part 3 (回答文)

続いて、回答文に対するLDAの動作確認を行いました。

### 日本語のテストデータを抽出

In [1]:
import os
import pandas

def replace_newline(val):
    return val.replace('\r', '').replace('\n', '')

n_samples = 100

csvDir = "../learning/tests/engine/fixtures/"
csvFile = "test_daikin_conversation.csv"
csvPath = os.path.join(csvDir, csvFile)

csvTemp = pandas.read_csv(csvPath, encoding='Shift_JIS')
csvData = csvTemp.drop_duplicates(subset=['answer_id'])

testData = csvData.ix[0:n_samples-1, ['question', 'answer_body']]
testData

Unnamed: 0,question,answer_body
0,Outlook2010にてメールを送信する際、自分宛のメールをBCCで運用したいのですが？,Thunderbirdではメールを作成した際、自動的にBCCに自分のメールアドレスが設定され...
1,Outlook2010にて、メールの署名の作り方が教えてください。,署名の作り方については『【Outlook2010操作マニュアル 応用編】 署名の作成』を参照...
2,Thunderbirdのテンプレートメールと同等の機能はOutlook2010にありますか？,Outlook2010にはThunderbirdのテンプレートと同様の機能はありません。\r...
3,Thunderbirdの場合、「宛先」に姓を入れるとアドレス帳の候補者が出ましたが、Outl...,Outlook2010では、過去に入力したアドレスを記憶するオートコンプリート機能がついてい...
4,Outlookにて、メールアドレス検索の時にアドレス一覧をいちいち選択するのがわずらわしいで...,可能です。\r方法については『【Outlook2010操作マニュアル 応用編】 アドレス検索...
5,Outlook2010にて、メールの再編集は可能ですか？,方法については『【Outlook2010操作マニュアル 基本編】 送信済メールの再利用（メー...
6,Outlook2010にて、未読メールを探すのが大変です。,方法については『【Outlook2010操作マニュアル 応用編】 検索フォルダ―(未読のメー...
7,ThunderbirdとOutlook2010では送信済トレイの違いはありますか？,Outlook2010とThunderbirdでは送信済トレイのフォルダ名が異なります。\r...
8,Outlook2010にて、メールに添付するファイルに容量の制限はありますか？,添付ファイルの容量の制限は10MBです。\r（メーリングリストも同様になります。）
9,Outlook2010にて、長期休暇など長期でメールの返事ができない際、メールの自動応答をさ...,Outlook2010には自動応答機能は存在しますが、原則利用しないでください。\r\r自動...


### MeCab を準備

In [2]:
import MeCab
meCab = MeCab.Tagger('-Owakati -d /usr/local/lib/mecab/dic/ipadic')

### コーパスを作成

In [3]:
corpus = []
origin_text = []

for i in range(0, n_samples):
    try:
        answer_body = testData.ix[i, 'answer_body']
    except:
        continue
    answer_body = replace_newline(answer_body)
    parsed_text = meCab.parse(answer_body)
    corpus.append(replace_newline(parsed_text))
    origin_text.append(replace_newline(answer_body))

In [4]:
n_samples = len(corpus)
print('Parsed answer (count=%d):' % n_samples)

# 最初の１０件を表示
for i in range(0, 10):
    #for debug
    print('#%d=[%s]' % (i, corpus[i]))

Parsed answer (count=99):
#0=[Thunderbird で は メール を 作成 し た 際 、 自動的 に BCC に 自分 の メールアドレス が 設定 さ れ て い まし た が 、 Outlook 2010 より BCC に 自動的 に 自分 の メールアドレス が 設定 さ れ なく なり まし た 。 自分 自身 が 送信 し た メール に つき まし て は 、 『 送信 済み トレイ ( Sent Items )』 に 格納 さ れ て おり ます ので 、 そちら で ご 確認 ください 。 また 、 Outlook 2010 で の BCC の 設定 方法 に つき まし て は こちら を ご 確認 ください 。 【 手順 】 １ ． メール 作成 画面 の リボン から 『 オプション 』 を 選択 し ます 。 ２ ． 『 BCC 』 を クリック し ます 。 ３ ． 『 BCC 』 の 項目 が 、 『 CC 』 の 下 に 表示 さ れ ます 。 　 　 補足 一 度 、 設定 する と 本 設定 は 常に 有効 に なり ます 。 その 都度 設定 する 必要 は あり ませ ん 。 ]
#1=[署名 の 作り方 について は 『 【 Outlook 2010 操作 マニュアル 応用 編 】 署名 の 作成 』 を 参照 し て ください 。 http :// www . intra . daikin . co . jp / office 365 / ol 2010 / Applied . html ? cid = C 008 【 手順 】 １ ． リボン から 『 ファイル 』 を 選択 し 、 『 オプション 』 を 押下 し ます 。 ２ ． 『 メール 』 を 押下 し ます ３ ． 『 署名 』 ボタン を 押下 し ます 。 ４ ． 『 新規 作成 』 ボタン を 押下 し ます 。 ５ ． 署名 の 名前 を 入力 し ます 。 （ 分かり やすい 名前 を つけ て ください 。 ） ６ ． 『 OK 』 ボタン を 押下 し ます 。 ７ ． 作成 し た 署名 を 選択 し ます 。 （ 既に 作成 さ れ て いる 場合 は 、 編集 し たい 署名 を 選択 ) ８ ． 署名 

### TFベクターを作成

In [5]:
from time import time
from sklearn.feature_extraction.text import CountVectorizer

n_features = 1000
print("Extracting tf features for LDA...")
tf_vectorizer = CountVectorizer(max_df=0.66,
                                min_df=1,
                                max_features=n_features # 特徴語の上限
                                )
t0 = time()
tf = tf_vectorizer.fit_transform(corpus)
print("done in %0.3fs." % (time() - t0))

Extracting tf features for LDA...
done in 0.007s.


### 特徴語を確認

In [6]:
tf_feature_names = tf_vectorizer.get_feature_names()
len(tf_feature_names)

768

In [7]:
tf_feature_names

['002',
 '003',
 '006',
 '007',
 '008',
 '009',
 '01',
 '012',
 '013',
 '014',
 '08',
 '10',
 '102817357',
 '11',
 '132',
 '15',
 '20',
 '2000',
 '2010',
 '2014',
 '205',
 '27',
 '28',
 '365',
 '400',
 '413',
 '413３',
 '50',
 'and',
 'application',
 'applied',
 'aspx',
 'basic',
 'bat',
 'bcc',
 'big',
 'cannotconnect',
 'cc',
 'cid',
 'co',
 'com',
 'csv',
 'daikin',
 'data',
 'deleted',
 'dic',
 'directory',
 'dki',
 'doc',
 'docthunderbird',
 'documents',
 'drafts',
 'dvd',
 'editprofile',
 'email',
 'en',
 'excel',
 'excenge',
 'exchange',
 'exe',
 'faq',
 'fax',
 'files',
 'folders',
 'for',
 'gb',
 'grp',
 'ha',
 'help',
 'hp',
 'html',
 'http',
 'id',
 'ie',
 'imap',
 'ime',
 'imjp',
 'inbox',
 'index',
 'inquiry',
 'install',
 'intra',
 'it',
 'item',
 'items',
 'ja',
 'jp',
 'js',
 'junk',
 'lan',
 'ldap',
 'ldapmanual',
 'light',
 'local',
 'loginservlet',
 'mail',
 'mailstore',
 'manual',
 'mb',
 'mcafee',
 'mdb',
 'microsoft',
 'mozilla',
 'msi',
 'net',
 'numlock',
 'off',

### 学習実行

In [8]:
from sklearn.decomposition import LatentDirichletAllocation

print("Fitting LDA models with tf features, "
      "n_samples=%d and n_features=%d..."
      % (n_samples, n_features))
lda = LatentDirichletAllocation(n_topics=15, # トピック分類件数
                                max_iter=30, # 繰り返し実行
                                learning_method='online', # 学習実行-->即結果を出力
                                learning_offset=25.,
                                random_state=1)
t0 = time()
answers = lda.fit_transform(tf)
print("done in %0.3fs." % (time() - t0))

Fitting LDA models with tf features, n_samples=99 and n_features=1000...
done in 0.612s.


### トピックに含まれる上位の特徴語

In [9]:
def get_top_words_in_topic(lda, tf_feature_names, n_top_words):
    top_words = []

    for topic_idx, topic in enumerate(lda.components_):
        # 特徴語のインデックスを、単語出現確率の高いもの順に取得
        top_words_idx_list = topic.argsort()
        reverse_idx = -n_top_words - 1
        top_words_idx = top_words_idx_list[:reverse_idx:-1]

        # 特徴語をリストに取得
        top_words_list = [tf_feature_names[i] for i in top_words_idx]
        top_words.append(top_words_list)

    # 上位の特徴語リストを戻す
    return top_words

In [10]:
n_top_words = 15

def print_top_words_in_topic(lda, tf_feature_names, n_top_words):
    top_words_list = get_top_words_in_topic(lda, tf_feature_names, n_top_words)
    for topic_idx, top_words in enumerate(top_words_list):
        print("Topic #%d:" % topic_idx)
        print(",".join(top_words))

print_top_words_in_topic(lda, tf_feature_names, n_top_words)

Topic #0:
いただく,パス,囲っ,れる,こと,url,改善,同期,メール,まし,確認,失敗,という,クリック,ツール
Topic #1:
メール,利用,送信,再送,新規,手順,あり,場合,365,ので,端末,集中,購買,用途,office
Topic #2:
署名,押下,選択,オプション,ok,作成,から,です,www,いただく,deleted,ボタン,応用,最大,手順
Topic #3:
メール,フォルダ,する,outlook,送信,場合,いる,ない,ファイル,手順,選択,から,表示,設定,あり
Topic #4:
する,から,設定,office,クリック,メール,手順,差出人,起動,返信,選択,インデント,端末,いる,テキスト
Topic #5:
変更,en,ja,太郎,大金,アドレス,taro,お願い,fax,ポート,daikin,イン,仕様,致し,削除
Topic #6:
アドレス,押下,outlook,選択,ボタン,ファイル,表示,する,使用,手順,メール,個人,開き,削除,カナ
Topic #7:
場合,社外,メール,容量,確認,ない,電話,制限,なり,あり,形式,アド,サーバ,正しい,画像
Topic #8:
www,メール,自動,daikin,場合,行っ,office,接続,intra,web,ha,co,html,必要,id
Topic #9:
ユーザ,daikin,co,jp,id,確認,場合,いる,あり,パスワード,ログイン,入力,メールアドレス,仕分け,ルール
Topic #10:
押下,outlook,ボタン,選択,設定,クリック,から,する,検索,メール,アドレス,表示,手順,作成,2010
Topic #11:
手順,確認,以下,メール,outlook,場合,から,ない,クリック,office,表示,削除,いる,起動,実施
Topic #12:
検索,アドレス,する,名前,こと,押下,でき,入力,2010,オートコンプリート,宛先,簡易,daikin,ませ,outlook
Topic #13:
microsoft,最新,light,ie,対応,について,owa,替わっ,ha,いき,com,102817357,致し,ja,１つ
Topic #14:
設定,メール,ローカル,以下,差出人,co,場合,jp,daikin,office

### 分類結果の検証

それぞれの質問文が、どのトピックに分類されたかを検証してみます。

In [11]:
def get_hit_topic_idx(probs):
    topic_idx = 0
    max_prob = 0.0
    for i in range(0, len(probs)):
        if max_prob < probs[i]:
            topic_idx = i
            max_prob = probs[i]

    return topic_idx

In [12]:
# トピックの上位特徴語を表示
print_top_words_in_topic(lda, tf_feature_names, n_top_words)

# 最初の１０件の質問文について検証してみます
for data_idx in range(0, 10): 
    topic_idx = get_hit_topic_idx(answers[data_idx])
    topic_prob_rate = answers[data_idx][topic_idx] * 100
    
    print("==========")
    print("Sample Text #%d ---> Topic #%d (%0.1f%%):" % (data_idx, topic_idx, topic_prob_rate))
    print(origin_text[data_idx])

Topic #0:
いただく,パス,囲っ,れる,こと,url,改善,同期,メール,まし,確認,失敗,という,クリック,ツール
Topic #1:
メール,利用,送信,再送,新規,手順,あり,場合,365,ので,端末,集中,購買,用途,office
Topic #2:
署名,押下,選択,オプション,ok,作成,から,です,www,いただく,deleted,ボタン,応用,最大,手順
Topic #3:
メール,フォルダ,する,outlook,送信,場合,いる,ない,ファイル,手順,選択,から,表示,設定,あり
Topic #4:
する,から,設定,office,クリック,メール,手順,差出人,起動,返信,選択,インデント,端末,いる,テキスト
Topic #5:
変更,en,ja,太郎,大金,アドレス,taro,お願い,fax,ポート,daikin,イン,仕様,致し,削除
Topic #6:
アドレス,押下,outlook,選択,ボタン,ファイル,表示,する,使用,手順,メール,個人,開き,削除,カナ
Topic #7:
場合,社外,メール,容量,確認,ない,電話,制限,なり,あり,形式,アド,サーバ,正しい,画像
Topic #8:
www,メール,自動,daikin,場合,行っ,office,接続,intra,web,ha,co,html,必要,id
Topic #9:
ユーザ,daikin,co,jp,id,確認,場合,いる,あり,パスワード,ログイン,入力,メールアドレス,仕分け,ルール
Topic #10:
押下,outlook,ボタン,選択,設定,クリック,から,する,検索,メール,アドレス,表示,手順,作成,2010
Topic #11:
手順,確認,以下,メール,outlook,場合,から,ない,クリック,office,表示,削除,いる,起動,実施
Topic #12:
検索,アドレス,する,名前,こと,押下,でき,入力,2010,オートコンプリート,宛先,簡易,daikin,ませ,outlook
Topic #13:
microsoft,最新,light,ie,対応,について,owa,替わっ,ha,いき,com,102817357,致し,ja,１つ
Topic #14:
設定,メール,ローカル,以下,差出人,co,場合,jp,daikin,office