# LDAの動作確認 part 4 (追加学習をしたときの挙動確認)

part 3（LDA_in_scikit_learn_02）と同様の手順にて、追加学習が行われた時の挙動をみるために、再試行しております。

追加学習のたびに、トピックの意味が変わってしまったり、分類の精度が落ちてしまう・・・などといった、大きな影響は見られませんでした。

### 日本語のテストデータを抽出

In [29]:
import os
import pandas

def replace_newline(val):
    return val.replace('\r', '').replace('\n', '')

n_samples = 100

csvDir = "../learning/tests/engine/fixtures/"
csvFile = "test_daikin_conversation.csv"
csvPath = os.path.join(csvDir, csvFile)

csvTemp = pandas.read_csv(csvPath, encoding='Shift_JIS')
csvData = csvTemp.drop_duplicates(subset=['answer_id'])

testData = csvData.ix[0:n_samples-1, ['question', 'answer_body']]
testData

Unnamed: 0,question,answer_body
0,Outlook2010にてメールを送信する際、自分宛のメールをBCCで運用したいのですが？,Thunderbirdではメールを作成した際、自動的にBCCに自分のメールアドレスが設定され...
1,Outlook2010にて、メールの署名の作り方が教えてください。,署名の作り方については『【Outlook2010操作マニュアル 応用編】 署名の作成』を参照...
2,Thunderbirdのテンプレートメールと同等の機能はOutlook2010にありますか？,Outlook2010にはThunderbirdのテンプレートと同様の機能はありません。\r...
3,Thunderbirdの場合、「宛先」に姓を入れるとアドレス帳の候補者が出ましたが、Outl...,Outlook2010では、過去に入力したアドレスを記憶するオートコンプリート機能がついてい...
4,Outlookにて、メールアドレス検索の時にアドレス一覧をいちいち選択するのがわずらわしいで...,可能です。\r方法については『【Outlook2010操作マニュアル 応用編】 アドレス検索...
5,Outlook2010にて、メールの再編集は可能ですか？,方法については『【Outlook2010操作マニュアル 基本編】 送信済メールの再利用（メー...
6,Outlook2010にて、未読メールを探すのが大変です。,方法については『【Outlook2010操作マニュアル 応用編】 検索フォルダ―(未読のメー...
7,ThunderbirdとOutlook2010では送信済トレイの違いはありますか？,Outlook2010とThunderbirdでは送信済トレイのフォルダ名が異なります。\r...
8,Outlook2010にて、メールに添付するファイルに容量の制限はありますか？,添付ファイルの容量の制限は10MBです。\r（メーリングリストも同様になります。）
9,Outlook2010にて、長期休暇など長期でメールの返事ができない際、メールの自動応答をさ...,Outlook2010には自動応答機能は存在しますが、原則利用しないでください。\r\r自動...


### MeCab を準備

In [30]:
import MeCab
meCab = MeCab.Tagger('-Owakati -d /usr/local/lib/mecab/dic/ipadic')

### コーパスを作成

In [31]:
corpus = []
origin_text = []

for i in range(0, n_samples):
    try:
        question = testData.ix[i, 'question']
    except:
        continue
    question = replace_newline(question)
    parsed_text = meCab.parse(question)
    corpus.append(replace_newline(parsed_text))
    origin_text.append(replace_newline(question))

In [32]:
n_samples = len(corpus)
print('Parsed questions (count=%d):' % n_samples)

# 最初の１０件を表示
for i in range(0, 10):
    #for debug
    print('#%d=[%s]' % (i, corpus[i]))

Parsed questions (count=99):
#0=[Outlook 2010 にて メール を 送信 する 際 、 自分 宛 の メール を BCC で 運用 し たい の です が ？ ]
#1=[Outlook 2010 にて 、 メール の 署名 の 作り方 が 教え て ください 。 ]
#2=[Thunderbird の テンプレート メール と 同等 の 機能 は Outlook 2010 に あり ます か ？ ]
#3=[Thunderbird の 場合 、 「 宛先 」 に 姓 を 入れる と アドレス 帳 の 候補 者 が 出 まし た が 、 Outlook 2010 で アドレス を 簡単 に 検索 できる 機能 は ない です か ？ ]
#4=[Outlook にて 、 メールアドレス 検索 の 時 に アドレス 一覧 を いちいち 選択 する の が わずらわしい です 、 こちら の 意図 し た アドレス 一覧 を デフォルト に 設定 でき ない の でしょ う か ？ ]
#5=[Outlook 2010 にて 、 メール の 再 編集 は 可能 です か ？ ]
#6=[Outlook 2010 にて 、 未読 メール を 探す の が 大変 です 。 ]
#7=[Thunderbird と Outlook 2010 で は 送信 済 トレイ の 違い は あり ます か ？ ]
#8=[Outlook 2010 にて 、 メール に 添付 する ファイル に 容量 の 制限 は あり ます か ？ ]
#9=[Outlook 2010 にて 、 長期 休暇 など 長期 で メール の 返事 が でき ない 際 、 メール の 自動 応答 を さ せ たい の です が 、 設定 方法 を 教え て ください 。 ]


### TFベクターを作成（＝LDAの入力イメージ）

In [33]:
from time import time
from sklearn.feature_extraction.text import CountVectorizer

n_features = 1000
print("Extracting tf features for LDA...")
tf_vectorizer = CountVectorizer(max_df=0.66,
                                min_df=1,
                                max_features=n_features # 特徴語の上限
                                )
t0 = time()
tf = tf_vectorizer.fit_transform(corpus)
print("done in %0.3fs." % (time() - t0))

Extracting tf features for LDA...
done in 0.004s.


- TFベクターは、scipy.sparse（疎行列）イメージとのことです。

 この例ですと、99 件のテキスト（コーパス）×特徴語件数（304件、後述）という行列データが疎行列化されているようです。 

In [34]:
print(type(tf))
tf

<class 'scipy.sparse.csr.csr_matrix'>


<99x304 sparse matrix of type '<class 'numpy.int64'>'
	with 982 stored elements in Compressed Sparse Row format>

- TFベクターの中身（抜粋）

 テキスト（コーパス）における、特徴語の出現回数であることがわかります。

In [35]:
tf.data[0:9]

array([1, 1, 1, 1, 1, 1, 1, 2, 1], dtype=int64)

### 特徴語を確認

In [8]:
tf_feature_names = tf_vectorizer.get_feature_names()
len(tf_feature_names)

304

長くなってしまい申し訳ありませんが・・・確認のため、全量を表示させます。

In [36]:
tf_feature_names

['2000',
 '365',
 'bcc',
 'co',
 'daikin',
 'deleted',
 'drafts',
 'email',
 'enter',
 'hp',
 'html',
 'id',
 'ie',
 'ime',
 'items',
 'jp',
 'junk',
 'mcafee',
 'office',
 'outｌook',
 'ouｔlook',
 'owa',
 'thunderbird',
 'url',
 'vcard',
 'vpn',
 'web',
 'あり',
 'いい',
 'いいえ',
 'いちいち',
 'いる',
 'かかる',
 'かつ',
 'から',
 'ください',
 'こちら',
 'こと',
 'しまい',
 'しまう',
 'しまっ',
 'しよ',
 'すべて',
 'する',
 'すれ',
 'せる',
 'たい',
 'ため',
 'たら',
 'だっ',
 'でき',
 'できる',
 'でしょ',
 'です',
 'という',
 'として',
 'どう',
 'ない',
 'なく',
 'なっ',
 'なで',
 'など',
 'なり',
 'にくい',
 'にて',
 'ので',
 'はい',
 'はず',
 'ほしい',
 'まし',
 'ます',
 'ませ',
 'やり方',
 'よう',
 'より',
 'られ',
 'られる',
 'れる',
 'わずらわしい',
 'アイテム',
 'アカウント',
 'アドインメッセージ',
 'アドレス',
 'イン',
 'インストール',
 'インデックス',
 'インデント',
 'イントラ',
 'エクスポート',
 'エラー',
 'エラーメッセージ',
 'オフライン',
 'キャンセル',
 'クリック',
 'グループ',
 'グローバル',
 'コード',
 'サイン',
 'サーバ',
 'スパムフォルダ',
 'タイトル',
 'ダイキン',
 'テンプレート',
 'デフォルト',
 'データ',
 'トレイ',
 'ドライブ',
 'ネットワーク',
 'ハードディスク',
 'パスワード',
 'ファイル',
 'フィールド',
 'フォルダ',
 'プレビュー',
 'プロファイル',
 'ページ',

### 学習実行

確認をやりやすくするために、初期学習用データ(９７件)と、追加学習用データ(２件)に分けます。

（バラでTFベクターを作ってしまうと、次元数やインデックスがずれて、動作確認ができなくなってしまうための措置）

In [37]:
tf

<99x304 sparse matrix of type '<class 'numpy.int64'>'
	with 982 stored elements in Compressed Sparse Row format>

In [38]:
tf_init = tf[0:97]
tf_init

<97x304 sparse matrix of type '<class 'numpy.int64'>'
	with 950 stored elements in Compressed Sparse Row format>

In [39]:
tf_add = tf[97:]
tf_add

<2x304 sparse matrix of type '<class 'numpy.int64'>'
	with 32 stored elements in Compressed Sparse Row format>

初期学習用のデータを使用して学習を実行します。

In [40]:
from sklearn.decomposition import LatentDirichletAllocation

print("Fitting LDA models with tf features, "
      "n_samples=%d and n_features=%d..."
      % (n_samples, n_features))
lda = LatentDirichletAllocation(n_topics=10, # トピック分類件数
                                max_iter=20, # 繰り返し実行
                                learning_method='online', # 学習実行-->即結果を出力
                                learning_offset=25.,
                                random_state=1)
t0 = time()
lda.fit(tf_init)
answers = lda.transform(tf_init)

print("done in %0.3fs." % (time() - t0))

Fitting LDA models with tf features, n_samples=99 and n_features=1000...
done in 0.243s.


### トピックに含まれる上位の特徴語

In [41]:
def get_top_words_in_topic(lda, tf_feature_names, n_top_words):
    top_words = []

    for topic_idx, topic in enumerate(lda.components_):
        # 特徴語のインデックスを、単語出現確率の高いもの順に取得
        top_words_idx_list = topic.argsort()
        reverse_idx = -n_top_words - 1
        top_words_idx = top_words_idx_list[:reverse_idx:-1]

        # 特徴語をリストに取得
        top_words_list = [tf_feature_names[i] for i in top_words_idx]
        top_words.append(top_words_list)

    # 上位の特徴語リストを戻す
    return top_words

In [42]:
n_top_words = 15

def print_top_words_in_topic(lda, tf_feature_names, n_top_words):
    top_words_list = get_top_words_in_topic(lda, tf_feature_names, n_top_words)
    for topic_idx, top_words in enumerate(top_words_list):
        print("Topic #%d:" % topic_idx)
        print(",".join(top_words))

print_top_words_in_topic(lda, tf_feature_names, n_top_words)

Topic #0:
まし,しまい,辞書,消え,ime,以前,インストール,登録,内容,表示,あり,ユーザー,owa,アドレス,パスワード
Topic #1:
メール,にて,利用,です,フォルダ,すれ,まし,表示,いい,迷惑,junk,email,ない,どう,よう
Topic #2:
する,容量,英語,ダイキン,制限,存在,ファイル,あり,利用,添付,いる,設定,ます,欲しい,教え
Topic #3:
表示,する,ない,起動,れる,画面,設定,アドレス,欲しい,教え,にて,メール,アカウント,ouｔlook,ライセンス
Topic #4:
表示,ほしい,誤っ,ouｔlook,件名,方法,しまっ,トレイ,操作,教え,対応,れる,受信,フィールド,削除
Topic #5:
owa,ませ,長期,メール,表示,欲しい,変わっ,媒体,インストール,という,web,勝手,開き,イン,見れ
Topic #6:
届く,データ,容量,正常,圧迫,スパムフォルダ,ます,トレイ,ハードディスク,ドライブ,よう,受信,たい,メール,にて
Topic #7:
でき,にて,メール,ない,表示,アドレス,検索,送信,ませ,いる,設定,する,まし,から,thunderbird
Topic #8:
あり,ます,thunderbird,機能,メール,送信,トレイ,リンク,として,テンプレート,違い,同等,書か,url,受信
Topic #9:
メール,にて,教え,欲しい,方法,たい,可能,です,から,する,thunderbird,受信,対応,設定,でしょ


### トピックの分類結果（＝LDAの出力イメージ）

LDA の fit_transform 関数の実行結果は、２次元配列となっています。

１次元め＝質問文のインデックスに対応します（各質問文ごとの、トピックに該当する確率のリスト）。

In [43]:
answers[0:5]

array([[ 0.00909101,  0.00909224,  0.00909119,  0.00909157,  0.00909102,
         0.00909107,  0.00909107,  0.00909242,  0.00909128,  0.91817713],
       [ 0.01428588,  0.01428641,  0.01428594,  0.0142863 ,  0.01428601,
         0.0142867 ,  0.01428594,  0.01428706,  0.01428602,  0.87142375],
       [ 0.01250014,  0.01250222,  0.01250035,  0.01250074,  0.01250006,
         0.01250061,  0.01250037,  0.01250322,  0.88748655,  0.01250576],
       [ 0.00666723,  0.00666749,  0.00666678,  0.00666702,  0.00666681,
         0.00666686,  0.00666681,  0.93999522,  0.00666832,  0.00666746],
       [ 0.0050001 ,  0.00500023,  0.00500016,  0.00500073,  0.00500007,
         0.00500009,  0.0050001 ,  0.95499729,  0.00500013,  0.00500109]])

２次元目＝それぞれのトピックに該当する確率になります。

（下記例では１０番目のトピックに該当する確率が91.8%とのこと）

In [44]:
answers[0]

array([ 0.00909101,  0.00909224,  0.00909119,  0.00909157,  0.00909102,
        0.00909107,  0.00909107,  0.00909242,  0.00909128,  0.91817713])

### 分類結果の検証

それぞれの質問文が、どのトピックに分類されたかを検証してみます。

In [45]:
def get_hit_topic_idx(probs):
    topic_idx = 0
    max_prob = 0.0
    for i in range(0, len(probs)):
        if max_prob < probs[i]:
            topic_idx = i
            max_prob = probs[i]

    return topic_idx

In [46]:
# トピックの上位特徴語を表示
print_top_words_in_topic(lda, tf_feature_names, n_top_words)

# 最初の１０件の質問文について検証してみます
for data_idx in range(0, 10): 
    topic_idx = get_hit_topic_idx(answers[data_idx])
    topic_prob_rate = answers[data_idx][topic_idx] * 100
    
    print("==========")
    print("Sample Text #%d ---> Topic #%d (%0.1f%%):" % (data_idx, topic_idx, topic_prob_rate))
    print(origin_text[data_idx])

Topic #0:
まし,しまい,辞書,消え,ime,以前,インストール,登録,内容,表示,あり,ユーザー,owa,アドレス,パスワード
Topic #1:
メール,にて,利用,です,フォルダ,すれ,まし,表示,いい,迷惑,junk,email,ない,どう,よう
Topic #2:
する,容量,英語,ダイキン,制限,存在,ファイル,あり,利用,添付,いる,設定,ます,欲しい,教え
Topic #3:
表示,する,ない,起動,れる,画面,設定,アドレス,欲しい,教え,にて,メール,アカウント,ouｔlook,ライセンス
Topic #4:
表示,ほしい,誤っ,ouｔlook,件名,方法,しまっ,トレイ,操作,教え,対応,れる,受信,フィールド,削除
Topic #5:
owa,ませ,長期,メール,表示,欲しい,変わっ,媒体,インストール,という,web,勝手,開き,イン,見れ
Topic #6:
届く,データ,容量,正常,圧迫,スパムフォルダ,ます,トレイ,ハードディスク,ドライブ,よう,受信,たい,メール,にて
Topic #7:
でき,にて,メール,ない,表示,アドレス,検索,送信,ませ,いる,設定,する,まし,から,thunderbird
Topic #8:
あり,ます,thunderbird,機能,メール,送信,トレイ,リンク,として,テンプレート,違い,同等,書か,url,受信
Topic #9:
メール,にて,教え,欲しい,方法,たい,可能,です,から,する,thunderbird,受信,対応,設定,でしょ
Sample Text #0 ---> Topic #9 (91.8%):
Outlook2010にてメールを送信する際、自分宛のメールをBCCで運用したいのですが？ 
Sample Text #1 ---> Topic #9 (87.1%):
Outlook2010にて、メールの署名の作り方が教えてください。 
Sample Text #2 ---> Topic #8 (88.7%):
Thunderbirdのテンプレートメールと同等の機能はOutlook2010にありますか？ 
Sample Text #3 ---> Topic #7 (94.0%):
Thunderbirdの場合、「宛先」に姓を入れるとアドレス帳の候補者が出ましたが、Outloo

### 追加学習

上記までの手順で訓練したLDAモデルを使用して、検証用データ（２件）を追加で与え、検証を行います。

In [47]:
lda.partial_fit(tf_add)
answers_new = lda.transform(tf_add)
answers_new

array([[ 0.00666669,  0.07405928,  0.00666675,  0.6245668 ,  0.00666687,
         0.00666673,  0.00666669,  0.00666685,  0.0066667 ,  0.25470663],
       [ 0.00454547,  0.00454548,  0.00454549,  0.00454568,  0.25355471,
         0.0045455 ,  0.00454547,  0.42324205,  0.00454549,  0.29138466]])

どのトピックに分類されているでしょうか？　前項と同じ手順で検証します。

（検証したテキストのインデックスは #97, #98 になります）

In [48]:
# トピックの上位特徴語を表示
print_top_words_in_topic(lda, tf_feature_names, n_top_words)

# 追加学習分（２件）の質問文について検証してみます
for data_idx in [97, 98]:
    idx = data_idx - 97
    topic_idx = get_hit_topic_idx(answers_new[idx])
    topic_prob_rate = answers_new[idx][topic_idx] * 100
    
    print("==========")
    print("Sample Text #%d ---> Topic #%d (%0.1f%%):" % (data_idx, topic_idx, topic_prob_rate))
    print(origin_text[data_idx])

Topic #0:
まし,しまい,辞書,消え,ime,以前,インストール,登録,内容,数字,mcafee,アドインメッセージ,表示,あり,はい
Topic #1:
られ,いいえ,mcafee,アドインメッセージ,はい,表示,起動,いる,選択,求め,対応,欲しい,教え,方法,メール
Topic #2:
する,いる,容量,英語,ダイキン,制限,存在,ファイル,あり,利用,添付,設定,ます,欲しい,教え
Topic #3:
選択,求め,起動,表示,アドインメッセージ,いいえ,はい,mcafee,欲しい,教え,られ,いる,対応,方法,する
Topic #4:
数字,enter,書き,実行,文章,にくい,ほしい,方法,表示,教え,解除,入力,ので,本文,作成
Topic #5:
owa,ませ,長期,メール,表示,欲しい,変わっ,媒体,インストール,という,web,勝手,開き,イン,見れ
Topic #6:
届く,データ,容量,正常,圧迫,スパムフォルダ,ます,トレイ,ハードディスク,ドライブ,よう,いいえ,数字,受信,たい
Topic #7:
入力,解除,表示,メール,ので,する,にて,数字,にくい,作成,実行,書き,enter,文章,ほしい
Topic #8:
あり,ます,thunderbird,機能,メール,送信,トレイ,リンク,として,テンプレート,違い,同等,書か,url,受信
Topic #9:
方法,教え,メール,本文,対応,いる,作成,数字,にて,ほしい,する,欲しい,ので,文章,mcafee
Sample Text #97 ---> Topic #3 (62.5%):
Outlook2010起動時、McAfeeのアドインメッセージが表示された、「はい」と「いいえ」の選択を求められている。対応方法を教えて欲しい。
Sample Text #98 ---> Topic #7 (42.3%):
Outlook2010にて、メール本文作成時に数字を入力後、文章を入力しEnterを実行すると次の行に数字が表示され、メールが書きにくいので、解除方法を教えてほしい。


正しく分類できているようです。

同じLDAモデルを使用した学習ですので、トピックの数や意味じたいは変わらないようです。

ただし、追加学習前とトピックの内容（トピック内の単語ランキング）が異なってしまう・・・という影響があるようです。

### 先行学習時のデータを再度与える

試しにもう一度、９７件の先行データに含まれる最初の２件のデータを使い、追加学習してみます。

結果はどうなるでしょうか？

In [49]:
tf_add_2 = tf[0:2]
tf_add_2

<2x304 sparse matrix of type '<class 'numpy.int64'>'
	with 15 stored elements in Compressed Sparse Row format>

In [50]:
lda.partial_fit(tf_add_2)
answers_new_2 = lda.transform(tf_add_2)
answers_new_2

array([[ 0.00909092,  0.00909091,  0.00909099,  0.00909091,  0.00909092,
         0.00909115,  0.3805095 ,  0.33578747,  0.22006466,  0.00909256],
       [ 0.01428574,  0.01428573,  0.01428579,  0.01428627,  0.01428592,
         0.49528143,  0.01428596,  0.01429043,  0.01428633,  0.3904264 ]])

In [51]:
# トピックの上位特徴語を表示
print_top_words_in_topic(lda, tf_feature_names, n_top_words)

# 追加学習分（２件）の質問文について検証してみます
for data_idx in [0, 1]:
    idx = data_idx
    topic_idx = get_hit_topic_idx(answers_new_2[idx])
    topic_prob_rate = answers_new_2[idx][topic_idx] * 100
    
    print("==========")
    print("Sample Text #%d ---> Topic #%d (%0.1f%%):" % (data_idx, topic_idx, topic_prob_rate))
    print(origin_text[data_idx])

Topic #0:
まし,しまい,辞書,消え,ime,以前,インストール,登録,内容,数字,署名,作り方,mcafee,アドインメッセージ,です
Topic #1:
られ,いいえ,mcafee,アドインメッセージ,はい,表示,起動,いる,選択,求め,対応,欲しい,教え,方法,メール
Topic #2:
する,いる,容量,英語,ダイキン,制限,存在,ファイル,あり,利用,添付,設定,ます,署名,欲しい
Topic #3:
選択,求め,起動,表示,アドインメッセージ,いいえ,はい,mcafee,欲しい,教え,られ,いる,対応,方法,する
Topic #4:
数字,enter,書き,実行,文章,にくい,ほしい,方法,表示,教え,解除,入力,ので,本文,作成
Topic #5:
ください,作り方,署名,メール,にて,教え,owa,ませ,長期,表示,欲しい,変わっ,媒体,インストール,という
Topic #6:
たい,です,自分,運用,bcc,メール,送信,にて,する,届く,データ,容量,正常,圧迫,スパムフォルダ
Topic #7:
メール,入力,する,にて,解除,表示,ので,数字,にくい,作成,実行,書き,enter,文章,ほしい
Topic #8:
送信,bcc,運用,自分,です,メール,たい,にて,する,あり,ます,thunderbird,機能,トレイ,リンク
Topic #9:
教え,メール,方法,にて,本文,対応,いる,作成,数字,ほしい,する,欲しい,ので,文章,mcafee
Sample Text #0 ---> Topic #6 (38.1%):
Outlook2010にてメールを送信する際、自分宛のメールをBCCで運用したいのですが？ 
Sample Text #1 ---> Topic #5 (49.5%):
Outlook2010にて、メールの署名の作り方が教えてください。 


正しく分類できているようです。

ただし、トピックの内容（トピック内の単語ランキング）が前回学習時と異なってしまうという挙動は一緒でした。