In [1]:
import sys
sys.path.append('../Data')

import pandas as pd
import numpy as np
import time
from CommentDataset import CommentDataset

comment_list_name = "20230927_ootani_migihizi_syuzyutu"
comment_list_path = "2023_09_27/" + comment_list_name + ".csv"

# 指定すべき文字コードはファイルによる(cp932 or utf-8)
df = pd.read_csv("../Data/yahoo/"+comment_list_path, encoding="cp932", header=None)
# comment_list = df[0][1:].to_numpy().tolist()
comment_list = df[0][1:].to_numpy().tolist()
comment_dataset = CommentDataset(comment_list)
comment_dataset.delete_comment_specified_string(50)
comment_list = comment_dataset.comment_list
comment_dataset.formatted_input_hlda(appear_tagging_list=["名詞", "形容詞", "動詞"], stop_tagging_list=["助詞", "助動詞", "非自立"])

In [2]:
from hlda.sampler import HierarchicalLDA

#default
# n_samples = 500       # no of iterations for the sampler
n_samples = 500       # no of iterations for the sampler
alpha = 10.0          # smoothing over level distributions
gamma = 1.0           # CRP smoothing parameter; number of imaginary customers at next, as yet unused table
eta = 0.1             # smoothing over topic-word distributions
num_levels = 3        # the number of levels in the tree
display_topics = 50   # the number of iterations between printing a brief summary of the topics so far
n_words = 10           # the number of most probable words to print for each topic after model estimation
with_weights = False  # whether to print the words with the weights

In [3]:
hlda = HierarchicalLDA(comment_dataset.comment_list, comment_dataset.voc, alpha=alpha, gamma=gamma, eta=eta, num_levels=num_levels)
hlda.estimate(n_samples, display_topics=display_topics, n_words=n_words, with_weights=with_weights)

HierarchicalLDA sampling

.................................................. 50
topic=0 level=0 (documents=412): 大谷, 手術, 選手, 思う, 成功, 二刀流, 活躍, 早い, 見る, 良い, 
    topic=1 level=1 (documents=119): 打者, 投手, 手術, 負担, リハビリ, れる, 身体, 大谷翔平, 言う, せる, 
        topic=2 level=2 (documents=8): 与える, 子供, 存在, 世の中, スイーパー, これ, 再来年, ベスト, 向ける, 解説者, 
        topic=7 level=2 (documents=7): 舞台, 聞く, 前向き, こちら, 微笑む, 理由, 気味, 張り, 好く, 自分, 
        topic=9 level=2 (documents=7): どこか, 継続, 決断, 方向性, 運ぶ, 強豪, 進化, 種類, 支える, ブランク, 
        topic=11 level=2 (documents=11): 靭帯, 継続, 鍛える, 記録, 強化, ホームラン, 超える, 早期, 徹底, 出力, 
        topic=17 level=2 (documents=14): マメ, 続ける, 超一流, 感動, 努める, 焦る, 指先, 無理, 治す, プレースタイル, 
        topic=20 level=2 (documents=2): くん, 左腕, 星飛雄馬, 右腕, 大リーグボール, できる, 終わる, 頑張る, 大好き, 3号, 
        topic=24 level=2 (documents=7): 生きる, オーバーワーク, 努力, 熱意, みる, 延びる, シュート, 確実, 勝ち取る, 一足, 
        topic=35 level=2 (documents=5): 9月, 監督, 日本語, 話す, がる, 翔平, 早期, 事実, 悔しい, 稀代, 
        topic=39 level=2 (documents=10): 仕事, アメリカ, 素人, 山本昌, 凄い

In [4]:
from model.HldaModel import ExpandHldaModel
import os

create_date = "2023_09_27"
parameter_name = "default"
model_name = comment_list_name + "_" + parameter_name + ".pickle"
model_dir = "model/pickle/" + create_date + "/" +model_name
create_date_path = "model/pickle/" + create_date

if not os.path.exists(create_date_path):
    os.makedirs(create_date_path)

expandHlda = ExpandHldaModel(pickle_path=hlda)
expandHlda.save_zipped_pickle(filename=model_dir)

In [None]:
# expandHlda.get_topic_multi_document(comment_list=comment_list, corpus=comment_dataset.comment_list)

In [None]:
expandHlda.print_phrases(comment_list=comment_list, corpus=comment_dataset.comment_list, n_phrase=3, with_score=True)

In [7]:
# expandHlda.print_multi_node(comment_list=comment_list, corpus=comment_dataset.comment_list, n_phrase=3, with_score=True)

In [8]:
expandHlda.get_topic_by_sentence(comment_list=comment_list, corpus=comment_dataset.comment_list, n_words=5)

0:今の日本の運転免許証ってとても優秀なものだと思うんですけどね。
node_id:628, node_words:エラー(4.0),それぞれ(4.0),推し進める(3.0),出る(3.0),脆弱(3.0), probability:0.025
1:数年に一度必ず本人出向いて更新するから身元確認にもなるし顔写真ついてるからすぐその場で本人確認できるし。
node_id:116, node_words:更新(27.0),ゴールド(6.0),ブルー(4.0),即日(3.0),会場(2.0), probability:0.189
2:なんにせよあらゆることを一つだけに絞るとそれがダメになった時にどうしようもなくなるのでリスクが大きくなると思います。
node_id:776, node_words:ダメ(6.0),くっつける(2.0),警察官(2.0),絡む(2.0),一つ(2.0), probability:0.17
3:昭和おっさんの記憶ですが、テレビとビデオをくっつけたものは結局すたれたし、ファミコンとディスクシステム？だったかな？、をくっつけてもダメでしたね。
node_id:776, node_words:ダメ(6.0),くっつける(2.0),警察官(2.0),絡む(2.0),一つ(2.0), probability:0.189
4:一つダメになると他も使えなくなるので。
node_id:776, node_words:ダメ(6.0),くっつける(2.0),警察官(2.0),絡む(2.0),一つ(2.0), probability:0.151
------------------------------------------------------------------
0:紛失時のリスクをマイナカードに集約してしまうと、再発行されるまで病院にも行けない、車にも乗れない、となりますね。
node_id:9, node_words:紛失(31.0),発行(30.0),リスク(14.0),無くす(14.0),病院(13.0), probability:0.266
1:役所が休みの土日や盆暮れだと、相当生活に影響が出そう。
node_id:791, node_words:普及(7.0),値する(2.0),普通(2.0),身元(1.0),今更(1.0), probab

In [None]:
# sentence="河野、岸田お前たちの頭狂っているのではないのか、これ以上馬鹿な政策は止めろ、狂気の沙汰としか見えないぞ"
# expandHlda.get_topic_one_sentence(sentence=sentence, corpus=comment_dataset.comment_list, n_words=10, node_id=7)

In [None]:
# sentence="河野、岸田お前たちの頭狂っているのではないのか、これ以上馬鹿な政策は止めろ、狂気の沙汰としか見えないぞ"
# expandHlda.get_topic_one_sentence_with_color(sentence=sentence, corpus=comment_dataset.comment_list, n_words=10, node_id=7)

In [None]:
expandHlda.get_topic_with_color(comment_list=comment_list, corpus=comment_dataset.comment_list, n_words=10)

0:今の[31m日本[0mの運転免許証ってとても優秀だものだと思うんですけどね。
node_id:533, node_words:デジタル(12.0),対応(6.0),世界(5.0),企業(4.0),状態(4.0),日本(4.0),必須(3.0),優先(3.0),言える(3.0),大事(3.0), probability:0.033
1:数年に一度必ず本人出向くて[31m更新[0mするから身元確認にもなるき顔写真ついてるからすぐその場で本人確認できるし。
node_id:764, node_words:更新(24.0),ゴールド(4.0),即日(3.0),読み取り(2.0),検査(2.0),いく(2.0),こっち(2.0),手間(2.0),装置(2.0),政権(2.0), probability:0.255
2:**なんにするあらゆることを[31m一つ[0mだけに絞るとそれが[31mダメ[0mになるた時にどうしようもなくなるのでリスクが大きいなると思うます。
node_id:854, node_words:最初(3.0),一つ(3.0),ダメ(3.0),まとめる(3.0),振り回す(3.0),くっつける(2.0),活用(2.0),様々(2.0),根源(2.0),ツール(2.0), probability:0.092
3:*
node_id:854, node_words:最初(3.0),一つ(3.0),ダメ(3.0),まとめる(3.0),振り回す(3.0),くっつける(2.0),活用(2.0),様々(2.0),根源(2.0),ツール(2.0), probability:0.0
4:昭和おっさんの記憶ですが、テレビとビデオを[31mくっつける[0mたものは結局すたれるたし、ファミコンとディスクシステム？だたかな？、を[31mくっつける[0mても[31mダメ[0mですたね。
node_id:854, node_words:最初(3.0),一つ(3.0),ダメ(3.0),まとめる(3.0),振り回す(3.0),くっつける(2.0),活用(2.0),様々(2.0),根源(2.0),ツール(2.0), probability:0.092
5:[31m一つ[0m[31mダメ[0mになると他も使えるないなるので。
node_id:854, no

In [9]:
expandHlda.print_topic_multi_document(comment_list=comment_list, corpus=comment_dataset.comment_list, topic_id=708)

No.1
「国民の非難轟轟のマイナ保険証に加えて運転免許証もマイナンバーに一本化するなんてとんでもない話しです。個人情報を集約したマイナンバーを常に形態しなければならない事は国民にとってリスクしかありません。そもそも欧州をはじめとする諸外国はマイナンバーを制度化して失敗し結局、廃止にシテイマス。それなのに何故、政府自民は強行するのか。そんなにマイナ制度をやりたければ、政府自民議員だけで導入して、社会実験として資産や収入、口座、保険証、運転免許証などあらゆる情報を一本化して国民に不正なカネの動きがないか目が届く制度にすれば良いと思います。」
0.927
No.2
「運転免許や保険証とかの個人の情報をマイナンバーに集約するというのはそれはそれでわからんことはないんだけども、それを物理的なカードに集約してしまうってのは、紛失の際のリスクや暗証番号を間違えたときの再設定とかを考慮すると、むりやり進める必要はないけども、どうして突っ走るのかね、自民党は本当のあほうなのか？、ファザコン河野も民主のせいというならさっさとやめれ」
0.853
No.3
「保険証や免許証をマイナンバーカードに集約したい人もいるし、集約したくない人もいる。だから、選択肢を増やして、それぞれの移行状況を見ながら、その割合で決めればいいのに、一気にやってしまおうと、選択の自由を強引に奪おうとするから反発される。自由民主党じゃなく、不自由非民主党じゃんか。」
0.847
No.4
「オランダに駐在した時、オランダの運転免許証に書き換えした際に日本の運転免許証を取り上げられました。日本の運転免許証と交換したことになります。在オランダ日本大使館とオランダ政府との間で特別に日本の運転免許証を本人に返す約束ができていたので、数カ月後に戻ってきました。もし、マイナンバーカードが運転免許証を兼ねるとなれば、免許の記載事項が明記されていないので外国で用を足さない。記載されたとして、取り上げられて返却されないとなった場合、帰国した時、どうすればいいのでしょうかね？　外国の運転免許証でマイナンバーカードを発行してくれるのでしょうか？　今の政府はこのようなことまで考えていないでしょうね。」
0.729
No.5
「あらゆる情報がマイナンバーカードに集約されて、そのうち犬猫みたいにマイクロチップが埋め込まれるようになるのでしょう