In [1]:
from google.colab import drive
drive.mount('/content/drive')
%cd /content/drive/MyDrive/cssws2023


ModuleNotFoundError: No module named 'google'

### 国会会議録データの前処理
- 必要なライブラリとデータを読み込みます。

In [2]:
import pandas as pd
import numpy as np
#import MeCab as mc
from collections import Counter
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"


In [3]:
import pickle
with open('data/bow.pickle','rb') as f:
    bow = pickle.load(f)

### 自然言語処理用ライブラリgensimの使い方
- gensimを使うとトピックモデルだけでなく、word2vecなどの様々な自然言語処理モデルを使うことができます。使い方を習得しておきましょう。

In [4]:
import gensim
from gensim import corpora

- gensimで扱うデータ形式は、辞書とコーパスです。
  - これを作るためには、分かち書きされた文書のリストが必要となります。これは単語を要素とするリストのリストです。

- 辞書はid:tokenのようにidとトークンを紐付けています。
  ```
  id1:token1
  id2:token2
  ...
  ```
  - dictionary[id]とすれば、トークンが得られます。

In [5]:
#辞書の作成
dictionary = corpora.Dictionary(bow)


In [7]:
dictionary[1000]

'税制改正'

In [8]:
print(dictionary)
print(f'全文書数:{str(dictionary.num_docs)}')
print(f'全出現単語数: {str(dictionary.num_pos)}')
id = 0
print(f'id: {id},token: {dictionary[id]}')
token = 'コロナ'
print(f'token: {token}, id: {dictionary.token2id[token]}')


Dictionary<55855 unique tokens: ['これだけ', 'ぱんでみっく!!', 'オンライン', 'コロナ禍', 'ゴール']...>
全文書数:38657
全出現単語数: 3769123
id: 0,token: これだけ
token: コロナ, id: 193


In [9]:
dictionary.filter_extremes(no_below=10, no_above=0.8, keep_n=100000)


- 次にコーパス（文書単語行列)を作成します。
    - dictionary.doc2bow()を使うと分かち書き文書が文書単語行列の行、つまりbag of wordsベクトルに変換されます。

- 文書単語「行列」にするには、単にforループですべての分かち書き文書にdictionary.doc2bow()を適用します。

In [10]:
dictionary.doc2bow(bow[0])

[(0, 1),
 (1, 1),
 (2, 8),
 (3, 1),
 (4, 1),
 (5, 1),
 (6, 1),
 (7, 1),
 (8, 1),
 (9, 2),
 (10, 1),
 (11, 1),
 (12, 1),
 (13, 1),
 (14, 1),
 (15, 1),
 (16, 2),
 (17, 2),
 (18, 1),
 (19, 1),
 (20, 1),
 (21, 1),
 (22, 1),
 (23, 2),
 (24, 1),
 (25, 1),
 (26, 1),
 (27, 1),
 (28, 1),
 (29, 1),
 (30, 1),
 (31, 1),
 (32, 1),
 (33, 1),
 (34, 1),
 (35, 1),
 (36, 1),
 (37, 3),
 (38, 1),
 (39, 1),
 (40, 1),
 (41, 1),
 (42, 1),
 (43, 1),
 (44, 1),
 (45, 1),
 (46, 1),
 (47, 1),
 (48, 1),
 (49, 1),
 (50, 1),
 (51, 1),
 (52, 1),
 (53, 1),
 (54, 1),
 (55, 3),
 (56, 1),
 (57, 1),
 (58, 1),
 (59, 2),
 (60, 3),
 (61, 1),
 (62, 1)]

In [11]:
corpus = [dictionary.doc2bow(item) for item in bow]

In [12]:
corpus

[[(0, 1),
  (1, 1),
  (2, 8),
  (3, 1),
  (4, 1),
  (5, 1),
  (6, 1),
  (7, 1),
  (8, 1),
  (9, 2),
  (10, 1),
  (11, 1),
  (12, 1),
  (13, 1),
  (14, 1),
  (15, 1),
  (16, 2),
  (17, 2),
  (18, 1),
  (19, 1),
  (20, 1),
  (21, 1),
  (22, 1),
  (23, 2),
  (24, 1),
  (25, 1),
  (26, 1),
  (27, 1),
  (28, 1),
  (29, 1),
  (30, 1),
  (31, 1),
  (32, 1),
  (33, 1),
  (34, 1),
  (35, 1),
  (36, 1),
  (37, 3),
  (38, 1),
  (39, 1),
  (40, 1),
  (41, 1),
  (42, 1),
  (43, 1),
  (44, 1),
  (45, 1),
  (46, 1),
  (47, 1),
  (48, 1),
  (49, 1),
  (50, 1),
  (51, 1),
  (52, 1),
  (53, 1),
  (54, 1),
  (55, 3),
  (56, 1),
  (57, 1),
  (58, 1),
  (59, 2),
  (60, 3),
  (61, 1),
  (62, 1)],
 [(3, 1),
  (17, 1),
  (33, 1),
  (40, 4),
  (51, 1),
  (52, 1),
  (53, 1),
  (57, 1),
  (63, 1),
  (64, 1),
  (65, 1),
  (66, 1),
  (67, 1),
  (68, 1),
  (69, 1),
  (70, 1),
  (71, 2),
  (72, 1),
  (73, 1),
  (74, 2),
  (75, 1),
  (76, 1),
  (77, 1),
  (78, 1),
  (79, 1),
  (80, 1),
  (81, 1),
  (82, 1),
  (83, 1)

In [13]:
len(corpus)

38657

- 作成した辞書とコーパスの保存には特殊なコマンドを使います。

In [14]:
dictionary.save('data/corona.dict')
corpora.MmCorpus.serialize('data/corona.mm', corpus)

In [15]:
#データ読み込み
dictionary = corpora.Dictionary.load('data/corona.dict')
corpus = corpora.MmCorpus('data/corona.mm')

### トピックモデルの実行
- gensimによるトピックモデルの実行は、辞書とコーパスがあれば一行ですみます。
- 辞書とコーパスを入力し、 トピック数を指定します。ここでは、トピック数を8とします。


In [16]:
n_topic = 8
lda_model = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=n_topic, random_state=0)

In [17]:
import os
if not os.path.exists('model'):
    os.makedirs('model')
lda_model.save('model/lda_model8')

In [None]:
#読み込み
#lda_model = gensim.models.ldamodel.LdaModel.load('lda_model8')

- トピック数と文書数を確認します。

In [18]:
no_topics = lda_model.num_topics
no_docs = len(corpus)
print('# of topics: %i' % no_topics)
print('# of documents: %i' % no_docs)

# of topics: 8
# of documents: 38657


- トピックの内容を確認します。show_topicsを用いるとトピックが表示されます。
    - topics[n]でも個々のトピックの内容を入手できる
    - dataframeで見やすく表示

In [19]:
topics = lda_model.show_topics(num_topics=-1, num_words=20, log=False, formatted=True)
topics

[(0,
  '0.011*"支援" + 0.011*"学校" + 0.008*"問題" + 0.008*"相談" + 0.007*"子供" + 0.007*"制度" + 0.007*"必要" + 0.006*"状況" + 0.006*"対応" + 0.005*"子供達" + 0.005*"声" + 0.005*"休校" + 0.005*"女性" + 0.005*"現場" + 0.005*"一人" + 0.004*"コロナ" + 0.004*"質問" + 0.004*"仕事" + 0.004*"学生" + 0.004*"休業"'),
 (1,
  '0.016*"影響" + 0.015*"支援" + 0.012*"対応" + 0.011*"経済" + 0.011*"対策" + 0.010*"事業者" + 0.009*"事業" + 0.009*"状況" + 0.009*"予算" + 0.008*"必要" + 0.007*"%" + 0.007*"円" + 0.007*"金" + 0.007*"政府" + 0.006*"補正予算" + 0.006*"雇用" + 0.006*"制度" + 0.006*"中小企業" + 0.006*"企業" + 0.006*"新型コロナウイルス感染症"'),
 (2,
  '0.026*"感染" + 0.021*"検査" + 0.017*"対応" + 0.015*"対策" + 0.014*"必要" + 0.013*"状況" + 0.013*"医療" + 0.013*"体制" + 0.012*"新型コロナウイルス感染症" + 0.012*"患者" + 0.011*"感染症" + 0.011*"医療機関" + 0.010*"新型コロナウイルス" + 0.010*"防止" + 0.009*"感染拡大" + 0.007*"措置" + 0.007*"地域" + 0.007*"病院" + 0.007*"マスク" + 0.006*"確保"'),
 (3,
  '0.012*"対応" + 0.010*"情報" + 0.009*"対策" + 0.008*"必要" + 0.008*"関係" + 0.008*"新型コロナウイルス感染症" + 0.007*"連携" + 0.007*"実施" + 0.007*"政府" + 0.007*"検討" + 0.007*"推進

- ただし、この形式（タプルのリスト）では後々扱いにくいので、整形をしていくことにします。

In [20]:
table = pd.DataFrame()
for num in range(0,len(topics)):
    row = []
    for item in topics[num][1].split('*"'):#タプルの1番目を取得し、'*"'で分割。
        if item.find('" + ')!=-1:#'" + 'がある場合、'" + 'で分けて0番目を取得すれば、単語が得られる。
            row.append(item.split('" + ')[0])
        elif item.find('"')!=-1:#'" + 'がなく、'"'がある場合、末尾なので'"'の前を取得する。
            row.append(item.split('"')[0])
    table['topic%s'%num]=row

In [21]:
table

Unnamed: 0,topic0,topic1,topic2,topic3,topic4,topic5,topic6,topic7
0,支援,影響,感染,対応,国民,支援,地域,質問
1,学校,支援,検査,情報,日本,取組,状況,新型コロナウイルス
2,問題,対応,対応,対策,問題,整備,影響,対応
3,相談,経済,対策,必要,国会,復興,日本,国民
4,子供,対策,必要,関係,議論,重要,中国,総理
5,制度,事業者,状況,新型コロナウイルス感染症,政府,災害,観光,感染
6,必要,事業,医療,連携,中国,必要,質問,政府
7,状況,状況,体制,実施,総理,強化,対策,ワクチン
8,対応,予算,新型コロナウイルス感染症,政府,国,推進,国,コロナ
9,子供達,必要,患者,検討,必要,対策,地元,対策


- データフレームでは確率表示は省略しましたが、get_topic_terms()で得られます。

- idではなく、tokenで見たければ、次のようにします。

In [None]:
[(dictionary.id2token[item[0]], item[1]) for item in lda_model.get_topic_terms(0, topn=20)]

[('支援', 0.011251113),
 ('学校', 0.011009855),
 ('問題', 0.008085389),
 ('相談', 0.007500519),
 ('子供', 0.0071557504),
 ('制度', 0.0071271486),
 ('必要', 0.007055509),
 ('状況', 0.0060131056),
 ('対応', 0.005979213),
 ('子供達', 0.005292775),
 ('声', 0.0049804416),
 ('休校', 0.0048019476),
 ('女性', 0.0046378993),
 ('現場', 0.004556614),
 ('一人', 0.0045514223),
 ('コロナ', 0.004451968),
 ('質問', 0.004309169),
 ('仕事', 0.004236042),
 ('学生', 0.003806128),
 ('休業', 0.0038040874)]

- 文書ごとのトピック比率の表示は少し面倒です。
- get_document_topics()にbowベクトル（corpus[i]）を渡せば得られますが…

In [22]:
lda_model.get_document_topics(corpus[1])

[(0, 0.20461291),
 (1, 0.16323583),
 (3, 0.488843),
 (4, 0.079528645),
 (7, 0.060118686)]

- 小さな確率が切り捨てられているため、足しても1になりません。

In [23]:
total = 0
for item in lda_model.get_document_topics(corpus[1]):
  print(item[1])
  total +=item[1]
print(total)

0.20464529
0.16328573
0.488831
0.07952773
0.060050126
0.9963398911058903


- per_word_topics=Trueとすると、単語ごとのトピック割り当て確率（正確には標準化して確率を得る）が得られます。
  - 返り値は3つの要素のリストとなっていて、0番目はper_word_topics=Falseの時と同じ、文書全体のトピック比率、1番目は単語ごとのトピック推定（高確率順）、そして2番目が語に対するφ値となります。
    - φ値は確率と一致しないので、標準化して確率に変換します。

In [24]:
lda_model.get_document_topics(corpus[0],per_word_topics=True)

([(0, 0.2898752), (3, 0.35876226), (4, 0.28108054), (5, 0.06417377)],
 [(0, [0, 4, 3]),
  (1, [4, 3, 0]),
  (2, [0, 3, 4, 5]),
  (3, [0, 4, 3, 5]),
  (4, [0, 5]),
  (5, [4, 0, 3, 5]),
  (6, [3, 5, 0]),
  (7, [3, 0, 4, 5]),
  (8, [3, 0, 4, 5]),
  (9, [3, 0, 5, 4]),
  (10, [0, 5]),
  (11, [4, 0, 3]),
  (12, [0, 4]),
  (13, [0, 4, 3, 5]),
  (14, [0, 4, 3, 5]),
  (15, [3, 4, 0, 5]),
  (16, [3, 0, 5, 4]),
  (17, [4, 0, 3]),
  (18, [0, 3, 4, 5]),
  (19, [3]),
  (20, [3]),
  (21, [3, 4, 5]),
  (22, [4, 3, 0, 5]),
  (23, [3, 0, 5, 4]),
  (24, [3, 4, 5, 0]),
  (25, [3, 4, 0, 5]),
  (26, [4, 3, 0, 5]),
  (27, [0, 3, 4, 5]),
  (28, [3, 4]),
  (29, [3, 0, 4, 5]),
  (30, [3, 4, 0, 5]),
  (31, [3, 0, 4]),
  (32, [3, 5, 0, 4]),
  (33, [3, 4, 0, 5]),
  (34, [3, 4, 0, 5]),
  (35, [3, 4, 5, 0]),
  (36, [0, 5]),
  (37, [4, 3, 0]),
  (38, [3, 0, 4]),
  (39, [3, 0, 4, 5]),
  (40, [3, 4, 0, 5]),
  (41, [3, 4, 0, 5]),
  (42, [4, 3, 0, 5]),
  (43, [0, 4, 3, 5]),
  (44, [5, 3, 4, 0]),
  (45, [0, 4, 3, 5]),
  (

- ある文書のトピック比率を計算する関数topic_countを作成します。

In [25]:
def topic_count(i):
    row = np.zeros(no_topics) #トピック数の次元をもつゼロベクトル
    for word, top_distr in lda_model.get_document_topics(corpus[i], per_word_topics=True)[2]:
        for top, phi in top_distr: #該当するトピック次元にφ値を記入
            row[top] += phi
    row /=row.sum() # φ値を確率に変換
    return row

In [26]:
topic_count(1)

array([0.20569621, 0.16372022, 0.        , 0.49313666, 0.07866914,
       0.        , 0.        , 0.05877778])

In [27]:
np.sum(topic_count(1))

1.0

- この関数を用いて、すべての文書のトピック比率を計算します。
- doc_topという行列を作成し、文書iについて各トピックjの比率を書き込みます。

In [28]:
doc_top = np.zeros([no_docs,no_topics])
for i in range(no_docs):
    doc_top[i] = topic_count(i)


In [29]:
doc_top = pd.DataFrame(doc_top, columns = ['topic'+str(i) for i in range(n_topic)])

In [30]:
doc_top

Unnamed: 0,topic0,topic1,topic2,topic3,topic4,topic5,topic6,topic7
0,0.292170,0.000000,0.000000,0.362023,0.282988,0.062819,0.000000,0.000000
1,0.205694,0.163725,0.000000,0.493136,0.078666,0.000000,0.000000,0.058779
2,0.055045,0.060730,0.000000,0.779399,0.000000,0.104826,0.000000,0.000000
3,0.251836,0.000000,0.000000,0.253393,0.179910,0.204841,0.000000,0.110020
4,0.553043,0.000000,0.000000,0.390288,0.056669,0.000000,0.000000,0.000000
...,...,...,...,...,...,...,...,...
38652,0.168214,0.128233,0.006780,0.043250,0.178196,0.359557,0.105030,0.010739
38653,0.137153,0.102474,0.041556,0.069935,0.161661,0.403512,0.071569,0.012141
38654,0.000000,0.071789,0.000000,0.190965,0.683102,0.021349,0.016747,0.016047
38655,0.016650,0.021460,0.025117,0.369828,0.492608,0.008298,0.066038,0.000000


- トピックの解釈の妥当性を確認するために、特定トピックの比率の高い文書を抽出します。
  - 元のデータフレームにトピック比率のデータフレームをマージして、ソートします。

In [31]:
dat = pd.read_csv('data/kokkai_corona.csv')

In [32]:
dat = dat.merge(doc_top,left_index=True,right_index=True)

In [None]:
dat.to_csv('data/kokkai_corona_topic8.csv',index=False)

In [44]:
import random
random.sample([item for item in dat.sort_values('topic0', ascending=False)['speech'][:2000]],20)


['○山井委員\u3000ですから、もうほとんどはこれは認められるというふうに理解してよろしいですよね、コロナが理由だと言っているのであれば。今言ったように、自己都合の人は申請しませんよ、もとから。\n\u3000それで、実は、実際にあったケースなんですけれども、不支給になった人から、なぜ不支給になったのかわからないと言われるんです。\n\u3000例えば、言い方は悪いけれども、ある人間関係が壊れている労使の場合、店長さんが、いや、自己都合でやめたんですよと言っちゃう危険性がありますよね。そういうふうに申請者の意向と反することを事業主が言った場合は、事業主はこう言っていますけれども本当ですかという問合せは申請者に必ずしていただけますか。',
 '○渡辺（周）委員\u3000ほかの質問もありますので、これで最後にしたいと思いますけれども、ある日突然、みんな命を、その船に乗り合わせた方々が、全く違う人生の方々が、みんなそこで同じ最後、運命をたどることになった。もう何という不条理かというふうに思うんです。\n\u3000結婚の約束をして、その船の上でプロポーズをするつもりでいた人も、あるいは、最後に配偶者に携帯から、沈む船の上から、今までありがとうと電話をした高齢者の方もいらっしゃいました。何よりも、三歳の子供が、こんな冷たい海の中で、家族とばらばらになって命を失った。せめて、この行方不明になった方のことを、何とかしてあげたいと本当に思うんです。ですから、二度とこういうことがあってはならないです。\n\u3000また、二度と行政が、うっかりしていたとか見落としていたとかそんなような理由で、やはり命を預かるビジネス、仕事をする人に対しては規制を厳しくするべきです。とにかく、当然、どんな形でも念には念を入れるべきだと思います。それが、私たち政治に携わる者の、犠牲になった方々へのやはり答えだというふうに思うんですね。ですから、そこのところは引き続き追及をしていきたいと思います。\n\u3000もう五分になったけれども、この問題と違って、観光庁に伺いたいんですが、ちょっと別の質問です。\n\u3000コロナの、昨日から、海外から四つの国、アメリカとオーストラリアとタイとシンガポールですか、パッケージツアーの方々が入国をテスト的にされました。とにかく、観光インバウンドの回復に備えて

In [33]:
for item in dat.sort_values('topic0', ascending=False)['speech'][:20]:
  print(item+'\n')

○杉本委員　日本維新の会、維新の杉本和巳であります。
　まず、二十日の日に、航空自衛隊の隊員がアメリカにおいて訓練中、二等空尉、殉職されました。誠に残念の極みでありますが、ここに敬意を表し、殉職された隊員の御冥福をお祈り申し上げたく存じます。
　また、今日は、ニュージーランド地震から十年、そして、一週間余り前、二月十三日に東北の地震が、今も高橋さんが質疑されていましたけれども、地震があって、三月十一日、間もなく迎えようとしております。そういった二月二十二日という日にちは、また竹島の日でもあります。
　そういった意味で、今日は二点、緊急事態というか災害というか、そういった観点のやはりコロナの問題、そしてもう一点は、やはり我が国の領土、領海、領空を徹底的に守るという防衛、積極防衛、そういうような観点から質疑をさせていただきます。
　それで、まず、ちょっと今日のところは、やはり総務省、農水省、幹部、ＯＢの接待問題、これが起きております。特段答弁は求めませんけれども、私ども維新としては、やはり綱紀粛正、そして厳正厳格な処分をされることを強く求めておきます。
　さて、冒頭、私ども維新の基本姿勢をまた改めてちょっと申し上げさせていただきたいと思っておりますが、私ども維新は、身を切る改革ということで、このコロナの問題に対しても、衆議院、参議院、十名、十六名、二十六名おりますが、この冬のボーナスも三割カットして、そして医療機関に寄附をさせていただくという形で、国民の皆様に寄り添う政党として存立させていただいております。
　また、御案内かと思いますが、テレビを御覧の方は御存じないかもしれないのでまた申し上げるんですが、毎月の給料、ボーナスは六十万でしたが、毎月の給料は二十万近く、正確には十八万円、これをもう七年間、毎月毎月、これは衆参全員ですね、まとめて、そして小切手の形にして、地震のあった被災地あるいは豪雨のあったところに小切手の形でお持ちして、義援金として、国民の皆さんに寄り添う政党として活動しているということで、この点も御理解いただきたいと思います。
　そしてもう一点、ちょっと今日は、私ども維新は、最近、新所得倍増計画というタイトルで、馬場幹事長始め、この藤田さんも説明させていただいていますが、ちょっとベースの部分を改めて皆さんに知っておいていただきたいんですが、社会保障、税、

### トピックの時系列変化
- トピックの時系列変化を可視化します。
- まず例によって日付の文字列をdatetimeオブジェクトに変換して、年月日を年月の日付にします。

In [None]:
import datetime as dt

In [None]:
doc_top['date'] = pd.to_datetime(dat['date']).dt.to_period('M')

In [None]:
doc_top_mean = doc_top.set_index('date').groupby('date').mean()

- 可視化のため整然データ（ロング）に変換します。

In [None]:
doc_top_mean_long = doc_top_mean.reset_index().melt(id_vars = 'date', var_name='topic', value_name='ratio')

In [None]:
doc_top_mean_long.head()

Unnamed: 0,date,topic,ratio
0,2020-02,topic0,0.044496
1,2020-03,topic0,0.116798
2,2020-04,topic0,0.110264
3,2020-05,topic0,0.13093
4,2020-06,topic0,0.13275


In [None]:
import plotly.express as px

In [None]:
doc_top_mean_long['date'] = doc_top_mean_long['date'].astype(str)#strに変換しないとpxで描画できない
px.line(doc_top_mean_long,x='date',y='ratio',color='topic')

- 次に、属性ごとのトピック比率を確認してみましょう。
- 属性として政党所属を考えます。

In [None]:
dat['speakerGroup'].value_counts()

自由民主党・無所属の会            7023
立憲民主党・無所属              3072
公明党                    3004
自由民主党                  2876
日本共産党                  2712
自由民主党・国民の声             2328
日本維新の会                 2105
立憲民主・社民                1970
立憲民主・国民・社保・無所属フォーラム    1799
立憲・国民．新緑風会・社民          1095
国民民主党・新緑風会              802
国民民主党・無所属クラブ            757
日本維新の会・無所属の会            705
立憲民主党・社民・無所属            484
れいわ新選組                  156
各派に属しない議員               147
有志の会                    142
みんなの党                    98
碧水会                      69
沖縄の風                     55
無所属                      28
希望の党                     27
立憲民主・国民・社民・無所属           11
NHK党                      3
政治家女子48党                  1
Name: speakerGroup, dtype: int64

- 分類が細かすぎるのでいくつかをまとめて再分類します。
- 再分類用のspeakerGroup2を作ってから…

In [None]:
dat['speakerGroup2'] = dat['speakerGroup']

- 特定の文字列の入っている行に割り当てたい政党名を与えます。fillnaはFalseにしておきます。

In [None]:
dat.loc[dat['speakerGroup'].str.contains('立憲').fillna(False),'speakerGroup2'] = '立憲民主党'

dat.loc[dat['speakerGroup'].str.contains('自由民主党').fillna(False),'speakerGroup2'] = '自由民主党'

dat.loc[dat['speakerGroup'].str.contains('日本維新の会').fillna(False),'speakerGroup2'] = '日本維新の会'

dat.loc[dat['speakerGroup2'].str.contains('みんなの党|各派に属しない議員|希望の党|沖縄の風|国民民主党・新緑風会|碧水会|無所属|れいわ新選組').fillna(False),'speakerGroup2'] = 'その他'

In [None]:
dat['speakerGroup2'].value_counts()

自由民主党       12227
立憲民主党        8431
公明党          3004
日本維新の会       2810
日本共産党        2712
その他          2139
有志の会          142
NHK党            3
政治家女子48党        1
Name: speakerGroup2, dtype: int64

- doc_topに政党名の変数を作り、整然データにしておきます。

In [None]:
doc_top['speakerGroup2'] = dat['speakerGroup2']

In [None]:
doc_top_group = doc_top.groupby('speakerGroup2').mean().reset_index().melt(id_vars = 'speakerGroup2', var_name='topic', value_name='ratio')


The default value of numeric_only in DataFrameGroupBy.mean is deprecated. In a future version, numeric_only will default to False. Either specify numeric_only or select only columns which should be valid for the function.



In [None]:
doc_top_group

Unnamed: 0,speakerGroup2,topic,ratio
0,NHK党,topic0,0.417714
1,その他,topic0,0.141665
2,公明党,topic0,0.130776
3,政治家女子48党,topic0,0.000000
4,日本共産党,topic0,0.132372
...,...,...,...
67,日本共産党,topic7,0.160159
68,日本維新の会,topic7,0.149878
69,有志の会,topic7,0.140770
70,立憲民主党,topic7,0.156016


- plotlyで可視化します。barmode="group"にすると政党ごとの比率が横に並びます。順番は、数の多い順にします。value_countsのインデックスを使用して、category_ordersで指定しましょう。

In [None]:
fig = px.bar(doc_top_group, x="topic", y="ratio", color="speakerGroup2", barmode="group",
             category_orders={"speakerGroup2":dat['speakerGroup2'].value_counts().index.to_list()})

fig.show()

#### トピック数の決定
- トピックモデルでトピック数をどのように決めるかは悩ましい問題ですが、ここではその参考になる量的指標を紹介します。
  - perplexityは未知のデータに対して出現単語をどのくらい精度よく予測できるかを表す指標です。lda_model.log_perplexity()で得ることができます。
  - coherenceはトピック内での単語の類似性が高いほどよいとする指標です。gensim.models.CoherenceModel()でcoherence='c_v'とすることで、C_vというアルゴリズムにより計算されます。

- 2-21までのトピック数でperplexityとcoherenceを計算しますが、時間がかかるので、tqdmライブラリで振興度合いをバーで表示するようにします。
- 参考url
https://qiita.com/Spooky_Maskman/items/0d03ea499b88abf56819

In [None]:
import pickle
with open('data/bow.pickle','rb') as f:
    bow_list = pickle.load(f)

In [None]:
#Metrics for Topic Models
from tqdm import tqdm

start = 2
limit = 22
step = 1

coherence_vals = []
perplexity_vals = []

for n_topic in tqdm(range(start, limit, step)):
    lda_model = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=n_topic, random_state=0)
    perplexity_vals.append(np.exp2(-lda_model.log_perplexity(corpus)))
    coherence_model_lda = gensim.models.CoherenceModel(model=lda_model, texts=bow_list, dictionary=dictionary, coherence='c_v')
    coherence_vals.append(coherence_model_lda.get_coherence())

100%|██████████| 20/20 [38:13<00:00, 114.69s/it]


- 最後にperplexityとcoherenceを可視化して、最適なトピック数を選びます。
- 異なる2つのy軸を表示するのがポイントですが、ここではplotly.expressではなく、plotly.graph_objects as goが必要です。さらにmake_subplotsもimportします。
  - make_subplots()でまず空の図を作るのですが、その際に、specs=[[{"secondary_y":True}]]として2本目のy軸を描く設定とします。
  - add_trace()で一本ずつ折れ線を加えていきます。二本目はsecondary_y=Trueとします。
  - update_yaxes()でy軸を整形しますが、二本目の方にsecondary_y=Trueとします。

In [None]:
import plotly.graph_objects as go
from plotly.subplots import make_subplots


In [None]:
fig = make_subplots(specs=[[{"secondary_y":True}]])
fig.add_trace(go.Scatter(x=list(range(start, limit, step)), y=coherence_vals, name = 'Coherence' ))
fig.add_trace(go.Scatter(x=list(range(start, limit, step)), y=perplexity_vals, name = 'Perplexity'),
              secondary_y=True)
fig.update_yaxes(title={"text": "Coherence"}, showgrid=False)
fig.update_yaxes(secondary_y=True,
                 title={"text": "Perplexity"}, showgrid=False)
fig.show()
