# Topic Modeling with Gensim

In [1]:
import pandas as pd
import scipy.sparse
from gensim import matutils, models
from sklearn.feature_extraction.text import CountVectorizer

In [3]:
with open('../../data/pickles/pos_df.pickle', 'rb') as f:
    df = pd.read_pickle(f)
df.head()

Unnamed: 0,名詞,動詞,形容詞,副詞
bashou,姥桜 さく 老後 出 年 人 夷 花 顔 晴 朧月 盛 梅 手引 風 哉 東風 面々 さばき...,思ふ とる せる うてる する ちる なす あく たぶ うかれる へるる もつれる 吹く ぼ...,くろい ちかしい くちい おもい 白い 黒い ふるい おもい 淋しい よい ない 白い ゆか...,いつも そう つい 宜 よし さぞ 今や 世に 何やら よく つくづく さ るる まだ やや...
buson,庭 鶯 日 武者 大根 若菜 哉 百 とせ 枝 花 主 春 海 終日 哉 辛 崎 朧 いくつ...,啼く すがる あなどる もどる すたる 降る ひる かける 見る 過す する ある たまる ...,ない ない 白い 白い 赤い 遠い 寒い もの凄い ない 遅い 遅い 永い 長い ない ゆか...,のたりのたり そこそこ ことさら いか いと いざ 一しきり まだ すぐ むしろ ことに ま...
issa,青梅 手 蛙 哉 蓮 花 虱 捨 也 茨 花 爰 咲 時鳥 我 身 降雨 五月雨 夜 山 穴...,かける 寝る またげる ける かくれる いづ 茂る 下る 散る とぶ かぶる する ふる 見...,つつがない ない 涼しい 涼しい 白い ほしい 遠い 遠い とおい 遠い なつかしい ない ...,しばし おのおの さらに 少し つやつや ぱちぱち かく るる くりくり うそうそ こつこつ...
siki,高砂 松 二タ子 門 松 元日 一 輪 福寿草 元朝 虚空 二 許 初空 烏 富士 蓑笠 蓬...,開く する 遣る つく つきる 来る さす 知る ともす うごく する さす なる なめる ...,暗い 黒い 白い ない 高い ない 面白い なつかしい ない 淋しい めでたい よい ない ...,只 はや つと 未だ さして 又 ちらほら ひらひら はらりと もしや ふらふら はや ほろ...
souseki,初夢 金 拾 はず 死 煩悩 百 八 減 つて 今朝 春 春王 正月 蟹 軍 さ 哉 元日 ...,する 生れる 砕ける はる ある 摘む 生れる 得る する ふる 老いる 染める 思ふ 乗る...,恋しい ない 目出度い 明るい 清い 甘い 多い 拙い 佳い ない 新しい ない 遠い ふと...,ほのぼの ふと 少し ほろほろ いかに いかに なんのその さして ひとり からり ほのぼの...


## Topic Modeling (Nouns Only)

In [4]:
cvn = CountVectorizer(max_df=0.8)
data_cvn = cvn.fit_transform(df['名詞'])
data_dtmn = pd.DataFrame(data_cvn.toarray(), columns=cvn.get_feature_names())
data_dtmn.index = df.index
data_dtmn

Unnamed: 0,あいさつ,あいそ,あいだ,あか,あかし,あかつき,あからさま,あかり,あき,あきの,...,黒船,黒谷,黒部川,黒門,黒髪,鼻かぜ,鼻先,鼻紙,鼻緒,龍安寺
bashou,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
buson,0,0,0,1,0,2,2,0,0,1,...,0,1,0,0,0,0,0,0,0,0
issa,0,2,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,2,1,0,0
siki,0,0,0,0,2,0,1,0,1,0,...,0,0,0,1,0,0,0,0,0,0
souseki,0,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
ryunosuke,0,0,0,0,1,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
kyoshi,0,1,0,0,1,0,0,1,0,0,...,0,3,1,0,0,0,0,0,1,1
housai,1,0,0,0,0,1,1,1,0,0,...,0,0,0,0,0,0,0,0,1,0
hekigotoh,0,0,0,0,0,0,0,0,0,0,...,1,3,0,0,0,0,0,0,0,0
hisajo,0,0,0,0,1,0,0,0,0,0,...,0,0,0,0,2,0,0,1,0,0


In [5]:
# create the gensim corpus
corpusn = matutils.Sparse2Corpus(scipy.sparse.csr_matrix(data_dtmn.transpose()))

# create the vocabulary dictionary 
id2wordn = dict((v, k) for k, v in cvn.vocabulary_.items())

In [6]:
lda = models.LdaModel(corpus=corpusn, num_topics=2, id2word=id2wordn, passes=10)
lda.print_topics()

[(0,
  '0.005*"野分" + 0.003*"あと" + 0.003*"春雨" + 0.003*"五月雨" + 0.003*"夕立" + 0.003*"木立" + 0.003*"名月" + 0.002*"温泉" + 0.002*"うち" + 0.002*"静か"'),
 (1,
  '0.004*"はつ" + 0.003*"やう" + 0.003*"五月雨" + 0.002*"野分" + 0.002*"雲雀" + 0.002*"ほととぎす" + 0.002*"けり" + 0.002*"うし" + 0.002*"陽炎" + 0.002*"名月"')]

In [7]:
lda = models.LdaModel(corpus=corpusn, num_topics=3, id2word=id2wordn, passes=10)
lda.print_topics()

[(0,
  '0.003*"ほととぎす" + 0.003*"野分" + 0.003*"春雨" + 0.003*"さくら" + 0.002*"あはれ" + 0.002*"ふく" + 0.002*"五月雨" + 0.002*"しぐれ" + 0.002*"ごと" + 0.002*"かげ"'),
 (1,
  '0.004*"野分" + 0.004*"春雨" + 0.003*"夕立" + 0.003*"はつ" + 0.003*"提灯" + 0.003*"夏山" + 0.003*"炬燵" + 0.003*"やう" + 0.003*"うち" + 0.003*"梅雨"'),
 (2,
  '0.004*"名月" + 0.004*"野分" + 0.003*"時鳥" + 0.003*"五月雨" + 0.003*"あと" + 0.003*"温泉" + 0.003*"木立" + 0.003*"上野" + 0.003*"夕立" + 0.003*"静か"')]

In [8]:
lda = models.LdaModel(corpus=corpusn, num_topics=4, id2word=id2wordn, passes=10)
lda.print_topics()

[(0,
  '0.005*"野分" + 0.004*"木立" + 0.004*"温泉" + 0.003*"時鳥" + 0.003*"水仙" + 0.003*"枯野" + 0.003*"更衣" + 0.002*"春雨" + 0.002*"さくら" + 0.002*"法師"'),
 (1,
  '0.005*"野分" + 0.004*"名月" + 0.004*"あと" + 0.004*"五月雨" + 0.003*"春雨" + 0.003*"夕立" + 0.003*"あはれ" + 0.003*"提灯" + 0.003*"静か" + 0.002*"ほととぎす"'),
 (2,
  '0.003*"かげ" + 0.003*"蚊帳" + 0.003*"野菊" + 0.003*"ごと" + 0.003*"夜長" + 0.003*"春寒" + 0.002*"春潮" + 0.002*"夜半" + 0.002*"葡萄" + 0.002*"あと"'),
 (3,
  '0.008*"はつ" + 0.005*"やう" + 0.005*"陽炎" + 0.004*"古郷" + 0.003*"うし" + 0.003*"けり" + 0.003*"時鳥" + 0.003*"江戸" + 0.003*"雲雀" + 0.003*"五月雨"')]

In [9]:
lda = models.LdaModel(corpus=corpusn, num_topics=5, id2word=id2wordn, passes=10)
lda.print_topics()

[(0,
  '0.003*"つた" + 0.003*"足音" + 0.003*"まつ" + 0.002*"木槿" + 0.002*"夕べ" + 0.002*"とつ" + 0.002*"今日" + 0.002*"病人" + 0.002*"手紙" + 0.002*"青空"'),
 (1,
  '0.007*"はつ" + 0.005*"やう" + 0.004*"五月雨" + 0.004*"ほととぎす" + 0.004*"名月" + 0.004*"けり" + 0.004*"陽炎" + 0.003*"うし" + 0.003*"江戸" + 0.003*"しら"'),
 (2,
  '0.006*"野分" + 0.005*"名月" + 0.004*"木立" + 0.004*"五月雨" + 0.004*"時鳥" + 0.004*"あと" + 0.003*"水仙" + 0.003*"上野" + 0.003*"枯野" + 0.003*"夕立"'),
 (3,
  '0.000*"野分" + 0.000*"温泉" + 0.000*"五月雨" + 0.000*"あと" + 0.000*"春雨" + 0.000*"はつ" + 0.000*"時鳥" + 0.000*"あはれ" + 0.000*"夕立" + 0.000*"ほととぎす"'),
 (4,
  '0.004*"野分" + 0.003*"春雨" + 0.003*"静か" + 0.003*"提灯" + 0.003*"梅雨" + 0.003*"温泉" + 0.003*"あと" + 0.003*"蚊帳" + 0.003*"茶屋" + 0.003*"冬日"')]

## Topic Modeling (Nouns and Adjectives)

In [14]:
na_list = []
n_list = df['名詞'].tolist()
a_list = df['形容詞'].tolist()
for i in range(10):
    na_list.append(n_list[i] + a_list[i])

na_list

['姥桜 さく 老後 出 年 人 夷 花 顔 晴 朧月 盛 梅 手引 風 哉 東風 面々 さばき 柳 髪 餅 雪 しら 糸 柳 哉 花 嘆 こ ちの なつ 其口 ば 花 風 人 初瀬 山桜 糸桜 こ さ 足 風 尾 犬 櫻 春立 わら 知 かざり 縄 甚 羽織 花 ごろ 花 いや 世間 口 風 植 事 子 児 櫻 目 星 花 糸 櫻 天びん 京 江戸 千代 春 此梅 牛 初音 我 神 ふぐ 梅 花 門松 一夜 三 十 年 比叡 字 引 一 霞 猫 妻 崩れ 通 竜宮 塩路 土用干 先 竹 竹 花 雪 庭訓 往来 誰 文庫 今朝 春 ぴたんもつくばはせけり 君 春 裏 雛人形 天皇 御宇 かや 花 命 七 十 五 年 発句 也 松尾 桃 青宿 春 阿蘭陀 花 けり 馬 鞍 草履 尻 折 らん 山 櫻 於春 哉春 云々 花 瓢箪 斎 い 餅 夢 折 歯朶 草枕 藻 白魚 とら 花 浮法 師 ぬめり 妻 山吹 露 菜の花 顔 摘 茶 凩 秋 しら ば 植 づにくむ 荻 二 ば 哉 餅 花 かざし め 君 待 花 藤 三郎 山 花 酔 羽織 かた 指 女 二日酔 もの 花 あいだ 梅 柳 若衆 哉女 袖 らん 田螺 蜑 隙 なみ 艶 奴 花 ら うさ いす ぐひすを 魂 嬌柳 花 世 我 酒 食 はる 立 新年 米 五 升 元日 秋 暮 友 むぬるこてふ 蝶 ふよ 唐土 はいかい 問 む 山 猫 雪 ひま 我 ため 鶴 はみ 芹 飯 誰 聟 歯朶 餅 ふうし 年 子の日 都 行 友 旅 古巣 むめ 成 春 名 山 薄 霞 初春 先 酒 梅 売 梅花 一枝 みそさざい 水 とり 氷 僧 沓 音 梅 昨日 鶴 樫 木 花 かま 姿 きぬ 桃 雫 山路 すみれ 草 辛 崎 松 花 朧 つつじ 其陰 干鱈 さく 女 菜 畠 花見 雀 哉 命 二つ 中 生 櫻 哉 船足 時 濱 桃 蝶 飛 野中 日 かげ 哉 幾 霜 心ばせ 松 かざり 古畑 薺 摘行 男 ども 薺 花 さく 垣ね ふく はかま よそ ふか 煩 餅 喰 はず 桃 花 観音 い ら 花 雲 ざく ら 瓦 ふく ふたつ 古巣 只 あはれ 隣 地 根 花 花咲 七 日 鶴 麓 古池 蛙 飛 水 おと 誰 形 けさ 春 忘 藪 中 むめ 花 こよ 梅 うし むち 蠣 海苔 老 売 花 虻 くら 友 雀 鸛 巣 もみ ら 花 

In [15]:
cvna = CountVectorizer(max_df=0.8)
data_cvna = cvna.fit_transform(na_list)
data_dtmna = pd.DataFrame(data_cvna.toarray(), columns=cvna.get_feature_names())
data_dtmna.index = df.index
data_dtmna

Unnamed: 0,あいさつ,あいそ,あいだ,あか,あかい,あかし,あかつき,あからさま,あかり,あかるい,...,黒船,黒谷,黒部川,黒門,黒髪,鼻かぜ,鼻先,鼻紙,鼻緒,龍安寺
bashou,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
buson,0,0,0,1,0,0,2,2,0,0,...,0,1,0,0,0,0,0,0,0,0
issa,0,2,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,2,1,0,0
siki,0,0,0,0,0,2,0,1,0,1,...,0,0,0,1,0,0,0,0,0,0
souseki,0,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
ryunosuke,0,0,0,0,0,1,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
kyoshi,0,1,0,0,0,1,0,0,1,0,...,0,3,1,0,0,0,0,0,1,1
housai,1,0,0,0,0,0,1,1,1,3,...,0,0,0,0,0,0,0,0,1,0
hekigotoh,0,0,0,0,4,0,0,0,0,0,...,1,3,0,0,0,0,0,0,0,0
hisajo,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,2,0,0,1,0,0


In [17]:
corpusna = matutils.Sparse2Corpus(scipy.sparse.csr_matrix(data_dtmna.transpose()))
id2wordna = dict((v, k) for k, v in cvna.vocabulary_.items())

In [18]:
ldana = models.LdaModel(corpus=corpusna, num_topics=2, id2word=id2wordna, passes=10)
ldana.print_topics()

[(0,
  '0.003*"野分" + 0.003*"よい" + 0.003*"春雨" + 0.003*"暑い" + 0.002*"温泉" + 0.002*"暗い" + 0.002*"美しい" + 0.002*"炬燵" + 0.002*"やう" + 0.002*"夕立"'),
 (1,
  '0.005*"野分" + 0.004*"名月" + 0.003*"五月雨" + 0.003*"時鳥" + 0.003*"木立" + 0.003*"あと" + 0.002*"ほととぎす" + 0.002*"夕立" + 0.002*"あはれ" + 0.002*"水仙"')]

In [19]:
ldana = models.LdaModel(corpus=corpusna, num_topics=3, id2word=id2wordna, passes=10)
ldana.print_topics()

[(0,
  '0.005*"野分" + 0.005*"名月" + 0.004*"五月雨" + 0.003*"はつ" + 0.003*"夕立" + 0.003*"木立" + 0.003*"けり" + 0.003*"春雨" + 0.003*"暑い" + 0.003*"時鳥"'),
 (1,
  '0.004*"温泉" + 0.002*"濃い" + 0.002*"時鳥" + 0.002*"青い" + 0.002*"蚊帳" + 0.002*"火鉢" + 0.002*"野菊" + 0.002*"木立" + 0.002*"静か" + 0.002*"野分"'),
 (2,
  '0.004*"野分" + 0.003*"春雨" + 0.003*"提灯" + 0.003*"よい" + 0.003*"美しい" + 0.003*"暑い" + 0.003*"梅雨" + 0.003*"暗い" + 0.003*"うち" + 0.003*"茶屋"')]

In [21]:
ldana = models.LdaModel(corpus=corpusna, num_topics=4, id2word=id2wordna, passes=100)
ldana.print_topics()

[(0,
  '0.004*"野分" + 0.004*"暑い" + 0.003*"提灯" + 0.003*"春雨" + 0.003*"多い" + 0.003*"温泉" + 0.003*"暗い" + 0.003*"静か" + 0.003*"美しい" + 0.003*"よい"'),
 (1,
  '0.005*"名月" + 0.005*"野分" + 0.004*"五月雨" + 0.004*"あと" + 0.003*"上野" + 0.003*"木立" + 0.003*"冬ごもり" + 0.003*"くい" + 0.003*"夕立" + 0.003*"燈籠"'),
 (2,
  '0.007*"はつ" + 0.005*"やう" + 0.004*"陽炎" + 0.004*"暑い" + 0.003*"うつくしい" + 0.003*"古郷" + 0.003*"けり" + 0.003*"うし" + 0.003*"江戸" + 0.003*"時鳥"'),
 (3,
  '0.003*"よい" + 0.003*"濃い" + 0.002*"ほととぎす" + 0.002*"温泉" + 0.002*"流れ" + 0.002*"野菊" + 0.002*"五月雨" + 0.002*"かげ" + 0.002*"野分" + 0.002*"富士"')]

## Topic Modeling (Nouns, Verbs and Adjectives)

In [12]:
nva_list = []
n_list = df['名詞'].tolist()
v_list = df['動詞'].tolist()
a_list = df['形容詞'].tolist()
for i in range(10):
    nva_list.append(n_list[i] + v_list[i] + a_list[i])

In [13]:
cvnva = CountVectorizer(max_df=.8)
data_cvnva = cvnva.fit_transform(nva_list)
data_dtmnva = pd.DataFrame(data_cvnva.toarray(), columns=cvnva.get_feature_names())
data_dtmnva.index = df.index
data_dtmnva

Unnamed: 0,あいさつ,あいそ,あいだ,あえる,あか,あかい,あかし,あかす,あかつき,あからさま,...,黒門,黒髪,黙す,黙る,黴びる,鼻かぜ,鼻先,鼻紙,鼻緒,龍安寺
bashou,0,0,1,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
buson,0,0,0,1,1,0,0,0,2,2,...,0,0,0,0,0,0,0,0,0,0
issa,0,2,0,0,1,0,0,0,0,0,...,0,0,0,0,0,0,2,1,0,0
siki,0,0,0,0,0,0,2,0,0,1,...,1,0,0,0,0,0,0,0,0,0
souseki,0,0,0,0,1,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
ryunosuke,0,0,0,0,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
kyoshi,0,1,0,0,0,0,1,0,0,0,...,0,0,1,0,1,0,0,0,1,1
housai,1,0,0,0,0,0,0,0,1,1,...,0,0,1,0,0,0,0,0,1,0
hekigotoh,0,0,0,0,0,4,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
hisajo,0,0,0,0,0,0,1,0,0,0,...,0,2,2,0,0,0,0,1,0,0


In [14]:
corpusnva = matutils.Scipy2Corpus(scipy.sparse.csr_matrix(data_dtmnva.transpose()))
id2wordnva = dict((v, k) for k, v in cvnva.vocabulary_.items())

In [18]:
ldanva = models.LdaModel(corpus=corpusnva, num_topics=10, id2word=id2wordnva, passes=100)
ldanva.print_topics()

[(0,
  '0.510*"あかい" + 0.000*"あえる" + 0.000*"あかし" + 0.000*"あかつき" + 0.000*"あか" + 0.000*"あいそ" + 0.000*"あからさま" + 0.000*"あいさつ" + 0.000*"あいだ" + 0.000*"あかす"'),
 (1,
  '0.000*"あかつき" + 0.000*"あかし" + 0.000*"あえる" + 0.000*"あか" + 0.000*"あいそ" + 0.000*"海棠" + 0.000*"海松" + 0.000*"海底" + 0.000*"海浜" + 0.000*"海雲"'),
 (2,
  '0.756*"あいだ" + 0.000*"あいそ" + 0.000*"あえる" + 0.000*"あかし" + 0.000*"あか" + 0.000*"あかつき" + 0.000*"あいさつ" + 0.000*"あかす" + 0.000*"あからさま" + 0.000*"あかい"'),
 (3,
  '0.716*"あからさま" + 0.000*"あかし" + 0.000*"あかつき" + 0.000*"あえる" + 0.000*"あいそ" + 0.000*"あか" + 0.000*"あかす" + 0.000*"あかい" + 0.000*"あいさつ" + 0.000*"あいだ"'),
 (4,
  '0.454*"あかつき" + 0.391*"あか" + 0.000*"あえる" + 0.000*"あかし" + 0.000*"あいそ" + 0.000*"あからさま" + 0.000*"あいだ" + 0.000*"あかす" + 0.000*"あかい" + 0.000*"あいさつ"'),
 (5,
  '0.658*"あいさつ" + 0.000*"あいそ" + 0.000*"あか" + 0.000*"あえる" + 0.000*"あかし" + 0.000*"あいだ" + 0.000*"あかつき" + 0.000*"あからさま" + 0.000*"あかい" + 0.000*"あかす"'),
 (6,
  '0.519*"あかす" + 0.000*"あえる" + 0.000*"あかつき" + 0.000*"あかし" + 0.000*"あか" + 0.000*"あからさま" + 0.

## Topic Modeling

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
cv = CountVectorizer(max_df=0.9)
tf = cv.fit_transform()