In [344]:
import pandas as pd
from janome.tokenizer import Tokenizer
import pickle

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.feature_extraction.text import CountVectorizer

import pprint
from collections import Counter

In [334]:
import os
import urllib.request

def download_stopwords(path):
    url = 'http://svn.sourceforge.jp/svnroot/slothlib/CSharp/Version1/SlothLib/NLP/Filter/StopWord/word/Japanese.txt'
    if os.path.exists(path):
        print('File already exists.')
    else:
        print('Downloading...')
        # Download the file from `url` and save it locally under `file_name`:
        urllib.request.urlretrieve(url, path)

def create_stopwords(file_path):
    stop_words = []
    for w in open(path, "r"):
        w = w.replace('\n','')
        if len(w) > 0:
          stop_words.append(w)
    return stop_words    

path = "stop_words.txt"
download_stopwords(path)
stop_words = create_stopwords(path)
stop_words.remove('室')
stop_words.remove('家')
stop_words.remove('屋')
stop_words.remove('部')
# stop_words

for i, item in enumerate(stop_words):
    print(f"{i}:{item}")


File already exists.
0:あそこ
1:あたり
2:あちら
3:あっち
4:あと
5:あな
6:あなた
7:あれ
8:いくつ
9:いつ
10:いま
11:いや
12:いろいろ
13:うち
14:おおまか
15:おまえ
16:おれ
17:がい
18:かく
19:かたち
20:かやの
21:から
22:がら
23:きた
24:くせ
25:ここ
26:こっち
27:こと
28:ごと
29:こちら
30:ごっちゃ
31:これ
32:これら
33:ごろ
34:さまざま
35:さらい
36:さん
37:しかた
38:しよう
39:すか
40:ずつ
41:すね
42:すべて
43:ぜんぶ
44:そう
45:そこ
46:そちら
47:そっち
48:そで
49:それ
50:それぞれ
51:それなり
52:たくさん
53:たち
54:たび
55:ため
56:だめ
57:ちゃ
58:ちゃん
59:てん
60:とおり
61:とき
62:どこ
63:どこか
64:ところ
65:どちら
66:どっか
67:どっち
68:どれ
69:なか
70:なかば
71:なに
72:など
73:なん
74:はじめ
75:はず
76:はるか
77:ひと
78:ひとつ
79:ふく
80:ぶり
81:べつ
82:へん
83:ぺん
84:ほう
85:ほか
86:まさ
87:まし
88:まとも
89:まま
90:みたい
91:みつ
92:みなさん
93:みんな
94:もと
95:もの
96:もん
97:やつ
98:よう
99:よそ
100:わけ
101:わたし
102:ハイ
103:上
104:中
105:下
106:字
107:年
108:月
109:日
110:時
111:分
112:秒
113:週
114:火
115:水
116:木
117:金
118:土
119:国
120:都
121:道
122:府
123:県
124:市
125:区
126:町
127:村
128:各
129:第
130:方
131:何
132:的
133:度
134:文
135:者
136:性
137:体
138:人
139:他
140:今
141:課
142:係
143:外
144:類
145:達
146:気
147:口
148:誰
149:用
150:界
151:会
152:首
153:男
154:女
155:別


In [335]:
T = Tokenizer()

In [336]:
df_train = pd.read_csv("train.csv")

In [337]:
def tokenize(text):
    tokens = []
    for token in T.tokenize(text):
        speech_part = token.part_of_speech.split(sep=',')[0]
        if speech_part == '動詞' or speech_part == '名詞':
            tokens.append(token.surface)
    # tokens = [token.surface for token in T.tokenize(text)]
    return ' '.join(tokens)

In [338]:
df_train['text_sep'] = df_train['text'].apply(tokenize)

In [339]:
vectorizer_freq = CountVectorizer()
dtm_freq = vectorizer_freq.fit_transform(df_train['text_sep'])
sum_words = dtm_freq.sum(axis=0)
words_freq = [(word, sum_words[0, idx]) for word, idx in vectorizer_freq.vocabulary_.items()]
words_freq = sorted(words_freq, key=lambda x: x[1], reverse=True)

words_freq = [item[0] for item in words_freq]

stop_words += words_freq[:11]

stop_words.append('し')
stop_words.append('い')
stop_words.append('の')
stop_words.append('れ')
# stop_words.append('き')

In [340]:
vectorizer = CountVectorizer(stop_words=stop_words,token_pattern=u'(?u)\\b\\w+\\b')

In [341]:
X = vectorizer.fit_transform(df_train['text_sep'])

In [342]:
lda = LatentDirichletAllocation(n_components=2, random_state=0)
lda.fit(X)

In [343]:
feature_names = vectorizer.get_feature_names_out()
for topic_idx, topic in enumerate(lda.components_):
    print("Topic %d:" % (topic_idx +1))
    print(" ".join([feature_names[i] for i in topic.argsort()[:-5:-1]]))

Topic 1:
引っ越し 家具 でき 自転車
Topic 2:
筋力 トレーニング き 最近
