# Load data

In [1]:
import json

with open("sentence_nouns_dict.json", "r") as f:
    sentence_nouns_dict = json.load(f)
sentences = list(sentence_nouns_dict.values())

del sentence_nouns_dict
sentences[0]

['의석', '정돈']

# Constructing a document-term matrix

In [2]:
from gensim import corpora

dictionary = corpora.Dictionary(sentences)
corpus = [dictionary.doc2bow(sentence) for sentence in sentences]

del sentences
corpus[0]

[(0, 1), (1, 1)]

# Construct a LDA model

In [3]:
from gensim.models import LdaMulticore

LDA_model = LdaMulticore(corpus, workers=4, num_topics=15, id2word=dictionary, passes=1)
LDA_model.save("LDA_15.model")

# Test

In [6]:
from gensim.models import LdaMulticore
import pickle

LDA_model = LdaMulticore.load("LDA_15.model")
stop_words= pickle.load(open("LDA_stopwords.pickle", "rb"))

In [11]:
# Show all topics
LDA_dim = 15
for topic_num in range (LDA_dim):
    print([pair[0] for pair in LDA_model.show_topic(topic_num, topn=20) if pair[0] not in stop_words])

['수', '국민', '정부', '정말']
['제도', '사람', '겁', '조사', '근거', '해외', '도입', '당시', '법적', '신고', '개선', '판결', '의무']
['수', '관리', '시행', '재정', '안전', '단체', '국가', '부담', '지방']
['법', '법률', '개정', '법안', '일정', '심사', '의사', '의원', '건', '소위', '국회', '의결', '대표']
['말', '그게', '거지', '자료', '질문', '날', '시', '그냥']
['후보자', '대통령', '원장', '인사', '진행', '자료', '전문', '수정', '총리', '장관', '처', '적', '장님', '청장']
['검토', '자료', '다시', '걸']
['오늘', '두', '간사', '다시', '주시', '먼저']
['관계', '차관', '연금', '수준', '국방부', '중국', '미국', '국제', '기업', '정보']
['장관', '기관', '회', '관', '업무', '방송', '회사', '금융', '업체', '차', '사장', '직원', '검사', '공무원', '법무부']
['대책', '경제', '북한', '책임', '정책', '학교', '정부', '규제', '사건', '사고', '피해', '상황']
['수', '수사', '점']
['사업', '예산', '계획', '교육', '연구', '문화', '집행', '기술', '운영', '부처', '기금', '협의', '편성']
['년도', '정부', '돈', '거래', '공정', '예산', '공단', '교수', '작년', '억이', '금액', '불']
['지역', '뭐', '기준', '기간', '그거', '개월', '요', '차이', '공사']


In [16]:
import json

with open("sentence_nouns_dict.json", "r") as f:
    sentence_nouns_dict = json.load(f)
sentences = list(sentence_nouns_dict.keys())

In [17]:
# Show sentences with a specific topic number
target_topic = 3
n_sentence = 5

print("topic #%d" % target_topic)
print([pair[0] for pair in LDA_model.show_topic(target_topic) if pair[0] not in stop_words])
counter = 0
for corpus_idx, bow in enumerate(corpus):
    topic = LDA_model.get_document_topics(bow)[0][0]
    if topic == target_topic:
        print(sentences[corpus_idx])
        counter += 1
    if counter == n_sentence:
        break

topic #3
['법', '법률', '개정', '법안', '일정']
의사일정에 들어가기 전에 먼저 의사진행발언을 듣도록 하겠습니다
국회법 제114조제2항의 규정에 따라 감표위원을 지명하겠습니다
이의 없으십니까? (｢예｣ 하는 의원 있음) 가결되었음을 선포합니다
그러면 법안심사소위원회 유재중 위원장께서 소위원회의 심사 결과를 보고하여 주시기 바랍니다
법안 심사에 애써 주신 존경하는 유재중 법안심사소위원회 위원장님을 비롯한 김현숙 위원, 김희국 위원, 신경림 위원, 김성주 위원, 김용익
위원, 남윤인순 위원, 양승조 위원님 등 소위원회 위원님들 수고 많으셨습니다
