1. 토픽모델링을 위한 텍스트 준비

In [1]:
!pip install konlpy
!pip install tqdm #진행상태를 알려주는 기능 제공

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m52.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (488 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m488.6/488.6 kB[0m [31m35.2 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.0 konlpy-0.6.0


In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import urllib.request
from konlpy.tag import Okt
from tqdm import tqdm

In [3]:
train_data = pd.read_csv('news.csv')

In [4]:
train_data[:5] # 상위 5개 출력

Unnamed: 0.1,Unnamed: 0,label,articles
0,0,0,게티이미지뱅크 콩나물(사진)은 대두를 발아시켜 뿌리를 자라게 한 것이다. 동의보감에...
1,1,0,"사진 한 장 없이 떠난 일지 스님 불교 현실에 대한 질타 등 생전에 연재했던 글, ..."
2,2,0,이재익의 아재음악 열전전태관(왼쪽)과 김종진. <한겨레> 자료사진 2018년을 얼마...
3,3,0,서울대병원 제공서울대병원은 올해 1월부터 국내에서 독자적으로 개발한 인공지능 기술을...
4,4,0,ㆍ2.1㎓ 속도 ‘엑시노스 오토 V9’ㆍ2021년 생산 차량부터 탑재2021년 생산...


In [5]:
print(len(train_data)) # 리뷰 개수 출력

400


In [6]:
print(train_data.isnull().values.any())

False


In [7]:
train_data = train_data.dropna(how = 'any') # Null 값이 존재하는 행 제거
print(train_data.isnull().values.any()) # Null 값이 존재하는지 확인

False


In [8]:
print(len(train_data)) # 리뷰 개수 출력

400


In [9]:
# 정규 표현식을 통한 한글 외 문자 제거
train_data['articles'] = train_data['articles'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")

In [10]:
train_data[:5] # 상위 5개 출력

Unnamed: 0.1,Unnamed: 0,label,articles
0,0,0,게티이미지뱅크 콩나물(사진)은 대두를 발아시켜 뿌리를 자라게 한 것이다. 동의보감에...
1,1,0,"사진 한 장 없이 떠난 일지 스님 불교 현실에 대한 질타 등 생전에 연재했던 글, ..."
2,2,0,이재익의 아재음악 열전전태관(왼쪽)과 김종진. <한겨레> 자료사진 2018년을 얼마...
3,3,0,서울대병원 제공서울대병원은 올해 1월부터 국내에서 독자적으로 개발한 인공지능 기술을...
4,4,0,ㆍ2.1㎓ 속도 ‘엑시노스 오토 V9’ㆍ2021년 생산 차량부터 탑재2021년 생산...


In [11]:
train_data['articles'][0]

"게티이미지뱅크 콩나물(사진)은 대두를 발아시켜 뿌리를 자라게 한 것이다. 동의보감에 따르면 콩나물은 온 몸이 무겁고 저리거나 근육과 뼈가 아플 때 도움이 되고 제반 염증을 억제하는 효과가 뛰어나다고 돼 있다.콩나물에 들어있는 식물 단백질인 '아스파라긴산'은 1806년 프랑의 과학자 아스파라거스가 발견해 이름이 붙여졌다. 아스파라긴산은 암모니아 대사를 촉진해 독소를 흡수하고 혈액을 통해 제거하므로 간 건강에 도움이 된다. 이 때문에 숙취해소에 탁월한 효과를 보인다. 또 콩팥의 기능을 돕고 요산배설을 촉진시킴과 동시에 신경통이나 류머티즘에 효과를 보인다.콩나물은 대두 상태일 때는 비타민이 없지만 발아하는 과정에서 합성돼 비타민C가 풍부해진다. 비타민C는 피부를 맑고 투명하게 가꿔주고 면역력을 높여준다. 하지만 콩나물을 조리하는 과정에서 비타민C가 파괴되기 때문에 가볍게 조리해 섭취하는 게 좋다.정명진 의학전문기자 pompom@fnnews.com 정명진 기자 ▶ 세상의 모든 골 때리는 이야기 'fn파스'▶ 속보이는 연예뉴스 fn스타 ※ 저작권자 ⓒ 파이낸셜뉴스. 무단 전재-재배포 금지"

In [12]:
tokenized_data = []

# 불용어 정의
stopwords = ['을','게티이미지뱅크', '부터', '까지' '적', '의','가','이','은','들',
             '는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다',
             '무단','전재재배포', '금지']

# 형태소 분석기 OKT를 사용한 토큰화 작업 (다소 시간 소요)
okt = Okt()

for sentence in tqdm(train_data['articles']):
    tokenized_sentence = okt.nouns(sentence)
    stopwords_removed_sentence = [word for word in tokenized_sentence if not word in stopwords] # 불용어 제거
    tokenized_data.append(stopwords_removed_sentence)

100%|██████████| 400/400 [01:03<00:00,  6.28it/s]


In [13]:
len(tokenized_data)
print( tokenized_data[10] )
train_data['articles'][10]

['새해', '금주', '목표', '성공', '위', '무작정', '술', '단기', '목표', '먼저', '기간', '점차', '식이', '도움', '사진', '클립아트', '코리아', '회사원', '김모', '씨', '새해', '건강', '위해', '술', '결심', '문제', '결심', '반복', '것', '전', '고혈압', '진단', '뒤', '금주', '목표', '늘', '달도', '못', '올해', '회사', '업무', '조직', '개편', '스트레스', '금주', '것', '자신감', '금주', '고민', '김씨', '새해', '금주', '결심', '사람', '작심삼일', '경우', '금주', '성공', '확률', '다사', '중앙', '병원', '정신건강', '의학과', '허성', '태', '원장', '무작정', '술', '방법', '오히려', '스트레스', '가중', '수', '며', '기간', '정해', '서서히', '음주', '빈도', '등', '계획', '고', '말', '그', '오늘', '하루', '생각', '금주', '기간', '일주일', '달', '단위', '차차', '금주', '확률', '고', '단', '회사', '금주', '계획', '알리', '회식', '중', '첫', '잔', '단호', '거절', '게', '원장', '술잔', '번', '시작', '중단', '것', '일반', '우리나라', '음주', '문화', '이기', '때문', '말', '자신', '금주', '계획', '선포', '실천', '공유', '것', '방법', '실제', '영국', '새해', '달', '금주', '각오', '서로', '실천', '독려', '달', '술', '드라이', '재뉴', '캠페인', '매년', '음주', '예방', '자선단체', '실시', '주최', '측', '작년', '참가', '달', '동안', '완전', '금주', '사람', '캠페인', '후', '음주', '빈도', '일일', '음', '주량', '감소', '술', '대체', '

'새해 금주 목표 성공을 위해서는 무작정 술을 참기보다 단기 목표를 먼저 세우고 기간을 점차 늘려가는 식이 도움이 된다./사진=클립아트코리아회사원 김모(45)씨는 새해를 맞아 건강을 위해 술을 끊기로 결심했다. 문제는 5년째 결심만 반복된다는 것이다. 5년 전 고혈압 진단을 받은 뒤부터 금주를 목표로 했지만 늘 한 달도 못 가 실패했다. 올해도 회사에서 주어진 새로운 업무와 조직 개편으로 스트레스를 받고 있어 금주에 성공할 것이라는 자신감이 없었다. 어떻게 해야 금주에 성공할지 고민이 됐다.김씨처럼 새해 금주를 결심하는 사람이 많지만 작심삼일로 끝나는 경우가 많다. 금주 성공 확률을 높이려면 어떻게 해야 할까?다사랑중앙병원 정신건강의학과 허성태 원장은 "무작정 술을 마시지 않고 참는 방법은 오히려 스트레스를 가중시킬 수 있다"며 "기간을 정해 서서히 음주 빈도를 줄이는 등의 계획이 필요하다"고 말했다. 이어 그는 "오늘 하루만 마시지 말자는 생각으로 금주하고, 이 기간을 일주일, 한 달 단위로 차차 늘리면 금주에 성공할 확률이 높아진다"고 덧붙였다.단, 회사에서는 금주 계획을 알리고 회식 중 첫 잔부터 단호하게 거절하는 게 좋다. 허 원장은 "술잔을 한 번 받기 시작하면 중단하기 어려운 것이 일반적인 우리나라 음주 문화이기 때문"이라고 말했다.SNS에 자신의 금주 계획을 선포하고 어떻게 실천하는지 공유하는 것도 방법이다. 실제 영국에서는 새해가 되면 SNS에 한 달간의 금주 각오를 올리고 서로 실천을 독려하며 1월 한 달 술을 끊는 \'드라이 재뉴어리\' 캠페인이 매년 음주예방 자선단체에 의해 실시되고 있다. 주최 측에 따르면 작년에 400만명이 참가했고, 1월 한 달 동안 ‘완전 금주’에 성공한 사람들은 캠페인 후 음주 빈도와 일일 음주량이 감소했다.술을 대체할 즐거움을 찾는 것도 중요하다. 허 원장은 “알코올에 민감해진 뇌는 스트레스 상황이 발생하면 습관적으로 술을 찾게 할 수 있다"며 “술 없이도 즐거울 수 있다는 것을 깨닫는 것이 금주 성공을 좌우하는 

2. lda 적용

In [14]:
from gensim import corpora
dictionary = corpora.Dictionary(tokenized_data) #사전 구성
corpus = [dictionary.doc2bow(text) for text in tokenized_data]  #Bag of Words 구성
corpus[1] # 수행된 결과에서 두번째 문서 출력, 첫번째 문서의 인덱스는 0

[(2, 5),
 (10, 1),
 (21, 1),
 (25, 1),
 (26, 1),
 (29, 1),
 (35, 3),
 (36, 1),
 (55, 1),
 (57, 2),
 (75, 1),
 (79, 1),
 (80, 1),
 (81, 1),
 (82, 1),
 (83, 2),
 (84, 1),
 (85, 4),
 (86, 1),
 (87, 1),
 (88, 1),
 (89, 1),
 (90, 1),
 (91, 1),
 (92, 4),
 (93, 1),
 (94, 1),
 (95, 1),
 (96, 1),
 (97, 1),
 (98, 1),
 (99, 1),
 (100, 1),
 (101, 1),
 (102, 1),
 (103, 1),
 (104, 1),
 (105, 1),
 (106, 3),
 (107, 1),
 (108, 1),
 (109, 1),
 (110, 2),
 (111, 1),
 (112, 1),
 (113, 1),
 (114, 1),
 (115, 1),
 (116, 1),
 (117, 1),
 (118, 1),
 (119, 1),
 (120, 1),
 (121, 1),
 (122, 1),
 (123, 1),
 (124, 1),
 (125, 1),
 (126, 1),
 (127, 1),
 (128, 1),
 (129, 1),
 (130, 1),
 (131, 1),
 (132, 1),
 (133, 1),
 (134, 1),
 (135, 7),
 (136, 1),
 (137, 1),
 (138, 1),
 (139, 1),
 (140, 1),
 (141, 1),
 (142, 1),
 (143, 1),
 (144, 1),
 (145, 1),
 (146, 1),
 (147, 1),
 (148, 5),
 (149, 1),
 (150, 1),
 (151, 1),
 (152, 1),
 (153, 1),
 (154, 1),
 (155, 6),
 (156, 1),
 (157, 1),
 (158, 1),
 (159, 1),
 (160, 1),
 (161, 1),

In [15]:
dictionary[66]
len(dictionary)
type(corpus)

list

In [16]:
import gensim
NUM_TOPICS = 10
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics = NUM_TOPICS, id2word=dictionary, passes=15)
topics = ldamodel.print_topics(num_words=10)
for topic in topics:
    print(topic)

(0, '0.008*"것" + 0.007*"수" + 0.006*"은하" + 0.006*"평양" + 0.005*"등" + 0.005*"젠" + 0.005*"코어" + 0.005*"우리" + 0.004*"노인" + 0.004*"스레드"')
(1, '0.012*"것" + 0.010*"더" + 0.008*"리움" + 0.007*"수" + 0.007*"포크" + 0.006*"하드" + 0.005*"그" + 0.005*"치킨" + 0.005*"등" + 0.004*"유성우"')
(2, '0.012*"것" + 0.011*"그" + 0.008*"수" + 0.007*"등" + 0.005*"말" + 0.004*"한국" + 0.004*"사람" + 0.004*"고" + 0.004*"축제" + 0.004*"곳"')
(3, '0.013*"간송" + 0.009*"등" + 0.009*"것" + 0.008*"애플" + 0.007*"수" + 0.006*"중국" + 0.006*"시장" + 0.005*"전시" + 0.005*"아이폰" + 0.004*"기자"')
(4, '0.035*"달" + 0.012*"지구" + 0.011*"면" + 0.010*"중국" + 0.009*"우주" + 0.009*"창" + 0.009*"탐사" + 0.009*"것" + 0.008*"착륙" + 0.008*"호"')
(5, '0.011*"것" + 0.008*"수" + 0.008*"비트코인" + 0.007*"그" + 0.006*"노비" + 0.006*"돼지" + 0.005*"명" + 0.004*"등" + 0.004*"곳" + 0.004*"한강"')
(6, '0.014*"것" + 0.011*"전자" + 0.010*"등" + 0.009*"수" + 0.009*"기술" + 0.007*"시장" + 0.007*"서비스" + 0.006*"올해" + 0.006*"블록" + 0.006*"암호"')
(7, '0.013*"수" + 0.010*"것" + 0.010*"등" + 0.008*"택시" + 0.005*"발생" + 0.004*"서비스" + 0

In [None]:
#파라미터
#chunksize: 한 번에 처리하는 document의 수, 메모리에 영향
#passes: corpus를 몇 번 학습하는지를 지정
#decay: 0.5~1사이 값, 이전 학습에서의 lambda(분포 파라미터) 값 중 얼마나 제외할 것인지를 지정
#iterations: 토픽 분포 추론을 위해 corpus에서 반복하는 계산 횟수
#https://radimrehurek.com/gensim/models/ldamodel.html

In [None]:
ldamodel_mc = gensim.models.LdaMulticore(corpus, num_topics = NUM_TOPICS, id2word=dictionary, passes=15)  #병렬처리
topics = ldamodel_mc.print_topics(num_words=10)
for topic in topics:
    print(topic)

In [18]:
!pip install pyLDAvis

Collecting pyLDAvis
  Downloading pyLDAvis-3.4.1-py3-none-any.whl (2.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.6/2.6 MB[0m [31m16.9 MB/s[0m eta [36m0:00:00[0m
Collecting funcy (from pyLDAvis)
  Downloading funcy-2.0-py2.py3-none-any.whl (30 kB)
Installing collected packages: funcy, pyLDAvis
Successfully installed funcy-2.0 pyLDAvis-3.4.1


In [19]:
import re
from gensim.models.ldamodel import LdaModel
from gensim.models.callbacks import CoherenceMetric
from gensim import corpora
from gensim.models.callbacks import PerplexityMetric
import logging
import pickle
import pyLDAvis.gensim_models
from gensim.models.coherencemodel import CoherenceModel
import matplotlib.pyplot as plt

In [20]:
coherence_values = []
model_list = []
iters = [6,10, 14, 18, 22, 26]

for num_topics in iters:
     model = LdaModel(corpus=corpus, id2word=dictionary, num_topics=num_topics)
     model_list.append(model)
     coherencemodel = CoherenceModel(model=model, texts=tokenized_data, dictionary=dictionary, coherence='c_v')
     coherence_values.append(coherencemodel.get_coherence())


  and should_run_async(code)


In [21]:
for i in range(0, len(iters)):
  print(model_list[i], coherence_values[i])  #topic num별로 coherence 가 높은 것을 찾기

LdaModel<num_terms=14471, num_topics=6, decay=0.5, chunksize=2000> 0.29206646428961713
LdaModel<num_terms=14471, num_topics=10, decay=0.5, chunksize=2000> 0.28069600533310746
LdaModel<num_terms=14471, num_topics=14, decay=0.5, chunksize=2000> 0.30511961896242784
LdaModel<num_terms=14471, num_topics=18, decay=0.5, chunksize=2000> 0.2967770237381504
LdaModel<num_terms=14471, num_topics=22, decay=0.5, chunksize=2000> 0.30519652764446975
LdaModel<num_terms=14471, num_topics=26, decay=0.5, chunksize=2000> 0.2995478799491236
LdaModel<num_terms=14471, num_topics=30, decay=0.5, chunksize=2000> 0.3100651188236661


  and should_run_async(code)


In [41]:
ldamodel.log_perplexity(corpus)  #Perplexity: 낮을 수록 좋은 값,coherence 값이 nan인 경우 사용

  and should_run_async(code)


-8.837428636983825

3. 공훈자료에 대한 토픽모델링 실습
  - 출처: https://e-gonghun.mpva.go.kr/user/RewardOpenAPI.do?goTocode=50001

In [22]:
!unzip historical_records.zip

  and should_run_async(code)


Archive:  historical_records.zip
  inflating: historical_records.csv  


In [23]:
data = pd.read_csv("historical_records.csv")

  and should_run_async(code)


In [24]:
data['description']

  and should_run_async(code)


0        1922년 5월~1923년 3월, 일본(日本) 동경(東京)에서 박열(朴烈)과 함께 ...
1        1944. 4월 인천상업학교 출신 명치대학생(明治大學生)인 송재필(宋在弼)의 학병반...
2        1918. 3월 대한독립청년단(大韓獨立靑年團) 안면도지단(安眠島支團)을 설치하고 군...
3        1910년 경술국치(庚戌國恥)를 통탄(痛歎)하여 매일신보(每日申報)에 애국 사상(愛...
4        1931. 8. 26 부산(釜山) 전영진(田永鎭) 집에서 박귀선(朴貴先), 이인형(...
                               ...                        
15920    1. 1883년에 문명(文名)이 국내(國內)에 떨치더니 친일 고관(親日高官)들의 접...
15921    1919년 하와이 YWCA 서기로 활동하며 한인여자기독청년회 어머니클럽을 조직하고 ...
15922    1912년 이후 중국(中國)에서 중화민국 초대 부총통으로 신규식(申圭植) 등과 교류...
15923    1919년 길림성(吉林省) 왕청(汪淸)에서 대한군정서(大韓軍政署)에 가입하여 군기운...
15924    일본인 변호사로서 1923년 의열단원(義烈團員) 김시현(金始顯) 등이 총독부(總督府...
Name: description, Length: 15925, dtype: object

In [25]:
from konlpy.tag import Kkma
kkma = Kkma()

data = data[0:100]
tokenized_data = []
# 정규 표현식을 통한 한글 외 문자 제거
data['description'] = data['description'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")

# 불용어 정의
stopwords = ['을', 'ㅋㅋ', '부터', '까지' '적', '의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다']

for sentence in tqdm(data['description']):
    tokenized_sentence = kkma.nouns(sentence)
    stopwords_removed_sentence = [word for word in tokenized_sentence if not word in stopwords] # 불용어 제거
    tokenized_data.append(stopwords_removed_sentence)

  and should_run_async(code)
100%|██████████| 100/100 [01:47<00:00,  1.07s/it]


In [26]:
tokenized_data

  and should_run_async(code)


[['1922',
  '1922년',
  '년',
  '5',
  '5월',
  '월',
  '1923',
  '1923년',
  '년',
  '3',
  '3월',
  '일본',
  '동경',
  '박',
  '박열',
  '열',
  '도회',
  '기관지',
  '흑도',
  '흑',
  '흑우회',
  '우회',
  '태',
  '선',
  '현',
  '현사회',
  '사회',
  '간행',
  '무정부주의',
  '선전',
  '회원',
  '규합',
  '노력',
  '4',
  '4월',
  '주도',
  '단체',
  '불령',
  '불령사',
  '사',
  '가입',
  '활동',
  '활동하다',
  '동년',
  '9',
  '9월',
  '3일',
  '일',
  '대지진',
  '직후',
  '체포',
  '후',
  '1924',
  '1924년',
  '2',
  '2월',
  '15',
  '15일',
  '대',
  '대역사건',
  '역',
  '사건',
  '기소',
  '1926',
  '1926년',
  '25',
  '25일',
  '사형',
  '이후',
  '무기',
  '무기징역',
  '징역',
  '감형',
  '7',
  '7월',
  '23',
  '23일',
  '우쓰',
  '미',
  '형무소',
  '우도',
  '우도궁형무소',
  '궁형',
  '무소',
  '도치',
  '도치기지소',
  '기지',
  '소',
  '회목',
  '회목지소',
  '지소',
  '수감',
  '중',
  '옥중',
  '순국',
  '박열과',
  '열과',
  '의기투합',
  '제국',
  '제국주의',
  '주의',
  '반대',
  '시작',
  '경',
  '회',
  '발간',
  '발간책임',
  '책임',
  '조직',
  '사상',
  '사상연구',
  '연구',
  '연설',
  '연설회',
  '등',
  '추진',
  '민중',
  '민중운동',
  '운동',
  '한글',
  '발행',

In [27]:
import gensim
NUM_TOPICS = 10
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics = NUM_TOPICS, id2word=dictionary, passes=15)
topics = ldamodel.print_topics(num_words=10)
for topic in topics:
    print(topic)

  and should_run_async(code)


(0, '0.022*"간송" + 0.009*"전시" + 0.008*"미술관" + 0.007*"것" + 0.007*"등" + 0.006*"점" + 0.005*"수" + 0.005*"문화" + 0.005*"미술" + 0.005*"문화재"')
(1, '0.023*"게임" + 0.018*"넥슨" + 0.016*"대표" + 0.015*"것" + 0.011*"업계" + 0.010*"등" + 0.009*"국내" + 0.009*"매각" + 0.009*"김" + 0.008*"산업"')
(2, '0.013*"택시" + 0.010*"수" + 0.008*"것" + 0.008*"더" + 0.007*"시스템" + 0.006*"서비스" + 0.006*"기술" + 0.006*"리움" + 0.006*"등" + 0.006*"차량"')
(3, '0.012*"것" + 0.008*"수" + 0.008*"등" + 0.006*"비트코인" + 0.006*"전자" + 0.004*"재" + 0.004*"더" + 0.003*"기자" + 0.003*"로봇" + 0.003*"울티마"')
(4, '0.010*"것" + 0.010*"수" + 0.008*"그" + 0.006*"곳" + 0.006*"등" + 0.004*"기자" + 0.004*"시간" + 0.004*"사람" + 0.003*"뉴스" + 0.003*"마곡사"')
(5, '0.011*"것" + 0.009*"그" + 0.007*"수" + 0.007*"맥주" + 0.006*"치킨" + 0.005*"말" + 0.005*"한국" + 0.004*"등" + 0.004*"사람" + 0.004*"재"')
(6, '0.014*"것" + 0.010*"등" + 0.009*"애플" + 0.008*"수" + 0.006*"중국" + 0.006*"아이폰" + 0.005*"시장" + 0.005*"고" + 0.005*"미국" + 0.005*"기자"')
(7, '0.009*"수" + 0.009*"것" + 0.009*"등" + 0.006*"서비스" + 0.006*"클라우드" + 0.005*"

4. Tokenized 데이터를 읽어서 토픽 발견

In [31]:
data2 = pd.read_csv("tokenized_data.csv", delimiter="@", header=None)

  and should_run_async(code)


In [32]:
data2.columns = ["description"]
#data2['description'] = data2['description'].str.replace(","," ")

tokenized_data2 = []

for sentence in tqdm(data2['description']):
    tokenized_sentence = sentence.split(",")
    stopwords_removed_sentence = [word for word in tokenized_sentence if not word in stopwords] # 불용어 제거
    tokenized_data2.append(stopwords_removed_sentence)

  and should_run_async(code)
100%|██████████| 15925/15925 [00:00<00:00, 24903.05it/s]


In [33]:
tokenized_data2

  and should_run_async(code)


[['일본',
  '동경',
  '박열',
  '흑도회',
  '기관지',
  '흑도',
  '흑우회',
  '기관지',
  '태선인',
  '현사회',
  '간행',
  '무정부주의',
  '선전',
  '회원',
  '규합',
  '노력',
  '박열',
  '주도',
  '무정부주의',
  '단체',
  '불령사',
  '가입',
  '활동',
  '동년',
  '동경',
  '대지진',
  '직후',
  '체포',
  '박열',
  '대역사건',
  '기소',
  '사형',
  '이후',
  '무기징역',
  '감형',
  '우쓰노미야형무소',
  '우도궁형무소',
  '도치기지소',
  '회목지소',
  '수감',
  '옥중',
  '순국',
  '박열',
  '의기투합',
  '일본',
  '제국주의',
  '반대',
  '활동',
  '시작',
  '흑도회',
  '가입',
  '박열',
  '기관지',
  '흑도',
  '발간',
  '책임',
  '흑우회',
  '조직',
  '사상연구',
  '연설회',
  '추진',
  '기관지',
  '민중운동',
  '한글',
  '발행',
  '후토이센진',
  '창간',
  '현사회',
  '이름',
  '개칭',
  '지속',
  '발간',
  '무정부주의',
  '운동가',
  '규합',
  '불령사',
  '조직',
  '불령사',
  '한국',
  '형평운동',
  '지지',
  '한편',
  '노동운동',
  '적극',
  '지원',
  '무정부주의',
  '입각',
  '항일투쟁',
  '전개',
  '의열단',
  '의열투쟁',
  '추진',
  '폭탄',
  '도쿄',
  '반입',
  '일왕',
  '정부',
  '요인',
  '암살',
  '계획',
  '도쿄대지진',
  '직후',
  '보호',
  '감속',
  '명목',
  '도쿄',
  '세타가야',
  '경찰서',
  '구금',
  '취조',
  '도중',
  '폭탄',
  '반입',
  '사실',
  '대역사건',
  '주

In [34]:
import gensim
NUM_TOPICS = 10
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics = NUM_TOPICS, id2word=dictionary)
topics = ldamodel.print_topics(num_words=10)
for topic in topics:
    print(topic)

  and should_run_async(code)


(0, '0.009*"것" + 0.007*"등" + 0.007*"택시" + 0.006*"수" + 0.005*"위" + 0.005*"달" + 0.005*"대표" + 0.005*"서비스" + 0.004*"재" + 0.003*"한국"')
(1, '0.013*"것" + 0.008*"수" + 0.007*"등" + 0.004*"기자" + 0.004*"말" + 0.004*"고" + 0.004*"택시" + 0.004*"재" + 0.004*"시장" + 0.004*"더"')
(2, '0.008*"것" + 0.007*"수" + 0.006*"등" + 0.006*"그" + 0.006*"기술" + 0.005*"고" + 0.004*"말" + 0.003*"기자" + 0.003*"재" + 0.003*"시장"')
(3, '0.012*"것" + 0.007*"등" + 0.007*"수" + 0.004*"국내" + 0.004*"달" + 0.004*"기자" + 0.004*"그" + 0.003*"말" + 0.003*"재" + 0.003*"위"')
(4, '0.015*"것" + 0.010*"수" + 0.010*"등" + 0.005*"재" + 0.004*"기술" + 0.004*"때" + 0.004*"대표" + 0.004*"그" + 0.003*"고" + 0.003*"시장"')
(5, '0.018*"것" + 0.010*"게임" + 0.009*"수" + 0.009*"넥슨" + 0.008*"등" + 0.007*"대표" + 0.005*"국내" + 0.005*"중국" + 0.004*"기자" + 0.004*"매각"')
(6, '0.011*"것" + 0.010*"수" + 0.006*"등" + 0.004*"재" + 0.004*"그" + 0.003*"기술" + 0.003*"시장" + 0.003*"대표" + 0.003*"전자" + 0.003*"때문"')
(7, '0.010*"것" + 0.009*"등" + 0.007*"수" + 0.005*"그" + 0.005*"재" + 0.004*"달" + 0.004*"기자" + 0.004*"