## 0. install & import

In [None]:
!pip install konlpy

In [None]:
!git clone https://github.com/JoeZJH/Labeled-LDA-Python.git

In [3]:
import pickle
import pandas as pd
import numpy as np
from konlpy.tag import Okt

In [4]:
import sys
sys.path.insert(0, '/content/Labeled-LDA-Python')  # 저장할 적절한 경로로 변경

import model.labeled_lda as llda

In [5]:
stopwords_k = ['은','는','아','음','제가','저는','여러분','예','안','전','얘','휴','유','박','거','것','어','속','나','을','를','게','우','에','의','이','가', '이','때','오','우'
                          '으로','음악','로','에게','에서','까지','께','저','도','한','그리고', '제가'
                          '로써','로서','지금','이제','으로써','다','등','등등','들','제','까지','좀','사실',
                          '조금','몇','하면','수','와','과','왜','나','그','때','어느','그',
                          '하다','네','뭐','석','것','만큼','진짜', '마찬가지', "아", "그냥",
                          "이","등", '그', "아이고", "우리", "저희", "따라","하다","것", "의해",'이제']

## 1. LLDA를 통한 영상 키워드 분류

In [7]:
with open('model_llda_2.pickle', 'rb') as f:
    llda_model = pickle.load(f)

In [10]:
def words_to_topic(document):
  iteration = 100
  times=10
  # word_list 형식 예시 : '금강산 하늘 영상 일제 조선 독립 여성 시대'

  topics = llda_model.inference(document=document, iteration=iteration, times=times)

  return topics

In [None]:
words_to_topic("금강산 하늘 영상 일제 조선 독립 여성 시대")

[('역사', 0.8046971569839307),
 ('예술', 0.13720642768850433),
 ('common_topic', 0.05067985166872683),
 ('사회과학', 0.0012360939431396787),
 ('자연과학', 0.0012360939431396787),
 ('기술과학', 0.0012360939431396787),
 ('종교', 0.0012360939431396787),
 ('철학', 0.0012360939431396787),
 ('문학', 0.0012360939431396787)]

In [None]:
words_to_topic('폭탄 아인슈타인 사람 미국 과학자 원자 전쟁 이야기')

[('자연과학', 0.5945611866501854),
 ('종교', 0.13720642768850433),
 ('역사', 0.13720642768850433),
 ('common_topic', 0.11248454882571075),
 ('사회과학', 0.013597033374536466),
 ('기술과학', 0.0012360939431396787),
 ('철학', 0.0012360939431396787),
 ('예술', 0.0012360939431396787),
 ('문학', 0.0012360939431396787)]

In [None]:
words_to_topic('우주 물리학 물리학자 물리 지구 과학 태양 전자기력')

[('자연과학', 0.9901112484548827),
 ('사회과학', 0.001236093943139679),
 ('common_topic', 0.001236093943139679),
 ('기술과학', 0.001236093943139679),
 ('종교', 0.001236093943139679),
 ('철학', 0.001236093943139679),
 ('예술', 0.001236093943139679),
 ('역사', 0.001236093943139679),
 ('문학', 0.001236093943139679)]

In [None]:
words_to_topic('칸트 명제 말 사물 이성 인간 공간 비판')

[('철학', 0.5822002472187886),
 ('common_topic', 0.38442521631644005),
 ('예술', 0.013597033374536466),
 ('역사', 0.013597033374536466),
 ('사회과학', 0.0012360939431396787),
 ('자연과학', 0.0012360939431396787),
 ('기술과학', 0.0012360939431396787),
 ('종교', 0.0012360939431396787),
 ('문학', 0.0012360939431396787)]

## 2. 각 KDC 분류별 키워드 도출

In [12]:
with open('model_llda_2.pickle','wb') as fw:
    pickle.dump(llda_model, fw)

In [13]:
with open('model_llda_2.pickle', 'rb') as f:
    llda_model = pickle.load(f)

In [14]:
def kdc_keyword(kdc, num=20):
  keyword = llda_model.top_terms_of_topic(kdc, num, False)
  return keyword

In [24]:
kdc_list = ["자연과학", "사회과학","기술과학","예술","종교","역사","문학","철학"]
for kdc in kdc_list:
  print(kdc," : ", end="")
  print(kdc_keyword(kdc))

자연과학  : ['과학', '수학', '있', '책', '우주', '동물', '이야기', '지구', '자연', '이해', '설명', '인간', '식물', '하', '이론', '생명', '연구', '알', '지식', '개념']
사회과학  : ['있', '책', '사회', '경제', '하', '기업', '투자', '교육', '저자', '성공', '방법', '문제', '정치', '분석', '한국', '사람', '제시', '변화', '시장', '문화']
기술과학  : ['있', '책', '아이', '하', '건강', '방법', '요리', '저자', '소개', '먹', '몸', '치료', '부모', '음식', '만들', '엄마', '기술', '레시피', '의학', '설명']
예술  : ['있', '책', '작품', '미술', '예술', '영화', '그림', '사진', '디자인', '문화', '한국', '건축', '저자', '이야기', '소개', '설명', '작가', '하', '이해', '세계']
종교  : ['하나님', '책', '교회', '있', '성경', '삶', '종교', '불교', '기독교', '하', '저자', '예수', '사랑', '사람', '신학', '신앙', '마음', '신화', '기도', '스님']
역사  : ['역사', '여행', '책', '있', '조선', '문화', '이야기', '나라', '일본', '시대', '중국', '정보', '도시', '연구', '지역', '한국', '전쟁', '유럽', '소개', '인물']
문학  : ['소설', '작가', '이야기', '작품', '사랑', '문학', '아이', '시', '시인', '하', '마음', '삶', '자신', '말', '받', '친구', '집', '사람', '엄마', '세상']
철학  : ['책', '있', '철학', '삶', '사람', '자신', '마음', '인간', '하', '저자', '인생', '행복', '말', '생각', '관계', '심리학', '감정', '방법', '사회', '문제']
