# **2023년 동계 영재교육 담당교원 기초과정 직무연수**

**제4차 산업혁명의 핵심: 융합시대의 빅데이터 및 빅데이터 활용법 (2023년 1월 11일)**

## **토픽 모델링 실습**

# **한국어 표시(display)를 위한 사전 세팅**

In [None]:
!apt -qq -y install fonts-nanum # 나눔폰트를 설치

In [None]:
import matplotlib.font_manager as fm
import matplotlib.pyplot as plt # 시각화를 위한 라이브러리
sys_font=fm.findSystemFonts()
nanum_font = [f for f in sys_font if 'Nanum' in f]
print(f"nanum_font number: {len(nanum_font)}")
print(nanum_font)
# 설치된 나눔 폰트 종류 확인
# 나눔 바른 고딕을 사용할 예정

In [None]:
path = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf' 
font_name = fm.FontProperties(fname=path, size=10).get_name()
print(font_name)
plt.rc('font', family=font_name)
fm._rebuild()

In [None]:
# 형태소 분석을 위해 한글 분석 모듈 konlpy를 설치
# 형태소: 단어의 최소단위, 언어학에서 일정한 의미가 있는 가장 작은 말의 단위
# 참조: https://konlpy.org/ko/latest/index.html
!pip install konlpy

# **한국어 전처리를 위한 KoNLPy 설치**

In [None]:
import konlpy 
print('KoNLPy version...:', konlpy.__version__)

In [None]:
from konlpy.tag import Okt
okt = Okt()
okt.pos('토픽모델링을 활용한 국내 문헌정보학 연구동향 분석')

In [None]:
konlpy.data.path

In [None]:
cd /usr/local/lib/python3.8/dist-packages/konlpy/java

In [None]:
ls

In [None]:
import os
os.chdir('/usr/local/lib/python3.8/dist-packages/konlpy/java')
os.getcwd() 

In [None]:
os.makedirs('./aaa') # 임시 폴더를 생성

In [None]:
os.chdir('/usr/local/lib/python3.8/dist-packages/konlpy/java/aaa')

In [None]:
!jar xvf ../open-korean-text-2.1.0.jar

In [None]:
# 사용자 사전 열기
with open(f"/usr/local/lib/python3.8/dist-packages/konlpy/java/aaa/org/openkoreantext/processor/util/noun/nouns.txt") as f:
    data = f.read()

In [None]:
data[:5]

In [None]:
# 새로운 단어 추가
data += '토픽모델링\n연구동향\n'

In [None]:
# 파일 새롭게 저장
with open(f"/usr/local/lib/python3.8/dist-packages/konlpy/java/aaa/org/openkoreantext/processor/util/noun/nouns.txt", 'w') as f:
    f.write(data)

In [None]:
!jar cvf ../open-korean-text-2.1.0.jar * # 다시 압축해주는 과정

In [None]:
from konlpy.tag import Okt
okt = Okt()
okt.pos('토픽모델링을 활용한 국내 문헌정보학 연구동향 분석')

# **커스텀하게 단어(명사)를 새롭게 등록하게 해주는 라이브러리 설치**

In [None]:
!pip install customized-KoNLPy

In [None]:
from konlpy.tag import Okt
okt = Okt()
okt.pos('토픽모델링을 활용한 국내 문헌정보학 연구동향 분석')

In [None]:
from ckonlpy.tag import Twitter
twitter = Twitter()
twitter.add_dictionary('토픽모델링', 'Noun') # 커스텀하게 단어(명사)추가가 가능
twitter.add_dictionary('연구동향', 'Noun')
twitter.pos('토픽모델링을 활용한 국내 문헌정보학 연구동향 분석')

# **Mecab 모듈 다루기 (고급버전)**

In [None]:
# 형태소 분석을 위해 한글 분석 모듈 Mecab 설치
# 참조: https://github.com/SOMJANG/Mecab-ko-for-Google-Colab
! git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git

In [None]:
cd Mecab-ko-for-Google-Colab/

In [None]:
ls

In [None]:
!bash install_mecab-ko_on_colab190912.sh

In [None]:
from konlpy.tag import Mecab
mecab = Mecab()
sentence = '이제 구글 코랩에서 Mecab 라이브러리의 사용이 가능합니다. 읽어주셔서 감사합니다.'
nouns = mecab.nouns(sentence)
print(nouns)

In [None]:
from konlpy.tag import Mecab
mecab = Mecab()
sentence = '토픽모델링을 활용한 국내 문헌정보학 연구동향 분석'
nouns = mecab.nouns(sentence)
print(nouns)

✅ **몇 가지 사전 세팅이 필요**

1) 왼쪽 폴더에서 mecab-ko-dic-2.1.1-20180720로 이동

In [None]:
cd /content/mecab-ko-dic-2.1.1-20180720

In [None]:
ls user-dic

2) user-dic 폴더를 선택

nnp.csv 는 명사, person.csv 는 인명, place.csv 는 등록되지 않은 장소에 대한 이름을 등록하는 파일로, 새로운 명사를 해당 파일을 열어 새롭게 등록(customizing)할 수 있음.

In [None]:
with open("./user-dic/nnp.csv", 'r', encoding='utf-8') as f:
  file_data = f.readlines()

In [None]:
file_data # F와 T는 마지막 글자에 받침이 있는지 없는지 (종성여부)를 나타냄

In [None]:
word_list = ["토픽모델링", "문헌정보학","연구동향"]

In [None]:
!pip install jamo

In [None]:
from jamo import h2j, j2hcj
def get_jongsung_TF(sample_text):
    sample_text_list = list(sample_text)
    last_word = sample_text_list[-1]
    last_word_jamo_list = list(j2hcj(h2j(last_word)))
    last_jamo = last_word_jamo_list[-1]

    jongsung_TF = "T"

    if last_jamo in ['ㅏ', 'ㅑ', 'ㅓ', 'ㅕ', 'ㅗ', 'ㅛ', 'ㅜ', 'ㅠ', 'ㅡ', 'ㅣ', 'ㅘ', 'ㅚ', 'ㅙ', 'ㅝ', 'ㅞ', 'ㅢ', 'ㅐ,ㅔ', 'ㅟ', 'ㅖ', 'ㅒ']:
        jongsung_TF = "F"

    return jongsung_TF

In [None]:
with open("./user-dic/nnp.csv", 'r', encoding='utf-8') as f:
  file_data = f.readlines()

for word in word_list:
  jongsung_TF = get_jongsung_TF(word)

  line = '{},,,,NNP,*,{},{},*,*,*,*,*\n'.format(word, jongsung_TF, word)

  file_data.append(line)

3) 단어를 새롭게 추가 후 저장하는 과정

In [None]:
with open("./user-dic/nnp.csv", 'w', encoding='utf-8') as f:
  for line in file_data:
    f.write(line)

In [None]:
with open("./user-dic/nnp.csv", 'r', encoding='utf-8') as f:
  file_new = f.readlines()
file_new

In [None]:
ls

In [None]:
ls tools

4) tools 디렉토리

tools 디렉토리가 있다면 tools 디렉토리 안에 add-userdic.sh* 라는 쉘스크립트가 있는지 확인

In [None]:
!bash ./tools/add-userdic.sh

In [None]:
!make install

In [None]:
from konlpy.tag import Mecab
mecab = Mecab()
sentence = '토픽모델링을 활용한 국내 문헌정보학 연구동향 분석'
nouns = mecab.nouns(sentence)
print(nouns)

In [None]:
# # 형태소 분석을 위해 한글 분석 모듈 Mecab 설치.
# 혹시 위의 설치 방법이 오류가 나는 경우 활용.
# # 다른 모듈/라이브러리의 설치와 달리 약간의 시간이 걸리는 작업.
# !bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)

🏃 **런타임 재시작 필요**

In [None]:
# 테스트를 위한 시각화 - 한글 출력이 되는지 확인
# 한글이 정상적으로 출력이 되는지 확인 후 진행 !
# 일반적을 재시작을 해주어야 함
plt.plot(['서울', '경기', '인천', '광주', '대구', '부산', '울산', '대전', '제주'], [12, 32, 4, 0, 5, 2, 19, 9, 3])
plt.xlabel('x축')
plt.ylabel('y축')
plt.show()

# **데이터 불러오기**

영화 아바타2의 네티즌 평점 및 리뷰
 
(데이터 출처: 네이버 영화)

In [None]:
import pandas as pd # 일종의 엑셀과 같은 기능을 해주는 라이브러리
import numpy as np 
avatar2 = pd.read_csv("https://raw.githubusercontent.com/gnu-mot/tutoring/main/movie_avatar2.csv") 

In [None]:
avatar2.head()

In [None]:
avatar2.shape

In [None]:
for review in avatar2['영화감상평']:
  if len(review) < 10: # 문장의 길이가 10 미만인 경우를 출력
    print(review) # 아래 리뷰들이 큰 의미가 없다고 판단되면, 제거하고 진행도 가능.

문장의 길이가 10 미만인 경우 삭제하고 진행

# **데이터 전처리**

In [None]:
avatar2['감상평길이'] = avatar2['영화감상평'].apply(lambda x: len(x))

In [None]:
avatar2.head(10)

In [None]:
avatar2['영화감상평'].iloc[5]

In [None]:
# 감상평길이를 기준으로 필터링
review = avatar2[avatar2['감상평길이'] > 10].reset_index(drop=True)

In [None]:
review.shape # 처음 불러온 데이터 보다 줄어듬

# **간단한 데이터 시각화**

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
counts = review['영화평점'].value_counts().rename_axis('평점').reset_index(name='counts')
counts

In [None]:
f, ax = plt.subplots(figsize = (10,6)) # x와 y의 사이즈 조정
ax = sns.barplot(data = counts, x='평점', y='counts', # 
                 palette='Blues') # 
plt.xlabel("평점", fontweight='bold', fontsize = 20, labelpad = 20)
plt.ylabel("평점 개수", fontweight='bold', fontsize = 20, labelpad = 25)
plt.xticks(rotation=0, fontsize=15) # rotation은 x축 눈금 문자의 각도를 조정하는 기능
plt.yticks(rotation=0, fontsize=15)
plt.tight_layout() # 그래픽을 더 compact하게 만들어주는 역할
plt.show()

# **한국어 전처리 (간소화한 버전)**

In [None]:
from konlpy.tag import Okt
okt = Okt()
text = '자연어 처리 재밌엌ㅋㅋ'
okt.normalize(text) # 정규화 기능을 제공, 오타가 섞인 문장의 정규화
# okt.phrases(text)

In [None]:
# 정규화 작업을 도와주는 함수 생성
def okt_normalize(x):
  return okt.normalize(x)

In [None]:
review['정규화'] = review['영화감상평'].apply(okt_normalize)

In [None]:
review.head(10)

In [None]:
from tqdm import tqdm
nouns_custom = []
for i in tqdm(range(len(review))):
  nouns_custom.append(okt.nouns(review['정규화'][i]))  
nouns_custom[:3]

In [None]:
review['정규화'].iloc[2]

In [None]:
# custom한 방식으로 불용어 설정
stopwords = "데 만큼 함 그 각각 관련 또한 결 관 체 위 부 및 기 층 하나 통해 관한 위한 대한 한 마련 제 이 있 하 생 용 것 들 그 되 수 이 보 않 없 나 사람 주 아니 등 같 우리 때 년 가 지 대하 오 말 일 그렇 위하 저 위한 전 난 일 걸 뭐 줄 만 건 분 개 끝 잼 이거 번 중 듯 때 게 내 말 나 수 거 점 것 의 가 이 은 들 는 좀 잘 걍 과 도 를 으로 자 에 와 하다 을 아 그 좀"
stopwords = list(set(stopwords.split(" ")))
print(stopwords)

In [None]:
# 다시 새롭게 추출 
nouns_new = []
for item in nouns_custom:
  temp = []
  for element in item:
    if (element not in stopwords): # 불용어와 제거
      temp.append(element)
  nouns_new.append(temp)

In [None]:
print(nouns_new[:3])

# **단어 빈도 분석**

In [None]:
texts = nouns_new.copy()

In [None]:
texts[:3]

In [None]:
frequency_count = [element for line in texts for element in line ]
print(len(frequency_count))

In [None]:
from collections import Counter # 전체 빈도수 카운팅을 도와주는 기능
nouns_counter = Counter(frequency_count)
top_nouns = dict(nouns_counter.most_common(30)) 
top_nouns 

In [None]:
n =0
for line in texts:
  if "상미" in line:
    print(n)
  n+= 1

In [None]:
review['정규화'].iloc[8902]

# **워드 클라우드**

In [None]:
from wordcloud import WordCloud
wc = WordCloud(background_color='white',colormap = 'seismic',
               font_path = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf',
               width = 1000, height = 800)
wc.generate_from_frequencies(top_nouns) 

In [None]:
plt.figure(figsize=(10, 10))
plt.imshow(wc)
plt.axis('off')
plt.tight_layout()
plt.savefig("test.png",dpi=300)
plt.show()

# **토픽 모델링의 적용**

In [None]:
from gensim import corpora # 토픽모델링
kr_dictionary = corpora.Dictionary(texts) # 단어들의 사전 만들기 (정수 인코딩)
print(kr_dictionary)

In [None]:
# 출현빈도가 적거나, 전체 문서에 걸쳐 자주 등장하는 단어는 제거 
kr_dictionary.filter_extremes(no_below=5, no_above=0.30)

In [None]:
print(kr_dictionary)

In [None]:
corpus = [kr_dictionary.doc2bow(text) for text in texts] # Term Document Frequency 만들기, 단어가 해당 문서에서 몇 번 출현하는지 여부
# corpus는 말뭉치를 뜻하며, 언어 표본의 집합을 의미
print(corpus[0]) # 수행된 결과에서 첫번째 뉴스 출력. 첫번째 문서의 인덱스는 0
# (단어번호, 개수)

In [None]:
# 손쉽게 읽을 수 있는 형태로 변환
[[(kr_dictionary[id], freq) for id, freq in cp] for cp in corpus[:1]]

In [None]:
# # texts
# new_list = []
# for line in texts:
#   temp = []
#   for element in line:
#     if element == "영환":
#       temp.append("영화")
#     else:
#       temp.append(element)
#   new_list.append(temp)

In [None]:
import gensim

num_topics : 가설로 정한 토픽의 갯수

chunksize : 얼마나 많은 문서가 훈련 알고리즘에 사용되는지 (만약에 빠른 학습이 중요하다면, 청크사이즈를 증가) 그러나 Chunksize는 모델 품질에 영향을 미치칠 수 있음, default로 2000.

passes : 패스는 모델 학습시 전체 코퍼스에서 모델을 학습시키는 빈도를 제어

iteration : 각각 문서에 대해서 루프를 얼마나 돌리는지를 제어

alpha, eta = auto, 디리클레 분포에 대한 파라미터

In [None]:
# LDA 모델 생성 
lda_model = gensim.models.ldamodel.LdaModel(corpus=corpus, 
                                           num_topics = 6, 
                                           id2word=kr_dictionary,
                                           random_state=2000,
                                           passes=20,
                                           iterations=200
                                           )

In [None]:
# 토픽별 단어를 나타냄
topics = lda_model.print_topics(num_words=10)
for topic in topics:
    print(topic)

In [None]:
tm1 = lda_model[corpus[0]] # 첫 번째 문서에는 어떤 토픽이 ?
tm1

In [None]:
tm2 = lda_model[corpus[1]] # 두 번째 문서에는 어떤 토픽이 ?
tm2

In [None]:
!pip install pyLDAvis==2.1.2 

In [None]:
import pyLDAvis
import pyLDAvis.gensim as gensimvis
vis_data = gensimvis.prepare(lda_model, corpus, kr_dictionary, sort_topics=False)
pyLDAvis.display(vis_data)

In [None]:
n_words = 10

topic_words = pd.DataFrame({})

for i, topic in enumerate(lda_model.get_topics()):
    top_feature_ids = topic.argsort()[-n_words:][::-1]
    feature_values = topic[top_feature_ids]
    words = [kr_dictionary[id] for id in top_feature_ids]
    topic_df = pd.DataFrame({'value': feature_values, 'word': words, 'topic': i})
    topic_words = pd.concat([topic_words, topic_df], ignore_index=True)

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
g = sns.FacetGrid(topic_words, col="topic", col_wrap=3, sharey=False)
g.map(plt.barh, "word", "value", color='lightgray',edgecolor ="black")
plt.savefig("토픽.png",dpi=300)

In [None]:
from wordcloud import WordCloud
wc = WordCloud(colormap = 'seismic',
               font_path = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf',
              background_color="white", max_font_size=150, random_state=42)

In [None]:
topics = [[(term, round(wt, 3)) for term, wt in lda_model.show_topic(n, topn=20)] for n in range(0, lda_model.num_topics)]
print(topics)

In [None]:
topics_df2 = pd.DataFrame([', '.join([term for term, wt in topic]) for topic in topics], columns = ['Terms per Topic'],
                         index=['Topic'+str(t) for t in range(1, lda_model.num_topics+1)] )

In [None]:
plt.figure(figsize=(20,15))
# Create subplots for each topic
for i in range(6):

    wc.generate(text=topics_df2["Terms per Topic"][i])
    
    plt.subplot(5, 4, i+1)
    plt.imshow(wc, interpolation="bilinear")
    plt.axis("off")
    plt.title(topics_df2.index[i], fontsize=15, pad = 20)

plt.show()

In [None]:
topic_modeling_results = lda_model[corpus]
results = list(topic_modeling_results)

In [None]:
corpus_topics = [sorted(topics, key=lambda record: -record[1])[0] for topics in results]

In [None]:
corpus_topic_df = pd.DataFrame()

corpus_topic_df['Dominant Topic'] = [item[0] for item in corpus_topics]
corpus_topic_df['Contribution %'] = [round(item[1]*100, 2) for item in corpus_topics]
corpus_topic_df['Topic Terms'] = [topics_df2.iloc[t[0]]['Terms per Topic'] for t in corpus_topics]

In [None]:
dominant_topic_df = corpus_topic_df.groupby('Dominant Topic').agg(
                                  Doc_Count = ('Dominant Topic', np.size),
                                  Total_Docs_Perc = ('Dominant Topic', np.size)).reset_index()

dominant_topic_df['Total_Docs_Perc'] = dominant_topic_df['Total_Docs_Perc'].apply(lambda row: round((row*100) / len(corpus), 2))

dominant_topic_df

# **토픽의 개수 설정**

In [None]:
import warnings 
warnings.filterwarnings('ignore')

**시간이 상당히 소요될 수 있는 작업**

In [None]:
from gensim.models import CoherenceModel
coherence_values = []
perplexities=[] # 낮을 수록 더 좋은 값
model_list = []
for i in range(2,21):
  ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics = i, id2word=kr_dictionary, passes=10,random_state=2000, iterations=100)
  model_list.append(ldamodel)
  coherencemodel = CoherenceModel(model=ldamodel, texts=texts, dictionary=kr_dictionary, coherence='c_v')
  coherence_values.append(coherencemodel.get_coherence())
  perplexities.append(ldamodel.log_perplexity(corpus))

In [None]:
import numpy as np
ind = np.argmax(coherence_values)
print(ind)

In [None]:
x = range(2, 21, 1)
plt.plot(x, coherence_values)
plt.xlabel("Num Topics")
plt.ylabel("Coherence score")
plt.xticks([2,4,6,8,10,12,14,16,18,20])
plt.legend(("Coherence"), loc='best')
plt.show()

# **새로운 문서의 토픽 할당**

In [None]:
# 훈련에 사용된 corpus가 아닌 새로운 document에 대해 토픽 모델링을 수행할 수 있으나
# 정확도는 다소 떨어질 수 있다.
def doc_to_bow(doc): #
    token = okt.nouns(doc) # 명사만 추출
    temporary = []
    for t in token:
      if t not in stopwords:
        temporary.append(t)
    bow = kr_dictionary.doc2bow(temporary)
    return bow

In [None]:
result = model_list[3][(doc_to_bow('스토리가 너무 뻔하지만 재미있었어요'))]
print(result)

In [None]:
result = model_list[3][(doc_to_bow('넷플릭스에서 보고싶다'))] # 전혀 상관없는 문장의 경우,균등하게 나눈 토픽으로 판단
print(result)