**형태소 분리**<br>
*   형태소: 의미를 가진 최소의 단위 (minimally meaningful unit)
*   단어(또는 어절)를 구성하는 각 형태소 분리

**KoNLPy(한국어 자연어 처리 파이썬 패키지) 설치**
1.   Java JDK (https://www.oracle.com/java/technologies/downloads/#jdk17-windows) 설치
2.   JAVA_HOME 설정: 시스템 환경 변수 편집 : 환경 변수 > 시스템 변수 > 새로 만들기
  *  변수 이름: JAVA_HOME
  *  변수 값: C:\Program Files\Java\jdk-17.0.3
3. JPype1 설치: 
  *  https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype 자신의 파이썬 버전에 맞게 다운로드 그리고 파일을 작업 환경에 이동
  *  pip install JPype1...
4. pip install konlpy

In [None]:
import json
import re
from konlpy.tag import Okt
from collections import Counter
import matplotlib
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc
from wordcloud import WordCloud

In [None]:
dataOpen = open('./dataset/korean_text.json', encoding='utf-8').read()
data = json.loads(dataOpen)

In [None]:
data

In [None]:
message = ''
for n in data:
    if 'message' in n.keys():
        message = message + re.sub('[^\w]', ' ', n['message'])+' '

In [None]:
message

In [None]:
nlp = Okt()
messageNouns = nlp.nouns(message)
messageNouns 

In [None]:
count = Counter(messageNouns)
count

In [None]:
#sorted(count.items(), key=lambda x: x[1], reverse=True)

In [None]:
wordCount = dict()
for tag, counts in count.most_common(50):
    #print(tag, counts)
    #print(type(tag))
    if(len(tag)>1):
        wordCount[tag] = counts
        print('%s: %d' %(tag, counts))

In [None]:
font_path = 'c:/Windows/fonts/gulim.ttc'
font_name = font_manager.FontProperties(fname = font_path).get_name()
matplotlib.rc('font', family = font_name)

In [None]:
plt.figure(figsize = (12, 5))
plt.xlabel('키워드')
plt.ylabel('빈도수')
plt.grid(True)
sorted_keys = sorted(wordCount, key=count.get, reverse=True)
print(sorted_keys)
sorted_values = sorted(wordCount.values(), reverse=True)
print(sorted_values)
plt.bar(range(len(wordCount)), sorted_values, align = 'center')
plt.xticks(range(len(wordCount)), list(sorted_keys), rotation = '75')

In [None]:
wc = WordCloud(font_path, background_color = 'ivory', width = 800, height=600)
cloud = wc.generate_from_frequencies(wordCount)
plt.figure(figsize = (8, 8))
plt.imshow(cloud)
plt.axis('off')
plt.show()