# 한글Word Cloud 작성

## 한글형태소 분석 맟 처리방법

In [None]:
독립선언 = open('독립선언서.txt',encoding='utf-8').read()
독립선언

In [None]:
import matplotlib.pyplot as plt
import matplotlib
from wordcloud import WordCloud

matplotlib.rcParams["font.family"] = 'NanumGothic'
폰트위치 = 'C:/Windows/Fonts/NanumGothic.ttf'  

독립선언구름 = WordCloud(font_path = 폰트위치).generate(독립선언)
plt.figure(figsize=(12,12))
plt.imshow(독립선언구름)
plt.axis("off")
plt.show()

In [None]:
## 한글 Word Cloud를 작성하기 위한 Packages 설치
## pip install nltk, konlpy
import nltk
import konlpy

## 형태소 분석
### Hannanum: 한나눔. KAIST Semantic Web Research Center 개발.
### http://semanticweb.kaist.ac.kr/hannanum/
### Kkma: 꼬꼬마. 서울대학교 IDS(Intelligent Data Systems) 연구실 개발.
### http://kkma.snu.ac.kr/
### Komoran: 코모란. Shineware에서 개발.
### https://github.com/shin285/KOMORAN
### Mecab: 메카브. 일본어용 형태소 분석기를 한국어를 사용할 수 있도록 수정.
### https://bitbucket.org/eunjeon/mecab-ko
### Open Korean Text: 오픈 소스 한국어 분석기. 과거 트위터 형태소 분석기.
### https://github.com/open-korean-text/open-korean-text

In [None]:
# 형태소 분석:  
from konlpy.tag import Okt

okt = Okt()
## Open Korean Text: 오픈 소스 한국어 분석기. 과거 Twitter 형태소 분석기.
## Twitter" has changed to "Okt"  since KoNLPy v0.4.5


### Okt를 이용한 문장처리
- 정규화(normalization) 처리: .normalize()
- 어구추출(Phrase extraction): .phrases()
- 형태소 분석: .morphs()
- 형태소 분석(품사포함): .pos()
- 명사추출: .nouns()

In [None]:
## 명사추출
okt.nouns(독립선언[:40])

In [None]:
인사 ="안녕하세욬ㅋㅋㅋ 샤릉해"
print(okt.normalize(인사))

In [None]:
빅통분 = """이 강의에서는 Windows 10, 11 하에서 Apache에서 제공하는 다양한 빅데이터처리 툴(Hadoop, Spark, Kafka 등)을 
설치하고 환경 설정하는 작업을 직접 수행하기 때문에 컴퓨터에 대한 사전 지식이 없는 경우 수강하기 어려움. 
빅데이터의 특징인 3V와 같이 이 교과에서는 상당한 양과 다양한 내용을 빠르게 강의하기 때문에
강의를 수강하는데 필요한 통계 지식(회귀분석, 다변량분석 등)을 사전에 알고 있어야 함. 
일부 R이나 scala도 사용하는 경우도 있으나 기본 프로그램 언어는 python이며 python에 대해 기본적인 내용은 알고 있어야 함.
모든 프로젝트는 개인별로 평가를 받으며 별도의 팀프로젝트 없음.
모든 프로그램은 직접 코딩해야 함(소스 코드는 워터마크가 숨겨진 이미지 형태로 제공).
"""

In [None]:
print(okt.phrases(빅통분))

In [None]:
print(okt.morphs(빅통분)) 

In [None]:
print(okt.pos(빅통분))

In [None]:
print(okt.nouns(빅통분))

In [None]:
## koNLPy의 형태소 분석기와 NLTK의 Text 클래스를 결합하여 NLTK 기능을 사용
from nltk import Text

In [None]:
기미독립선언 = Text(okt.nouns(독립선언))
기미독립선언.plot(10)
plt.show()

In [None]:
독립선언구름 = WordCloud(font_path=폰트위치)
plt.figure(figsize=(13,13))
plt.imshow(독립선언구름.generate_from_frequencies(기미독립선언.vocab()))
plt.axis("off")
plt.show()

In [None]:
import numpy as np
from PIL import Image

바탕그림 = np.array(Image.open("한반도기.jpg"))

In [None]:
plt.figure(figsize=(13,11))
plt.imshow(바탕그림,cmap=plt.cm.gray,interpolation='bilinear')
plt.axis("off")
plt.show()

In [None]:
독립선언구름 = WordCloud(background_color="white",mask=바탕그림, font_path=폰트위치)
plt.figure(figsize=(13,13))
plt.imshow(독립선언구름.generate_from_frequencies(기미독립선언.vocab()))
plt.axis("off")
plt.show()

In [None]:
독립선언구름 = WordCloud(background_color="white",mask=바탕그림, font_path=폰트위치)
plt.figure(figsize=(13,13))
plt.imshow(독립선언구름.generate_from_frequencies(기미독립선언.vocab()))
plt.axis("off")
plt.savefig("Korea.jpg")