### 워드클라우드 (영문)

#### 필요한 패키지 불러오기:

In [None]:
from wordcloud import WordCloud
import numpy as np
import pandas as pd
import nltk                                   # Natural Language Tool Kit (영어).
import re
import matplotlib.pyplot as plt
from PIL import Image                         # Pillow 패키지의 영상 핸들링 클래스.
from nltk.corpus import stopwords             # 불용어.
%matplotlib inline

In [None]:
# 다음을 한번 실행한다!
nltk.download('punkt')
nltk.download('stopwords')

#### 데이터 읽어오기:

In [None]:
# 구글 드라이브 마운트.
from google.colab import drive
drive.mount('/content/drive')  # 절차를 따라서 한다.

In [None]:
# 경로 이동.
%cd "/content/drive/MyDrive/GwangjuAI/modelling/notebook"

In [None]:
#f= open("../data/book_crime_and_punishment.txt",'r',encoding='UTF-8')
f = open("../data/book_three_little_pigs.txt",'r',encoding='UTF-8')
my_book = f.readlines()
f.close()

#### 전처리:

In [None]:
n_min = 4                                                           # 최소 단어 길이. 
corpus = []
for a_line in my_book:
    pre = re.sub(r'\W', ' ', a_line)                                # 특수문자 제외.
    pre = re.sub(r'_', ' ', pre)                                    # 특수문자 제외.
    pre = re.sub(r'\d+','', pre)                                    # 수자 제외. 
    pre = nltk.word_tokenize(pre)                                   # 단어 단위로 분절.
    pre = [x for x in pre if len(x) > n_min]                        # 최소 길이 충족.
    pre = [x.lower() for x in pre]                                  # 소문자화.  정규화 (Normalization).
    pre = [x for x in pre if x not in stopwords.words('english')+['could']]   # 불용어 처리.
    corpus += pre                                                   # 단어를 말뭉치에 추가.

#### 키워드 추출 (Option):

In [None]:
# Series 로 변환.
my_series = pd.Series(corpus)

In [None]:
# 도수 분포표. Top 10
my_word_counts = my_series.value_counts().sort_values(ascending=False)
my_word_counts[:10]

In [None]:
# 딕셔너리로 변환해 둔다.
my_dict = {}
for an_index, a_value in zip(my_word_counts.index,my_word_counts.values):
    my_dict[an_index] = a_value

#### 워드 클라우드 기본형 생성:

In [None]:
# 다음은 워드클라우드의 요구사항.
a_long_sentence = ' '.join(corpus)

In [None]:
wc = WordCloud(background_color='white', max_words=30)              # 바탕색, 단어 개수 등 설정.
wc.generate(a_long_sentence)
#wc.generate_from_frequencies(my_dict)                              # 딕셔너리에서 생성.
#wc.words_                                                          # 단어 사전 출력.

In [None]:
plt.figure(figsize=(10,10))
plt.imshow(wc)
plt.axis("off")                                    # 축을 꺼줌.
plt.show()

#### 워드 클라우드 마스크 사용형 생성:

In [None]:
# 백그라운드 마스크
#img = Image.open('../data/background_1.png')                    # 타원형.
#img = Image.open('../data/background_2.png')                   # 말풍선.
img = Image.open('../data/background_3.png')                    # 하트.
#plt.imshow(img)
#plt.show()
back_mask = np.array(img)

In [None]:
wc = WordCloud(background_color='white', max_words=30, mask=back_mask)            # 바탕색, 단어 개수 등 설정.
wc.generate(a_long_sentence);                                                      # 긴 문자열에서 생성.
#wc.generate_from_frequencies(my_dict);                                            # 딕셔너리에서 생성.

In [None]:
plt.figure(figsize=(10,10))
plt.imshow(wc)
plt.axis("off")                                    # 축을 꺼줌.
plt.show()