### 워드클라우드에 사용할 데이타 가져오기

In [None]:
import pandas as pd
df = pd.read_csv('news.csv', engine='python', encoding='utf-8')

In [None]:
sample_title = df['title'][:2]
sample_title

In [None]:
sample_content = df['contents'][:2]
sample_content

### 자신의 관심사에 맞는 단어로 데이터를 가져옵니다.

In [None]:
import re
p = r'.*(일본|여행|비행기|호텔).*'
topic = df[df['title'].str.match(p)|df['contents'].str.match(p, flags=re.MULTILINE)]
topic.shape

In [None]:
topic.head() # topic.tail() topic.sample(3)

### 워드클라우드에서 제외하고 싶은 단어

In [None]:
stopwords_kr = ['하지만', '그리고', '그런데', '저는','제가','그럼', '이런', '저런', '합니다',
                '많은', '많이', '정말', '너무','[',']','것으로','했습니다','했다','있다'] 

### 워드클라우드 작성 함수

In [None]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt
%matplotlib inline

def displayWordCloud(data = None, backgroundcolor = 'white', width=800, height=600 ):
    wordcloud = WordCloud(
                        #font_path = '/Library/Fonts/NanumBarunGothic.ttf', 
                        font_path = '/Library/Fonts/CookieRun Black.ttf',
                        stopwords = stopwords_kr,
                        background_color = backgroundcolor, 
                        width = width, height = height).generate(data)
    #print(wordcloud.words_)
    plt.figure(figsize = (15 , 10))
    plt.imshow(wordcloud)
    plt.axis("off")
    plt.show() 

- list = str.split() : 문자열 => 리스트, 공백시 스페이스 기준
- ' '.join( list ) : 리스트에서 문자열으로

In [None]:
%time displayWordCloud(' '.join(df['contents']))

### soynlp이용하여 명사추출

In [None]:
from soynlp.noun import LRNounExtractor

In [None]:
%%time
noun_extractor = LRNounExtractor(verbose=True)
noun_extractor.train(df['contents'])
nouns = noun_extractor.extract()

In [None]:
# 추출된 명사를 찍어봅니다.
%time displayWordCloud(' '.join(nouns))

### 특정 이미지 형태로 워드 클라우드 그리기

In [None]:
# 이미지 파일위에 출력하기
from PIL import Image
import numpy

In [None]:
img = Image.open('cloud.png')
img_array=numpy.array(img)

In [None]:
wordcloud = WordCloud( font_path = '/Library/Fonts/CookieRun Black.ttf', 
                       stopwords = stopwords_kr,
                       background_color = 'white', 
                       mask=img_array,
                       width = 800, height = 600).generate(' '.join(nouns))
plt.figure(figsize = (15 , 10))
plt.imshow(wordcloud)
plt.axis("off")
plt.show()  
wordcloud.to_file("simple.png")