# 워드클라우드(말구름) 그리기
워드클라우드는 단어 단위로 정량적 수치를 산출한 뒤<br>
그 기준 수치의 상대적 비중에 따라 글자 크기를 다르게 하여 그린 그림을 말합니다.<br>


본 실습은 [**빅카인즈**](https://www.bigkinds.or.kr/) 데이터를 사용합니다.
검색창에 자신의 관심 키워드를 입력하고 결과값을 확인합니다.<br>
기본 검색 결과는 최근 3개월 동안 데이터베이스에 속한 언론 기사 가운데 해당 키워드가 속한 기사입니다.<br>
데이터를 내려받고 실습 폴더로 파일을 옮깁니다

In [None]:
import numpy as np
import pandas as pd #엑셀 데이터를 다루기 위한 Pandas 라이브러리
from PIL import Image
from wordcloud import WordCloud, ImageColorGenerator

import matplotlib as mpl
import matplotlib.pyplot as plt

글자와 색 지정

In [None]:
# Font setting
font_path = 'C:\\Windows\\Fonts\\malgun.TTF' #실습 컴퓨터의 폰트 폴더에서 실제 존재하고 선호하는 폰트 파일 이름 입력

# Colormap
cmap_B = plt.cm.GnBu(np.linspace(0,1,20))
cmap_B = mpl.colors.ListedColormap(cmap_B[3:,:-1])

cmap_R = mpl.pyplot.cm.YlOrRd(np.linspace(0,1,20))
cmap_R = mpl.colors.ListedColormap(cmap_R[5:,:-1])

데이터 읽기

In [None]:
File='data\\NewsResult_20211126-20220226.xlsx' #다운로드 받은 자신의 실제 파일이름을 입력

df = pd.read_excel(File)

In [None]:
# 데이터를 살펴봅니다
df.shape

In [None]:
df.head()

In [None]:
texts = df.values.T.tolist()[14] #15번째 열이 워드클라우드에 사용할 단어 데이터가 들어있음

## 데이터 전처리
빅카인즈 데이터의 장점 가운데 하나는 토큰화 과정을 마친 명사 데이터(키워드)를 제공한다는 점입니다<br>
그러나 토큰화 외에 전처리 과정이 필요합니다

### 데이터의 확인

In [None]:
texts[0] #리스트의 각 데이터가 하나의 긴 str 데이터임

In [None]:
terms = [str(x).split(',') for x in texts] #각각 나눠줌

In [None]:
terms[0]

모두 하나의 Pool로 합침

In [None]:
tot_terms = list()
for each_terms in terms:
    tot_terms.extend(each_terms)

In [None]:
len(tot_terms)

### 한 글자 단어와 영단어 제외

In [None]:
import re
ref_terms = [x for x in tot_terms if (len(str(x))>1) and not re.match(r'[A-Za-z]+',str(x))]

### 불용어 stopwords 제거

In [None]:
# remove stopwords v1.0
stopwords = ['들이', '하면', '해서','생각','하지','하기','경우','그거','하게','정도',
             '시간','어디','올해','이거','하나','어디','진짜','때문','해도','사실',
             '이유','하루','작년','진짜','자신','이번','이상','한거','전화','시작',
             '자체','우리','단어','설명', '바보', '당선인']
ref_terms1 = [str(x) for x in ref_terms if x not in stopwords]

### 정규화(normalize)

빅카인즈의 토큰화를 신뢰한다고 가정하고 시간상 별도 확인을 하진 않습니다만  
같은 단어로 구분되어야 할 여러 단어를 묶어 주는 정규화(normalization) 과정도 중요합니다.

## 빈도 테이블
말뭉치에서 토큰(단어)별 빈도를 구하고 순위로 나열합니다

In [None]:
from collections import Counter

freq1 = collections.Counter(ref_terms1)

In [None]:
freq1

빈도가 높은 순으로 정렬하기

In [None]:
sorted_freq1 = sorted(freq1.items(), key=lambda item: item[1], reverse=True)
dict_freq1 = {x[0]:x[1] for x in sorted_freq1}

In [None]:
dict_freq1

### 말구름 그리기
[wordcloud 라이브러리 documentation](https://amueller.github.io/word_cloud/index.html)

In [None]:
wordcloud = WordCloud(font_path=font_path,
                      max_words=150,
                      colormap=cmap_R, # color
                      stopwords=stopwords,
                      background_color='white',
                      width=1000, height=1000).
enerate_from_frequencies(dict_freq1)

mpl.pyplot.figure(figsize=(10,10))
mpl.pyplot.imshow(wordcloud, interpolation="bilinear")
mpl.pyplot.axis("off")
mpl.pyplot.show()

## 추가: 모양이 있는 워드클라우드 그리기

우선 모양을 딸 파일을 가져옵니다. 가급적이면 모양(흑)/배경(백)으로 명확하게 나누어져 있는 그림파일이 좋습니다

In [None]:
img = Image.open("img/hat.jpg") #모양을 본 뜰 대상 이미지

포맷에 대한 처리

In [None]:
# convert greyscale to RGB
rgbimg = Image.new("RGBA", img.size)
rgbimg.paste(img)
mask = np.array(rgbimg) #결과적으로 이 마스크에 모양에 대한 정보가 담깁니다

In [None]:
Shaped_WC = WordCloud(font_path=font_path,
                    stopwords=stopwords,
                    colormap=cmap_R,
                    background_color="white", 
                    mode="RGBA", 
                    max_words=150,
                    mask=mask, #마스크 파라미터가 여기에 쓰입니다
                    relative_scaling=0.35,
                    width=4000,height=4000).generate_from_frequencies(dict_freq)

이후 그리기 및 출력 등은 위와 동일