# WordCloud

[ 디자인팀 13기 박준성 ]

: 텍스트 데이터에서 단어들의 빈도수를 나타내는 그림

* 빈도수가 높은 단어일수록 워드클라우드에서 더 크고 두껍게 나타난다.
* 텍스트 데이터의 주제를 파악하는 데 도움이 된다.

##### Reference:
Amueller's github - https://amueller.github.io/word_cloud/index.html
<br>
Coursera 강의 Data Visualization with Python (by IBM) - https://www.coursera.org/learn/python-for-data-visualization/
<br>
9기 디자인팀 조혜경 님의 WordCloud (2018-2 에 강의)

In [None]:
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
%matplotlib inline 
np.set_printoptions(threshold=np.nan)

## WordCloud Module 다운로드 및 설치

1. cmd에 conda install -c conda-forge wordcloud=1.5
2. python shell에서 import wordcloud -> 성공!

설치에 실패하거나, import wordcloud했을 때 실패한다면 (DLL load failed 에러),
1. conda remove pillow
2. conda install -c conda-forge wordcloud=1.5
3. python shell에서 import wordcloud -> 성공!

win 32 bit의 경우 1.4.1

### WordCloud 만들기

In [None]:
# import package and its set of stopwords
from wordcloud import WordCloud, STOPWORDS as stopwords

In [None]:
# 소설 '이상한 나라의 앨리스' 를 불러옵니다.
alice_text = open("alice_novel.txt","r").read()
alice_text

In [None]:
# 가지고 있는 데이터에서 유의미한 단어 토큰만을 선별하기 위해서 큰 의미가 없는 단어 토큰을 제거하는 작업이 필요하다.
# 여기서 의미가 없다는 것은 자주 등장하지만 문장 분석에서 큰 도움이 되지 않는 것을 말한다.
# 이러한 단어들을 stopwords 라고 한다.
stopwords

In [None]:
# Alice text의 워드클라우드를 만드는 WordCloud 클래스의 인스턴스 생성(create)

alicewc = WordCloud(background_color = "white",
                  collocations = True, 
# 이때 collocations=True 이면 said King, said Hatter 같이 자주 나타나는 단어는 하나의 어구로 분류됨.
                  stopwords = stopwords)


# alice_novel이라는 텍스트 데이터를 사용하여 wordcloud를 generate하기
alicewc.generate(alice_text)

In [None]:
# 각 word의 frequency을 볼 수 있음. 
# 가장 많이 나오는 단어가 1 이 되고 나머지가 상대적인 값으로 나타남.
alicewc.words_

### 생성한 WordCloud 를 시각화하기

In [None]:
alicewc.to_image()

In [None]:
# WordCloud를 이미지로 저장하기
alicewc.to_file("my_alice.png") # 다른 확장자로도 저장 가능

In [None]:
# WordCloud 사이즈를 조정해주면 빈도수가 적은 단어들도 볼 수 있다.
alicewc = WordCloud(background_color = 'white',
                   collocations = False,
                   stopwords = stopwords,
                   width = 600, height = 400)

alicewc.generate(alice_text)
alicewc.to_image()

In [None]:
# said 라는 단어가 쓸데 없이 자꾸 나오는거 같다?

stopwords.add("said")

alicewc.generate(alice_text)
alicewc.to_image()

### WordCloud 색 바꾸기
<br>
 https://matplotlib.org/examples/color/colormaps_reference.html
 <br>
 https://amueller.github.io/word_cloud/generated/wordcloud.WordCloud.html#wordcloud.WordCloud<br>https://www.rapidtables.com/web/color/RGB_Color.html

In [None]:
# colormap 지정

alicewc = WordCloud(background_color = "white",
                  collocations = False,
                  stopwords = stopwords,
                   colormap = "flag") 

alicewc.generate(alice_text)
alicewc.to_image()

In [None]:
# color_func 을 설정하여 색 적용

def my_color_func(*args, **kwargs):
    #print(args, kwargs)
    font_size = kwargs['font_size']
    if font_size > 50:
        return "rgb(204,0,102)"
    elif font_size > 20:
        return "rgb(255,51,153)"
    else:
        return "rgb(255,153,204)"

In [None]:
# 앞에서 만들어준 my_color_func을 사용
alicewc = WordCloud(background_color = "white",
                  collocations = False,
                  stopwords = stopwords,
                   color_func = my_color_func)

alicewc.generate(alice_text)
alicewc.to_image()

### WordCloud 폰트 지정하기

In [None]:
# font_path 를 지정하여 원하는 폰트를 지정할 수 있다.
# 폰트 경로에 해당 폰트가 없으면 오류 발생.

alicewc = WordCloud(background_color = "white",
                    collocations = False,
                    stopwords = stopwords,
                    colormap = "Reds",
                    font_path = 'C:/Windows/Fonts/Bernhc.ttf') 

alicewc.generate(alice_text)
alicewc.to_image()

폰트를 지정했더니 기존의 WordCloud 보다 더 별로...
폰트 선택은 신중하게 합시다.

### WordCloud 에 더 많은 단어들을 담는 방법
: 앞에서 WordCloud Size를 크게하는 방법이 있었고, 그 외에 min_font_size 를 설정하여 더 많은 단어를 담을 수 있다.<br>
default 값은 4 이다.

In [None]:
alicewc = WordCloud(background_color = "white",
                    collocations = False,
                    stopwords = stopwords,
                    colormap = "Reds",
                    font_path = 'C:/Windows/Fonts/Bernhc.ttf',
                    min_font_size = 2) 

alicewc.generate(alice_text)
alicewc.to_image()

차이가 없어보이지만 차이가 있다.<br>
더 확실한 차이를 비교해보고 싶으면 각자 WordCloud Size 조절을 통해서 해보도록 합시다.

<br>

## Image Mask 에 WordCloud 시각화

### 1. Image Mask 가져오기

* Pillow library을 통해서 image data를 로드할 수 있다. Pillow는 파이썬의 이미징 라이브러리로 여러 이미지 파일 포맷(png, jpg, jpeg, ...)을 지원하며 다양한 이미지 처리 function을 제공한다. (e.g. 썸네일만들기, 다른 이미지 포맷으로 바꾸기 + 이미지 프로세싱)<br><br>
* 따라서, Pillow library를 통해 마스크 이미지로 사용할 이미지를 가져오고 WordCloud를 generate할 때, mask = '해당 마스크 이미지'로 설정하면 된다.<br><br>
https://pillow.readthedocs.io/en/5.2.x/reference/Image.html

In [None]:
from PIL import Image, ImageFilter

In [None]:
Image.open("alice_mask.png")

In [None]:
# Image Mask 를 사용하기 위해 np.array 형태로 변환

mask_array = np.array(Image.open("alice_mask.png"))
mask_array
# array를 확인하면 좋은데 image가 클 경우 오래걸려서 멈출 수 있으므로 주의

<br>

## Pillow 패키지의 Image, ImageFilter 모듈 기능

In [None]:
#썸네일 만들기
a = Image.open("alice_mask.png")
size = (32,32) #최대 32*32 사이즈의 썸네일 만들기
a.thumbnail(size)
a.save("thumb.jpg")

#이미지 확대/축소하기
Image.open("alice_mask.png").resize((300,500))

#이미지 저장하기
a.save("alicejpg.jpg")

#이미지 필터링
Image.open("alice_mask.png").filter(ImageFilter.BLUR) #CONTOUR 등등

## 2. Image Mask 위에 WordCloud 적용하기

In [None]:
alice_wc = WordCloud(background_color = "white",
                   collocations = False,
                   stopwords = stopwords,
                   mask = mask_array) # 앞에서 np.array로 만든 mask 지정

alice_wc.generate(alice_text)
alice_wc.to_image()

In [None]:
# 크기 조정을 하고싶다면? -> np.array 할 때 사이즈를 조정한다.

smaller_alice_array = np.array(Image.open("alice_mask.png").resize((200, 200)))

alice_wc2 = WordCloud(background_color = "white",
                   collocations = False,
                   stopwords = stopwords,
                   mask = smaller_alice_array) # 앞에서 np.array로 만든 mask 지정

alice_wc2.generate(alice_text)
alice_wc2.to_image()

### 앞에서 배운 내용들을 모두 사용하여 최종 결과물 만들어보기

In [None]:
alice_wc_f = WordCloud(background_color = "white", # 배경색
                   collocations = False, # collocation 떨어뜨리기
                   stopwords = stopwords, # stopword 지정
                   mask = mask_array, # np.array로 가져온 이미지 mask 지정
                   colormap = "Reds", # colormap 지정
                   font_path = 'C:/Windows/Fonts/Bernhc.ttf', # 폰트 지정   
                   min_font_size = 1) # 최소 폰트 크기 지정

alice_wc_f.generate(alice_text)
alice_wc_f.to_image()

<br>

### 모든 이미지가 Image Mask 가능할까요?

In [None]:
# 준비한 토끼 사진을 불러오고, np.array 형태로 지정하겠습니다.

rabbit = Image.open("rabbit.jpeg")
rabbit_array = np.array(rabbit)
rabbit

In [None]:
alice_wc3 = WordCloud(background_color = "white",
                      collocations = False,
                      stopwords = stopwords,
                      colormap = "Reds",
                      mask = rabbit_array)

alice_wc3.generate(alice_text)
alice_wc3.to_image()

안되는 이유는 rabbit_array 로 생성한 np.array 를 살펴보면 알 수 있습니다.<br>
토끼뿐만 아니라 뒷 배경에도 array가 지정되어 있기 때문입니다.
<br> <br>

## WordCloud 한글 시각화
<br>
한글로 WordCloud를 하기 위해서 먼저 명사만 추출하는 과정이 필요.<br>
이 과정은 KoNLPy를 이용하여 진행.<br>
token화 시킨 파일을 라이브러리 pickle을 사용하여 저장해놓은 txt를 여는 것도 가능.

In [None]:
import konlpy
from konlpy.tag import Okt

In [None]:
okt = Okt()

In [None]:
text = open("korcon.txt", encoding = 'utf-8').read()
text

In [None]:
tokens_noun = okt.nouns(text)
tokens_noun

In [None]:
# pickle을 통해 내보내기
import pickle
with open('noun.txt', 'wb') as f:
    pickle.dump(tokens_noun, f)

In [None]:
# pickle로 내보낸 txt 파일 불러오기
with open('noun.txt', 'rb') as f:
    tokens_noun = pickle.load(f)
    
tokens_noun

In [None]:
#워드클라우드에 넣지 않을 단어들을 stopwords로 지정해주고, tokens_noun에서 그 단어들 제외해주기
stopwords = ["제","월","일","조","때","그","이","및","안","바","수","것","정","밖"]
tokens_noun = [each for each in tokens_noun if each not in stopwords]
tokens_noun

In [None]:
from collections import Counter
#명사의 빈도수 추출
Counter(tokens_noun).most_common(500)

In [None]:
nouns_dict = dict(Counter(tokens_noun).most_common(1000))
nouns_dict

In [None]:
#대한민국 지도 위에 워드클라우드 그리기

wordcloud = WordCloud(background_color = "white",
                    font_path = "c:/Windows/Fonts/malgun.ttf",  
                    mask = np.array(Image.open("koreanmap.png")),
                    colormap = "flag",
                    relative_scaling = 0.1,
                    max_font_size = 40)

wordcloud.generate_from_frequencies(nouns_dict)  #워드클라우드에 넣어주고 싶은 것의 딕셔너리 파일을
wordcloud.to_image()

<br>

## Dataframe에서 텍스트 데이터 추출하여 WordCloud 만들기

#### Reference: https://www.coursera.org/learn/python-for-data-visualization/ 의 exercise

In [None]:
immigration = pd.read_csv("immigration.csv")
immigration = immigration.set_index("Country")
immigration.head(10)

#data 설명 : 1980~2013 매 해 캐나다로 이민 온 사람들을 국적별로 분류한 dataframe
    #Continent : 해당 국가가 위치한 대륙
    #Region : 세분화된 지역 분류
    #DevName : 해당 국가가 개도국인지 선진국인지

In [None]:
#총 이민자 수 :
total_immigration =int(immigration["Total"].sum())
total_immigration

### Text Data 생성
각 나라의 Total 이민자 수가 총 이민자 수에서 차지하는 비율만큼 텍스트에 그 국가의 이름을 포함시켜보자. (3000 단어 길이의 텍스트 생성)

In [None]:
max_words = 3000
txt = ''
for country in immigration.index.values:
    # 국가이름이 한 단어인 국가들만 보겠습니다^^
    if len(country.split(' ')) == 1:
        repeat_num_times = int(immigration.loc[country, 'Total']/float(total_immigration)*max_words)
        txt = txt + ((country + ' ') * repeat_num_times)
                                     
# display the generated text
txt
#이러면 (3000 * 전체 immigrants 중 각 국가의 국민이 차지하는 비중) >= 1 이상인 국가만 뜹니다.

### WordCloud 만들기

In [None]:
world_wordcloud = WordCloud(background_color = 'white',
                           collocations = False)

world_wordcloud.generate(txt)
world_wordcloud.to_image()

#### 세계지도에 입혀보자!

In [None]:
worldmap_mask = np.array(Image.open("World_map_green.png").resize((500, 250)))
worldmap_mask

In [None]:
def transform_format(val):
    if val == 0:
        return 255
    else:
        return val

In [None]:
transformed_worldmap_mask = np.ndarray((worldmap_mask.shape[0],worldmap_mask.shape[1]), np.int32)

for i in range(len(worldmap_mask)):
    transformed_worldmap_mask[i] = list(map(transform_format, worldmap_mask[i]))
transformed_worldmap_mask

In [None]:
world_wordcloud = WordCloud(background_color = 'white',
                           collocations = False,
                           mask = transformed_worldmap_mask,
                           colormap = "Reds",
                       contour_width = 1,
                           min_font_size = 1)

world_wordcloud.generate(txt)
world_wordcloud.to_image()

<br>

## 이미지의 색을 살린 WordCloud
와인 데이터를 이용하겠습니다.

In [None]:
from wordcloud import ImageColorGenerator

In [None]:
wine = pd.read_csv("winemag_data.csv", index_col = 0)
wine.head()

In [None]:
stopwords.append(["drink", "now", "wine", "flavor", "flavors"])

### 미국 국기에 US Wine Description으로 WordCloud 해보기

In [None]:
usa = " ".join(i for i in wine[wine["country"] == "US"].description)

In [None]:
us_mask = np.array(Image.open("us_flag.png"))
image_colors = ImageColorGenerator(us_mask)

us_flag_wc = WordCloud(background_color = "white",
                      stopwords = stopwords,
                      mode = "RGBA",
                      max_words = 1000,
                      mask = us_mask,
                      color_func = image_colors,
                      min_font_size = 2,
                      width = 300, height = 150)

us_flag_wc.generate(usa)
us_flag_wc.to_image()

##### 다른 국가들도 마찬가지로 png 파일만 있다면 가능 !

In [None]:
# 저장하기
us_flag_wc.to_file("us_flag_wc.png")



## 실습을 진행할 시간입니다!
: PC 카톡에서 카카오톡 대화내용 내보내기를 한 후 워드클라우드 생성하기!

In [None]:
# 불러오기 open('xx.txt').read()


In [None]:
# okt 사용하여 명사 불러오기


In [None]:
# 명사 빈도수 파악


In [None]:
# stopwords 지정 (변수 이름을 stopwords라고 하면 위에서 설정한 거랑 중복되니까 주의)
# 카카오톡 내보내기할 경우 불필요하게 들어가는 것들
kakao_stopwords = ['님', '카카오','톡','대화','저장','날짜','오전','오후','월요일', '화요일', '수요일', '목요일', '금요일', '토요일', '일요일']

# 위에서 파악한 빈도수를 바탕으로 카톡방이름, 카톡이름과 같은 불필요한 것들 stopwords에 추가
kakao_stopwords.append()

In [None]:
# stopwords 제거


In [None]:
# 딕셔너리화


In [None]:
# WordCloud Customizing !!
