---
# 📁 Hyun's Code collection (Word Cloud) 
---

### <h3 align="right">🥇 Authored by <strong>Hyun</strong></h3>

# ✏️ What is **Word Cloud**?

- 텍스트 데이터의 빈도수에 따라 크기를 다르게 해서 이미지에 단어를 채워서 보여주는 게 워드클라우드
- 텍스트 데이터를 시각화하거나 주제를 파악하는 등에 유용하게 사용된다.

# ✏️ Import Libraries

In [None]:
# Wordcloud
import konlpy
from konlpy.tag import Okt
from wordcloud import WordCloud, STOPWORDS as stopwords
from PIL import Image, ImageFilter
from wordcloud import ImageColorGenerator

# Other Libraries
import matplotlib as mplㅁ
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
%matplotlib inline 
np.set_printoptions(threshold=np.nan)

import collections
from collections import Counter

# ✏️ Methods and Examples

## 🔎 How to install WordCloud Module


- cmd에 아래 명령을 입력
```terminal
$ conda install -c conda-forge wordcloud=1.5
```
- python shell에서 import wordcloud하면 된다.

- 만약 EnvironmentNotWritableError가 뜨면 cmd창을 사용자 권한으로 실행해서 다시 ㄱㄱ.

- 설치에 실패하거나, import wordcloud했을 때 실패한다면 아래 명령을 실행 (DLL load failed 에러),
```terminal
$ conda remove pillow
$ conda install -c conda-forge wordcloud=1.5
```

- 설치 완료한 뒤 python shell에서 import wordcloud하면 된다.
- win 32 bit의 경우 1.4.1

## 🔎 Basic Methods

- **WordCloud (background_color = ' ', collocations = True , stopwords = stopwords, fontpath = ' ' , min_font_size = , colormap = " " , relative_scaling = , width = , height = )**: 인스턴스를 만들어준 다음에
  - collocations: True이면 said King, said Hatter 같이 자주 나타나는 단어는 하나의 어구로 분류
  - colormap: colormap을 통해서 색깔을 바꿔줄 수 있다.
  - color_func: 색깔을 지정해주는 방법
  - font_path: 폰트의 경로를 지정해줄 수 있다.
  - min_font_size: default는 4이다. 더 작은 수를 입력하면 wordcloud에 더 많은 단어들을 담을 수 있다.
  - relative_sacling: 0으로 해주면 랭킹만 고려되고 1로 설정하면 빈도수가 2배 많으면 사이즈도 2배 많이 나온다.
  > reference: https://amueller.github.io/word_cloud/generated/wordcloud.WordCloud.html
- **generate ( " 텍스트 데이터 " )**: 텍스트 데이터를 generate 메소드를 통해서 wordcloud를 만들어준다.
- **generate_from_frequencies ( dict )**: dict 형태로 넣어줄 때
- **.words_**: 가장 많이 나오는 단어를 1로 보고 나머지 상대적인 값을 반환
- **.to_image ( )**: 시각화하기
- **stopwords**: 텍스트 분석에 도움이 되지 않는 단어 토큰을 제거하는 작업이다.
- **stopwords .add ( " 원치 않는 단어 " )**: 원치 않는 단어를 지우고 싶을 때
- **to_file ( " 파일 이름 .png " )**: wordcloud 이미지로 저장하기

## 🔎 Using Image Mask

- **Image .open ( " 이미지이름 .png " )**: 이미지 불러오기
- **np .array ( Image .open ( " 이미지이름 .png " ) )**: 이미지를 np.array 형태로 변환. image가 크면 오래 걸려서 멈출 수 있다.
- **.thumbnail ( ( 사이즈 , 사이즈 ) )**: 썸네일 사이즈 지정
- **.save ( " 이름 .png " )**: 썸네일 저장해주기
- **.resize ( ( 사이즈, 사이즈 ) )**: 이미지 확대, 축소하기
- **.filter ( ImageFilter .BLUR )**: 이미지 필터링하기
- **WordCloud ( backgroun_color = ' ' , collocations = False  , stopwords = stopwords , mask = )**: mask에다가 np.array로 만들어진 mask를 지정하면 된다.

### 📔 Examples

In [None]:
## WordCloud 예시: [고급선물포장] 인스타그램 검색결과 (42개 게시물)
# 필요한 클래스, 모듈들
import matplotlib as mplㅁ
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
%matplotlib inline

from wordcloud import WordCloud, STOPWORDS as stopwords
from PIL import Image, ImageFilter
from wordcloud import ImageColorGenerator

# 데이터 불러오기
content = open('first_crawling_content.txt', encoding='utf-8', errors='ignore')

lines = content.readlines()

# KoNLPy 준비하기
okt=konlpy.tag.Okt()

# 형태소 추출하기, 품사 태깅
pos_lines = okt.pos(lines[0], norm=True, stem=True)
pos_lines

# 동사, 명사, 형용사만 추출
list_words = []
for each_tuple in pos_lines:
        if (each_tuple[1]=="Noun") | (each_tuple[1]=="Verb") | (each_tuple[1]=="Adjective"):
            list_words.append(each_tuple[0])

# 단어 빈도수 파악하기
Counter(list_words).most_common(100)  

# stopwords 넣기
stopwords = ['하다','클래스','청주','여의도','원데이','방','문의','영풍문고','세종시','수업',
            '곳','가능','분','쌀','않다','카카오','마포','영등포','물다','있다','없다','전병']
tokens = [each for each in list_words if each not in stopwords]
tokens

# 데이터 dictionary 형태로 준비
word_collection = dict(Counter(list_words).most_common(100))

# WordCloud 준비하기
wc = WordCloud(background_color = "white",
               font_path = "c:/Windows/Fonts/NanumBrush.ttf",
               colormap = "flag",
               mask = np.array(Image.open("gift_jpg.jpg")),
               collocations = True, 
               stopwords = stopwords)

# WordCloud 만들기
wc.generate_from_frequencies(word_collection)
wc.to_image()

In [None]:
# WordCloud 예시: Alice text
## 1) Wordcloud 클래스의 인스턴스 생성
alicewc = WordCloud(background_color = "white",
                  collocations = True, 
                  stopwords = stopwords)

alicewc = WordCloud(background_color = 'white',
                   collocations = False,
                   stopwords = stopwords,
                   width = 600, height = 400)    # 이렇게 만들어줄 수도 있음


## 2) Wordcloud를 generate하기
alicewc.generate(alice_text)

## 3) Wordcloud 시각화하기
alicewc.to_image()

In [None]:
# stopwords.add()
stopwords.add("said")

alicewc.generate(alice_text)
alicewc.to_image()

In [None]:
# color_func를 통한 색 설정
def my_color_func(*args, **kwargs):
    #print(args, kwargs)
    font_size = kwargs['font_size']
    if font_size > 50:
        return "rgb(204,0,102)"
    elif font_size > 20:
        return "rgb(255,51,153)"
    else:
        return "rgb(255,153,204)"
      
alicewc = WordCloud(background_color = "white",
                  collocations = False,
                  stopwords = stopwords,
                   color_func = my_color_func)

alicewc.generate(alice_text)
alicewc.to_image()

In [None]:
# font_path 정해주기
alicewc = WordCloud(background_color = "white",
                    collocations = False,
                    stopwords = stopwords,
                    colormap = "Reds",
                    font_path = 'C:/Windows/Fonts/Bernhc.ttf') 

alicewc.generate(alice_text)
alicewc.to_image()

In [None]:
# image mask 예시
from PIL import Image, ImageFilter
Image.open("alice_mask.png")

mask_array = np.array(Image.open("alice_mask.png"))
mask_array

# 썸네일 만들기
a = Image.open("alice_mask.png")
size = (32,32) #최대 32*32 사이즈의 썸네일 만들기
a.thumbnail(size)
a.save("thumb.jpg")

# 이미지 확대/축소하기
Image.open("alice_mask.png").resize((300,500))

# 이미지 저장하기
a.save("alicejpg.jpg")

# 이미지 필터링
Image.open("alice_mask.png").filter(ImageFilter.BLUR) #CONTOUR 등등

# wordcloud 만들기
alice_wc = WordCloud(background_color = "white",
                   collocations = False,
                   stopwords = stopwords,
                   mask = mask_array) # 앞에서 np.array로 만든 mask 지정

alice_wc.generate(alice_text)
alice_wc.to_image()

In [None]:
# 모든 내용을 사용하여 최종 결과물 만들어보기
alice_wc_f = WordCloud(background_color = "white", # 배경색
                   collocations = False, # collocation 떨어뜨리기
                   stopwords = stopwords, # stopword 지정
                   mask = mask_array, # np.array로 가져온 이미지 mask 지정
                   colormap = "Reds", # colormap 지정
                   font_path = 'C:/Windows/Fonts/Bernhc.ttf', # 폰트 지정   
                   min_font_size = 1) # 최소 폰트 크기 지정

alice_wc_f.generate(alice_text)
alice_wc_f.to_image()

In [None]:
# 한글 시각화
## 예시1
import konlpy
from konlpy.tag import Okt

okt = Okt()

text = open("korcon.txt", encoding = 'utf-8').read()

tokens_noun = okt.nouns(text)
tokens_noun

# 데이터 내보내기
import pickle
with open('noun.txt', 'wb') as f:
    pickle.dump(tokens_noun, f)
    
# 데이터 불러오기
with open('noun.txt', 'rb') as f:
    tokens_noun = pickle.load(f)
    
tokens_noun

# 넣지 않을 단어 삭제하기
stopwords = ["제","월","일","조","때","그","이","및","안","바","수","것","정","밖"]
tokens_noun = [each for each in tokens_noun if each not in stopwords]
tokens_noun

# 명사의 빈도수 추출
Counter(tokens_noun).most_common(500)

# Top 1000 단어 dictionary로 저장
nouns_dict = dict(Counter(tokens_noun).most_common(1000))
nouns_dict


#대한민국 지도 위에 워드클라우드 그리기
wordcloud = WordCloud(background_color = "white",
                    font_path = "c:/Windows/Fonts/malgun.ttf",  
                    mask = np.array(Image.open("koreanmap.png")),
                    colormap = "flag",
                    relative_scaling = 0.1,
                    max_font_size = 40)

wordcloud.generate_from_frequencies(nouns_dict)  #워드클라우드에 넣어주고 싶은 것의 딕셔너리 파일을
wordcloud.to_image()

In [None]:
# Dataframe에서 wordcloud 만들기
immigration = pd.read_csv("immigration.csv")
immigration = immigration.set_index("Country")
immigration.head(10)

#총 이민자 수 :
total_immigration =int(immigration["Total"].sum())
total_immigration

# text data 생성
max_words = 3000
txt = ''
for country in immigration.index.values:
    # 국가이름이 한 단어인 국가들만 보겠습니다^^
    if len(country.split(' ')) == 1:
        repeat_num_times = int(immigration.loc[country, 'Total']/float(total_immigration)*max_words)
        txt = txt + ((country + ' ') * repeat_num_times)
                                     
# display the generated text
txt
#이러면 (3000 * 전체 immigrants 중 각 국가의 국민이 차지하는 비중) >= 1 이상인 국가만 뜹니다.

world_wordcloud = WordCloud(background_color = 'white',
                           collocations = False)

world_wordcloud.generate(txt)
world_wordcloud.to_image()

In [None]:
# ImageColorGenerator
from wordcloud import ImageColorGenerator

wine = pd.read_csv("winemag_data.csv", index_col = 0)

stopwords.append(["drink", "now", "wine", "flavor", "flavors"])

# 미국 국기에 US Wine description으로 word cloud 해보기
usa = " ".join(i for i in wine[wine["country"] == "US"].description)
