# wordcloud 함수 (2번째 라인까지가 함수, 이후 라인은 확인용. 순서대로 실행!)

In [None]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt
from PIL import Image
import numpy as np

In [36]:
def wordcloud(plaintext, filename, wc_backgroundcolor='black', wc_colormap='autumn'):
    """
    ------------------------------------------------------------------------------
    
    텍스트를 받아 전처리함수를 통해 토큰화 한 후 빈도를 기반으로 wordcloud 그림파일을 생성합니다. 
    키값으로 토큰, 밸류값으로 빈도 수를 갖는 딕셔너리를 반환합니다.
    
    ------------------------------------------------------------------------------
    
    파라미터 설명
    
    plaintext : txt, 인스타그램 포스트들이 수집된 원문 텍스트. 'HOTKEY123!@#'로 포스트들을 구분한다.
    filename : str, wordcloud 그림파일을 저장할 파일이름.
    wc_backgroundcolor : str, wordcloud 그림파일의 배경색, 기본값은 'black'.
    wc_colormap : str, wordcloud 그림파일의 컬러맵(wordcloud 모듈에 저장된), 기본값은 'autumn'.
    
    ------------------------------------------------------------------------------
    """

# 입력받은 원문을 전처리함수를 통해 토큰화
    pt = preprocess(plaintext=plaintext, sep='HOTKEY123!@#', targetMorphs=['NNP', 'NNG'])

# 토큰들의 빈도를 dict형태로 저장
    voca = dict()
    for post in pt:
        for term in post:
            if term in voca:
                voca[term] += 1
            else:
                voca[term] = 1
                
# 빈도 순(밸류값)으로 정렬                
    voca_sorted = sorted(voca.items(), key=lambda x: x[1], reverse=True)

# 한글로 wordcloud 이미지를 생성하기 위해 글꼴 불러오기
    font_path ='malgun.ttf'
    
# 이미지 파일 읽어오기
    im = Image.open('mask_camera.png') 
    
# 이미지 파일 전처리
    mask=Image.new("RGB",im.size, (255,255,255))
    mask.paste(im)
    mask=np.array(mask)
    
# wordcloud 이미지 생성
    wc=WordCloud(background_color='black', colormap=wc_colormap,font_path = font_path, mask = mask)
    wc=wc.generate_from_frequencies(voca)
    
# 입력받은 경로에 저장, 파일이름 중복될 경우 덮어쓰여짐
    wc.to_file(filename=f'{filename}')
    
    return voca_sorted

# 전처리 함수

In [27]:
from kiwipiepy import Kiwi
from math import log1p
import numpy as np
import konlpy
import nltk
import re

def preprocess(plaintext, sep,
               morphemeAnalyzer='kiwi', targetMorphs=['NNP','NNG'],removehashtag=True, returnMorph=False,
               returnEnglishMorph=False, eeTagRule={'NNP':'NNP'},
               filterMorphemeAnalyzer='kiwi',filterTargetMorphs=['NNP','NNG','W_HASHTAG'],
               k_1Filter=1.5 ,bFilter=0.75,
               filterThreshold = 3.315):
    
    # 형태소 분석기를 텍스트로 정의 시 해당 형태소 분석기를 할당
    tma = set_morpheme_analyzer(morphemeAnalyzer)
    fma = set_morpheme_analyzer(filterMorphemeAnalyzer)
    
    # 서버에서 "글1 구분자 글2 구분자" 형식의 데이터를 받는다고 가정
    data = plaintext.split(sep)
    # 구분자로 데이터를 받으면 글이 존재하지 않는 마지막 부분을 삭제
    
    if data[-1] in ('',' ','\n',[],['\n'],[' ']):
        data=data[:-1]
    
    if removehashtag == True:
        if '#' in sep:
            sep = sep.replace('#','')
        tdata = plaintext.replace('#',' ').split(sep)
        if tdata[-1] in ('',' ','\n',[],['\n'],[' ']):
            tdata=tdata[:-1]
    else:
        tdata = data*1
            
    postLens = list()
    for post in data:
        postLens.append(len(post))

    flag = (morphemeAnalyzer==filterMorphemeAnalyzer, set(targetMorphs)==set(filterTargetMorphs))
    
    
    ftok = data_tokenize(data,fma,filterTargetMorphs,
                         returnMorph=False,
                         returnEnglishMorph=True,
                         eeTagRule={'W_HASHTAG':'W_HASHTAG'})
    ttok = data_tokenize(tdata,tma,targetMorphs,
                         returnMorph=returnMorph,
                         returnEnglishMorph=returnEnglishMorph, eeTagRule=eeTagRule)
    
    filterScores = BM25(ftok, postLens, k_1=k_1Filter, b=bFilter)
    
    spamCount=0
    for idx in range(len(filterScores)):
        if filterScores[idx] < filterThreshold:
            spamCount+=1
            ttok.pop(idx-spamCount)
    print("%s 개의 데이터가 삭제되었습니다."%spamCount)
    
    return ttok

def set_morpheme_analyzer(maText):
    if maText in ['kiwi','Kiwi','KIWI','키위']:
        return Kiwi()
    elif maText in ['Hannanum', 'hannanum', 'HANNANUM','한나눔']:
        return konlpy.tag.Hannanum()
    elif maText in ['Komoran','KOMORAN','komoran','코모란']:
        return konlpy.tag.Komoran()
    elif maText in ['Kkma','KKMA','kkma','꼬꼬마']:
        return konlpy.tag.Kkma()
    elif maText in ['Okt','OKT','okt','오픈코리안텍스트','트위터']:
        return konlpy.tag.Okt()
    elif maText in ['Mecab','mecab','MECAB','미캐브']:
        return konlpy.tag.Mecab()
    else:
        raise Exception('No such morpheme analyzer\nSupported morpheme analyzers are Kiwi, KoNLPy(Hannanum, Komoran, Kkma, Okt, Mecab)')
        
def data_tokenize(data,morphemeAnalyzer,targetMorph,
                  returnMorph=False,
                  returnEnglishMorph=False,
                  eeTagRule={'NNP':'NNP'}):
    
    returnData = list()
    
    maDir = dir(morphemeAnalyzer)
    if 'pos' in maDir:
        for post in data:
            selected = list()
            if returnEnglishMorph==True:
                eeTags, post = emoji_english_preprocess(post, tagRule=eeTagRule, returnMorph=returnMorph)
                selected += eeTags
            
            for tok in morphemeAnalyzer.pos(post):
                if tok[1] in targetMorph:
                    if returnMorph==True:
                        selected.append((tok[0],tok[1]))
                    else:
                        selected.append(tok[0])
            returnData.append(selected)
    
    elif 'tokenize' in maDir:
        for post in data:
            selected = list()
            if returnEnglishMorph==True:
                eeTags, post = emoji_english_preprocess(post, tagRule=eeTagRule, returnMorph=returnMorph)
                selected += eeTags
            
            for tok in morphemeAnalyzer.tokenize(post):
                if tok.tag in targetMorph:
                    if returnMorph==True:
                        selected.append((tok.form,tok.tag))
                    else:
                        selected.append(tok.form)
            returnData.append(selected)
    else:
        raise Exception('Not supported morpheme analyzer instance')
    return returnData

def BM25(data, postLens, k_1=1.5, b=0.75):
    avgPostLen = np.mean(postLens)
    
    N = len(data)
    
    n = dict()
    for post in data:
        uniqueToks = set(post)
        for tok in uniqueToks:
            try:
                n[tok]+=1
            except:
                n[tok] = 1
    
    IDF = dict()
    for tok in n.keys():
        IDF[tok] = log1p((N-n[tok]+0.5)/(n[tok]+0.5))


    filterScores = list()

    for postidx, post in enumerate(data):
        postScore = 0
        for tok in post:
            tokCount = post.count(tok)
            postScore += (IDF[tok] * (
                (tokCount*(k_1+1))/(
                    tokCount+(k_1*(1-b+(b*(postLens[postidx]/avgPostLen)))))))
        try:
            filterScores.append((postScore/len(post)))
        except:
            filterScores.append(0)

    return filterScores

def emoji_english_preprocess(post, tagRule={'NNP':'NNP'}, returnMorph=True):
    returnData = list()
    
    emojis = re.findall(':[_A-Za-z]+:',post)
    for emoji in set(emojis):
        emojiCounts = post.count(emoji)
        post = post.replace(emoji,'')
        returnData+=([(emoji,'EMJ')]*emojiCounts)
        
    hashTags = re.findall('#[_A-Za-z]',post)
    for hashTag in set(hashTags):
        hTagCounts = post.count(hashTag)
        post = post.replace(hashTag,'')
        returnData+=([(hashTag,'W_HASHTAG')]*hTagCounts)

    
    engChunks = re.findall('[A-Za-z]+[\' ]?[A-Za-z]+',post)
    for engChunk in set(engChunks):
        chunkCounts = post.count(engChunk)
        post = post.replace(engChunk,'')

        targetToken = list()
        for token in nltk.pos_tag(nltk.word_tokenize(engChunk)):
            if token[1] in tagRule: 
                targetToken.append((token[0],token[1]))
        returnData+=(targetToken*chunkCounts)

    filterData = list()
    for token in returnData:
        if token[1] in tagRule:
            if returnMorph==True:
                filterData.append((token[0],tagRule[token[1]]))
            else:
                filterData.append(token[0])
        
    return filterData, post


In [28]:
with open('월드컵_1203.txt', 'r',encoding='utf-8') as f:
    plaintext = f.read()

In [40]:
a = wordcloud(plaintext, 'test.png')

119 개의 데이터가 삭제되었습니다.


In [41]:
a

[('월드컵', 217),
 ('대한민국', 140),
 ('강', 123),
 ('진출', 94),
 ('축구', 73),
 ('손흥민', 60),
 ('카타르', 55),
 ('선수', 41),
 ('경기', 36),
 ('스타', 34),
 ('그램', 33),
 ('황희찬', 32),
 ('기적', 27),
 ('응원', 24),
 ('일상', 23),
 ('한국', 22),
 ('대표', 22),
 ('포르투갈', 19),
 ('팀', 19),
 ('고생', 18),
 ('골', 18),
 ('호날두', 17),
 ('운동', 17),
 ('감사', 16),
 ('화이팅', 14),
 ('팔', 14),
 ('맘', 14),
 ('오늘', 13),
 ('자랑', 13),
 ('유머', 13),
 ('감동', 12),
 ('행복', 12),
 ('수고', 12),
 ('때', 12),
 ('딸', 12),
 ('최고', 11),
 ('승리', 11),
 ('밤', 11),
 ('국가', 11),
 ('잠', 11),
 ('마음', 11),
 ('끝', 11),
 ('이강인', 11),
 ('우리나라', 10),
 ('치킨', 10),
 ('브라질', 9),
 ('축하', 9),
 ('소통', 9),
 ('포기', 8),
 ('태극전사', 8),
 ('사진', 8),
 ('전', 8),
 ('가즈아', 7),
 ('눈물', 7),
 ('김영권', 7),
 ('반', 7),
 ('고양이', 7),
 ('소리', 7),
 ('꿀', 7),
 ('마스크', 7),
 ('피자', 7),
 ('맛집', 7),
 ('박', 7),
 ('풍선', 7),
 ('기록', 6),
 ('만세', 6),
 ('확정', 6),
 ('시간', 6),
 ('사람', 6),
 ('만화', 6),
 ('마지막', 6),
 ('잼', 6),
 ('육아', 6),
 ('할인', 6),
 ('브런치', 6),
 ('시작', 5),
 ('손', 5),
 ('기분', 5),
 ('새벽', 5)