# 파이썬 웹 크롤링 & 텍스트 분석

## 10. 다음 영화 리뷰 시각화하기
- 태그 추출하기
- 워드클라우드 그리기
    - reference: http://konlpy.org/ko/v0.4.3/examples/wordcloud/

### 리뷰 데이터 불러오기
- ```open()``` 함수를 통해 파일을 열며, 열때 "r" (읽기) 모드로 설정한다.

In [1]:
file = open("4-4.txt", "r", encoding="utf-8")
data = file.read().split("\n")
file.close()

### 태그 추출하기 
- 워드클라우드에 들어갈 데이터를 처리하기 위해 태그를 추출하고 그 사이즈와 색을 설정하기 위한 함수를 정의한다
- 텍스트를 토큰화한 후 명사(noun)만 추출한다
- 각 명사의 발생 빈도에 따라 태그의 크기(size)를 설정한다
- 워드 클라우드에 들어갈 각 태그의 색(color)은 랜덤하게 설정한다

In [3]:
import random
from konlpy.tag import Twitter 			
from collections import Counter

In [5]:
def get_tags(text, ntags = 100, multiplier = 1):
    t = Twitter()
    nouns = []
    for sentence in text:
        for noun in t.nouns(sentence):
            nouns.append(noun)
    
    result = []
    count = Counter(nouns)
    
    for n, c in count.most_common(ntags):
        temp = {"color": (random.randint(0,255),random.randint(0,255),random.randint(0,255)),
                "tag": n,
                "size": c * multiplier}
        result.append(temp)
            
    return result

In [7]:
# get_tags() 함수로 태그 가져오기
tags = get_tags(data)
print(tags[0])
print(tags[1])
print(tags[2])

{'color': (143, 8, 160), 'tag': '영화', 'size': 621}
{'color': (49, 57, 85), 'tag': '음악', 'size': 183}
{'color': (49, 157, 124), 'tag': '너무', 'size': 123}


### 워드클라우드 그리기

In [8]:
import pytagcloud, webbrowser

def draw_cloud(tags, fname, fontname = "Noto Sans CJK", size = (1000, 600)):
    pytagcloud.create_tag_image(tags, fname, fontname = fontname, size = size)
    webbrowser.open(fname)

In [9]:
# 워드클라우드 그리고 파일 열기
draw_cloud(tags, "wordcloud.png")

### 실습10-1. 다음 영화 리뷰 시각화하기
- 자신이 크롤링한 다른 영화의 리뷰 데이터의 워드클라우드를 그려 시각화를 해본다

In [None]:
## Your answer