In [1]:
from collections import Counter
import urllib
import random
import webbrowser

from konlpy.tag import Hannanum
from lxml import html
import pytagcloud # requires Korean font support
import sys

if sys.version_info[0] >= 3:
    urlopen = urllib.request.urlopen
else:
    urlopen = urllib.urlopen


r = lambda: random.randint(0,255)
color = lambda: (r(), r(), r())

def get_bill_text(billnum):
    url = 'http://pokr.kr/bill/%s/text' % billnum
    response = urlopen(url).read().decode('utf-8')
    page = html.fromstring(response)
    text = page.xpath(".//div[@id='bill-sections']/pre/text()")[0]
    return text

def get_tags(text, ntags=50, multiplier=10):
    h = Hannanum()
    nouns = h.nouns(text)
    count = Counter(nouns)
    return [{ 'color': color(), 'tag': n, 'size': c*multiplier }\
                for n, c in count.most_common(ntags)]

def draw_cloud(tags, filename, fontname='Noto Sans CJK', size=(800, 600)):
    pytagcloud.create_tag_image(tags, filename, fontname=fontname, size=size)
    webbrowser.open(filename)


In [2]:
bill_num = '1904882'
text = get_bill_text(bill_num)
tags = get_tags(text)
print(tags)
draw_cloud(tags, 'wordcloud.png')

[{'color': (105, 113, 2), 'tag': '동물', 'size': 80}, {'color': (47, 161, 80), 'tag': '행위', 'size': 80}, {'color': (44, 220, 170), 'tag': '인터넷', 'size': 60}, {'color': (245, 56, 8), 'tag': '촬영', 'size': 60}, {'color': (38, 18, 125), 'tag': '등', 'size': 50}, {'color': (138, 222, 37), 'tag': '영상물', 'size': 50}, {'color': (191, 140, 185), 'tag': '다음', 'size': 50}, {'color': (122, 214, 37), 'tag': '호', 'size': 40}, {'color': (218, 143, 215), 'tag': '학대', 'size': 40}, {'color': (1, 90, 82), 'tag': '수', 'size': 40}, {'color': (57, 201, 149), 'tag': '게재', 'size': 40}, {'color': (39, 7, 65), 'tag': '신설', 'size': 40}, {'color': (200, 162, 21), 'tag': '고통', 'size': 40}, {'color': (71, 18, 118), 'tag': '①', 'size': 40}, {'color': (58, 106, 93), 'tag': '∼', 'size': 40}, {'color': (5, 107, 246), 'tag': '생', 'size': 40}, {'color': (64, 197, 114), 'tag': '략', 'size': 40}, {'color': (56, 229, 180), 'tag': '현행', 'size': 40}, {'color': (100, 104, 27), 'tag': '동물보호법', 'size': 30}, {'color': (85, 6, 229), '

In [3]:
text

'\n             동물보호법 일부개정법률안\n              (윤명희의원 대표발의)\n\n\n\n\n의 안               발의연월일 : 2013.   5. 8.\n      4882\n번 호               발   의   자 : 윤명희ㆍ김영록ㆍ이만우\n                             김현숙ㆍ조명철ㆍ송영근\n                             정희수ㆍ박인숙ㆍ김승남\n                             이에리사 의원(10인)\n\n\n\n\n제안이유 및 주요내용\n\n 현행법은 동물복지를 도모하고 동물에 대한 학대 행위를 방지하기\n\n위하여 제정되었으나, 학대에 대한 개념이 불명확하여 이에 대한 개선\n\n요구가 점점 높아지고 있음.\n\n 또한, 인터넷 등 정보통신망을 이용하여 동물을 학대하는 영상물이\n\n확산되고 있는 추세에 있지만, 현행법에는 이를 금지하고 제재할 수\n\n있는 법적 수단은 마련되어 있지 않음.\n\n 동물보호를 위해서는 동물에 대한 학대행위 뿐만 아니라 학대행위\n\n를 촬영한 영상물을 판매·전시·전달·상영 또는 인터넷에 게재하는 행\n\n위도 제한할 필요가 있음. 이에 동물을 학대하는 장면을 촬영한 영상\n\n물을 유포한 자에 대하여 과태료를 부과할 수 있도록 하려는 것임(안\n\n\n                  - 1 -\n                    - 2 -\n\n\n제8조제5항 신설, 제47조제1항1호의2 신설).\n법률 제      호\n\n\n\n\n           동물보호법 일부개정법률안\n\n\n\n\n동물보호법 일부를 다음과 같이 개정한다.\n\n제8조 제1항 각 호 외의 부분 중 “누구든지”를 ““동물학대”라 함은 동\n\n물을 대상으로 정당한 사유 없이 불필요하고 피할 수 있는 신체적 고\n\n통을 주거나 굶주림, 질병 등에 방치해서 고통을 주는 일체의 행위 및\n\n동물이 그러한 고통을 겪고 있을 때 적절한 조

In [4]:
tags

[{'color': (47, 161, 80), 'size': 80, 'tag': '행위'},
 {'color': (105, 113, 2), 'size': 80, 'tag': '동물'},
 {'color': (44, 220, 170), 'size': 60, 'tag': '인터넷'},
 {'color': (245, 56, 8), 'size': 60, 'tag': '촬영'},
 {'color': (138, 222, 37), 'size': 50, 'tag': '영상물'},
 {'color': (191, 140, 185), 'size': 50, 'tag': '다음'},
 {'color': (38, 18, 125), 'size': 50, 'tag': '등'},
 {'color': (56, 229, 180), 'size': 40, 'tag': '현행'},
 {'color': (200, 162, 21), 'size': 40, 'tag': '고통'},
 {'color': (39, 7, 65), 'size': 40, 'tag': '신설'},
 {'color': (57, 201, 149), 'size': 40, 'tag': '게재'},
 {'color': (218, 143, 215), 'size': 40, 'tag': '학대'},
 {'color': (64, 197, 114), 'size': 40, 'tag': '략'},
 {'color': (5, 107, 246), 'size': 40, 'tag': '생'},
 {'color': (58, 106, 93), 'size': 40, 'tag': '∼'},
 {'color': (71, 18, 118), 'size': 40, 'tag': '①'},
 {'color': (1, 90, 82), 'size': 40, 'tag': '수'},
 {'color': (122, 214, 37), 'size': 40, 'tag': '호'},
 {'color': (253, 66, 136), 'size': 30, 'tag': '판매·전시·전달·상영'},
 

In [6]:
a = open('d:/github/r/visualization/snack_proj/twitter_text.txt', 'r', encoding = 'utf-8') 
b=a.read()

In [None]:
snack_tags = get_tags(b)