# Word Counter

In [1]:
!pip install pandas
!pip install konlpy
!pip install sklearn

Collecting konlpy
  Downloading konlpy-0.5.2-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 1.2 MB/s 
[?25hCollecting colorama
  Downloading colorama-0.4.4-py2.py3-none-any.whl (16 kB)
Collecting beautifulsoup4==4.6.0
  Downloading beautifulsoup4-4.6.0-py3-none-any.whl (86 kB)
[K     |████████████████████████████████| 86 kB 5.8 MB/s 
Collecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 68.7 MB/s 
Installing collected packages: JPype1, colorama, beautifulsoup4, konlpy
  Attempting uninstall: beautifulsoup4
    Found existing installation: beautifulsoup4 4.6.3
    Uninstalling beautifulsoup4-4.6.3:
      Successfully uninstalled beautifulsoup4-4.6.3
Successfully installed JPype1-1.3.0 beautifulsoup4-4.6.0 colorama-0.4.4 konlpy-0.5.2


In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## 1. 라이브러리 import 및 데이터 불러오기

In [3]:
import pandas as pd
from konlpy.tag import Okt
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
%matplotlib inline

In [4]:
# 시 데이터 불러오기
poem = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/nlp3/nlp_poem.csv", index_col=False)
poem.head()


Unnamed: 0,author,title,content
0,문정희,가을 노트,<br><br><br>그대 떠나간 후<br>나의 가을은<br>조금만 건드려도<br>...
1,이순,가을비 오는 날은,<br>자정이 되어 간신히 그치는 비<br>간신히 버리는 그리움<br>그동안 너무 ...
2,이성선,가을 편지,<br>잎이 떨어지고 있습니다<br>원고지처럼 하늘이 한 칸씩<br>비어 가고 있습...
3,박제영,가을에는,<br>가을에는 잠시 여행을 떠날 일이다<br>그리 수선스러운 준비는 하지 말고<b...
4,최영미,가을에는,<br>내가 그를 사랑한 것도 아닌데<br>미칠 듯 그리워질 때가 있다<br>바람의...


## 2. 데이터 전처리

In [5]:
# 불용어
stopwords = [
    '하다', '이다', '아니다', '않다', '되다', '있다', '없다', '싶다', '알다', '보다', '마다', '같다', '지다', '가다', '오다', '두다',
    '나', '내', '날', '난', '제', '너', '네', '널', '넌', '그대', '당신', '우리', '이', '그', '저', '무엇', '이런', '저런', '그런', '것', '게', '건', '거기',
    '하나', '모든', '때문', '다음', '위해', '사람', '줄', '못', '그리다', '되어다', '수', '사랑', '말', '안', '속', '때', '머', '알', '또', '번', '왜', '뿐', '듯', '채', '곳', '선'
]

In [8]:
# 토큰화 함수
def tokenize(text):
    okt = Okt()

    # 줄바꿈(<br>) 제거
    text = text.replace("<br>", " ")

    # 형태소(품사) 분석 - 정규화有, 어간추출有
    okt_pos = okt.pos(text, norm=True, stem=True)

    # 특정 품사(명사, 동사, 형용사)만 사용
    lst_word = [word for word, pos in okt_pos if pos in ["Noun", "Adjective", "Verb"]]

    # 불용어 제거
    lst_word = [word for word in lst_word if word not in stopwords]

    return lst_word


In [9]:
# 시 내용에 토큰화 적용
content = poem["content"]
content_tokens = content.apply(tokenize)
content_tokens.head()

0    [떠나가다, 후, 가을, 조금, 건드리다, 우수수, 몸, 떨다, 다한, 다한, 노래...
1    [자정, 그치다, 비, 버리다, 그리움, 그동안, 많다, 버리다, 허다, 세월, 지...
2    [잎, 떨어지다, 원고지, 하늘, 칸, 비어, 빈, 맑은, 영혼, 잉크, 물, 편지...
3    [가을, 잠시, 여행, 떠나다, 일이, 수선스럽다, 준비, 가깝다, 멀다, 데, 가...
4    [미치다, 그립다, 바람, 손, 가지런하다, 풀다, 뭉게구름, 떼, 구름, 새털구름...
Name: content, dtype: object

# 3. Word Counter

In [19]:
from collections import Counter

LIMIT = 5 # 5순위까지만 선정
content_cnt = []
for i in content_tokens:
  content_cnt.append([tpl[0] for tpl in Counter(i).most_common()[:LIMIT]])
content_cnt

[['떠나가다', '후', '가을', '조금', '건드리다'],
 ['버리다', '자정', '비', '그리움', '지나'],
 ['하늘', '칸', '비어', '보내다', '잎'],
 ['가을', '일이', '여행', '떠나다', '잠시'],
 ['가을', '그립다', '가지런하다', '떼', '구름'],
 ['누구', '가을', '들다', '길', '거닐다'],
 ['가을', '시인', '울다', '슬픔', '키'],
 ['파랗다', '저리', '하늘', '호수', '아주'],
 ['하소', '가을', '위', '기도', '낙엽'],
 ['나룻배', '강', '기슭', '따르다', '수면'],
 ['등불', '나무', '그렇다', '자정', '넘다'],
 ['누가', '죽다', '눈', '저녁', '물'],
 ['하늘', '떨어지다', '내리다', '낯선', '거리'],
 ['마지막', '지금', '집', '고독', '주'],
 ['가을', '편지', '낙엽', '여자', '아름답다'],
 ['생각', '켜다', '잠', '들다'],
 ['낙엽', '산봉우리', '보내다', '편지', '물들다'],
 ['고독', '세상', '살다', '남자', '넓다'],
 ['가난하다', '소리', '모르다', '눈', '버리다'],
 ['흐르다', '까마귀', '강물', '하니', '그립다'],
 ['마음', '모습', '흔들리다', '붙잡다', '살다'],
 ['집', '그녀', '칸', '손', '수도'],
 ['잊다', '몇', '그립다', '그렇다', '만나다'],
 ['가장', '낮다', '깊다', '채우다', '가슴'],
 ['소유', '갖다', '주다', '마음', '엄마'],
 ['쉬다', '많다', '바람', '불면', '헛된'],
 ['흔들리다', '바람', '가끔', '마음', '그루'],
 ['필요', '흔들리다', '가끔', '눈물', '상심'],
 ['말다', '버리다', '썰물', '빠지다', '나가다'],
 ['길', '길이', '두', '걸

In [20]:
df = pd.DataFrame(content_cnt, index=poem['title'])
df

Unnamed: 0_level_0,0,1,2,3,4
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
가을 노트,떠나가다,후,가을,조금,건드리다
가을비 오는 날은,버리다,자정,비,그리움,지나
가을 편지,하늘,칸,비어,보내다,잎
가을에는,가을,일이,여행,떠나다,잠시
가을에는,가을,그립다,가지런하다,떼,구름
...,...,...,...,...,...
복면을 쓰고,쓰다,거,사과,복면,많다
밤의 측지선 ( 測地線 ),입술,문,달,달이,구부러지다
돌을 만지는 심정으로 당신을 만지고,두,돌,가지,사라지다,위로
야간도로공사,길,글자,밟다,힐,바꾸다


In [21]:
df.to_csv('/content/drive/MyDrive/Colab Notebooks/nlp3/most_common_by_poem.csv ', encoding = 'utf-8')