# 1. 라이브러리 import 및 데이터 불러오기

In [1]:
import pandas as pd
import numpy as np
from konlpy.tag import Okt
from sklearn.feature_extraction.text import TfidfVectorizer

In [2]:
# 시 데이터 불러오기
poem = pd.read_csv('../data/nlp_poem.csv')
poem.head()

Unnamed: 0,author,title,content
0,이순,가을에는 이런 사람이 그립다,수평선이나 지평선 보다<br>더 깊고 아득한 눈빛으로<br>세상의 그리움 다 깨워서...
1,문정희,가을 노트,<br><br><br>그대 떠나간 후<br>나의 가을은<br>조금만 건드려도<br>...
2,이순,가을비 오는 날은,<br>자정이 되어 간신히 그치는 비<br>간신히 버리는 그리움<br>그동안 너무 ...
3,이성선,가을 편지,<br>잎이 떨어지고 있습니다<br>원고지처럼 하늘이 한 칸씩<br>비어 가고 있습...
4,박제영,가을에는,가을에는 잠시 여행을 떠날 일이다<br>그리 수선스러운 준비는 하지 말고<br>그리...


# 2. 데이터 전처리

In [3]:
# 불용어
stopwords = [
    '하다', '이다', '아니다', '않다', '되다', '있다', '없다', '싶다', '알다', '보다', '마다', '같다', '지다', '가다',
    '나', '그대', '당신', '우리', '이', '그', '저', '무엇', '이런', '저런', '그런', '것',
    '하나', '모든', '때문', '다음', '위해', '사람', '줄', '못'
]

In [4]:
# 토큰화 함수
def tokenize(text):
    okt = Okt()
    text = text.replace("<br>", " ")
    okt_pos = okt.pos(text, norm=True, stem=True)
    lst_word = [word for word, hts in okt_pos if hts in ["Noun", "Adjective", "Verb"]]
    lst_word = [word for word in lst_word if word not in stopwords]
    return lst_word

In [5]:
# 시 내용 가져오기
content = poem['content']
content = content.apply(tokenize)
content.head()

0    [수평선, 지평선, 더, 깊다, 아득하다, 눈빛, 세상, 그리움, 깨우다, 다른, ...
1    [떠나가다, 후, 가을, 조금, 건드리다, 우수수, 몸, 떨다, 다한, 말, 다한,...
2    [자정, 되어다, 그치다, 비, 버리다, 그리움, 그동안, 많다, 버리다, 허다, ...
3    [잎, 떨어지다, 원고지, 하늘, 칸, 비어, 빈, 곳, 맑은, 영혼, 잉크, 물,...
4    [가을, 잠시, 여행, 떠나다, 일이, 그리다, 수선스럽다, 준비, 그리다, 가깝다...
Name: content, dtype: object

# 3. TF-IDF

In [None]:
def cos_similarity(v1, v2):
    dot_product = np.dot(v1, v2)
    l2_norm = (np.sqrt(sum(np.square(v1))) * np.sqrt(sum(np.square(v2))))
    similarity = dot_product / l2_norm 
    
    return similarity

In [None]:
tfidf_vectorizer = TfidfVectorizer()


## Word2vec 모델 학습

In [6]:
import logging
logging.basicConfig(
    format='%(asctime)s : %(levelname)s : %(message)s', 
    level=logging.INFO)

In [7]:
# 초기화 및 모델 학습
from gensim.models import word2vec

# 모델 학습
model = word2vec.Word2Vec(content, min_count=1)
model

2021-11-28 20:45:55,781 : INFO : collecting all words and their counts
2021-11-28 20:45:55,781 : INFO : PROGRESS: at sentence #0, processed 0 words, keeping 0 word types
2021-11-28 20:45:55,820 : INFO : collected 15287 word types from a corpus of 153741 raw words and 2045 sentences
2021-11-28 20:45:55,820 : INFO : Creating a fresh vocabulary
2021-11-28 20:45:55,886 : INFO : Word2Vec lifecycle event {'msg': 'effective_min_count=1 retains 15287 unique words (100.0%% of original 15287, drops 0)', 'datetime': '2021-11-28T20:45:55.886243', 'gensim': '4.0.1', 'python': '3.8.0 (default, Nov  6 2019, 16:00:02) [MSC v.1916 64 bit (AMD64)]', 'platform': 'Windows-10-10.0.19041-SP0', 'event': 'prepare_vocab'}
2021-11-28 20:45:55,886 : INFO : Word2Vec lifecycle event {'msg': 'effective_min_count=1 leaves 153741 word corpus (100.0%% of original 153741, drops 0)', 'datetime': '2021-11-28T20:45:55.886243', 'gensim': '4.0.1', 'python': '3.8.0 (default, Nov  6 2019, 16:00:02) [MSC v.1916 64 bit (AMD64)]

<gensim.models.word2vec.Word2Vec at 0x28eb8e2ebe0>

In [8]:
# 단어 사전 수
len(model.wv)

15287

In [9]:
# 단어 사전에서 상위 10개만 보기
vocab = list(model.wv.key_to_index.keys())
vocab[:10]

['내', '사랑', '수', '때', '말', '속', '날', '오다', '너', '눈']

In [10]:
# Counter로 자주 등장하는 단어 보기
from collections import Counter
dict(Counter(vocab).most_common(100))

{'내': 1,
 '사랑': 1,
 '수': 1,
 '때': 1,
 '말': 1,
 '속': 1,
 '날': 1,
 '오다': 1,
 '너': 1,
 '눈': 1,
 '꽃': 1,
 '바람': 1,
 '들다': 1,
 '마음': 1,
 '소리': 1,
 '생각': 1,
 '나르다': 1,
 '몸': 1,
 '길': 1,
 '되어다': 1,
 '더': 1,
 '세상': 1,
 '곳': 1,
 '버리다': 1,
 '손': 1,
 '그렇다': 1,
 '밤': 1,
 '위': 1,
 '하늘': 1,
 '모르다': 1,
 '내다': 1,
 '시간': 1,
 '안': 1,
 '일': 1,
 '나무': 1,
 '알': 1,
 '얼굴': 1,
 '좋다': 1,
 '가슴': 1,
 '다시': 1,
 '집': 1,
 '물': 1,
 '살다': 1,
 '살': 1,
 '아름답다': 1,
 '흐르다': 1,
 '나다': 1,
 '별': 1,
 '죽다': 1,
 '새': 1,
 '멀다': 1,
 '눈물': 1,
 '어떻다': 1,
 '또': 1,
 '앉다': 1,
 '먹다': 1,
 '네': 1,
 '나오다': 1,
 '사이': 1,
 '이름': 1,
 '만나다': 1,
 '오늘': 1,
 '듯': 1,
 '사라지다': 1,
 '거리': 1,
 '어둠': 1,
 '뒤': 1,
 '두': 1,
 '서다': 1,
 '어디': 1,
 '지금': 1,
 '떨어지다': 1,
 '비': 1,
 '앞': 1,
 '떠나다': 1,
 '자다': 1,
 '끝': 1,
 '기억': 1,
 '뜨다': 1,
 '번': 1,
 '두다': 1,
 '구름': 1,
 '바다': 1,
 '걸다': 1,
 '놓다': 1,
 '내리다': 1,
 '붉다': 1,
 '개': 1,
 '여자': 1,
 '주다': 1,
 '슬픔': 1,
 '깊다': 1,
 '거': 1,
 '기다리다': 1,
 '꿈': 1,
 '몇': 1,
 '채': 1,
 '이제': 1,
 '잊다': 1,
 '빛': 1}

In [11]:
model.wv['가을']

array([-4.7159973e-01,  7.3751211e-01,  5.8839887e-01,  6.0318410e-01,
        1.4972286e-01, -8.6200988e-01,  5.9267551e-01,  1.2318726e+00,
       -5.1905060e-01, -1.1923481e-01, -2.4160947e-01, -6.6175449e-01,
       -3.8745321e-02,  4.0313280e-01,  1.3985921e-01, -1.7442667e-01,
        6.0132688e-01, -5.8886659e-01, -2.5328735e-01, -8.8634211e-01,
        5.7005525e-01,  5.0415516e-01,  8.1023914e-01, -4.5092073e-01,
        2.1125549e-01, -1.7511250e-01, -6.2656647e-01,  8.8951754e-04,
       -6.1155349e-01,  3.4599358e-01,  9.8694587e-01, -1.3295062e-01,
        5.5457604e-01, -6.9579458e-01, -6.4461440e-02,  9.0039682e-01,
        3.5193416e-01, -4.6899903e-01, -2.9527861e-01, -8.5022801e-01,
        1.3604058e-01, -8.7469995e-01, -5.4963273e-01,  1.8313096e-01,
        3.3362335e-01,  1.3553333e-02, -5.3724200e-01, -2.3731942e-01,
        4.2328709e-01,  3.2144016e-01,  2.6456934e-01, -3.7919250e-01,
       -7.1505195e-01,  7.9551905e-02, -6.3945115e-01,  4.0434384e-01,
      

In [12]:
model.wv.most_similar('사랑')

[('수', 0.99893718957901),
 ('말', 0.9985798001289368),
 ('내', 0.9983220100402832),
 ('너', 0.9982882738113403),
 ('알', 0.9981968998908997),
 ('그렇다', 0.998142421245575),
 ('생각', 0.9979564547538757),
 ('행복하다', 0.9979419708251953),
 ('세상', 0.9978809952735901),
 ('일', 0.9977801442146301)]

In [13]:
model.wv.similarity('가을', '가게')

0.99894285