## n-gram

In [8]:
from konlpy.tag import Komoran

def word_ngram(bow, num_gram):
    #bow는 명사를 담은 list
    text = tuple(bow)
    ngrams = [text[x:x + num_gram] for x in range(0, len(text))]
    return tuple(ngrams)

def similarity(doc1, doc2):
    cnt = 0
    for token in doc1:
        if token in doc2:
            cnt += 1
    return cnt/len(doc1)

sentence1 = '6월에 지수는 동생의 제안으로 비누를 샀다'
sentence2 = '6월에 지수는 동생의 제안으로 폼클렌징을 샀다'
sentence3 = '나는 맛있는 밥을 동생과 함께 먹었다'

komoran = Komoran()
bow1 = komoran.nouns(sentence1)
bow2 = komoran.nouns(sentence2)
bow3 = komoran.nouns(sentence3)



doc1 = word_ngram(bow1, 2)
doc2 = word_ngram(bow2, 2)
doc3 = word_ngram(bow3, 2)
#각 doc는 n_gram을 모두 담은 튜플

print(doc1)
print(doc2)
print(doc3)

r1 = similarity(doc1, doc2)
r2 = similarity(doc3, doc1)

print('r1 : ', r1)
print('r2 : ', r2)

(('6월', '지수'), ('지수', '동생'), ('동생', '제안'), ('제안', '비누'), ('비누',))
(('6월', '지수'), ('지수', '동생'), ('동생', '제안'), ('제안', '폼'), ('폼', '클렌징'), ('클렌징',))
(('밥', '동생'), ('동생',))
r1 :  0.6
r2 :  0.0


## 코사인 유사도 계산

In [10]:
from konlpy.tag import Komoran
import numpy as np
from numpy import dot
from numpy.linalg import norm

#코사인 유사도 계산
def cos_sim(v1, v2):
    return dot(v1, v2) / (norm(v1)*norm(v2))

# TDM 만들기
def make_term_doc_mat(sentence_bow, word_dics):
    #sentence_bow는 해당 문장의 명사 집합
    freq_mat = {}
    
    # 사전에 있는 모든 단어에 대해 일단 0
    for word in word_dics:
        freq_mat[word] = 0
        
    # 해당 문장에 그 단어가 있으면 1
    for word in word_dics:
        if word in sentence_bow:
            freq_mat[word] += 1
            
    return freq_mat

def make_vector(tdm):
    vec = []
    for key in tdm:
        vec.append(tdm[key])
    return vec

sentence1 = '6월에 지수는 동생의 제안으로 비누를 샀다'
sentence2 = '6월에 지수는 동생의 제안으로 폼클렌징을 샀다'
sentence3 = '나는 맛있는 밥을 동생과 함께 먹었다'

komoran = Komoran()

bow1 = komoran.nouns(sentence1)
bow2 = komoran.nouns(sentence2)
bow3 = komoran.nouns(sentence3)

bow = bow1 + bow2 + bow3

word_dics = []
for token in bow:
    if token not in word_dics:
        word_dics.append(token)
        
freq_list1 = make_term_doc_mat(bow1, word_dics)
freq_list2 = make_term_doc_mat(bow2, word_dics)
freq_list3 = make_term_doc_mat(bow3, word_dics)

print(freq_list1)
print(freq_list2)
print(freq_list3)

doc1 = np.array(make_vector(freq_list1))
doc2 = np.array(make_vector(freq_list2))
doc3 = np.array(make_vector(freq_list3))

r1 = cos_sim(doc1, doc2)
r2 = cos_sim(doc3, doc1)
print("r1 : ", r1)
print("r2 : ", r2)

{'6월': 1, '지수': 1, '동생': 1, '제안': 1, '비누': 1, '폼': 0, '클렌징': 0, '밥': 0}
{'6월': 1, '지수': 1, '동생': 1, '제안': 1, '비누': 0, '폼': 1, '클렌징': 1, '밥': 0}
{'6월': 0, '지수': 0, '동생': 1, '제안': 0, '비누': 0, '폼': 0, '클렌징': 0, '밥': 1}
r1 :  0.7302967433402214
r2 :  0.31622776601683794
