<a href="https://colab.research.google.com/github/dianakang/K_digital_likelion/blob/master/%ED%85%8D%EC%8A%A4%ED%8A%B8%EC%9C%A0%EC%82%AC%EB%8F%84(NLP).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# 자연어 처리에서 문장 간에 의미가 얼마나 유사한지 계산하는 일은 매우 중요하다.
# 문장 역시 단어들의 묶음이기 때문에 하나의 벡터로 묶어서 문장간의 유사도를 계산할 수 있다. 

In [None]:
# 챗봇 개발을 보더라도 챗봇 엔진에 입력되는 문장과 시스템에서 해당 주제의 답변과 연관되어 있는 질문이 얼마나 유사한지 계산할 수 있어야 적절한 답변을 출력할 수 있다. 
# 이처럼 두 문장 간의 유사도를 계산하기 위해서는 문장 내에 존재하는 단어들을 수치화 해야한다. 
# 이때는 언어 모델에 따라 1. 통계를 이용하는 방법과 2. 인공 신경망을 이용하는 방법으로 나눌 수 있다. 
# 앞서 배웠던 Word2Vec은 인공 신경망을 이용했고, 이번에는 통계적인 방법을 이용해 유사도를 계산하는 방법을 살펴볼 것이다. 

# 1. n-gram 유사도

In [None]:
# n - gram은 주어진 문장에서 n개의 연속적인 단어 시퀀스(단어 나열)을 의미한다. 
# n - gram은 문장에서 n개의 단어를 토큰으로 사용한다. 이는 이웃한 단어의 출현 횟수를 통계적으로 표현해 텍스트의 유사도를 계산하는 방법이다. 
# n이 1인 경우 1-gram 또는 유니그램, 2인 경우 2-gram 바이그램, 3인 경우 3-gram 또는 트라이그램이라 부르며, 4이상인 숫자만 앞쪽에 붙여 부른다.
# 이제 n-gram을 이용해 문장 간의 유사도를 계산해보자! 문장을 n-gram으로 토큰을 분리한 후, '단어 문서 행렬(Term-Document Matrix, TDM)'을 만든다.
# 이후 두 문장을 서로 비교해 동일한 단어의 출현 빈도를 확률로 계산해 유사도를 구할 수 있다. 

In [None]:
# tf(term frequency)는 두 문장 A와 B에서 동일한 토큰의 출현 빈도를 뜻하며, tokens는 해당 문장에서 전체 토큰 수를 의미한다. 
# 토큰이란 n - gram으로 분리된 단어이다. 즉, 기준이 되는 문장 A에서 나온 전체 토큰 중에서 A와 B에 동일한 토큰이 얼마나 있는지 비율로 표현한 수식이다. 
# 1.0에서 가까울 수록 B가 A에 유사하다고 볼 수 있다. 
# 이제 n-gram의 개념을 정리했으니, 실제로 작동하는 코드를 만들어보자. 

In [None]:
pip install konlpy



In [None]:
from konlpy.tag import Komoran

In [None]:
# 어절 단위 n-gram
def word_ngram(bow, num_gram):  # bow = bag of words
  text = tuple(bow)
  ngrams = [text[x:x + num_gram] for x in range(0, len(text))]
  return tuple(ngrams)    ## 추출된 토큰들은 튜플 형태로 반환된다.  이전 예시처럼 슬라이싱을 이용해 문장을 어절 단위로 n개씩 끊어서 토큰을 저장한다. 


# 음절 n-gram 분석
def phoneme_ngram(bow, num_gram):  
  sentence = ' ', join(bow)
  text = tuple(sentence)
  slen = len(text)
  ngrams = [text[x:x + num_gram] for x in range(0, slen)]
  return ngrams

# 유사도 계산
def similarity(doc1, doc2):    # doc1의 토큰이 doc2의 토큰과 얼마나 동일한지 횟수를 카운트한다.
  cnt = 0
  for token in doc1:
    if token in doc2:
      cnt = cnt + 1
  return cnt / len(doc1)     # 카운트 된 값을 doc1의 전체 토큰 수로 나누면 유사도가 계산된다. 이때 결과가 1.0에 가까워질수록 doc1과 유사해진다.

sentence1 = '나는 추운 겨울 1월에 한국에서 태어났다.'
sentence2 = '나는 추운 겨울 현재 한국에서 지내고 있다'
sentence3 = '나는 한국을 떠나 해외에서 살고 싶다'

# 형태소 분석기에서 명사(단어)추춯
komoran = Komoran()
bow1 = komoran.nouns(sentence1)
bow2 = komoran.nouns(sentence2)
bow3 = komoran.nouns(sentence3)

# 단어 n-gram 토큰 추출
doc1 = word_ngram(bow1, 2)   # 2-gram 방식으로 추출
doc2 = word_ngram(bow2, 2)
doc3 = word_ngram(bow3, 2)

# 추출된 n-gram 토큰 출력
print(doc1)
print(doc2)
print(doc3)

# 유사도 계산
r1 = similarity(doc1, doc2)
r2 = similarity(doc3, doc1)

# 계산된 유사도 출력
print(r1)
print(r2)

(('겨울', '1월'), ('1월', '한국'), ('한국',))
(('겨울', '한국'), ('한국',))
(('한국', '해외'), ('해외',))
0.3333333333333333
0.0


In [None]:
# n - gram은 문장에 존재하는 모든 단어의 출현빈도를 확인하는 것이 아니라 연속되는 문장에서 일부 단어(n으로 설정된 개수만큼)만 확인하다 보니
# 전체 문장을 고려한 언어 모델보다 정확도가 떨어질 수 있다.
# n을 크게 잡을수록 비교 문장의 토큰과 비교할 때 카운트를 놓칠 확률이 커진다.
# 하지만 n을 작게 잡을수록 카운트 확률은 높아지지만 문맥을 파악하는 정확도는 떨어질 수 밖에 없으므로 n-gram에서 n의 설정은 매우 중요하다.(보통 1 ~ 5 사이의 값을 많이 사용한다.)

# 2.코사인 유사도

In [None]:
# 단어나 문장을 벡터로 표현할 수 있다면 벡터 간 거리나 각도를 이용해 유사성을 파악할 수 있다.
# 벡터 간 거리를 구하는 방법은 다양하지만 우리는 '코사인 유사도'를 설명하겠다. 코사인 유사도는 코사인 각도를 이용해 유사도를 측정하는 방법이다.
# 일반적으로 코사인 유사도는 벡터의 크기가 중요하지 않을 때 그 거리를 측정하기 위해 사용된다.
# 예를 들어 단어의 출현 빈도를 통해 유사도 계산을 한다면 동일한 단어가 많이 포함되어 있을 수록 벡터의 크기가 커진다.
# 이 때 코사인 유사도는 벡터의 크기와 상관없이 결과가 안정적이다.

In [None]:
# 코사인 값은 -1 ~ 1 사이의 값을 가지며, 두 벡터의 방향이 완전히 동일한 경우에는 1, 반대 방향인 경우에는 -1, 두 벡터가 서로 직각을 이루면 0의 값을 가진다.
# 즉, 두 벡터의 방향이 같아질 수록 유사하다 볼 수 있다.  우리는 공간 벡터의 내적과 크기를 이용해 코사인 각도를 계산한다.

In [None]:
from konlpy.tag import Komoran
import numpy as np
from numpy import dot  # dot = 벡터 곱(A*B)
from numpy.linalg import norm

In [None]:
# 코사인 유사도 계산
def cos_sim(vec1, vec2): 
  return dot(vec1, vec2) / (norm(vec1) * norm(vec2))  # 코사인 유사도 계산에는 넘파이에서 제공하는 벡터 내적을 계산하는 함수(vec())와 노름(벡터의 크기)(norm())을 계산하는 함수를 이용한다.
                                                      # 벡터의 노름에는 여러가지 종류가 있지만, 코사인 유사도에서는 L2노름(유클리드 노름)을 주로 사용한다.

In [None]:
# TDM(단어문서) 만들기
def make_term_doc_mat(sentence_bow, word_dics):  # 비교 문장에서 추출한 단어 사전을 기준으로 문장에 해당 단어들이 얼마나 포함되어 있는지 나타내는 단어 문서 행렬 TDM을 만들어주는 함수이다. 
  freq_mat = {}

  for word in word_dics:
    freq_mat[word] = 0
  
  for word in word_dics:
    if word in sentence_bow:
      freq_mat[word] += 1
  return freq_mat

# 단어 벡터 만들기
def make_vector(tdm):  # 단어 문서 행렬에서 표현된 토큰들의 출현 빈도 데이터를 벡터로 만들어주는 함수이다. 
  vec = []
  for key in tdm:
    vec.append(tdm[key])
  return vec

In [None]:
# 문장 정의
sentence1 = '나는 추운 겨울 1월에 한국에서 태어났다.'
sentence2 = '나는 추운 겨울 현재 한국에서 지내고 있다'
sentence3 = '나는 한국을 떠나 해외에서 살고 싶다'

In [None]:
# 형태소분석기를 이용해 단어 묶음 리스트 생성
komoran = Komoran()
bow1 = komoran.nouns(sentence1)
bow2 = komoran.nouns(sentence2)
bow3 = komoran.nouns(sentence3)

## Komoran 형태소 분석기를 이용해 정의된 문장에서 명사를 리스트 형태로 추출한다.

In [None]:
# 단어 묶음 리스트를 하나로 합침
bow = bow1 + bow2 + bow3   # 3개의 문장에서 추출한 단어 리스트를 하나의 리스트로 합친다.

In [None]:
# 단어 묶음에서 중복제거해 단어 사전 구축
word_dics = []           # 하나로 합쳐진 단어 묶음 리스트에서 중복된 단어를 제거해 새로운 사전 리스트를 구축한다.
for token in bow:
  if token not in word_dics:       
    word_dics.append(token)

In [None]:
# 문장 별 단어 문서 행렬 계산
freq_list1 = make_term_doc_mat(bow1, word_dics)
freq_list2 = make_term_doc_mat(bow2, word_dics)
freq_list3 = make_term_doc_mat(bow3, word_dics)
print(freq_list1)    # 각 문장마다 단어 행렬 리스트를 만든 후 출력한다.
print(freq_list2)
print(freq_list3)

{'겨울': 1, '1월': 1, '한국': 1, '해외': 0}
{'겨울': 1, '1월': 0, '한국': 1, '해외': 0}
{'겨울': 0, '1월': 0, '한국': 1, '해외': 1}


In [None]:
# 문장 벡터 생성
doc1 = np.array(make_vector(freq_list1))
doc2 = np.array(make_vector(freq_list2))
doc3 = np.array(make_vector(freq_list3))

In [None]:
# 코사인 유사도 계산
r1 = cos_sim(doc1, doc2)
r2 = cos_sim(doc3, doc1)
print(r1)
print(r2)

0.8164965809277259
0.40824829046386296
