## 토크나이징 ##


- 컴퓨터 분야에서 자연어의 의미를 분석해 컴포터가 처리할 수 있도록 하는 일을 자연어처리 NLP(Natural Lanugage Precessing) 이라 한다.
- 이를 위해 우선 문장을 일정한 의미가 있는 가장 작은 단어들로 나눈다.
- 그 다음 나눠진 단어들을 이용해 의미를 분석한다.
- 여기서 가장 기본이 되는 단어들을 토큰이라 한다.
- 토큰의 단위는 토크나이징 방법에 따라 달라질 수 있지만 인ㄹ반적으로 일정한 의미가 있는 가장 작은 정보 단위로 결정된다.
-----


- 이와 같이 주어진 문장에서 토큰 단위로 정보를 나누는 작업을 토크나이징이라 한다.
- 이는 문장 형태의 데이터를 처리하기 위해 제일 처음 수행해야 하는 기본적인 작업니다.
- 주로 텍스트 전처리 과정에서 사용한다.
- 한국어 토크나이징을 지원하는 라이브러리로 KoNLPy(코엔엘파이)가 유명하다.
-----


- 토크나이징 시 토큰 단위를 어떻게 정의하느냐에 따라 자연어 처리 성능에 영향을 미친다.
- 여기서는 형태소를 토큰 단위로 사용한다. 형태소는 일정한 의미가 있는 가장 작은 말의 단위를 사용한다.
- 한국어는 명사와 조사를 띄어쓰지 않고, 용언에 따라 여러가지 어미가 붙기 때문에 띄어쓰기만으로 토크나이징을 할 수 있다.
- 따라서 형태소뿐만 아니라 어근, 접두사/접미사, 품사 등 다양한 언어적 속성의 구주를 파악해야 한다.
- 형태소 분석기는 형태소 의미를 고려해 품사를 태깅한다.
- 9품사 참조: https://blog.naver.com/hunminsam/222335335162
-----


- KoNLPy에서는 세 가지 종류의 형태소 분석기를 제공한다.


In [1]:
# 첫번째 형태소 분석기  Kkma(꼬꼬마 )
# 꼬꼬마 패키지 설치 
from konlpy.tag import Kkma

In [2]:
# 꼬꼬마 함수
# morphs(phrase): 인자로 입력한 문장을 형태소 단위로 토크나이징한다. 결과는 리스트 형태로 반환한다.
# nouns(pharas): 인자로 입력한 문장에서 품사가 명사인 토큰만 추출한다. 리스트 반환(요소가 튜플)
# pos(phrase, flatten=True): POS tagger라 부르며, 인자로 입력한 문장에서 형태소를 추출한 뒤 품사를 태깅한다.
# 결과로 품사가 튜플 형태로 묶여서 리스트로 반환된다.
# sentences(phrase): 인자로 입력한 여러 문장을 분리해주는 역할을 한다. 결과는 리스트 형태로 반환된다.


In [10]:
kkma = Kkma()

text =" 꽁꽁 언 한강 위에 고양이가 걸어다닙니다."

# 형태소 추출 
morphs = kkma.morphs(text)
print(morphs)

['꽁꽁', '얼', 'ㄴ', '한강', '위', '에', '고양이', '가', '걸어다니', 'ㅂ니다', '.']


In [11]:
# 형태소와 품사 태그 추출
# NNG: 일반 명사, JKS: 주격 조사, JKM: 부사격 조사, VV: 동사, EFN: 평서형 종결어미, SF: 마침표, 물음표, 느낌표


In [12]:
pos = kkma.pos(text)
print(pos)

[('꽁꽁', 'MAG'), ('얼', 'VV'), ('ㄴ', 'ETD'), ('한강', 'NNP'), ('위', 'NNG'), ('에', 'JKM'), ('고양이', 'NNG'), ('가', 'JKS'), ('걸어다니', 'VV'), ('ㅂ니다', 'EFN'), ('.', 'SF')]


In [13]:
# 명사 추출 

nouns = kkma.nouns(text)
print(nouns)

['한강', '위', '고양이']


In [16]:
# 문장 분리 
sentences = '오늘의 날씨 입니다. 허벌나게 춥습니다.'
s = kkma.sentences(sentences)
print(s)

['오늘의 날씨 입니다.', '허벌나게 춥습니다.']


In [26]:
# 코모란(komoran)
# morphs(phrase): 인자로 입력한 문장을 형태소 단위로 토크나이징. 결과를 리스트 형태로 반환
# nouns(phrase): 인자로 입력한 문장에서 명사 토큰을 추출
# pos(phrase, flatten=True): 인자로 입력한 문장에서 형태소를 추출한 뒤 품사를 태깅한다.

from konlpy.tag import Komoran, Okt

In [20]:
# 객체 생성 

# 객체 (STABLE 모델 사용)
komoran = Komoran('STABLE')

In [21]:
# 형태소 분석 

morphs = komoran.morphs(text)
print(morphs)

['꽁꽁', '얼', 'ㄴ', '한강', '위', '에', '고양이', '가', '걷', '어', '다니', 'ㅂ니다', '.']


In [23]:
post = komoran.pos(text)
print(post)

[('꽁꽁', 'MAG'), ('얼', 'VV'), ('ㄴ', 'ETM'), ('한강', 'NNP'), ('위', 'NNG'), ('에', 'JKB'), ('고양이', 'NNP'), ('가', 'JKS'), ('걷', 'VV'), ('어', 'EC'), ('다니', 'VV'), ('ㅂ니다', 'EF'), ('.', 'SF')]


In [24]:
# 명사만 추출 
nouns = komoran.nouns(text)
print(nouns)

['한강', '위', '고양이']


In [27]:
# Okt(Open source korean text processor)는 트위터에서 개발한 한국어 처리기다
# OKT는 띄어 쓰기가 어느 정도 되어 있는 문장을 빠르게 분석할 때 많이 사용한다.
# pos(phrase, stem=False, join=False): 인자로 입력한 문장에서 형태소를 추출한 뒤 품사를 태깅한다. 결과는 튜플 형태로 묶여 리스트로 반환된다.
# normalize(phrase): 문장을 정규화 한다.


# Okt 형태소 분석기 생성
okt = Okt()


# 분석할 텍스트
test = " 꽁꽁 언 한강 위에 고양이가 걸어다닙니다."


# 형태소 분석
morphs = okt.morphs(test)
print("형태소:", morphs)


# 형태소와 품사 태그 추출
pos = okt.pos(test)
print("품사 태깅:", pos)


# 명사만 추출
nouns = okt.nouns(test)
print("명사:", nouns)


# 정규화 추출
test = "오늘 날씨가 좋아욬ㅋㅋ"
print(okt.normalize(test))
print(okt.phrases(test))


형태소: ['꽁꽁', '언', '한강', '위', '에', '고양이', '가', '걸어', '다닙니다', '.']
품사 태깅: [('꽁꽁', 'Noun'), ('언', 'Modifier'), ('한강', 'Noun'), ('위', 'Noun'), ('에', 'Josa'), ('고양이', 'Noun'), ('가', 'Josa'), ('걸어', 'Verb'), ('다닙니다', 'Verb'), ('.', 'Punctuation')]
명사: ['꽁꽁', '한강', '위', '고양이']
오늘 날씨가 좋아요ㅋㅋ
['오늘', '오늘 날씨', '좋아욬', '날씨']


In [31]:
# 미등록 형태소 
komoran = Komoran()
text = "우리 챗봇은 엔엘피를 좋아해  "

pos = komoran.pos(text)
print(pos)

[('우리', 'NP'), ('챗봇은', 'NA'), ('엔', 'NNB'), ('엘', 'NNP'), ('피', 'NNG'), ('를', 'JKO'), ('좋아하', 'VV'), ('아', 'EC')]


In [32]:
# 코모란은 문장 내에 사전에 포함된 단어가 나오면 우선적으로 정의된 품사 태그를 붙인다.
# 주로 사람이름, 지명, 인터넷 용어, 특수 용어 등이 고유명사를 인식하는데 활용된다.
# 단어와 품사를 탭으로 구분해 준다.
# user_dict.tsv 텍스트 내용 확인
import os

# 파일 경로 설정
os.file_path = "user_dict.tsv"


# 파일 내용 읽기
try:
    with open(os.file_path, "r", encoding="utf-8") as file:
        content = file.read()
        print("user_dict.tsv 파일 내용:")
        print(content)
except FileNotFoundError:
    print(f"파일 '{os.file_path}'이(가) 존재하지 않습니다.")
except Exception as e:
    print(f"오류 발생: {e}")


user_dict.tsv 파일 내용:
엔엘피	NNG


In [33]:
komoran = Komoran(userdic='user_dict.tsv')
text = "우리 챗봇은 엔엘피를 좋아해  "

pos = komoran.pos(text)
print(pos)


[('우리', 'NP'), ('챗봇은', 'NA'), ('엔엘피', 'NNG'), ('를', 'JKO'), ('좋아하', 'VV'), ('아', 'EC')]


## 임베딩 ##


- 컴퓨터는 자연어를 직접적으로 처리할 수 없다.
- 연산만 가능하기 때문에 자연어를 숫자나 벡터 형태로 변환해야 하는데 이를 임베딩(embedding)이라 한다.
- 임베딩은 단어나 문장을 수치화해 벡터 공간으로 표현하는 과정이다.
- 임베딩은 말뭉치의 의미에 따라 벡터화하기 때문에 문법적인 정보가 포함되어 있다.
-----


- 임베딩 기법에는 문장 임베딩과 단어 임베딩이 있다.
- 문장 임베딩은 문장 전체를 벡터로 표현하는 방법이며, 단어 임베딩은 개별 단어를 벡터로 표현하는 방법이다.
- 문장 임제딩은 문장의 전체 흐름을 파악해 벡터로 변화하기 때문에 문맥적 의미를 지니는 장점이 있다.
- 하지만 문장은 길기 때문에 컴퓨터 자원 소모가 많다.
- 단어 임베딩은 동음이의어에 대한 구분을 하지 않는다는 단점이 있다.
- 하지만 학습 방법이 간단해 많이 사용된다.


## 원-핫 인코딩 ##


- 원 핫 인코딩은 단어를 숫자 벡터로 변환하는 가장 기본적인 방법이다.
- 명칭에서도 알 수 있듯이 요소들 중 단 하나의 값만 1이고 나머지는 0인 인코딩을 의미한다.
- 전체 요소 중 단 하나의 값만 1이기 때문에 희소(sparse) 벡터라 한다.
- 인코딩을 하기 위해 단어 집합이라 불리는 사전을 먼저 만들어야 한다.
- 말뭉치에 존재하는 모든 단어의 수가 차원을 결정한다.
- 예를 들어 100개의 단어가 존재한다면 벡터의 크기는 100차원이 된다.
- 단어 사전 내의 단어들은 각각 고유한 벡터를 가진다.
- 예를 들어 ['오늘', '날씨', '구름']이 있을 때
- 오늘: [1, 0. 0], 날씨: [0, 1, 0], 구름: [0, 0, 1]로 구분하는 방식이다.


In [34]:
import numpy as np

komoran = Komoran("STABLE")
text = "오늘 날씨는 구름이 많아요."


# 명사만 추출
nouns = komoran.nouns(text)
print(nouns)


# 단어 사전 구축 및 단어별 인덱스 부여
dicts = {}
for word in nouns:
    if word not in dicts.keys():
        dicts[word] = len(dicts)


print(dicts)


# 원 핫 인코딩
nb_classes = len(dicts)
targets = list(dicts.values())
one_hot_targets = np.eye(nb_classes)[targets]
print(nb_classes)
print(targets)
print(one_hot_targets)


# 2 * 2 단위 행렬 생성
print(np.eye(2))


# 3 * 3 단위 행렬 생성
print(np.eye(3))


['오늘', '날씨', '구름']
{'오늘': 0, '날씨': 1, '구름': 2}
3
[0, 1, 2]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[[1. 0.]
 [0. 1.]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


## 분산 표현 ##


- 원 핫 인코딩은 간단한 구현 방법에 비해 좋은 성능을 가진다.
- 하지만 원 핫 벡터의 경우 단순히 단어의 순서에 의한 인덱스 값을 기반으로 인코딩 된 값이기 때문에
- 단어의 의미나 유사한 단어와의 관계를 담고 있지 않다.
- 또한 차원이 커지면 메모리 낭비와 계산의 복잡도도 증가한다.
- 위에서 살펴본 내용은 0과 1로만 이뤄진 희소 표현 방식이다.
-----


- 이를 효율적으로 해결할 수 있는 방법으로 분산 표현이 있다.
- 분산 표현은 한 단어의 정보가 특정 차원에서 표현되지 않고, 여러 차원에 분산되어 표현된다.
- 즉, 하나의 차원에 다양한 정보를 가진다.
- 예를 들어 색상을 표현하는 RGB 모델은 3차원의 형태를 벡터로 생각할 수 있으며, 분산 표현의 한 방식이다.
- 색상을 희소 표현으로 작성하먼 차원의 크기가 엄청나게 커지게 될 것이다.
- 신경망을 사용할 때 분산 표현을 합습하는 과정에서 임베딩 벡터의 모든 차원에 의미있는 데이터를 고르게 밀집 시킨다.
-----


- 분산 표현의 장점으로 첫번째는 임베딩 벡터의 차원을 데이터 손실을 최소화 하면서 압축할 수 있다.
- 희소 표현이 몇 천, 몇 만 차원의 크기를 생성한다면 분산 표현에서는 100 ~ 200차원 정도로 표현 할 수 있다.
- 두 번째는 임베딩 벡터에는 단어의 의미, 주변 단어의 관계 등 많은 정보가 내포되어 일반화 능력이 뛰어나다.
- 희소 표현에서는 '남자'와 '남성'은 그저 단 하나의 요솟값에 불과하다.
- 하지만 분산 표현에서는 벡터 공간 상에서 유사한 의미를 갖는 단어들이 비슷한 위치에 분포되어 있기 때문에 '남자'와 '남성'의 단어 위치가 가깝다.
- 이런 단어들의 거리를 계산할 수 있으며, 두 단어 사이의 유사성을 추론할 수 있게 된다.
-----


## Word2Vec ##


- 분산 표현 형태의 단어 임베딩 모델로 제공되는 것이 Word2Vec다.
- Word2Vec 모델은 CBOW(continuous bag of words)와 skip-gram 두 가지 모델로 제안된다.
- CBOW모델은 맥락이라 표현되는 주변 단어들을 이용해 타겟 단어를 예측하는 신경망 모델이다.
- 신경망의 입력을 주변 단어들로 구성하고 출력을 타겟 단어로 설정해 학습된 가중치 데이터를 임베딩 벡터로 활용한다.
- skip-gram 모델은 타겟 단어를 이용해 주변 단어들을 예측한다.
- 입출력이 CBOW 모델과 반대로 되어 있다.
- 단어 분산 표현력이 우수하다고 평가되는 모델은 CBOW다.
----


- CBOW: 오늘(주변단어) ___(타겟단어: 예측 단어)는 구름(주변단어)이 많아요.
- skip-gram: ___(주변단어: 예측 단어) 날씨(타겟단어)는 ___(주변단어: 예측 단어)이 많아요


## 방향성 ##


- Word2Vec는 밀집 벡터로 표현하며 학습을 통해 의미상 비슷한 단어들을 비슷한 벡터 공간에 위치시킨다.
- 벡터 특성상 의미에 따라 방향성을 가진다.
- 임베딩된 벡터들 간 연산이 가능하기 때문에 단어간 관계를 계산할 수 있다.


## 모델 사용을 위한 설정 ##
- Word2Vec 모델은 텐서플로나 케라스 같은 신경망 라이브러리를 사용할 필요가 없다.
- 여기서는 토픽 모델링과 자연어 처리를 위한 Gensim 패키지를 사용한다.
- 한국어에 대한 분석을 위해 한국어 말뭉치를 수집해야 한다.
- 말뭉치 데이터는 양이 많기 때문에 모델을 학습하는데 시간이 걸린다.
- 이를 매번 할 수 없으므로 각 단어의 임베딩 벡터가 설정돼 있는 모델을 파일로 저장한다.

In [35]:
# 필요 패키지 
from gensim.models import Word2Vec
import time 


In [36]:
# 네이버 영화 리뷰 데이터 로드
def read_review_data(filename):
    with open(filename, "r", encoding="utf-8") as f:
        data = [line.split("\t") for line in f.read().splitlines()]
        data = data[1:]  # 헤더 제거
    return data


# 학습 시간 측정
start = time.time()


# 리뷰 파일 읽기
print("1. 말뭉치 데이터 읽기 시작")
review_data = read_review_data("ratings.txt")


print(f"전체 리뷰 개수: {len(review_data)}")
print(f"말뭉치 데이터 읽기 완료: {time.time() - start}")


# 문장 단위로 명사만 추출해 학습 입력 데이터로 작성
print("2. 형태소에서 명사만 추출 시작")
komoran = Komoran("STABLE")


# 유효한 문장만 필터링
docs = []
for sentence in review_data:
    if (
        len(sentence) > 1 and sentence[1] and sentence[1].strip()
    ):  # 문장이 비어 있지 않은지 확인
        try:
            nouns = komoran.nouns(sentence[1].strip())  # 명사 추출
            if nouns:  # 명사가 있으면 추가
                docs.append(nouns)
        except Exception as e:
            print(f"오류 발생: {e}, 문장: {sentence[1]}")
            continue


print(f"2. 형태소에서 명사만 추출 완료: {time.time() - start}")


# Word2Vec 모델 학습
print("3. Word2Vec 모델 학습 시작")
model = Word2Vec(sentences=docs, vector_size=200, window=4, hs=1, min_count=2, sg=1)
print(f"3. Word2Vec 모델 학습 완료: {time.time() - start}")


# 모델 저장
print("4. 학습된 모델 저장 시작")
model.save("nvmc.model")
print(f"4. 학습된 모델 저장 완료: {time.time() - start}")


# 학습된 말뭉치 수, 코퍼스 내 전체 단어 수
print("corpus_count:", model.corpus_count)
print("corpus_total_words:", model.corpus_total_words)


1. 말뭉치 데이터 읽기 시작
전체 리뷰 개수: 200000
말뭉치 데이터 읽기 완료: 0.75760817527771
2. 형태소에서 명사만 추출 시작
2. 형태소에서 명사만 추출 완료: 108.1187674999237
3. Word2Vec 모델 학습 시작
3. Word2Vec 모델 학습 완료: 128.6343240737915
4. 학습된 모델 저장 시작
4. 학습된 모델 저장 완료: 129.3103232383728
corpus_count: 184991
corpus_total_words: 1076896


In [37]:
# 모델 로딩 
model = Word2Vec.load('nvmc.model')
print(f'corpus_total words:{model.corpus_total_words}' )

# 사랑이라는 단어로 생성한 단어 임베딩 
print(f'사랑:{model.wv['사랑']}')

corpus_total words:1076896
사랑:[ 0.20528089 -0.24212056  0.01199546  0.0312775  -0.16841759 -0.46529567
  0.05575024  0.1397094   0.07820108 -0.07852884 -0.28224036 -0.07223487
  0.3217716   0.252906   -0.32570013  0.19494899 -0.23567207 -0.24604563
 -0.1606209  -0.3117657  -0.0563697   0.11310954 -0.17002252 -0.0619804
 -0.20848726 -0.2246089   0.11697464  0.01439617 -0.11968279 -0.00940413
  0.0742961   0.25725642 -0.17599645 -0.21276434  0.09470383  0.13967702
 -0.04583268  0.09325586 -0.04738257  0.15360533 -0.2471918   0.02165564
  0.0297426  -0.50118816  0.51823217  0.21158896 -0.19345015  0.08323443
  0.3947066  -0.19431996  0.05266386 -0.13491166 -0.13825648 -0.17094095
  0.14874913  0.26764667  0.12808758 -0.18462496  0.20844084 -0.17591049
 -0.04008162  0.03369572 -0.23016956  0.13915162  0.13524051 -0.15266696
 -0.24034084  0.09461023 -0.23596123  0.4688566  -0.07391874 -0.2217302
  0.06613965  0.01056861 -0.025342   -0.09898705  0.27591708 -0.19546813
 -0.23997319 -0.0424353

In [38]:
# 단어 유사도 계산
print("일요일 : 월요일\t", model.wv.similarity(w1="일요일", w2="월요일"))
print("안성기 : 배우\t", model.wv.similarity(w1="안성기", w2="배우"))
print("대기업 : 삼성\t", model.wv.similarity(w1="대기업", w2="삼성"))
print("일요일 : 삼성\t", model.wv.similarity(w1="일요일", w2="삼성"))
print("히어로 : 삼성\t", model.wv.similarity(w1="히어로", w2="삼성"))


일요일 : 월요일	 0.6855121
안성기 : 배우	 0.6061248
대기업 : 삼성	 0.51622355
일요일 : 삼성	 0.23156446
히어로 : 삼성	 0.15564634


In [43]:
# 가장 유사한 단어 추출
print(model.wv.most_similar("배우", topn=5))
print(model.wv.most_similar("삼성", topn=5))

[('연기자', 0.7240622639656067), ('다나와', 0.6859080195426941), ('김정학', 0.6801241040229797), ('김갑수', 0.6697471737861633), ('연기', 0.6607134342193604)]
[('이승엽', 0.6763555407524109), ('기업', 0.6665073037147522), ('악덕', 0.6593935489654541), ('조계', 0.659226655960083), ('관광버스', 0.6584842205047607)]


## 텍스트 유사도 ##


- 자연어 처리에서 문장 간의 의미가 얼마나 유사한지 계산해야 한다.
- 임베딩 기법을 사용하면 컴퓨터는 두 문장 간의 유사도를 계산할 수 있다.
- 앞선 내용과 다른 점은 단어 간 유사도가 아니라 문장간 유사도를 계산한다는 것이다.


-----


- 문장 간의 유사도를 계산하기 위해서는 문장 내에 존재하는 단어들을 수치화 해야 한다.
- 여기서는 통계적인 방법을 이용해 유사도를 계산한다.


-----


## n-gram 유사도 ##


- n-gram은 주어진 문장에서 n개의 연속적인 단어 시퀀스(단어 나열)를 의미한다.
- 문장에서 n개의 단어를 토큰으로 사용한다.
- 이웃한 단어의 출현 횟수를 통계적으로 표현해 텍스트 유사도를 계산하는 방법이다.
- 단어의 출현 빈도에 기반한 유사도를 계산할 수 있으며, 이를 통해 논문 인용이나 정도를 조사할 수 있다.


-----


## 예시 ##
- 1661년 6월 뉴턴은 선생님의 제안으로 트리니티에 입학하였다.
- n=1: 1661년 / 6월 / 뉴턴 / 선생님 / 제안 / 트리니티 / 입학(unigram)
- n=2: 1661년 6월 / 6월 뉴턴 / 뉴턴 선생님 / 선생님 제안 / 제안 트리니티 / 트리니티 입학(bigram)
- n=3: 1661년 6월 뉴턴 / 6월 뉴턴 선생님 / 뉴턴 선생님 제안 / 선생님 제안 트리니티 / 제안 트리니티 입학(trigram)
- n=4: 1661년 6월 뉴턴 선생님 / 6월 뉴턴 선생님 제안 / 뉴턴 선생님 제안 트리니티 / 선생님 제안 트리니티 입학(4-gram)


-----


- 해당 문장을 토큰으로 분리한 후 단어 문서 행렬을 만든다.
- 이후 두 문장을 서로 비교해 동일한 단어의 출현 빈도를 확률로 계산해 유사도를 구한다.
- 수식 simil = tf(A, B) / tokens(A)
- tf(A, B): 두 문장 A, B에서 동일한 토큰의 출현 빈도
- tokens(A): A 문장에서 전체 토큰 수
- 기준이 되는 문장 A에서 나온 전체 토큰 중에서 A와 B에 동일한 토큰이 얼마나 있는지 비율로 표시
- 1에 가까울수록 B가 A에 유사하다고 평가


-----


## 2-gram을 이용한 유사도 예시 #


- A: 6월에 뉴턴은 선생님의 제안으로 트리니티에 입학했다.
- B: 6월에 뉴턴은 선생님의 제안으로 대학교에 입학했다.
- 문장 A는 6개의 토큰으로 구성된다.
- 문장 B와 A가 유사한 토큰은 4개로 구성된다.


- 6월, 뉴턴: 1
- 뉴턴, 선생님: 1
- 선생님, 제안: 1
- 입학: 1
- 제안, 트리니티: 0
- 트리니티, 입학: 0


In [44]:
# 어절 단위 n-gram: 추출된 토큰들은 튜플 형태로 반환
def word_ngram(bow, num_gram):
    text = tuple(bow)
    ngrams = [text[x : x + num_gram] for x in range(0, len(text))]
    return tuple(ngrams)


# 유사도 계산
# doc1의 토큰이 doc2의 토큰과 얼마나 동일한지 횟수를 카운트
# 카운트 된 값을 doc1의 전체 토큰 수로 나누면 유사도가 계산된다.
# 이 결과가 1에 가까울수록 doc1과 유사해진다.
def similarity(doc1, doc2):
    cnt = 0
    for token in doc1:
        if token in doc2:
            cnt = cnt + 1
    return cnt / len(doc1)


In [45]:
# 문장 정의
sentence1 = "6월 뉴턴은 선생님의 제안으로 트리니티에 입학했다."
sentence2 = "6월 뉴턴은 선생님의 제안으로 대학교에 입학했다."
sentence3 = "나는 맛있는 밥을 뉴턴 선생님과 함께 먹었다."


# 형태소 분석기에서 명사 추출
komoran = Komoran("STABLE")
bow1 = komoran.nouns(sentence1)
bow2 = komoran.nouns(sentence2)
bow3 = komoran.nouns(sentence3)


In [46]:
# 단어 n-gram 토큰 추출 - 2-gram 방식으로 추출
doc1 = word_ngram(bow1, 2)
doc2 = word_ngram(bow2, 2)
doc3 = word_ngram(bow3, 2)


# 추출된 토큰 출력
print(doc1)
print(doc2)
print(doc3)


(('6월', '뉴턴'), ('뉴턴', '선생님'), ('선생님', '제안'), ('제안', '트리니티'), ('트리니티', '입학'), ('입학',))
(('6월', '뉴턴'), ('뉴턴', '선생님'), ('선생님', '제안'), ('제안', '대학교'), ('대학교', '입학'), ('입학',))
(('밥', '뉴턴'), ('뉴턴', '선생'), ('선생', '님과 함께'), ('님과 함께',))


In [47]:
# 유사도 계산
r1 = similarity(doc1, doc2)
r2 = similarity(doc3, doc1)


# 유사도 출력
print(r1)
print(r2)


# n을 크게 잡을수록 비교 문장의 토큰과 비교할 때 카운트를 놓칠 확률이 커진다.
# n을 작게 잡을수록 카운트 확률은 높아지지만 문맥을 파악하는 정확도는 떨어질 수 밖에 없는 구조다.
# 보통 1 ~ 5 사이의 값을 많이 사용한다.


0.6666666666666666
0.0


## 코사인 유사도 ##


- 단어나 문장을 벡터로 표할할 수 있다면 벡터 간 거리나 각도를 이용해 유사성을 파악할 수 있다.
- 코사인 유사도는 두 벡터 간 코사인 각도를 이용해 유사도를 측정하는 방법이다.ㅁ
- 이는 일반적으로 벡터의 크기가 중요하지 않을 때 그 그리를 측정하기 위해 사용한다.
- 예를 들어 출현 빈도를 통해 유사도 계산을 한다면 동일한 단어가 많이 포함되어 있을수록 벡터의 크기가 커진다.
- 이 때 코사인 유사도는 벡터의 크기와 상관없이 결과가 안정적이다.
- 코사인은 -1 ~ 1 사이의 값을 가지며, 두 벡터의 방향이 완전히 동일한 경우에는 1, 반대 방향인 경우에는 -1에 가까워진다.


## 예시 ##


- A: 6월에 뉴턴은 선생님의 제안으로 트리니티에 입학했다.
- B: 6월에 뉴턴은 선생님의 제안으로 대학교에 입학했다.
- 6월, 뉴턴: 1
- 뉴턴, 선생님: 1
- 선생님, 제안: 1
- 입학: 1
- 제안, 트리니티: 0
- 트리니티, 입학: 0
- A = [1, 1, 1, 1, 1, 1, 0]
- B = [1, 1, 1, 1, 0, 1, 1]
-----
- 분모
- A|B = sigma(n, n=1)Ai * Bi
- = (1*1) + (1*1) + (1*1) + (1*1) + (1*0) + (1*1) + (0*1)
- = 1 + 1 + 1 + 1 + 0 + 1 + 0
- = 5
-----
- 분자
- ||A||||B|| = root(sigma(n, n=1)Ai^2) * root(sigma(n, n=1)Bi^2)
- = root(1^2 + 1^2 + 1^2 + 1^2 + 1^2 + 1^2 + 0^2 +) * root(1^2 + 1^2 + 1^2 + 1^2 + 0^2 + 1^2 + 1^2 +)
- = root(6) * root(6)
- = root(36) = 6
-----
- 5 / 6 = 0.83333333
- 문장 A와 B는 83%의 유사도를 가진다.


In [48]:
import numpy as np
from numpy import dot  # 인자로 들어온 2개의 넘파이 배열을 내적곱한다

# 코사인 유사도 수식의 분모에 있는 벡터 크기를 계산하는 부분과 동일하기 때문에 벡터의 크기 계산에 노름을 사용한다.
from numpy.linalg import (
    norm,
)  # 노름 함수를 사용한다. 여기서는 유클리드 노름을 사용한다.


# 코사인 유사도 계산
def cos_sim(vec1, vec2):
    return dot(vec1, vec2) / (norm(vec1) * norm(vec2))


# TDM: 비교 문장에서 추출한 단어 사전을 기준으로 문장에 해당 단어들이 얼마나
# 포함됐는지 나타내는 단어 문서 행렬을 만든다
def make_tem_doc_mat(sentence_bow, word_dics):
    freq_mat = {}

    for word in word_dics:
        freq_mat[word] = 0

    for word in word_dics:
        if word in sentence_bow:
            freq_mat[word] += 1

    return freq_mat


# 단어 벡터 생성
def make_vector(tdm):
    vec = []
    for key in tdm:
        vec.append(tdm[key])

    return vec


In [50]:
# 문장 정의
sentence1 = "6월 뉴턴은 선생님의 제안으로 트리니티에 입학했다."
sentence2 = "6월 뉴턴은 선생님의 제안으로 대학교에 입학했다."
sentence3 = "나는 맛있는 밥을 뉴턴 선생님과 함께 먹었다."


# 형태소 분석기에서 명사 추출
komoran = Komoran("STABLE")
bow1 = komoran.nouns(sentence1)
bow2 = komoran.nouns(sentence2)
bow3 = komoran.nouns(sentence3)

# 단어 묶음 리스트를 하나로 합치기 
bow = bow1 + bow2 + bow3

In [52]:
# 단어 묶음에서 중복을 제거해 단어 사전 구축
word_dics = []
for token in bow:
  if token not in word_dics:
    word_dics.append(token)

In [53]:
# 문장별 단어 문서 행렬 계산
freq_list1 = make_tem_doc_mat(bow1, word_dics)
freq_list2 = make_tem_doc_mat(bow2, word_dics)
freq_list3 = make_tem_doc_mat(bow3, word_dics)
print(freq_list1)
print(freq_list2)
print(freq_list3)


{'6월': 1, '뉴턴': 1, '선생님': 1, '제안': 1, '트리니티': 1, '입학': 1, '대학교': 0, '밥': 0, '선생': 0, '님과 함께': 0}
{'6월': 1, '뉴턴': 1, '선생님': 1, '제안': 1, '트리니티': 0, '입학': 1, '대학교': 1, '밥': 0, '선생': 0, '님과 함께': 0}
{'6월': 0, '뉴턴': 1, '선생님': 0, '제안': 0, '트리니티': 0, '입학': 0, '대학교': 0, '밥': 1, '선생': 1, '님과 함께': 1}


In [54]:
# 문장 벡터 생성
doc1 = np.array(make_vector(freq_list1))
doc2 = np.array(make_vector(freq_list2))
doc3 = np.array(make_vector(freq_list3))

# 코사인 유사도 계산
r1 = cos_sim(doc1, doc2)
r2 = cos_sim(doc3, doc1)
print(r1)
print(r2)


0.8333333333333335
0.20412414523193154
