## 임베딩을 통한 문장 유사도 측정 서비스
gensim을 사용하여, doc2vec 문서 벡터를 학습하고, 이를 통해서 문서 간 유사도를 계산해 봅니다.

- 2vec의 의미는 “의미를 가진 어떤 것”을 “numerical vector”로 표현했다는 것을 의미
- doc2vec은 Document 2 Vector를 의미
- word2vec과 유사한 방법인 것인데, 여기서 어떻게 임베딩하느냐, 즉, 무엇이 인풋이고, 무엇이 아웃풋인지

## Usage

- initialize & train a model

```python
from gensim.test.utils import common_texts
from gensim.models.doc2vec import Doc2Vec, TaggedDocument

documents = [TaggedDocument(doc, [i]) for i, doc in enumerate(common_texts)]
model = Doc2Vec(documents, vector_size=5, window=2, min_count=1, workers=4)
```

- Persist a model to disk

```python
from gensim.test.utils import get_tmpfile

fname = get_tmpfile("my_doc2vec_model")

model.save(fname)
model = Doc2Vec.load(fname)
```

- 새 문서에 대한 추론 벡터

```python
vector = model.infer_vector(["system", "response"])
```

In [4]:
# -*- coding: utf-8 -*-
import random
import re
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from numpy import sqrt, dot

random.seed(10)

doc1 = ["homelessness has been an issue for years but never a plan to help those on the street that were once considered human who did everything from going to school work or vote for the matter"]

doc2 = ["it may have ends that do not tie together particularly well but it is still a compelling enough story to stick with"]

# 데이터를 불러오는 함수입니다.
def load_data(filepath):
    regex = re.compile('[^a-z ]')

    gensim_input = []
    with open(filepath, 'r', encoding='utf8') as f:
        for idx, line in enumerate(f):
            lowered_sent = line.rstrip().lower()
            filtered_sent = regex.sub('', lowered_sent)
            tagged_doc = TaggedDocument(filtered_sent, [idx])
            gensim_input.append(tagged_doc)
            
    return gensim_input
    
def cal_cosine_sim(v1, v2):
    # 벡터 간 코사인 유사도를 계산해 주는 함수를 완성합니다.
    top = dot(v1, v2)
    size1 = sqrt(dot(v1, v1))
    size2 = sqrt(dot(v2, v2))
    
    return top / (size1 *size2)
  
# doc2vec 모델을 documents 리스트를 이용해 학습하세요.
documents = load_data("text.txt")
model = Doc2Vec(documents, vector_size=50, window=2, epochs=5,  min_count=1, workers=4)

# 학습된 모델을 이용해 doc1과 doc2에 들어있는 문서의 임베딩 벡터를 생성하여 각각 변수 vector1과 vector2에 저장하세요.
vector1 = model.infer_vector(doc1)
vector2 = model.infer_vector(doc2)

# vector1과 vector2의 코사인 유사도를 변수 sim에 저장하세요.
sim = cal_cosine_sim(vector1, vector2)
# 계산한 코사인 유사도를 확인합니다.
print(sim)


0.24340872


## Reference
- [doc2vec 문서](https://radimrehurek.com/gensim/models/doc2vec.html)
- [gensim을 이용하여 doc2vec 이용하기](https://frhyme.github.io/python-libs/nlp_doc2vec_gensim/)