In [1]:
# Semantic Search
# 여기서는 사전훈련된 bert 모델을 sentence-bert로 만들고(훈련은 안시킴) embedding 하는 예시임
# 참고 소스 : https://github.com/BM-K/KoSentenceBERT-ETRI
import numpy as np

from sentence_transformers import models, losses
from sentence_transformers import SentencesDataset, LoggingHandler, SentenceTransformer, util, InputExample
from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator

model_name = '../model/bmc_fpt_kowiki20200920.train_model_0225'

In [2]:
# 모델과 tokenizer 를 불러옴
# => **사전파일(vocab.txt, *.json) 와 model 경로(config.json, pytorch_model.bin)가 같은 경로에 있어야 함.
word_embedding_model = models.Transformer(model_name, max_seq_length=128)
print(word_embedding_model)

Some weights of the model checkpoint at ../model/bmc_fpt_kowiki20200920.train_model_0225 were not used when initializing BertModel: ['cls.predictions.transform.dense.bias', 'cls.predictions.decoder.weight', 'cls.predictions.decoder.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.bias', 'cls.predictions.transform.LayerNorm.bias']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertModel were not initialized from the model checkpoint at ../model/bmc_fpt_kowiki20200920.train_model_0225 and are newly initialized: 

Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel 


In [3]:
# 2 bert 모델의 임베딩 풀링 정책을 설정(cls 이용, 워드임베딩 평균이용, 워드임베딩 max 이용)
# Apply mean pooling to get one fixed sized sentence vector
pooling_model = models.Pooling(word_embedding_model.get_word_embedding_dimension(),  #모델이 dimension(768)
                               pooling_mode_mean_tokens=True,  # 워드 임베딩 평균을 이용
                               pooling_mode_cls_token=False,   # cls 를 이용
                               pooling_mode_max_tokens=False)  # 워드 임베딩 값중 max 값을 이용

print(pooling_model)

Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})


In [4]:
# SBERT 모델 생성
# word_embedding 과 pooling 모델을 연결시켜서 SBERT 생성
embedder = SentenceTransformer(modules=[word_embedding_model, pooling_model])
print(embedder)

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)


In [5]:
'''
# Corpus with example sentences
corpus = ['오늘은 날씨가 흐리고 비가 온다',
          '식당에서 밥을 먹었다',
          '관광 버스를 타고 여행을 한다',
          '낚시를 해서 물고기를 많이 잡았다',
          '동물원에서 호랑이를 보았다',
          '선거일에는 투표하러 가야 한다',
          '마트에 가서 맛있는 배를 샀다',
          '도서관에서 시험 공부 하고 있다',
          '야구장에 가서 열심히 응원 했다']

# Query sentences:
queries = ['구름 많고 매우 춥다',
           '비행기를 타고 간다',
           '어제 산에서 사슴를 봤다']
'''
'''
corpus = ['정치',
          '경제',
          '여행',
          '선거',
          '날씨',
          '서울',
          '축구',
          'IT',
          '금융']

# Query sentences:
queries = ['가장 가보고 싶은 여행지는?',
           '내 지역 투표장은 어디?',
           '요즘 가장 핫한 증권 소식은?']
'''

corpus = ['서울은 대한민국에 수도이며, 정치 경제 중심지이다',
          '내년 경제 성장은 4%대 성장을 이룰거라 예상된다',
          '프랑스 파리는 전세계 관광객들이 매년 찾는 관광도시이다',
          '올해에는 대통령 선거와 지방선거가 동시에 열린다',
          '오늘 날씨는 비가 내리고 매우 춥다',
          '손홍민이 영국 프리미어 축구 경기에서 11번째 골을 넣었다',
          '건조한 날씨에 산불을 조심해야 한다',
          '윈도우11 OS에 검색 기능을 강화 하였다',
          '한국은행은 올해 하반기 금리를 동결했다',
          'Going on a trip',
          'it is raining',
          'stock market opened',
          'There is a voting for the class president election'
         ]
          
queries = ['여행',
           '투표',
           '증권',
           'IT']

In [6]:
# corpus 임베딩
corpus_embeddings = embedder.encode(corpus, convert_to_tensor=True)

# query 임베딩 하면서 corpus와 비교하여 유사도 출력
# Find the closest 5 sentences of the corpus for each query sentence based on cosine similarity
top_k = 5
for query in queries:
    query_embedding = embedder.encode(query, convert_to_tensor=True)
    cos_scores = util.pytorch_cos_sim(query_embedding, corpus_embeddings)[0]
    cos_scores = cos_scores.cpu()

    #We use np.argpartition, to only partially sort the top_k results
    top_results = np.argpartition(-cos_scores, range(top_k))[0:top_k]

    print("\n\n======================\n\n")
    print("Query:", query)
    #print("\nTop 5 most similar sentences in corpus:")

    for idx in top_results[0:top_k]:
        print(corpus[idx].strip(), "(Score: %.4f)" % (cos_scores[idx]))





Query: 여행
stock market opened (Score: 0.7146)
Going on a trip (Score: 0.6484)
it is raining (Score: 0.6278)
윈도우11 OS에 검색 기능을 강화 하였다 (Score: 0.4957)
한국은행은 올해 하반기 금리를 동결했다 (Score: 0.4849)




Query: 투표
stock market opened (Score: 0.6930)
it is raining (Score: 0.5957)
Going on a trip (Score: 0.5681)
올해에는 대통령 선거와 지방선거가 동시에 열린다 (Score: 0.5078)
윈도우11 OS에 검색 기능을 강화 하였다 (Score: 0.5048)




Query: 증권
stock market opened (Score: 0.7740)
it is raining (Score: 0.6256)
Going on a trip (Score: 0.5830)
윈도우11 OS에 검색 기능을 강화 하였다 (Score: 0.5240)
한국은행은 올해 하반기 금리를 동결했다 (Score: 0.5215)




Query: IT
stock market opened (Score: 0.7160)
it is raining (Score: 0.6323)
Going on a trip (Score: 0.5875)
윈도우11 OS에 검색 기능을 강화 하였다 (Score: 0.5444)
한국은행은 올해 하반기 금리를 동결했다 (Score: 0.5004)
