##**다국어 임베딩**
1. 최신 다국어 임베딩 모델(LaBSE)에 대해 공부해 봅시다.
2. LaBSE 모델을 사용해 문장 임베딩(Sentence Embeddings)을 획득하고, 한국어-영어 문장 간 유사도를 산출해 봅시다.

## LaBSE (Language-agnostic BERT Sentence Embedding)

### LaBSE architecture

LaBSE는 Google AI에서 개발한 다국어 임베딩 모델로, LaBSE를 사용하면 모델이 지원하는 109개 언어에 대해 문장 임베딩을 획득할 수 있습니다. 

LaBSE 모델은 아래의 이미지에서 볼 수 있듯이, Pre-trained LM (BERT)를 사용하고, Source Text와 Target Text를 모델에 별도로 입력하는 dual-encoder 형태로 구성됩니다.


![](https://i.imgur.com/v795hVy.png)
- 이미지 출처:  [(Feng et al., ACL 2022) Language-agnostic BERT Sentence Embedding](https://aclanthology.org/2022.acl-long.62.pdf)
- [Blog post] http://ai.googleblog.com/2020/08/language-agnostic-bert-sentence.html
- [TensorFlow Hub] https://tfhub.dev/google/LaBSE/2 
- [PyTorch version] https://huggingface.co/sentence-transformers/LaBSE


### LaBSE 학습 (in-batch negative sampling)

LaBSE는 in-batch negative sampling을 적용하여 학습합니다. Batch 단위로 N개의 Source Text과 Target Text를 각각 `12-Layer Transformer Embedding Network`에 입력하여  `(N X dim)` 의 `Source Embeddings`와 `(N X dim)` 의 `Target E mbeddings`을 얻었을 때, Source 문장들과 Target 문장들 간의 유사도 matrix는 `Source Embeddings`와 `Target Embeddings`의 matrix multiplication을 통해 구할 수 있습니다.

이 때 데이터로서 N개의 병렬 문장 쌍을 사용한다면, 각 문장들은 batch 내에서 1개의 true translation을, N-1개의 negative translation을 가지게 됩니다. 따라서, 우리는 문장 간 유사도 matrix에서 대각 성분들의 값이 높아지도록 학습하게 됩니다. 더 자세한 내용은 해당 논문을 통해 학습해 보는 것으로 하고, 지금부터는 LaBSE 모델을 활용하여 문장 임베딩을 획득하고, 문장 간 유사도를 산출하는 실습을 해 봅니다.


![](https://i.imgur.com/BKOgbbH.png)


### LaBSE 모델 불러오기

- `sentence-trasnformers` 라이브러리를 통해 LaBSE 모델을 쉽게 불러오고 사용할 수 있습니다.

In [2]:
# !pip install --user sentence_transformers



In [1]:
from sentence_transformers import SentenceTransformer

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
model = SentenceTransformer("sentence-transformers/LaBSE")

Downloading (…)be010/.gitattributes: 100%|████████████████████████████████| 391/391 [00:00<00:00, 134kB/s]
Downloading (…)_Pooling/config.json: 100%|███████████████████████████████| 190/190 [00:00<00:00, 91.0kB/s]
Downloading (…)/2_Dense/config.json: 100%|████████████████████████████████| 114/114 [00:00<00:00, 103kB/s]
Downloading pytorch_model.bin: 100%|█████████████████████████████████| 2.36M/2.36M [00:00<00:00, 14.6MB/s]
Downloading (…)168ebbe010/README.md: 100%|███████████████████████████| 1.62k/1.62k [00:00<00:00, 1.50MB/s]
Downloading (…)8ebbe010/config.json: 100%|████████████████████████████████| 804/804 [00:00<00:00, 718kB/s]
Downloading (…)ce_transformers.json: 100%|███████████████████████████████| 122/122 [00:00<00:00, 97.1kB/s]
Downloading pytorch_model.bin: 100%|█████████████████████████████████| 1.88G/1.88G [02:15<00:00, 13.9MB/s]
Downloading (…)nce_bert_config.json: 100%|█████████████████████████████| 53.0/53.0 [00:00<00:00, 20.4kB/s]
Downloading (…)cial_tokens_map.json: 

- LaBSE 모델을 불러왔다면, 이제는 문장 임베딩을 획득해 봅시다. 
- 모델의 `encode` 메소드에 문장(들)을 리스트 형태로 전달하면 해당 문장(들)에 대한 임베딩 벡터를 얻을 수 있습니다.

In [3]:
en_sentences = [
    "I'd rather die tomorrow than live a hundred yuears without knowing you.",
    "My dream wouldn't be complete without you in it.",
    "A day spent with you is my favorite day. So today is my new favorite day.",
    "Life is a journey to be experienced, not a problem to be solved.",
    "The flower that blooms in adversity is the most rare and beautiful of all."
    ]

ko_sentences = [
    "당신을 알지 못하고 수백 년을 사느니 당장 내일 죽는 게 낫겠어요.",
    "당신이 그 안에 없다면, 내 꿈은 완벽하게 이뤄질 수 없어요.",
    "너와 보낸 하루는 내가 가장 좋아하는 날이야. 그러니까 오늘은 새로운 내가 제일 좋아하는 날이야.",
    "인생은 풀어야 하는 문제가 아니라 경험을 쌓는 여정이야.",
    "역경 속에서 피어나는 꽃이 가장 귀하고 아름다운 거란다."
]

In [4]:
en_sent_embeddings = model.encode(
    en_sentences, 
    convert_to_tensor=True,
    normalize_embeddings=True, 
    show_progress_bar=True
    )

ko_sent_embeddings = model.encode(
    ko_sentences, 
    convert_to_tensor=True,
    normalize_embeddings=True, 
    show_progress_bar=True
    )

Batches: 100%|██████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.82it/s]
Batches: 100%|█████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 110.46it/s]


In [5]:
print(en_sent_embeddings.size())
print(ko_sent_embeddings.size())

torch.Size([5, 768])
torch.Size([5, 768])


- 자, 이제 문장 간 유사도를 구해볼까요?
- `en_sentences`와 `ko_sentences`는 같은 의미를 가진 병렬 문장쌍이라는 것을 눈치 채셨나요?
- 각 임베딩들의 코사인 유사도를 구해 봅시다.

In [6]:
from torch.nn import CosineSimilarity
cosine = CosineSimilarity()

In [7]:
print(cosine(en_sent_embeddings, ko_sent_embeddings))

tensor([0.7741, 0.8013, 0.8936, 0.8895, 0.7943], device='cuda:0')


- 해당 영어-한국어 문장 쌍들의 임베딩 유사도는 각각 0.7741, 0.8013, 0.8936, 0.8895, 0.7943으로 높은 수치를 보이는 것을 확인하였습니다.
-  LaBSE의 다국어 임베딩을 활용하면 같은 의미를 가지는 다른 언어의 문장을 다국어 corpus 속에서 찾아내는 retrieval task도 수행할 수 있습니다 ([Tatoeba dataset](https://opus.nlpl.eu/Tatoeba.php)). 이번 실습에서는 위의 5개의 영-한 문장 쌍을 가지고 간단하게 실험해 봅시다.

- 위에서 사용한 영-한 문장 쌍에서 한국어 문장들의 순서를 랜덤하게 바꾼 후, 영-한 문장들의 alignment를 찾는 retrieval 을 수행해 보겠습니다.

In [8]:
# retrieval test

en_sentences = [
    "I'd rather die tomorrow than live a hundred yuears without knowing you.",
    "My dream wouldn't be complete without you in it.",
    "A day spent with you is my favorite day. So today is my new favorite day.",
    "Life is a journey to be experienced, not a problem to be solved.",
    "The flower that blooms in adversity is the most rare and beautiful of all."
    ]

ko_sentences = [
    "당신을 알지 못하고 수백 년을 사느니 당장 내일 죽는 게 낫겠어요.",
    "당신이 그 안에 없다면, 내 꿈은 완벽하게 이뤄질 수 없어요.",
    "너와 보낸 하루는 내가 가장 좋아하는 날이야. 그러니까 오늘은 새로운 내가 제일 좋아하는 날이야.",
    "인생은 풀어야 하는 문제가 아니라 경험을 쌓는 여정이야.",
    "역경 속에서 피어나는 꽃이 가장 귀하고 아름다운 거란다."
]

In [9]:
import numpy as np

shuffled_ko_sentences = np.random.permutation(ko_sentences).tolist()

In [10]:
shuffled_ko_sentences

['역경 속에서 피어나는 꽃이 가장 귀하고 아름다운 거란다.',
 '당신이 그 안에 없다면, 내 꿈은 완벽하게 이뤄질 수 없어요.',
 '인생은 풀어야 하는 문제가 아니라 경험을 쌓는 여정이야.',
 '너와 보낸 하루는 내가 가장 좋아하는 날이야. 그러니까 오늘은 새로운 내가 제일 좋아하는 날이야.',
 '당신을 알지 못하고 수백 년을 사느니 당장 내일 죽는 게 낫겠어요.']

- `return_most_similar` 함수는 query로 사용할 source 문장과 가장 유사한 target 문장을 다수의 target 문장들에서 선택하여 반환해 줍니다.

In [11]:
import torch

def return_most_similar(source_sentence, target_sentences):
    query_embeddings = model.encode(
        source_sentence, 
        convert_to_tensor=True,
        normalize_embeddings=True, 
        show_progress_bar=False
        )
    target_sent_embeddings = model.encode(
        target_sentences, 
        convert_to_tensor=True,
        normalize_embeddings=True, 
        show_progress_bar=False
        )
    
    query_embeddings = query_embeddings.unsqueeze(0) # query_embeddings: (1, dim)
    query_embeddings = query_embeddings.repeat(5, 1) # query_embeddings: (5, dim)

    retrieved_index = torch.max(cosine(query_embeddings, target_sent_embeddings),0).indices.item()
    return target_sentences[retrieved_index]

In [12]:
for source_index in range(len(en_sentences)):
    query_source_sentence = en_sentences[source_index]
    retrieved_target_sentence = return_most_similar(query_source_sentence, shuffled_ko_sentences) # 순서가 임의로 뒤섞인 target 문장들(shuffled_ko_sentences) 중 코사인 유사도가 가장 높은 문장을 선택하여 반환함 
    print(query_source_sentence)
    print(retrieved_target_sentence)
    print("==========================================================================")

I'd rather die tomorrow than live a hundred yuears without knowing you.
당신을 알지 못하고 수백 년을 사느니 당장 내일 죽는 게 낫겠어요.
My dream wouldn't be complete without you in it.
당신이 그 안에 없다면, 내 꿈은 완벽하게 이뤄질 수 없어요.
A day spent with you is my favorite day. So today is my new favorite day.
너와 보낸 하루는 내가 가장 좋아하는 날이야. 그러니까 오늘은 새로운 내가 제일 좋아하는 날이야.
Life is a journey to be experienced, not a problem to be solved.
인생은 풀어야 하는 문제가 아니라 경험을 쌓는 여정이야.
The flower that blooms in adversity is the most rare and beautiful of all.
역경 속에서 피어나는 꽃이 가장 귀하고 아름다운 거란다.


###**콘텐츠 라이선스**

<font color='red'><b>**WARNING**</b></font> : **본 교육 콘텐츠의 지식재산권은 재단법인 네이버커넥트에 귀속됩니다. 본 콘텐츠를 어떠한 경로로든 외부로 유출 및 수정하는 행위를 엄격히 금합니다.** 다만, 비영리적 교육 및 연구활동에 한정되어 사용할 수 있으나 재단의 허락을 받아야 합니다. 이를 위반하는 경우, 관련 법률에 따라 책임을 질 수 있습니다.

