In [None]:
!pip install transformers sentence-transformers fasttext

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers
  Downloading transformers-4.21.1-py3-none-any.whl (4.7 MB)
[K     |████████████████████████████████| 4.7 MB 4.0 MB/s 
[?25hCollecting sentence-transformers
  Downloading sentence-transformers-2.2.2.tar.gz (85 kB)
[K     |████████████████████████████████| 85 kB 3.5 MB/s 
[?25hCollecting fasttext
  Downloading fasttext-0.9.2.tar.gz (68 kB)
[K     |████████████████████████████████| 68 kB 8.2 MB/s 
Collecting huggingface-hub<1.0,>=0.1.0
  Downloading huggingface_hub-0.8.1-py3-none-any.whl (101 kB)
[K     |████████████████████████████████| 101 kB 6.1 MB/s 
[?25hCollecting tokenizers!=0.11.3,<0.13,>=0.11.1
  Downloading tokenizers-0.12.1-cp37-cp37m-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (6.6 MB)
[K     |████████████████████████████████| 6.6 MB 40.7 MB/s 
Collecting pyyaml>=5.1
  Downloading PyYAML-6.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.man

In [None]:
"""
This is a simple application for sentence embeddings: semantic search

We have a corpus with various sentences. Then, for a given query sentence,
we want to find the most similar sentence in this corpus.

This script outputs for various queries the top 5 most similar sentences in the corpus.
"""
from sentence_transformers import SentenceTransformer, util
import torch
import json

In [None]:
# embedder = SentenceTransformer('msmarco-MiniLM-L-6-v3') #english
# embedder = SentenceTransformer('msmarco-distilbert-base-v4')
# embedder = SentenceTransformer('msmarco-roberta-base-v3') # very slow
# embedder = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
# embedder = SentenceTransformer('all-MiniLM-L6-v2')
# embedder = SentenceTransformer('sentence-transformers/stsb-roberta-base-v2')

# multiling
# embedder = SentenceTransformer('sentence-transformers/distiluse-base-multilingual-cased-v2')
embedder = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
# embedder = SentenceTransformer('paraphrase-multilingual-mpnet-base-v2')



Downloading:   0%|          | 0.00/968 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/190 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/3.79k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/645 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/122 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/471M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/239 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/480 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/14.8M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/229 [00:00<?, ?B/s]

In [None]:
page = json.load(open('/content/drive/MyDrive/Semantic Search Similarity/pages.json'))
posts = page[0]['posts']

In [None]:
corpus_texts = []

for i in range(len(posts)):
  message = posts[i]['message']
  message = message.strip()
  if message:
    corpus_texts.append({'text':message, 'post_id':i})

  comments = posts[i]['comments']
  for j in range(len(comments)):
    comment = comments[j].strip()
    if comment:
      corpus_texts.append({'text':comment, 'post_id':i, 'coomet_id':j})

In [None]:
# Corpus with example sentences
corpus = [x['text'] for x in corpus_texts]
corpus += ['უკრაინა არა ის', 'დიდება უკრაინას', 'უკრაინაში ომია რუსეთის წინააღმდეგ']

corpus_embeddings = embedder.encode(corpus, convert_to_tensor=True)

NameError: ignored

In [None]:
# Query sentences:
queries = ['რუსეთი', 'უკრაინა', 'ამერიკა', 'ამერიკა და ევროპა', 'ევროკავშირში ინტეგრაცია', 'ბიძინა', 'კვლავაც ყურადღებით ვაკვირდები']

In [None]:
# Find the closest 5 sentences of the corpus for each query sentence based on cosine similarity
top_k = min(5, len(corpus))
for query in queries:
    query_embedding = embedder.encode(query, convert_to_tensor=True)

    # We use cosine-similarity and torch.topk to find the highest 5 scores
    cos_scores = util.cos_sim(query_embedding, corpus_embeddings)[0]
    top_results = torch.topk(cos_scores, k=top_k)

    print("\n\n======================\n\n")
    print("Query:", query)
    print("\nTop 5 most similar sentences in corpus:")

    for score, idx in zip(top_results[0], top_results[1]):
      print(corpus[idx], "(Score: {:.4f})".format(score))

    """
    # Alternatively, we can also use util.semantic_search to perform cosine similarty + topk
    hits = util.semantic_search(query_embedding, corpus_embeddings, top_k=5)
    hits = hits[0]      #Get the hits for the first query
    for hit in hits:
        print(corpus[hit['corpus_id']], "(Score: {:.4f})".format(hit['score']))
    """

NameError: ignored

In [None]:
# res = util.semantic_search(embedder.encode(queries), corpus_embeddings, top_k = 5)
# for r in res[0]:
#   print(corpus[r['corpus_id']], r['score'])

In [None]:
!pip install python-Levenshtein
import Levenshtein as lev

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting python-Levenshtein
  Downloading python-Levenshtein-0.12.2.tar.gz (50 kB)
[K     |████████████████████████████████| 50 kB 3.0 MB/s 
Building wheels for collected packages: python-Levenshtein
  Building wheel for python-Levenshtein (setup.py) ... [?25l[?25hdone
  Created wheel for python-Levenshtein: filename=python_Levenshtein-0.12.2-cp37-cp37m-linux_x86_64.whl size=149873 sha256=c602701b8f0318735e89b8741ee081120f269a812c2a7429a23100e5c07d1b7f
  Stored in directory: /root/.cache/pip/wheels/05/5f/ca/7c4367734892581bb5ff896f15027a932c551080b2abd3e00d
Successfully built python-Levenshtein
Installing collected packages: python-Levenshtein
Successfully installed python-Levenshtein-0.12.2


In [None]:
# def min_lev_dist(sent1, sent2):
#   min_dist = float('inf')
#   for word1 in sent1.split():
#     if len(word1)<2: continue
#     cur_dist = lev.distance(word1, sent2)
#     min_dist = min(min_dist, cur_dist)
#   return min_dist

def min_lev_dist(doc, query):
  min_dist = float('inf')
  
  doc_words = doc.split(' ')
  query_words = query.split(' ')

  doc_word_count = len(doc_words)
  query_word_count = len(query_words)

  if doc_word_count <= query_word_count:
    return lev.distance(doc, query)

  for i in range(doc_word_count - query_word_count+1):
    doc_fragment = ' '.join(doc_words[i:i+query_word_count])
    if len(doc_fragment) == 0: continue

    cur_dist = lev.distance(doc_fragment, query) / max(len(doc_fragment), len(query))
    min_dist = min(min_dist, cur_dist)
  return min_dist


def find_topk(corpus, serach_text, k):
  distances = []
  for i, text in enumerate(corpus):
    min_dist = min_lev_dist(text, serach_text)
    distances.append((min_dist, i))
  
  distances.sort()

  return distances[:k]

for query in queries:

  top_results = find_topk(corpus, query, 5)
  print("\n\n======================\n\n")
  print("Query:", query)
  print("\nTop 5 most similar sentences in corpus:")

  for score, idx in top_results:
    print(corpus[idx], "(Score: {:.4f})".format(score))





Query: რუსეთი

Top 5 most similar sentences in corpus:
ამდენ ინფორმაციას ავრცელებთ რუსების წინაგმდეგ რო ასე არც თურქეთისკენ ხელს იშვერფ და არც ოსმალისკენ არც აზერბაჯანისკენ და სომხეთისკენ რომელიც მიტაცებული აქვთ საქსრთველოს ტერიტორიები ასე ვინ შეგაშინათ რო არ ამბობთ არაფერს რუსეთი რუსეთიო არც საკუთარი დენი გვაქვს არც გაზი და არც ნორმალური წამლები გაყიდეთ საქართველო საუკუნების წინაც და დგესაც .ტურიზმი გვაქვს ერთადერთი და იმის მოსპობაც გინდათ ერთი მიტხარით რა გინდათ დაჭამეთ ქართველებმა ერთმანეთი და გავქრეთ მაშინ სჯობს საკუთარი ქვეყნის გვერდზე  ვიჰოთ და ნუ ვართ მტრები ერთიმეორის მიმართ ქართველები გავუფრთხილდეთ ერთმანეთს (Score: 0.0000)
Ვისაც საქართველო უნდა რომ ომში ჩაითრიოს იმათ დედებს შევეცი. 
Მაგრამ ვერ გავიგე ეს ომის და მეორე ფრონტის მოწოდება ვისგან მოდის. შეიძლება არ ვიცი...
Ერთი ვიცი რომ რუსეთი მტერია საქართველოსი და რუსეთის დ.შ.
და იმისი დ.შ ვინც ჩვენი მტრის მხარეს, საქართველოს წინააღმდეგ გაბედავს ბრძოლას ! (Score: 0.0000)
„რუსებმა გააკეთეს მოთხოვნების კონკრეტული ფორმულირება და

9



---



---



In [None]:
from sentence_transformers import SentenceTransformer, util
# import numpy as np

sentence-transformers/stsb-roberta-base-v2

In [None]:
models = [
          # SentenceTransformer('all-MiniLM-L6-v2'), 
          # SentenceTransformer('msmarco-roberta-base-v3'),
          SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2'),
          # SentenceTransformer('sentence-transformers/stsb-roberta-base-v2'), 
          # SentenceTransformer('msmarco-MiniLM-L-6-v3'), 
          # SentenceTransformer('msmarco-distilbert-base-v4')
          ]

sentence_pairs = [('მეფე', 'მეფეს'), 
                  ('მეფე', 'მეფისთვის'), 
                  ('მეფე', 'მეფობს'), 
                  ('მეფე', 'ხელმწიფე'), 
                  ('მეფე', 'ტერმინალი'), 
                  ('მეფე', 'ტარო'), 
                  ('მეფე', 'სახელოსნო'), 
                  ('გამარჯობა', 'გაგიმარჯოს'),
                  ('ამერიკის', 'რუსეთმა'),
                  ('ამერიკის', 'ამერიკით'),
                  ('ამერიკა', 'ამერიკამ'),
                  ('ამერიკა', 'ამრიკამ დაგღუპათ თქვენ'),
                  ('ამერიკა', 'ეს არის ამერიკა რუსეთის ომი უკრაინის გამოყენებით რაც საშინელებაა ამდენი ადამიანი იხოცება და რამდენი ტოლვილი გახდა'),
                  ('ამერიკა', 'ეს არის ამერიკა რუსეთის ომი უკრაინის გამოყენებით რაც საშინელებაა'),
                  ('ამერიკა და რუსეთი უკრაინას იყენებენ ომის წარმოებისთვის', 'ეს არის ამერიკა რუსეთის ომი უკრაინის გამოყენებით რაც საშინელებაა'),
                  ('ამერიკა', 'ეს არის ამერიკა რუსეთის ომი უკრაინის გამოყენებით'),
                  ('ამერიკა', 'ეს არის ამერიკა რუსეთის ომი'),
                  ('ამერიკა', 'ამერიკა რუსეთის ომი'),
                  ('ამერიკა', 'მუდმივი ინტერესებით,რომ მოქმედებთ მხოლოდ, იმიტომაც დადიხართ უთავბოლოდ.'),
                  ('ეს არის მაერიკისა და რუსეთის ომი', 'ამერიკა და რუსეთი ომობს სინამდვილეში'),
                  ('ეს არის მაერიკისა და რუსეთის ომი', 'ამერიკა-რუსეთის ომია ეს'),
                  ('ეს არის მაერიკისა და რუსეთის ომი', 'სამყარო დაიპყრო იოგურტმა')]

def similarity(model, sentence1, sentence2):
    # encode sentences to get their embeddings
    embedding1 = model.encode(sentence1, convert_to_tensor=True)
    embedding2 = model.encode(sentence2, convert_to_tensor=True)
    # compute similarity scores of two embeddings
    return util.pytorch_cos_sim(embedding1, embedding2)

for model in models:
  print('----')
  print(model)

  similarities = [similarity(model, pair[0], pair[1])
                        for pair 
                        in sentence_pairs]

  for i in range(len(similarities)):
    print(sentence_pairs[i][0])
    print(sentence_pairs[i][1])
    print(similarities[i])

----
SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)
მეფე

tensor([[0.6053]])
მეფე
მეფისთვის
tensor([[0.9413]])
მეფე
მეფობს
tensor([[0.5423]])
მეფე
ხელმწიფე
tensor([[0.7181]])
მეფე
ტერმინალი
tensor([[0.3359]])
მეფე
ტარო
tensor([[0.5932]])
მეფე
სახელოსნო
tensor([[0.6022]])
გამარჯობა
გაგიმარჯოს
tensor([[0.5946]])
ამერიკის
რუსეთმა
tensor([[0.5582]])
ამერიკის
ამერიკით
tensor([[0.6403]])
ამერიკა
ამერიკამ
tensor([[0.9387]])
ამერიკა
ამრიკამ დაგღუპათ თქვენ
tensor([[0.1261]])

ეს არის ამერიკა რუსეთის ომი უკრაინის გამოყენებით რაც საშინელებაა ამდენი ადამიანი იხოცება და რამდენი ტოლვილი გახდა
tensor([[0.1535]])
ამერიკა
ეს არის ამერიკა რუსეთის ომი უკრაინის გამოყენებით რაც საშინელებაა
tensor([[0.4013]])
ამერიკა და რუსეთი უკრაინას იყ

In [None]:
similarities = [lev.distance(pair[0], pair[1])
                      for pair 
                      in sentence_pairs]

for i in range(len(similarities)):
  print(sentence_pairs[i][0])
  print(sentence_pairs[i][1])
  print(similarities[i])

მეფე
მეფეს
1
მეფე
მეფისთვის
6
მეფე
მეფობს
3
მეფე
ხელმწიფე
5
მეფე
ტერმინალი
8
მეფე
ტარო
4
მეფე
სახელოსნო
8
გამარჯობა
გაგიმარჯოს
4
ამერიკის
რუსეთმა
8
ამერიკის
ამერიკით
1
ამერიკა
ამერიკამ
1
ამერიკა
ამრიკამ დაგღუპათ თქვენ
17
ამერიკა
ეს არის ამერიკა რუსეთის ომი უკრაინის გამოყენებით რაც საშინელებაა ამდენი ადამიანი იხოცება და რამდენი ტოლვილი გახდა
106
ამერიკა
ეს არის ამერიკა რუსეთის ომი უკრაინის გამოყენებით რაც საშინელებაა
57
ამერიკა
ეს არის ამერიკა რუსეთის ომი უკრაინის გამოყენებით
41
ამერიკა
ეს არის ამერიკა რუსეთის ომი
20
ამერიკა
ამერიკა რუსეთის ომი
12
ამერიკა
მუდმივი ინტერესებით,რომ მოქმედებთ მხოლოდ, იმიტომაც დადიხართ უთავბოლოდ.
65
ეს არის მაერიკისა და რუსეთის ომი
ამერიკა და რუსეთი ომობს სინამდვილეში
25
ეს არის მაერიკისა და რუსეთის ომი
ამერიკა-რუსეთის ომია ეს
18
ეს არის მაერიკისა და რუსეთის ომი
სამყარო დაიპყრო იოგურტმა
25


Cross Encoder - both sentences at once


Threshold - 0.6



In [None]:
# trained on english only
model = CrossEncoder('cross-encoder/stsb-roberta-base')

sentence_pairs = [('მეფე', 'მეფეს'), ('მეფე', 'მეფისთვის'), ('მეფე', 'მეფობს'), ('მეფე', 'ხელმწიფე'), ('მეფე', 'ტერმინალი'), ('მეფე', 'ტარო'), ('მეფე', 'სახელოსნო'), ('გამარჯობა', 'გაგიმარჯოს')]

predictions = [model.predict([(pair[0], pair[1])])
                      for pair 
                      in sentence_pairs]

for i in range(len(predictions)):
  print(f'{sentence_pairs[i]} - {predictions[i]}')

NameError: ignored

XLMRoberta

In [None]:
from transformers import AutoTokenizer, AutoModel, XLMRobertaModel
import torch

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('xlm-roberta-base')
model = XLMRobertaModel.from_pretrained('xlm-roberta-base')

#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

def get_sentence_embeddings(tokenizer, model, sentences):
    # Tokenize sentences
    encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

    # Compute token embeddings
    with torch.no_grad():
        model_output = model(**encoded_input)

    # Perform pooling. In this case, max pooling.
    sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

    return sentence_embeddings

def similarity(emb1, emb2):
    return util.pytorch_cos_sim(emb1, emb2)



Some weights of the model checkpoint at xlm-roberta-base were not used when initializing XLMRobertaModel: ['lm_head.bias', 'lm_head.dense.weight', 'lm_head.layer_norm.bias', 'lm_head.layer_norm.weight', 'lm_head.decoder.weight', 'lm_head.dense.bias']
- This IS expected if you are initializing XLMRobertaModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing XLMRobertaModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [None]:
# Sentences we want sentence embeddings for
sentence_pairs = [('მეფე', 'მეფეს'), ('მეფე', 'მეფისთვის'), ('მეფე', 'მეფობს'), ('მეფე', 'ხელმწიფე'), ('მეფე', 'ტერმინალი'), ('მეფე', 'ტარო')]

sentence_embeddings = [get_sentence_embeddings(tokenizer, model, list(sentence_pair))
                      for sentence_pair 
                      in sentence_pairs]

cosine_scores = [similarity(sentence_embedding[0], sentence_embedding[1])[0][0] 
                 for sentence_embedding 
                 in sentence_embeddings]

for i in range(len(sentence_pairs)):
  print(f'{sentence_pairs[i]} - {cosine_scores[i]}')

('მეფე', 'მეფეს') - 0.994828999042511
('მეფე', 'მეფისთვის') - 0.9955376982688904
('მეფე', 'მეფობს') - 0.988844633102417
('მეფე', 'ხელმწიფე') - 0.9855899810791016
('მეფე', 'ტერმინალი') - 0.9930351376533508
('მეფე', 'ტარო') - 0.9808993935585022
