In [1]:
# Example of a correct answer for the question in the sample.txt file
correct_answer = {
  "Suçun_Temel_Unsurları": {
    "Fail": "C",
    "Mağdur": "Market (Mülkiyet hakkı ihlal edilen taraf)",
    "Konu": "Marketten alınan ürünler",
    "Fiil": "Ürünlerin kasada ödeme yapılmaksızın dışarı çıkarılması",
    "Netice": {
      "Marketin_malvarlığında_azalma": True,
      "Nedensellik_Bağı": "C’nin fiili ile netice arasında nedensellik bağı mevcuttur.",
      "Objektif_İsnadiyet": "Fiil, neticeyi doğuracak şekilde gerçekleştirilmiştir."
    }
  },
  "Manevi_Unsur": "C, bu eylemi kasten mi gerçekleştirmiştir? C’nin kasıtlı olup olmadığı, marketten çıkarken ödeme yapmadığını fark etmesiyle bağlantılıdır. C, ödeme yapmayı unuttuğunu iddia etmektedir, bu nedenle kast unsuru tartışmalı olabilir.",
  "Hukuka_Aykırılık_Unsuru": "Hukuka aykırılık unsuru açısından, C’nin eylemi hırsızlık suçu açısından değerlendirildiğinde, hukuka aykırı bir durum mevcuttur. Ancak, manevi unsurdaki belirsizlik bu hususu etkileyebilir.",
  "Suçun_Nitelikli_Unsurları": "Bu olayda nitelikli bir unsur yoktur.",
  "Kusurluluk": "C’nin kusur durumu, ödeme yapmayı unuttuğunu iddia etmesi sebebiyle, kusurluluğu tartışmaya açabilir.",
  "Yaptırımın_Uygulanması_İçin_Gereken_Veya_Yaptırım_Uygulanmasını_Engelleyen_Özel_Koşullar": "C’nin ödeme yapmayı unuttuğunu iddia etmesi, suçun manevi unsurunu etkileyebilir ve bu durum yaptırım uygulanmasını engelleyebilir.",
  "Suçun_Özel_Görünüş_Biçimleri": {
    "Teşebbüs": "Eylem tamamlanmıştır, teşebbüs söz konusu değildir.",
    "İştirak": "Olayda iştirak eden başka bir kişi yoktur.",
    "İçtima": "Tek bir suç tipi söz konusudur."
  }
}


In [2]:
# THRASH CODE

# It is not efficient to compare two sentences in Turkish.
# Word count based cosine similarity

import numpy as np
def sentence_to_word_dict(sentence):
    """
    This function takes a sentence as input and returns a dictionary with words as keys and their counts as values.
    
    Args:
        sentence: A string.
    
    Returns:
        A dictionary.
    """
    words = sentence.split()
    word_dict = {}
    for word in words:
        if word in word_dict:
            word_dict[word] += 1
        else:
            word_dict[word] = 1
    return word_dict

sentence_1 = correct_answer["Kusurluluk"]
sentence_2 = "C'nin dikkat ve özen yükümlülüğüne aykırı davranmış olması nedeniyle kusurlu olduğu değerlendirilebilir."

dict_1 = sentence_to_word_dict(sentence_1)
dict_2 = sentence_to_word_dict(sentence_2)

word_space = np.unique(list(dict_1.keys()) + list(dict_2.keys()))

# One-hot encoding
binary_vector_1 = [1 if word in dict_1 else 0 for word in word_space]
binary_vector_2 = [1 if word in dict_2 else 0 for word in word_space]

print(binary_vector_1)
print(binary_vector_2)

cosine_similarity = np.dot(binary_vector_1, binary_vector_2) / (np.linalg.norm(binary_vector_1) * np.linalg.norm(binary_vector_2))
print("Cosine similarity (%) :", cosine_similarity * 100)




# TF-IDF based cosine similarity
# Not an efficient way
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

texts = [sentence_1,sentence_2]
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(texts)
similarity = cosine_similarity(tfidf_matrix[0], tfidf_matrix[1])[0][0]
print(similarity)




# Levenshtein distance
def levenshtein_distance(s1, s2):
    len_s1, len_s2 = len(s1) + 1, len(s2) + 1
    dp = np.zeros((len_s1, len_s2))
    for i in range(len_s1):
        dp[i][0] = i
    for j in range(len_s2):
        dp[0][j] = j

    for i in range(1, len_s1):
        for j in range(1, len_s2):
            cost = 0 if s1[i-1] == s2[j-1] else 1
            dp[i][j] = min(dp[i-1][j] + 1, dp[i][j-1] + 1, dp[i-1][j-1] + cost)

    return dp[-1][-1]


print(levenshtein_distance(sentence_1, sentence_2))

[0, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 0]
[1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1]
Cosine similarity (%) : 0.0


In [2]:
# Load the model Turkish word2vec model
from gensim.models import Word2Vec
from tabulate import tabulate


model = Word2Vec.load("word2vec/w2v_.model")

In [3]:
print(tabulate(model.wv.most_similar("barış"), headers=["Kelime", "Benzerlik Skoru"]))

Kelime          Benzerlik Skoru
------------  -----------------
ateşkes                0.823591
uzlaşma                0.794623
ittifak                0.774118
antlaşma               0.773479
müzakereler            0.762028
barışı                 0.759955
antlaşmayı             0.749817
müzakereleri           0.747546
mütareke               0.727691
müttefiklik            0.717039


In [4]:
model.wv.word_vec("umut")

  model.wv.word_vec("umut")


array([ 0.1495104 , -1.4914255 , -0.50925356, -0.9685314 ,  2.1551907 ,
        0.10626572,  0.4027821 ,  1.0281931 ,  0.41044936, -1.1525857 ,
       -0.0205108 ,  1.0924134 , -1.9218051 ,  1.3797586 , -0.63527036,
       -0.38006008, -0.6512365 , -0.96633595,  1.1853794 ,  0.7896848 ,
       -0.03258616,  0.8834496 , -1.6903982 ,  0.9449919 ,  0.6057014 ,
        0.59224516, -1.0036951 ,  2.0536163 , -2.1637177 , -0.65654767,
        1.0522053 ,  0.11371119,  1.1112392 , -0.43076926,  0.13155091,
       -1.1467836 , -0.8198967 ,  1.1959015 , -0.5887494 , -1.0079744 ,
       -0.25314665,  0.5018188 , -0.76072204, -0.30214065, -0.13227591,
        0.6748753 ,  0.7053673 ,  1.5428567 , -0.08245109,  0.76109725,
       -0.6433578 , -1.2249595 , -0.8891968 , -1.5681715 , -0.4665735 ,
        0.23464409,  0.9810163 ,  0.7976722 ,  1.6759675 ,  0.8835468 ,
        0.21888028,  1.7479744 ,  0.10691787,  0.25808322,  0.4888047 ,
        1.4980937 ,  1.0098569 , -0.28364947, -0.6473856 ,  1.07

In [68]:
class SentenceComparator_Word2Vec:
    def __init__(self, model_name):
        self.model = self.generate_model(model_name)

    def generate_model(self, model_name):
        return Word2Vec.load(model_name)
    
    def clean_sentence(self, sentence):
        return sentence.lower().replace(".", "").replace(",", "").replace("?", "").replace("!", "").replace("(", "").replace(")", "")
    
    def extract_key_features(self, words_1, words_2):
        
        # Nested iteration to compare each word in the sentences
        #Dict: {word_1:{word_comp1:score, word_comp2:score, ...}, word_2:{word_comp1:score, word_comp2:score, ...}}
        searched_pairs = [];similarity_dict = {}

        for word_1 in words_1:
            if word_1 not in similarity_dict:
                similarity_dict.update({word_1:{}})
            for word_2 in words_2:
                if (word_1, word_2) in searched_pairs or (word_2, word_1) in searched_pairs:
                    continue
                searched_pairs.append((word_1, word_2))

                # Calculate the similarity between the words
                similarity_dict[word_1].update({word_2:self.model.wv.similarity(word_1, word_2)})
        
        return similarity_dict
    
    def compare_sentences(self, sentence_1, sentence_2):
        # Clean the sentences and split them into words
        sentence_1 = self.clean_sentence(sentence_1); words_1 = sentence_1.split()
        sentence_2 = self.clean_sentence(sentence_2); words_2 = sentence_2.split()

        # Extract key features
        similarity_dict = self.extract_key_features(words_1, words_2)
            
        # Extract informations from the similarity_dict
        key_features = []
        for key, value in similarity_dict.items():
            if len(value) > 0:
                # Sort and get the best match
                sorted_dict = sorted(value.items(), key=lambda x:x[1], reverse=True)
                max_score = sorted_dict[0][1]
                best_key = sorted_dict[0][0]

                key_features.append({"key":key, "score":max_score,"best_match":best_key})

        # Calculate the average score
        avg_score = sum([x["score"] for x in key_features]) / len(key_features)

        return key_features, avg_score

sentence_1 = "C, bu eylemi kasten mi gerçekleştirmiştir?"
sentence_2 = "B, bu hareketi bilerek mi yaptı?"

sim_dict, avg_score = SentenceComparator_Word2Vec("word2vec/w2v_.model").compare_sentences(sentence_1, sentence_2)

print(tabulate(sim_dict, headers="keys"))
print("Average Score:", avg_score)

key                    score  best_match
------------------  --------  ------------
c                   0.725464  b
bu                  1         bu
eylemi              0.629131  hareketi
kasten              0.777449  bilerek
mi                  1         mi
gerçekleştirmiştir  0.642038  yaptı
Average Score: 0.7956802348295847


In [15]:
best_matches, score_word_avg = sentence_comparator_word_by_word(
    "C’nin kusur durumu, ödeme yapmayı unuttuğunu iddia etmesi sebebiyle, kusurluluğu tartışmaya açabilir.",
    "C'nin dikkat ve özen yükümlülüğüne aykırı davranmış olması nedeniyle kusurlu olduğu değerlendirilebilir.", model)

print(tabulate(best_matches.items(), headers=["Kelime", "En Benzer Kelime, Benzerlik Skoru"]))
print("\nAverage Score: ", score_word_avg)

['C’nin', 'kusur', 'durumu,', 'ödeme', 'yapmayı', 'unuttuğunu', 'iddia', 'etmesi', 'sebebiyle,', 'kusurluluğu', 'tartışmaya', 'açabilir.']
["C'nin", 'dikkat', 've', 'özen', 'yükümlülüğüne', 'aykırı', 'davranmış', 'olması', 'nedeniyle', 'kusurlu', 'olduğu', 'değerlendirilebilir.']


AttributeError: 'int' object has no attribute 'items'

In [25]:
def calculate_vector_of_senetence(sentence):
    sentence_vector = np.zeros(100)
    for word in sentence.split():
        try:
            sentence_vector += model.wv[word]
        except:
            pass
    return sentence_vector

def difference_of_vectors(v1, v2):
    return np.linalg.norm(v1 - v2)

def cosine_similarity(v1, v2):
    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

def measure_similarity(sentence_1, sentence_2):
    v1 = calculate_vector_of_senetence(sentence_1)
    v2 = calculate_vector_of_senetence(sentence_2)
    cos_sim = cosine_similarity(v1, v2)
    diff = difference_of_vectors(v1, v2)

    print("Sentence 1: ", sentence_1)
    print("Sentence 2: ", sentence_2)
    print("\nCosine similarity: ", cos_sim)
    print("Difference of vectors: ", diff, "\n")


measure_similarity(
    "C’nin kusur durumu, ödeme yapmayı unuttuğunu iddia etmesi sebebiyle, kusurluluğu tartışmaya açabilir.",
    "C'nin dikkat ve özen yükümlülüğüne aykırı davranmış olması nedeniyle kusurlu olduğu değerlendirilebilir."
)

Sentence 1:  C’nin kusur durumu, ödeme yapmayı unuttuğunu iddia etmesi sebebiyle, kusurluluğu tartışmaya açabilir.
Sentence 2:  C'nin dikkat ve özen yükümlülüğüne aykırı davranmış olması nedeniyle kusurlu olduğu değerlendrilemez.

Cosine similarity:  0.6457037298717322
Difference of vectors:  62.19235489334093 



In [26]:
import ollama
import numpy as np
modelfile = '''
FROM llama3.1
SYSTEM Sen bir metin kazıcı algoritmasın. Cümleleri sadece anlamsal olarak değerlendir. İSTENEN DÖNÜŞ FORMATI: {"cümleler":<cümleler>,"analiz/neden":<2 cümle>,"değerlendirme": <["aynı anlamlı","alakasız","benzer anlamlı","zıt anlamlı","yetersiz bilgi"]>}.
'''

ollama.create(model='MAHDAN', modelfile=modelfile)

{'status': 'success'}

In [29]:
example_output= [
{
  "cümleler": "C kişisi kasada ödeme yapmadan marketten çıkmıştır., C kişisi marketten alışveriş yapmıştır ve kasada ödeme yapmadan çıkmıştır.",
  "analiz/neden": "İki cümle de C kişisinin kasada ödeme yapmadan marketten çıktığını belirtiyor. Ancak ikinci cümle daha fazla detay sunuyor.",
  "değerlendirme": ["benzer anlamlı"]
},
{
  "cümleler": "C kişisi kasada ödeme yapmadan marketten çıkmıştır., C kişisi ödeme yapmayı unutarak marketten çıkmıştır.",
  "analiz/neden": "İlk cümlede sadece ödeme yapmadan çıkma durumu belirtiliyor, ikinci cümlede ise ödeme yapmayı unutma durumu var. İki cümle de aynı olayı ifade ediyor fakat farklı kelimeler kullanıyor.",
  "değerlendirme": ["benzer anlamlı"]
},
{
  "cümleler": "C kişisi kasada ödeme yapmadan marketten çıkmıştır., C kişisi hırsızdır.",
  "analiz/neden": "İlk cümlede C kişisinin ödeme yapmadan marketten çıktığı belirtiliyor, ikinci cümlede ise C'nin hırsız olduğu öne sürülüyor. İki cümle arasında anlam farkı var.",
  "değerlendirme": ["zıt anlamlı"]
},
{
  "cümleler": "C kişisi kasada ödeme yapmadan marketten çıkmıştır., C kişisinin parası yoktur.",
  "analiz/neden": "İlk cümlede ödeme yapmadan marketten çıkma durumu belirtiliyor, ikinci cümlede ise C'nin parası olmadığı ifade ediliyor. Cümleler arasında doğrudan bir anlam bağlantısı bulunmuyor.",
  "değerlendirme": ["alakasız"]
},
{
  "cümleler": "C kişisi kasada ödeme yapmadan marketten çıkmıştır., C kişisi bir banka müdürü.",
  "analiz/neden": "İlk cümlede ödeme yapmadan marketten çıkma durumu belirtiliyor, ikinci cümlede ise C'nin banka müdürü olduğu belirtiliyor. İki cümle arasında anlam benzerliği yok.",
  "değerlendirme": ["alakasız"]
}
]

messages = [
    {
        'role': 'user',
        'content': ' İkili değerlendir: C kişisi kasada ödeme yapmadan marketten çıkmıştır, C kişisi marketten alışveriş yapmıştır ve kasada ödeme yapmadan çıkmıştır, C kişisi ödeme yapmayı unutarak marketten çıkmıştır, C kişisi hırsızdır, C kişisinin parası yoktur, C kişisi bir banka müdürü'
    },
    {
        'role': 'assistant',
        'content': f"{example_output}"
    }
]

def similarity_sentences(sentence):
    # Concat messages and sentence
    messages_temp = messages.copy()

    messages_temp.append({
        'role': 'user',
        'content': sentence
    })

    response = ollama.chat(model='MAHDAN', messages= messages_temp)

    return response['message']['content']
#Sentence examples
sentences = [ 
  "C’nin kusur durumu, ödeme yapmayı unuttuğunu iddia etmesi sebebiyle, kusurluluğu tartışmaya açabilir.",
  "C'nin dikkat ve özen yükümlülüğüne aykırı davranmış olması nedeniyle kusurlu olduğu değerlendirilebilir.",
]

#            "C kişisi marketten alışveriş yapmıştır ve kasada ödeme yapmadan çıkmıştır.",
#            "C kişisi ödeme yapmayı unutarak marketten çıkmıştır.",
#            "C kişisi hırsızdır.",
#            "C kişisinin parası yoktur.",
#            "C kişisi bir banka müdürü."
#] 

checked_pairs = []

for index, sentence in enumerate(sentences):
    for index2, sentence2 in enumerate(sentences):
        if index != index2 and (sentence,sentence2) not in checked_pairs and (sentence2,sentence) not in checked_pairs:
            sentence_in = 'İlk Cümle: ' + sentence + ' ,\n İkinci Cümle: ' + sentence2
            
            print("Input: \n", sentence_in)
            print("Return: \n", similarity_sentences(sentence_in))
            print("\n")
            checked_pairs.append((sentence,sentence2))
            #measure_similarity(sentence,sentence2)
            

Input: 
 İlk Cümle: C’nin kusur durumu, ödeme yapmayı unuttuğunu iddia etmesi sebebiyle, kusurluluğu tartışmaya açabilir. ,
 İkinci Cümle: C'nin dikkat ve özen yükümlülüğüne aykırı davranmış olması nedeniyle kusurlu olduğu değerlendirilebilir.
Return: 
 [{'cümleler': 'C’nin kusur durumu, ödeme yapmayı unuttuğunu iddia etmesi sebebiyle, kusurluluğu tartışmaya açabilir., C'nin dikkat ve özen yükümlülüğüne aykırı davranmış olması nedeniyle kusurlu olduğu değerlendirilebilir.', 'analiz/neden': 'İki cümle de C'nin kusur durumuna değinmekte. İlk cümlede, ödeme yapmayı unutma durumu üzerinde durulurken, ikinci cümlede dikkat ve özen yükümlülüğü açısından suçlama ileri sürülüyor.', 'değerlendirme': ['benzer anlamlı']}




In [35]:
import ollama
ollama.pull(model='mistral')

{'status': 'success'}

In [75]:
# Semantic Similarity
from sentence_transformers import SentenceTransformer, util

model_name = 'paraphrase-MiniLM-L6-v2'
# Class of Semantic Similarity
class SentenceComparator_semantic:
    def __init__(self, model_name):
        self.model_name = model_name
        self.model = self.generate_model()

    def generate_model(self):
        return SentenceTransformer(self.model_name)
    
    def get_embeddings(self, sentences):
        return self.model.encode(sentences)

    def calculate_similarity(self, sentence_1, sentence_2):
        embeddings = self.get_embeddings([sentence_1, sentence_2])
        return util.cos_sim(embeddings[0], embeddings[1])

In [76]:
import torch
from transformers import BertTokenizer, BertModel
from sklearn.metrics.pairwise import cosine_similarity

model_name = 'bert-base-multilingual-cased'
# Calculate cosine similarity between two sentences with BERT
class SentenceComparator_bert_cosine:
    def __init__(self, model_name):
        self.model_name = model_name
        self.model = self.generate_model()

    def generate_model(self):
        return BertModel.from_pretrained(self.model_name)
    
    def get_embeddings(self, sentence):

        tokenizer = BertTokenizer.from_pretrained(self.model_name)
        inputs = tokenizer(sentence, return_tensors='pt')

        with torch.no_grad():
            embeddings = self.model(**inputs).last_hidden_state.mean(dim=1)

        return embeddings
    
    def calculate_similarity(self, sentence_1, sentence_2):
        embeddings1 = self.get_embeddings(sentence_1)
        embeddings2 = self.get_embeddings(sentence_2)
        
        return cosine_similarity(embeddings1, embeddings2)

In [77]:
from sentence_transformers import SentenceTransformer, util
import torch

# Load the pre-trained SBERT model
model_name = 'paraphrase-multilingual-mpnet-base-v2'

# Class of SBERT Similarity
class SentenceComparator_SBERT:
    def __init__(self, model_name):
        self.model_name = model_name
        self.model = self.generate_model()
        
    def generate_model(self):
        return SentenceTransformer(self.model_name)
    
    def get_embeddings(self, sentences):
        return self.model.encode(sentences, convert_to_tensor=True)
    
    def calculate_similarity(self, sentence_1, sentence_2):
        embeddings = self.get_embeddings([sentence_1, sentence_2])
        return util.pytorch_cos_sim(embeddings[0], embeddings[1])

In [78]:
from transformers import pipeline

# NLI pipeline oluşturma (Türkçe destekleyen model kullanılabilir)
nli_model = pipeline("text-classification", model="microsoft/deberta-large-mnli")

class SentenceComparator_NLI:
    def __init__(self, model_name):
        self.model_name = model_name
        self.model = self.generate_model()

    def generate_model(self):
        return pipeline("text-classification", model=self.model_name)
    
    def calculate_similarity(self, sentence_1, sentence_2):
        input_sentence = sentence_1 + ' [SEP] ' + sentence_2
        result = self.model(input_sentence)
        return result[0]

: 

In [None]:
import pandas as pd
import os

def create_log(log_name, additional_info=""):
    log_name = "log/" + log_name
    with open(log_name, 'w') as f:
        f.write(f"Log file created. ({log_name})\nAdditional Info: {additional_info}\n")

def append_to_log(log_name, message):
    log_name = "log/" + log_name
    with open(log_name, 'a') as f:
        f.write("\n" + message)

def create_excel_file(file_name, sheet_name, data):    
    file_name = "log/" + file_name
    # if exist, remove the file
    try:
        os.remove(file_name)
    except OSError:
        pass
    
    df = pd.DataFrame(data)
    df.to_excel(file_name, sheet_name=sheet_name, index=False)

def append_to_excel(file_name, sheet_name, data):
    file_name = "log/" + file_name
    # Data is one row
    excel_df = pd.read_excel(file_name, sheet_name=sheet_name)
    excel_df = pd.concat([excel_df, pd.DataFrame([data])], ignore_index=True)
    excel_df.to_excel(file_name, sheet_name=sheet_name, index=False)
    
        

In [None]:
import time

def test_model(model, model_name):

    start = time.time()

    # Define the sentences to compare
    sentences = [ 
        "C’nin kusur durumu, ödeme yapmayı unuttuğunu iddia etmesi sebebiyle, kusurluluğu tartışmaya açabilir.",
        "C'nin dikkat ve özen yükümlülüğüne aykırı davranmış olması nedeniyle kusurlu olduğu değerlendirilebilir.",
        "C'nin dikkat ve özen yükümlülüğüne aykırı davranmış olması nedeniyle kusurlu olduğu değerlendrilemez.",
        "C kişisi marketten alışveriş yapmıştır ve kasada ödeme yapmadan çıkmıştır.",
        "C kişisi ödeme yapmayı unutarak marketten çıkmıştır.",
        "C kişisi hırsızdır ve hırsızlık suçu işlediği için bu durudman şüphe bile edilemez.",
        "C kişisinin parası yoktur.",
        "C kişisi bir banka müdürü."
    ] 

    create_log(f"{model_name}_log.txt", "Score is calculated in the range of 0-1. Higher score indicates higher similarity.")  

    if model_name == "nli_model":
        create_excel_file(f"{model_name}_log.xlsx", "Results", {"Sentence1": [], "Sentence2": [], "label": [], "score": []})
    else:
        create_excel_file(f"{model_name}_log.xlsx", "Results", {"Sentence1": [], "Sentence2": [], "Result": []})

    # Compare the sentences
    for index, sentence in enumerate(sentences):
        for index2, sentence2 in enumerate(sentences):
            if index != index2:

                result = model.calculate_similarity(sentence, sentence2)
                
                #print("\nSentence1: ", sentence,"\nSentence2: ", sentence2)
                #print("Return: \n", result)
                
                append_to_log(f"{model_name}_log.txt", f"\nSentence1: {sentence}\nSentence2: {sentence2}\nResult: {result}")
                if model_name == "nli_model":
                    append_to_excel(f"{model_name}_log.xlsx", "Results", {"Sentence1": sentence, "Sentence2": sentence2, "label": result["label"], "score": result["score"]})
                else:
                    append_to_excel(f"{model_name}_log.xlsx", "Results", {"Sentence1": sentence, "Sentence2": sentence2, "Result": result})
                #print("\n")

    end = time.time()
    append_to_log("model_exec_times.txt", f"{model_name} model execution time: {end - start} seconds")
    append_to_log(f"{model_name}_log.txt", f"\nTotal time: {end - start} seconds")
    print(f"Total time: {end - start} seconds") 

# Test the NLI model
#test_model(nli_model, "nli_model")

In [74]:
#ignore warnings
import warnings
warnings.filterwarnings("ignore")


nli_model = SentenceComparator_NLI("microsoft/deberta-large-mnli")
test_model(nli_model, "nli_model")

semantic_similarity = SentenceComparator_semantic("paraphrase-MiniLM-L6-v2")
test_model( semantic_similarity, "semantic_similarity")

bert_cosine_similarity = SentenceComparator_bert_cosine("bert-base-multilingual-cased")
test_model(bert_cosine_similarity, "bert_cosine_similarity")

sbert_similarity = SentenceComparator_SBERT("paraphrase-multilingual-mpnet-base-v2")
test_model(sbert_similarity, "sbert_similarity")



Some weights of the model checkpoint at microsoft/deberta-large-mnli were not used when initializing DebertaForSequenceClassification: ['config']
- This IS expected if you are initializing DebertaForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing DebertaForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
  excel_df = pd.concat([excel_df, pd.DataFrame([data])], ignore_index=True)


Total time: 37.31837701797485 seconds




Total time: 8.016632318496704 seconds




KeyboardInterrupt: 