In [30]:
# Example of a correct answer for the question in the sample.txt file
correct_answer = {
  "Suçun_Temel_Unsurları": {
    "Fail": "C",
    "Mağdur": "Market (Mülkiyet hakkı ihlal edilen taraf)",
    "Konu": "Marketten alınan ürünler",
    "Fiil": "Ürünlerin kasada ödeme yapılmaksızın dışarı çıkarılması",
    "Netice": {
      "Marketin_malvarlığında_azalma": True,
      "Nedensellik_Bağı": "C’nin fiili ile netice arasında nedensellik bağı mevcuttur.",
      "Objektif_İsnadiyet": "Fiil, neticeyi doğuracak şekilde gerçekleştirilmiştir."
    }
  },
  "Manevi_Unsur": "C, bu eylemi kasten mi gerçekleştirmiştir? C’nin kasıtlı olup olmadığı, marketten çıkarken ödeme yapmadığını fark etmesiyle bağlantılıdır. C, ödeme yapmayı unuttuğunu iddia etmektedir, bu nedenle kast unsuru tartışmalı olabilir.",
  "Hukuka_Aykırılık_Unsuru": "Hukuka aykırılık unsuru açısından, C’nin eylemi hırsızlık suçu açısından değerlendirildiğinde, hukuka aykırı bir durum mevcuttur. Ancak, manevi unsurdaki belirsizlik bu hususu etkileyebilir.",
  "Suçun_Nitelikli_Unsurları": "Bu olayda nitelikli bir unsur yoktur.",
  "Kusurluluk": "C’nin kusur durumu, ödeme yapmayı unuttuğunu iddia etmesi sebebiyle, kusurluluğu tartışmaya açabilir.",
  "Yaptırımın_Uygulanması_İçin_Gereken_Veya_Yaptırım_Uygulanmasını_Engelleyen_Özel_Koşullar": "C’nin ödeme yapmayı unuttuğunu iddia etmesi, suçun manevi unsurunu etkileyebilir ve bu durum yaptırım uygulanmasını engelleyebilir.",
  "Suçun_Özel_Görünüş_Biçimleri": {
    "Teşebbüs": "Eylem tamamlanmıştır, teşebbüs söz konusu değildir.",
    "İştirak": "Olayda iştirak eden başka bir kişi yoktur.",
    "İçtima": "Tek bir suç tipi söz konusudur."
  }
}

test_sentences = ["Havayı kirletmek, çevreyi kirletmek anlamına gelir.", "Hava kirliliği, çevre kirliliğinin bir parçasıdır."]

In [31]:
# THRASH CODE

# It is not efficient to compare two sentences in Turkish.
# Word count based cosine similarity

import numpy as np
def sentence_to_word_dict(sentence):
    """
    This function takes a sentence as input and returns a dictionary with words as keys and their counts as values.
    
    Args:
        sentence: A string.
    
    Returns:
        A dictionary.
    """
    words = sentence.split()
    word_dict = {}
    for word in words:
        if word in word_dict:
            word_dict[word] += 1
        else:
            word_dict[word] = 1
    return word_dict

sentence_1 = correct_answer["Kusurluluk"]
sentence_2 = "C'nin dikkat ve özen yükümlülüğüne aykırı davranmış olması nedeniyle kusurlu olduğu değerlendirilebilir."

dict_1 = sentence_to_word_dict(sentence_1)
dict_2 = sentence_to_word_dict(sentence_2)

word_space = np.unique(list(dict_1.keys()) + list(dict_2.keys()))

# One-hot encoding
binary_vector_1 = [1 if word in dict_1 else 0 for word in word_space]
binary_vector_2 = [1 if word in dict_2 else 0 for word in word_space]

print(binary_vector_1)
print(binary_vector_2)

cosine_similarity = np.dot(binary_vector_1, binary_vector_2) / (np.linalg.norm(binary_vector_1) * np.linalg.norm(binary_vector_2))
print("Cosine similarity (%) :", cosine_similarity * 100)




# TF-IDF based cosine similarity
# Not an efficient way
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

texts = [sentence_1,sentence_2]
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(texts)
similarity = cosine_similarity(tfidf_matrix[0], tfidf_matrix[1])[0][0]
print(similarity)




# Levenshtein distance
def levenshtein_distance(s1, s2):
    len_s1, len_s2 = len(s1) + 1, len(s2) + 1
    dp = np.zeros((len_s1, len_s2))
    for i in range(len_s1):
        dp[i][0] = i
    for j in range(len_s2):
        dp[0][j] = j

    for i in range(1, len_s1):
        for j in range(1, len_s2):
            cost = 0 if s1[i-1] == s2[j-1] else 1
            dp[i][j] = min(dp[i-1][j] + 1, dp[i][j-1] + 1, dp[i-1][j-1] + cost)

    return dp[-1][-1]


print(levenshtein_distance(sentence_1, sentence_2))

[0, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 0]
[1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1]
Cosine similarity (%) : 0.0
0.04399732626783181
67.0


In [32]:
import numpy as np

In [33]:
# Load the model Turkish word2vec model
from gensim.models import Word2Vec
from tabulate import tabulate


model = Word2Vec.load("word2vec/w2v_.model")
print(tabulate(model.wv.most_similar("barış"), headers=["Kelime", "Benzerlik Skoru"]))
print("\nWord Vector:", model.wv.get_vector("umut"))

Kelime          Benzerlik Skoru
------------  -----------------
ateşkes                0.823591
uzlaşma                0.794623
ittifak                0.774118
antlaşma               0.773479
müzakereler            0.762028
barışı                 0.759955
antlaşmayı             0.749817
müzakereleri           0.747546
mütareke               0.727691
müttefiklik            0.717039

Word Vector: [ 0.1495104  -1.4914255  -0.50925356 -0.9685314   2.1551907   0.10626572
  0.4027821   1.0281931   0.41044936 -1.1525857  -0.0205108   1.0924134
 -1.9218051   1.3797586  -0.63527036 -0.38006008 -0.6512365  -0.96633595
  1.1853794   0.7896848  -0.03258616  0.8834496  -1.6903982   0.9449919
  0.6057014   0.59224516 -1.0036951   2.0536163  -2.1637177  -0.65654767
  1.0522053   0.11371119  1.1112392  -0.43076926  0.13155091 -1.1467836
 -0.8198967   1.1959015  -0.5887494  -1.0079744  -0.25314665  0.5018188
 -0.76072204 -0.30214065 -0.13227591  0.6748753   0.7053673   1.5428567
 -0.08245109  0.7610972

In [34]:
class SentenceComparator_Word2Vec:
    def __init__(self, model_name):
        self.model = self.generate_model(model_name)

    def generate_model(self, model_name):
        return Word2Vec.load(model_name)
    
    def clean_sentence(self, sentence):
        return sentence.lower().replace(".", "").replace(",", "").replace("?", "").replace("!", "").replace("(", "").replace(")", "")
    
    def extract_key_features(self, words_1, words_2):
        
        # Nested iteration to compare each word in the sentences
        #Dict: {word_1:{word_comp1:score, word_comp2:score, ...}, word_2:{word_comp1:score, word_comp2:score, ...}}
        searched_pairs = [];similarity_dict = {}

        for word_1 in words_1:
            if word_1 not in similarity_dict:
                similarity_dict.update({word_1:{}})
            for word_2 in words_2:
                if (word_1, word_2) in searched_pairs or (word_2, word_1) in searched_pairs:
                    continue
                try:
                    searched_pairs.append((word_1, word_2))
                    # Calculate the similarity between the words
                    similarity_dict[word_1].update({word_2:self.model.wv.similarity(word_1, word_2)})
                except:
                    pass
        return similarity_dict
    
    def calculate_similarity(self, sentence_1, sentence_2):
        # Clean the sentences and split them into words
        sentence_1 = self.clean_sentence(sentence_1); words_1 = sentence_1.split()
        sentence_2 = self.clean_sentence(sentence_2); words_2 = sentence_2.split()

        # Extract key features
        similarity_dict = self.extract_key_features(words_1, words_2)
            
        # Extract informations from the similarity_dict
        key_features = []
        for key, value in similarity_dict.items():
            if len(value) > 0:
                # Sort and get the best match
                sorted_dict = sorted(value.items(), key=lambda x:x[1], reverse=True)
                max_score = sorted_dict[0][1]
                best_key = sorted_dict[0][0]

                key_features.append({"key":key, "score":max_score,"best_match":best_key})

        # Calculate the average score
        avg_score = sum([x["score"] for x in key_features]) / len(key_features)

        return avg_score#,key_features


In [35]:
#word2vec_comparator = SentenceComparator_Word2Vec("word2vec/w2v_.model")
#avg_score,sim_dict = word2vec_comparator.compare_sentences(test_sentences[0], test_sentences[1])
#
#print(tabulate([x.values() for x in sim_dict], headers=["Kelime", "En Benzer Kelime, Benzerlik Skoru"]))
#print("\nAverage Score: ", avg_score)

In [36]:
# Word embedding with turkish trained word2vec
#def calculate_vector_of_senetence(sentence):
#    sentence_vector = np.zeros(100)
#    for word in sentence.split():
#        try:
#            sentence_vector += model.wv[word]
#        except:
#            pass
#    return sentence_vector
#
#def cosine_similarity(v1, v2):
#    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))
#
#def measure_similarity(sentence_1, sentence_2):
#    v1 = calculate_vector_of_senetence(sentence_1)
#    v2 = calculate_vector_of_senetence(sentence_2)
#    cos_sim = cosine_similarity(v1, v2)
#
#    print("\nCosine similarity: ", cos_sim)
#
#
#measure_similarity(
#    test_sentences[0],
#    test_sentences[1]
#)

Modelfile System Prompt: 

Sen bir metin kazıcı algoritmasın. Cümleleri sadece anlamsal olarak değerlendir. İSTENEN DÖNÜŞ FORMATI: {"cümleler":<cümleler>,"analiz/neden":<kısaca>,"değerlendirme": <>}

In [37]:
import ollama

class SentenceComparator_Ollama:
    def __init__(self,modelfile_system, llama_version="llama3.1", temperature=0.4):
        self.system_prompt = modelfile_system
        self.llama_version = llama_version
        self.temperature = temperature

        self.role_messages = [
                {
                    'role': 'user',
                    'content': 'İlk cümle: C kişisi kasada ödeme yapmadan marketten çıkmıştır, İkinci cümle: C kişisi marketten alışveriş yapmıştır ve kasada ödeme yapmadan çıkmıştır'
                },
                {
                    'role': 'assistant',
                    'content': "değerlendirme: 0"
                },
                {
                    'role': 'user',
                    'content': 'İlk cümle: Havalar güzelken denize gitmek çok iyi olur., İkinci cümle: Bir insan ev almadan önce araba parası biriktirmeli.'
                },
                {
                    'role': 'assistant',
                    'content': "değerlendirme: 1"
                }
            ]
        self.generate_model()
    
    def generate_model(self):
        modelfile = f'''
        FROM {self.llama_version}
        SYSTEM {self.system_prompt} 
        PARAMETER temperature {self.temperature}
        '''
        ollama.create(model=f'MAHDAN_{self.llama_version}', modelfile=modelfile)

    def calculate_similarity(self,sentence_1,sentence_2):
        sentence_in = 'İlk Cümle: ' + sentence_1 + ' ,\n İkinci Cümle: ' + sentence_2        

        # Concat messages and sentence
        messages_temp = self.role_messages.copy()

        messages_temp.append({
            'role': 'user',
            'content': sentence_in
        })

        response = ollama.chat(model=f'MAHDAN_{self.llama_version}', messages= messages_temp)

        return response['message']['content']


In [38]:
#ollama_model = SentenceComparator_Ollama(
#    llama_version="llama3.1",
#    modelfile_system="Sen bir metin kazıcı algoritmasın. Cümleleri sadece anlamsal olarak değerlendir. İSTENEN DÖNÜŞ FORMATI: {'cümleler':<cümleler>,'analiz/neden':<kısaca>,'değerlendirme': <>}"
#)
#print(ollama_model.calculate_similarity( test_sentences[0],test_sentences[1] ) )
#
#
#ollama_model = SentenceComparator_Ollama(
#    llama_version="mistral",
#    modelfile_system="Sen bir metin kazıcı algoritmasın. Cümleleri sadece anlamsal olarak değerlendir. İSTENEN DÖNÜŞ FORMATI: {'cümleler':<cümleler>,'analiz/neden':<kısaca>,'değerlendirme': <>}"
#)
#print(ollama_model.calculate_similarity( test_sentences[0],test_sentences[1] ) )

In [39]:
# Semantic Similarity
from sentence_transformers import SentenceTransformer, util

#model_name = 'paraphrase-MiniLM-L6-v2'
# Class of Semantic Similarity
class SentenceComparator_semantic:
    def __init__(self, model_name):
        self.model_name = model_name
        self.model = self.generate_model()

    def generate_model(self):
        return SentenceTransformer(self.model_name)
    
    def get_embeddings(self, sentences):
        return self.model.encode(sentences)

    def calculate_similarity(self, sentence_1, sentence_2):
        embeddings = self.get_embeddings([sentence_1, sentence_2])
        return util.cos_sim(embeddings[0], embeddings[1])

In [40]:
import torch
from transformers import BertTokenizer, BertModel
from sklearn.metrics.pairwise import cosine_similarity

#model_name = 'bert-base-multilingual-cased'
# Calculate cosine similarity between two sentences with BERT
class SentenceComparator_bert_cosine:
    def __init__(self, model_name):
        self.model_name = model_name
        self.model = self.generate_model()

    def generate_model(self):
        return BertModel.from_pretrained(self.model_name)
    
    def get_embeddings(self, sentence):

        tokenizer = BertTokenizer.from_pretrained(self.model_name)
        inputs = tokenizer(sentence, return_tensors='pt')

        with torch.no_grad():
            embeddings = self.model(**inputs).last_hidden_state.mean(dim=1)

        return embeddings
    
    def calculate_similarity(self, sentence_1, sentence_2):
        embeddings1 = self.get_embeddings(sentence_1)
        embeddings2 = self.get_embeddings(sentence_2)
        
        return cosine_similarity(embeddings1, embeddings2)

In [41]:
from sentence_transformers import SentenceTransformer, util
import torch

# Load the pre-trained SBERT model
#model_name = 'paraphrase-multilingual-mpnet-base-v2'

# Class of SBERT Similarity
class SentenceComparator_SBERT:
    def __init__(self, model_name):
        self.model_name = model_name
        self.model = self.generate_model()
        
    def generate_model(self):
        return SentenceTransformer(self.model_name)
    
    def get_embeddings(self, sentences):
        return self.model.encode(sentences, convert_to_tensor=True)
    
    def calculate_similarity(self, sentence_1, sentence_2):
        embeddings = self.get_embeddings([sentence_1, sentence_2])
        return util.pytorch_cos_sim(embeddings[0], embeddings[1])

Çalışmak için *İnternet* gerektiriyor

In [42]:
from transformers import pipeline

# NLI pipeline oluşturma (Türkçe destekleyen model kullanılabilir)
#nli_model = pipeline("text-classification", model="microsoft/deberta-large-mnli")

class SentenceComparator_NLI:
    def __init__(self, model_name):
        self.model_name = model_name
        self.model = self.generate_model()

    def generate_model(self):
        return pipeline("text-classification", model=self.model_name)
    
    def calculate_similarity(self, sentence_1, sentence_2):
        input_sentence = sentence_1 + ' [SEP] ' + sentence_2
        result = self.model(input_sentence)
        return result[0]

In [43]:
import pandas as pd
import os

def create_log(log_name, additional_info=""):
    log_name = "log/" + log_name
    with open(log_name, 'w') as f:
        f.write(f"Log file created. ({log_name})\nAdditional Info: {additional_info}\n")

def append_to_log(log_name, message):
    log_name = "log/" + log_name
    with open(log_name, 'a') as f:
        f.write("\n" + message)

def create_excel_file(file_name, sheet_name, data):    
    file_name = "log/" + file_name
    # if exist, remove the file
    try:
        os.remove(file_name)
    except OSError:
        pass
    
    df = pd.DataFrame(data)
    df.to_excel(file_name, sheet_name=sheet_name, index=False)

def append_to_excel(file_name, sheet_name, data):
    file_name = "log/" + file_name
    # Data is one row
    excel_df = pd.read_excel(file_name, sheet_name=sheet_name)
    excel_df = pd.concat([excel_df, pd.DataFrame([data])], ignore_index=True)
    excel_df.to_excel(file_name, sheet_name=sheet_name, index=False)
    
        

In [44]:
import time

def test_model(model, model_name):

    start = time.time()

    computation_count = 0

    # Define the sentences to compare
    sentences = [ 
        "C'nin dikkat ve özen yükümlülüğüne aykırı davranmış olması nedeniyle kusurlu olduğu değerlendirilebilir.",
        "C'nin dikkat ve özen yükümlülüğüne aykırı davranmış olması nedeniyle kusurlu olduğu değerlendrilemez.",
        "C kişisi marketten alışveriş yapmıştır ve kasada ödeme yapmadan çıkmıştır.",
        "C kişisi ödeme yapmayı unutarak marketten çıkmıştır.",
        "C kişisi hırsızdır ve hırsızlık suçu işlediği için bu durudman şüphe bile edilemez.",
        "C kişisi bir banka müdürü.",
        "C kişisinin mesleği banka müdürlüğüdür.",
        "C'nin dikkat ve özen yükümlülüğüne aykırı davranmış olması nedeniyle kusurlu olduğu değerlendrilemez.",
        "Leclerc, 2021 Formula 1 sezonunda 3. sırayı aldı.",
        "C kişisi ödeme yapmadı sonra da marketten çıkarken ödemeyi unuttu.",
        "C kişisi kötü bir insan.",
        "Kusurlu olan C kişisi, ödeme yapmayı unuttuğunu iddia etmektedir.",
        "C kişisi marketten çıkarken ödeme yapmayı unutmuştur."
    ] 

    create_log(f"{model_name}_log.txt", "Score is calculated in the range of 0-1. Higher score indicates higher similarity.")  

    if model_name == "nli_model":
        create_excel_file(f"{model_name}_log.xlsx", "Results", {"Sentence1": [], "Sentence2": [], "label": [], "score": []})
    else:
        create_excel_file(f"{model_name}_log.xlsx", "Results", {"Sentence1": [], "Sentence2": [], "Result": []})

    # Compare the sentences
    for index, sentence in enumerate(sentences):
        for index2, sentence2 in enumerate(sentences):
            if index != index2:

                result = model.calculate_similarity(sentence, sentence2)
                
                #print("\nSentence1: ", sentence,"\nSentence2: ", sentence2)
                #print("Return: \n", result)
                
                append_to_log(f"{model_name}_log.txt", f"\nSentence1: {sentence}\nSentence2: {sentence2}\nResult: {result}")
                if model_name == "nli_model":
                    append_to_excel(f"{model_name}_log.xlsx", "Results", {"Sentence1": sentence, "Sentence2": sentence2, "label": result["label"], "score": result["score"]})
                else:
                    append_to_excel(f"{model_name}_log.xlsx", "Results", {"Sentence1": sentence, "Sentence2": sentence2, "Result": result})
                #print("\n")
                computation_count += 1
        #break # Delete this line for nested for :)

    end = time.time()
    append_to_log("model_exec_times.txt", f"{model_name} Avg comparison time: {(end - start) / computation_count} seconds, Total time: {end - start} seconds")
    append_to_log(f"{model_name}_log.txt", f"\nTotal time: {end - start} seconds")
    print(f"Total time: {end - start} seconds") 

# Test the NLI model
#test_model(nli_model, "nli_model")

In [46]:
#ignore warnings
import warnings
warnings.filterwarnings("ignore")
#
#nli_model = SentenceComparator_NLI("microsoft/deberta-large-mnli")
#test_model(nli_model, "nli_model")
#
#semantic_similarity = SentenceComparator_semantic("paraphrase-MiniLM-L6-v2")
#test_model( semantic_similarity, "semantic_similarity")
#
#bert_cosine_similarity = SentenceComparator_bert_cosine("bert-base-multilingual-cased")
#test_model(bert_cosine_similarity, "bert_cosine_similarity")
#
#sbert_similarity = SentenceComparator_SBERT("paraphrase-multilingual-mpnet-base-v2")
#test_model(sbert_similarity, "sbert_similarity")
#
#word2vec_sim = SentenceComparator_Word2Vec("word2vec/w2v_.model")
#test_model(word2vec_sim, "word2vec_sim")
#
#sys_prompt= "Sen bir text-miner algoritmasın.\
#                Cümleleri sadece anlamsal olarak değerlendir.\
#                İstenen dönüş: değerlendirme:<benzer anlam->1, farklı anlam->0>.\
#                Bu formate göre bir dönüş sağla ve sadece anlama odaklan."
#
#ollama_model_llama3 = SentenceComparator_Ollama(
#    llama_version="llama3.1",
#    modelfile_system= sys_prompt,
#    temperature=0.4
#)
#test_model(ollama_model_llama3, "ollama_model_llama3.1")
#
#Çöp
#ollama_model_mistral = SentenceComparator_Ollama(
#    llama_version="mistral",
#    modelfile_system= sys_prompt,
#    temperature=0.4
#)
#test_model(ollama_model_mistral, "ollama_model_mistral")


In [53]:
def excel_to_df(file_name, sheet_name):
    file_name = "log/" + file_name
    excel_df = pd.read_excel(file_name, sheet_name=sheet_name)
    return excel_df

# For bert_cos_sim
bert_cos_sim = excel_to_df("bert_cosine_similarity_log.xlsx", "Results")
bert_cos_sim["Result"] = bert_cos_sim["Result"].str.replace(r'[\[\]]','',regex=True).astype(float)

# For sbert_similarity_log.xlsx
sbert_cos_df = excel_to_df("sbert_similarity_log.xlsx", "Results")
sbert_cos_df["Result"] = sbert_cos_df["Result"].str.replace(r'[\[\]()tensor]','',regex=True).astype(float)

# For nli_model_log.xlsx
nli_df = excel_to_df("nli_model_log.xlsx", "Results")
nli_df.rename(columns={"score":"Result"}, inplace=True)

# For semantic_similarity_log.xlsx
semantic_df = excel_to_df("semantic_similarity_log.xlsx", "Results")
semantic_df["Result"] = semantic_df["Result"].str.replace(r'[\[\]()tensor]','',regex=True).astype(float)

# For word2vec_sim_log.xlsx
word2vec_df = excel_to_df("word2vec_sim_log.xlsx", "Results")

# For ollama_model_llama3.1_log.xlsx
ollama_df = excel_to_df("ollama_model_llama3.1_log.xlsx", "Results")
ollama_df["Result"] = ollama_df["Result"].str.replace(r'[\[\]()tensorDdeğerlendirme:]','',regex=True).astype(int)
ollama_df

# Concatenate all the results
all_results = pd.concat([bert_cos_sim["Sentence1"],bert_cos_sim["Sentence2"],bert_cos_sim["Result"], sbert_cos_df["Result"], nli_df["Result"], semantic_df["Result"], word2vec_df["Result"], ollama_df["Result"]],
                        axis=1, 
                        keys=["Sentence1", "Sentence2", "bert_cos_sim", "sbert_cos_sim", "nli_model", "semantic_similarity", "word2vec_sim", "ollama_model_llama3.1"])

             
all_results

Unnamed: 0,Sentence1,Sentence2,bert_cos_sim,sbert_cos_sim,nli_model,semantic_similarity,word2vec_sim,ollama_model_llama3.1
0,C'nin dikkat ve özen yükümlülüğüne aykırı davr...,C'nin dikkat ve özen yükümlülüğüne aykırı davr...,0.964577,0.9383,0.769148,0.9611,0.946022,0
1,C'nin dikkat ve özen yükümlülüğüne aykırı davr...,C kişisi marketten alışveriş yapmıştır ve kasa...,0.636648,0.1996,0.589680,0.7214,0.398693,1
2,C'nin dikkat ve özen yükümlülüğüne aykırı davr...,C kişisi ödeme yapmayı unutarak marketten çıkm...,0.626447,0.3011,0.717026,0.7751,0.330787,1
3,C'nin dikkat ve özen yükümlülüğüne aykırı davr...,C kişisi hırsızdır ve hırsızlık suçu işlediği ...,0.692395,0.3268,0.619045,0.5339,0.513608,0
4,C'nin dikkat ve özen yükümlülüğüne aykırı davr...,C kişisi bir banka müdürü.,0.597883,0.2924,0.573564,0.4174,0.316620,0
...,...,...,...,...,...,...,...,...
151,C kişisi marketten çıkarken ödeme yapmayı unut...,C'nin dikkat ve özen yükümlülüğüne aykırı davr...,0.710953,0.3956,,0.7210,0.325234,0
152,C kişisi marketten çıkarken ödeme yapmayı unut...,"Leclerc, 2021 Formula 1 sezonunda 3. sırayı aldı.",0.483920,0.0482,,0.3263,0.243224,0
153,C kişisi marketten çıkarken ödeme yapmayı unut...,C kişisi ödeme yapmadı sonra da marketten çıka...,0.935725,0.9581,,0.8807,0.898081,1
154,C kişisi marketten çıkarken ödeme yapmayı unut...,C kişisi kötü bir insan.,0.600229,0.3436,,0.4244,0.475786,0


In [55]:
# Save the results to an excel file
#all_results.to_excel("log/all_results.xlsx", index=False)

# Read the results from the excel file
all_results = pd.read_excel("log/all_results.xlsx")
all_results

Unnamed: 0,Sentence1,Sentence2,bert_cos_sim,sbert_cos_sim,nli_model,semantic_similarity,word2vec_sim,ollama_model_llama3.1
0,C'nin dikkat ve özen yükümlülüğüne aykırı davr...,C'nin dikkat ve özen yükümlülüğüne aykırı davr...,0.964577,0.9383,0.769148,0.9611,0.946022,0
1,C'nin dikkat ve özen yükümlülüğüne aykırı davr...,C kişisi marketten alışveriş yapmıştır ve kasa...,0.636648,0.1996,0.589680,0.7214,0.398693,1
2,C'nin dikkat ve özen yükümlülüğüne aykırı davr...,C kişisi ödeme yapmayı unutarak marketten çıkm...,0.626447,0.3011,0.717026,0.7751,0.330787,1
3,C'nin dikkat ve özen yükümlülüğüne aykırı davr...,C kişisi hırsızdır ve hırsızlık suçu işlediği ...,0.692395,0.3268,0.619045,0.5339,0.513608,0
4,C'nin dikkat ve özen yükümlülüğüne aykırı davr...,C kişisi bir banka müdürü.,0.597883,0.2924,0.573564,0.4174,0.316620,0
...,...,...,...,...,...,...,...,...
151,C kişisi marketten çıkarken ödeme yapmayı unut...,C'nin dikkat ve özen yükümlülüğüne aykırı davr...,0.710953,0.3956,0.517482,0.7210,0.325234,0
152,C kişisi marketten çıkarken ödeme yapmayı unut...,"Leclerc, 2021 Formula 1 sezonunda 3. sırayı aldı.",0.483920,0.0482,0.638243,0.3263,0.243224,0
153,C kişisi marketten çıkarken ödeme yapmayı unut...,C kişisi ödeme yapmadı sonra da marketten çıka...,0.935725,0.9581,0.780258,0.8807,0.898081,1
154,C kişisi marketten çıkarken ödeme yapmayı unut...,C kişisi kötü bir insan.,0.600229,0.3436,0.576259,0.4244,0.475786,0


In [56]:
import seaborn as sns
import matplotlib.pyplot as plt

# Calculate the correlation matrix
all_results_parameters = all_results.drop(["Sentence1", "Sentence2"], axis=1)


In [64]:
# Logistic Regression
from sklearn.linear_model import LogisticRegression

# Define the features and target
y = all_results_parameters["ollama_model_llama3.1"]
X = all_results_parameters.drop("ollama_model_llama3.1", axis=1)

normalized_X = (X - X.mean()) / X.std()

# Test train split
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(normalized_X, y, test_size=0.2, random_state=42)

# Create the model
log_reg = LogisticRegression()

# Fit the model
log_reg.fit(X_train, y_train)

# Predict the target
y_pred = log_reg.predict(X_test)

# Calculate the accuracy
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_pred)

print("Accuracy: ", accuracy)

Accuracy:  0.875


In [65]:
# Confusion matrix
from sklearn.metrics import confusion_matrix
conf_matrix = confusion_matrix(y_test, y_pred)

precision = conf_matrix[1][1] / (conf_matrix[1][1] + conf_matrix[0][1])
recall = conf_matrix[1][1] / (conf_matrix[1][1] + conf_matrix[1][0])

print("Precision: ", precision)
print("Recall: ", recall)

print("True Positive: ", conf_matrix[1][1])
print("True Negative: ", conf_matrix[0][0])
print("False Positive: ", conf_matrix[0][1])
print("False Negative: ", conf_matrix[1][0])




Precision:  0.6
Recall:  0.6
True Positive:  3
True Negative:  25
False Positive:  2
False Negative:  2


In [68]:
# Keras Neural Network
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

model = keras.Sequential([
    layers.Dense(64, activation='relu', input_shape=[X_train.shape[1]]),
    layers.Dense(64, activation='relu'),
    layers.Dense(1, activation='sigmoid')
])

model.compile(
    optimizer='adam',
    loss='binary_crossentropy',
    metrics=['accuracy']
)

model.fit(X_train, y_train, epochs=200, batch_size=1)

model.evaluate(X_test, y_test)

y_pred = model.predict(X_test)

y_pred = [1 if x > 0.5 else 0 for x in y_pred]

accuracy = accuracy_score(y_test, y_pred)
print("Accuracy: ", accuracy)


Epoch 1/200
[1m124/124[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 1ms/step - accuracy: 0.7646 - loss: 0.5767
Epoch 2/200
[1m124/124[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.7825 - loss: 0.4355
Epoch 3/200
[1m124/124[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.8189 - loss: 0.3914
Epoch 4/200
[1m124/124[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.8378 - loss: 0.3952
Epoch 5/200
[1m124/124[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.7627 - loss: 0.3933
Epoch 6/200
[1m124/124[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.7788 - loss: 0.4143
Epoch 7/200
[1m124/124[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.8657 - loss: 0.3289
Epoch 8/200
[1m124/124[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.8500 - loss: 0.3674
Epoch 9/200
[1m124/124[0m [32