In [None]:
# Hugging Face Transformers ve Sentence-BERT için
!pip install transformers
!pip install sentence-transformers

# Graph tabanlı işlemler için NetworkX
!pip install networkx

# OpenAI API için
!pip install openai==0.27.8


# Veri işleme için Pandas ve NumPy
!pip install pandas numpy

# BLEU, F1 gibi metrikleri hesaplamak için scikit-learn
!pip install scikit-learn

# Gerekirse veri temizleme için NLTK
!pip install nltk




In [None]:
from sentence_transformers import SentenceTransformer

# Embedding modeli yükleme
embedding_model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

# Basit test
test_sentence = "Merhaba! Bu, embedding testidir."
embedding = embedding_model.encode(test_sentence)

print(f"Embedding boyutu: {len(embedding)}")
print(f"Embedding örneği: {embedding[:5]}")  # İlk 5 değerini yazdırma


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


Embedding boyutu: 384
Embedding örneği: [-0.10186581  0.26830584 -0.0162548   0.09365004 -0.05718497]


In [None]:
# Modülleri import etme
from sentence_transformers import SentenceTransformer
import networkx as nx
import pandas as pd
import numpy as np
import openai
from sklearn.metrics.pairwise import cosine_similarity
import os

# Veri setini yükleme
file_path = "/content/sample_data/final_train_data_v2.json"  # JSON dosyanızın yolu
data = pd.read_json(file_path)

# Veri setindeki bağlamları ve soruları ayıklama
contexts = []
qas = []

for entry in data["data"]:
    for paragraph in entry["paragraphs"]:
        context = paragraph["context"]
        contexts.append(context)
        for qa in paragraph["qas"]:
            qas.append({"question": qa["question"], "answer": qa["answers"][0]["text"], "context": context})

# DataFrame oluşturma
qa_df = pd.DataFrame(qas)

In [None]:
embedding_file = "context_embeddings.npy"
context_file = "contexts.npy"

# Embedding işlemini kontrol et ve yükle/kaydet
if os.path.exists(embedding_file) and os.path.exists(context_file):
    print("Embedding dosyaları mevcut, yükleniyor...")
    context_embeddings = np.load(embedding_file)
    contexts = np.load(context_file, allow_pickle=True).tolist()
else:
    print("Embedding dosyaları bulunamadı, oluşturuluyor...")
    context_embeddings = embedding_model.encode(contexts, convert_to_tensor=False)
    np.save(embedding_file, context_embeddings)
    np.save(context_file, contexts)
    print(f"Embedding'ler {embedding_file} ve {context_file} dosyalarına kaydedildi.")


Embedding dosyaları mevcut, yükleniyor...


In [None]:
# Graph tabanlı yapı oluşturma
graph = nx.Graph()

# Bağlamları düğüm olarak ekleme
for i, context in enumerate(contexts):
    graph.add_node(i, context=context, embedding=context_embeddings[i])

# Bağlamlar arasındaki benzerliklere dayalı olarak kenarları ekleme
similarity_threshold = 0.7  # Eşik değer
for i in range(len(contexts)):
    for j in range(i + 1, len(contexts)):
        similarity = cosine_similarity(
            context_embeddings[i].reshape(1, -1),
            context_embeddings[j].reshape(1, -1),
        )[0][0]
        if similarity > similarity_threshold:
            graph.add_edge(i, j, weight=similarity)

In [10]:
import openai
# OpenAI API ayarları
openai.api_key = ""

# Graph tabanlı retriever ve GPT entegrasyonu
def query_system(query):
    # Sorgu embedding'ini oluşturma
    query_embedding = embedding_model.encode(query, convert_to_tensor=True)

    # Graph üzerinden en benzer bağlamı bulma
    best_node = None
    max_similarity = -1
    for node, data in graph.nodes(data=True):
        similarity = cosine_similarity(
            query_embedding.reshape(1, -1),
            data["embedding"].reshape(1, -1),
        )[0][0]
        if similarity > max_similarity:
            max_similarity = similarity
            best_node = node

    if best_node is not None:
        best_context = graph.nodes[best_node]["context"]
    else:
        best_context = "Bu soruya uygun bir bağlam bulunamadı."

    # GPT-3.5 ile cevap üretme (Yeni API formatında)
    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",
        messages=[
            {"role": "system", "content": "Kısa ve bağlama uygun cevaplar ver."},
            {"role": "user", "content": f"Bağlam: {best_context}\nSoru: {query}\nCevap:"}
        ],
        max_tokens=50,
        temperature=0.7,
    )
    return response["choices"][0]["message"]["content"].strip()


In [12]:
query = "Tesla hangi yıl ölmüştür?"
print("Sistem Cevabı:", query_system(query))

Sistem Cevabı: Tesla, 7 Ocak 1943 tarihinde ölmüştür.


In [14]:
query = "Tesla hayatının çoğunda nerede yaşamıştır?"
print("Sistem Cevabı:", query_system(query))

Sistem Cevabı: Tesla, hayatının çoğunu ve emekliliği boyunca bir dizi New York otellerinde yaşamıştır.


In [15]:
query = "Marconi'nin radyo gösterisi ne zamandı?"
print("Sistem Cevabı:", query_system(query))

Sistem Cevabı: Guglielmo Marconi'nin ilk transatlantik radyo yayını gösterisi 1901 yılında gerçekleşti.


In [19]:

query = "Luther'in yazmaları Fransa, İngiltere ve İtalya'ya ne zaman yayıldı?"
print("Sistem Cevabı:", query_system(query))

Sistem Cevabı: Luther'in yazmaları Fransa, İngiltere ve İtalya'ya 1519 yılında yayıldı.


In [20]:
import openai
# OpenAI API ayarları
openai.api_key = "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"

# Graph tabanlı retriever ve GPT entegrasyonu
def query_system(query):
    # Sorgu embedding'ini oluşturma
    query_embedding = embedding_model.encode(query, convert_to_tensor=True)

    # Graph üzerinden en benzer bağlamı bulma
    best_node = None
    max_similarity = -1
    for node, data in graph.nodes(data=True):
        similarity = cosine_similarity(
            query_embedding.reshape(1, -1),
            data["embedding"].reshape(1, -1),
        )[0][0]
        if similarity > max_similarity:
            max_similarity = similarity
            best_node = node

    if best_node is not None:
        best_context = graph.nodes[best_node]["context"]
    else:
        best_context = "Bu soruya uygun bir bağlam bulunamadı."

    # GPT-3.5 ile cevap üretme (Yeni API formatında)
    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",
        messages=[
            {"role": "system", "content": "Kısa ve bağlama uygun tek kelimelik cevaplar ver."},
            {"role": "user", "content": f"Bağlam: {best_context}\nSoru: {query}\nCevap:"}
        ],
        max_tokens=50,
        temperature=0.7,
    )
    return response["choices"][0]["message"]["content"].strip()


In [21]:
query = "Luther'in yazmaları Fransa, İngiltere ve İtalya'ya ne zaman yayıldı?"
print("Sistem Cevabı:", query_system(query))

Sistem Cevabı: 1519


In [None]:
import random
from sklearn.metrics import f1_score
from nltk.translate.bleu_score import sentence_bleu
from sklearn.metrics import accuracy_score

# Gerekli kütüphaneleri yükleyin (eğer yüklenmediyse)
!pip install nltk
!pip install scikit-learn

# NLTK ayarları
import nltk
nltk.download('punkt')

# Rastgele 10 soru seçme
random_questions = qa_df.sample(n=10, random_state=42)

# Tahminler ve gerçek cevaplar için liste
predictions = []
true_answers = []

# Tahminleri toplama
for idx, row in random_questions.iterrows():
    query = row["question"]
    true_answer = row["answer"]
    true_answers.append(true_answer)

    # Sistemin tahmini
    predicted_answer = query_system(query)
    predictions.append(predicted_answer)

In [24]:
import nltk
import os

# NLTK veri indirme
nltk_data_path = "/usr/local/share/nltk_data"
if not os.path.exists(nltk_data_path):
    os.makedirs(nltk_data_path)

nltk.data.path.append(nltk_data_path)

# Gerekli verileri indir
nltk.download('punkt', download_dir=nltk_data_path)
nltk.download('wordnet', download_dir=nltk_data_path)
nltk.download('omw-1.4', download_dir=nltk_data_path)


[nltk_data] Downloading package punkt to /usr/local/share/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package wordnet to
[nltk_data]     /usr/local/share/nltk_data...
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     /usr/local/share/nltk_data...


True

In [27]:
# SacreBLEU'yu yükleme
!pip install sacrebleu

# SacreBLEU kullanarak BLEU skorunu hesaplama
import sacrebleu


# SacreBLEU ile hesaplama
bleu_score = sacrebleu.corpus_bleu(predictions, [true_answers])

# BLEU skorunu yazdırma
print("SacreBLEU Skoru:", bleu_score.score)


Collecting sacrebleu
  Downloading sacrebleu-2.5.1-py3-none-any.whl.metadata (51 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/51.8 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m51.8/51.8 kB[0m [31m2.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting portalocker (from sacrebleu)
  Downloading portalocker-3.1.1-py3-none-any.whl.metadata (8.6 kB)
Collecting colorama (from sacrebleu)
  Downloading colorama-0.4.6-py2.py3-none-any.whl.metadata (17 kB)
Downloading sacrebleu-2.5.1-py3-none-any.whl (104 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m104.1/104.1 kB[0m [31m4.7 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading colorama-0.4.6-py2.py3-none-any.whl (25 kB)
Downloading portalocker-3.1.1-py3-none-any.whl (19 kB)
Installing collected packages: portalocker, colorama, sacrebleu
Successfully installed colorama-0.4.6 portalocker-3.1.1 sacrebleu-2.5.1
SacreBLEU Skoru: 12.522267138734422


In [28]:
# SacreBLEU'yu yükleme
!pip install sacrebleu

# Gerekli kütüphaneler
import sacrebleu
from sklearn.metrics import accuracy_score, precision_recall_fscore_support


# BLEU skoru hesaplama (SacreBLEU ile)
bleu_score = sacrebleu.corpus_bleu(predictions, [true_answers])

# Exact Match Skoru hesaplama
exact_match_score = accuracy_score(true_answers, predictions)

# F1 Skoru hesaplama
def calculate_f1_score(references, predictions):
    f1_scores = []
    for ref, pred in zip(references, predictions):
        ref_tokens = set(ref.split())
        pred_tokens = set(pred.split())
        common = ref_tokens & pred_tokens
        if len(common) == 0:
            f1_scores.append(0)
        else:
            precision = len(common) / len(pred_tokens)
            recall = len(common) / len(ref_tokens)
            f1_scores.append(2 * (precision * recall) / (precision + recall))
    return sum(f1_scores) / len(f1_scores)

average_f1_score = calculate_f1_score(true_answers, predictions)

# Sonuçları yazdırma
print("SacreBLEU Skoru:", bleu_score.score)
print("Exact Match Skoru:", exact_match_score)
print("Ortalama F1 Skoru:", average_f1_score)


SacreBLEU Skoru: 12.522267138734422
Exact Match Skoru: 0.0
Ortalama F1 Skoru: 0.14734848484848484


In [30]:
# Rouge-score kütüphanesini yükleme
!pip install rouge-score

# Gerekli modül
from rouge_score import rouge_scorer

# ROUGE hesaplama fonksiyonu
def calculate_rouge(references, predictions):
    scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
    rouge_scores = {'rouge1': [], 'rouge2': [], 'rougeL': []}

    for ref, pred in zip(references, predictions):
        scores = scorer.score(ref, pred)
        rouge_scores['rouge1'].append(scores['rouge1'].fmeasure)
        rouge_scores['rouge2'].append(scores['rouge2'].fmeasure)
        rouge_scores['rougeL'].append(scores['rougeL'].fmeasure)

    # Ortalama ROUGE skorlarını hesaplama
    avg_rouge1 = sum(rouge_scores['rouge1']) / len(rouge_scores['rouge1'])
    avg_rouge2 = sum(rouge_scores['rouge2']) / len(rouge_scores['rouge2'])
    avg_rougeL = sum(rouge_scores['rougeL']) / len(rouge_scores['rougeL'])

    return avg_rouge1, avg_rouge2, avg_rougeL

Collecting rouge-score
  Downloading rouge_score-0.1.2.tar.gz (17 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: rouge-score
  Building wheel for rouge-score (setup.py) ... [?25l[?25hdone
  Created wheel for rouge-score: filename=rouge_score-0.1.2-py3-none-any.whl size=24935 sha256=b0aefef08fb3b92df272d9fe29c03c3fae994c770bf1d1f1bdd38bf425e5ea2f
  Stored in directory: /root/.cache/pip/wheels/1e/19/43/8a442dc83660ca25e163e1bd1f89919284ab0d0c1475475148
Successfully built rouge-score
Installing collected packages: rouge-score
Successfully installed rouge-score-0.1.2


In [31]:
# ROUGE skorlarını hesaplama
avg_rouge1, avg_rouge2, avg_rougeL = calculate_rouge(true_answers, predictions)

# Sonuçları yazdırma
print("Ortalama ROUGE-1 Skoru:", avg_rouge1)
print("Ortalama ROUGE-2 Skoru:", avg_rouge2)
print("Ortalama ROUGE-L Skoru:", avg_rougeL)

Ortalama ROUGE-1 Skoru: 0.36384948384948385
Ortalama ROUGE-2 Skoru: 0.2331746031746032
Ortalama ROUGE-L Skoru: 0.36384948384948385
