In [1]:
!pip install nltk rouge-score google-generativeai





[notice] A new release of pip is available: 25.0.1 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
!pip install bert-score





[notice] A new release of pip is available: 25.0.1 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [3]:
# === GEREKLİ KÜTÜPHANELER ===
import os
import pandas as pd
import nltk
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from rouge_score import rouge_scorer
from sentence_transformers import SentenceTransformer
from qdrant_client import QdrantClient
from sklearn.metrics.pairwise import cosine_similarity
import google.generativeai as genai
from nltk.tokenize import word_tokenize
from bert_score import score as bert_score
import time
import re

nltk.download("punkt")

  from .autonotebook import tqdm as notebook_tqdm
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\memo_\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [None]:
# === AYARLAR ===
genai.configure(api_key="") 
EMBEDDING_MODEL_NAME = "Trendyol/TY-ecomm-embed-multilingual-base-v1.2.0"
COLLECTION_NAME = "wiki_combined_trendyol"
CSV_PATH = ""
TOP_K = 10
NROWS = 499

In [6]:
# === QDRANT BAĞLANTISI ===
def connect_qdrant():
    return QdrantClient(url="http://localhost:6333", prefer_grpc=False)

qdrant_client = connect_qdrant()
embed_model = SentenceTransformer(EMBEDDING_MODEL_NAME, trust_remote_code=True)
gemini_model = genai.GenerativeModel("gemini-2.5-flash")

# === RETRIEVE ===
def retrieve_top_k(query: str, k: int = 5):
    q_emb = embed_model.encode([query], convert_to_numpy=True)[0].tolist()
    results = qdrant_client.search(
        collection_name=COLLECTION_NAME,
        query_vector=q_emb,
        limit=k,
        with_payload=True
    )
    return [
        {
            "text": hit.payload.get("original_text", ""),
            "score": hit.score
        }
        for hit in results
    ]

# === RAG PROMPT + GEMINI ===
def rag_answer_gemini(query: str) -> str:
    results = retrieve_top_k(query, k=TOP_K)
    if not results:
        return "[Bilgi bulunamadı]"

    sources_text = "\n\n".join(
        f"[{i+1}] Skor: {r['score']:.4f}\n{r['text']}"
        for i, r in enumerate(results)
    )
    prompt = (
    "Aşağıdaki kaynak metinlere dayanarak verilen soruyu Türkçe olarak açık, doğru ve mümkün olduğunca kısa bir şekilde yanıtla. "
    "Cevabında yalnızca gerekli bilgileri ver. Giriş cümlesi, kişisel yorum veya gereksiz açıklamalar ekleme.\n\n"
    f"Soru: {query}\n\n"
    f"Kaynaklar:\n{sources_text}\n\n"
    "Yanıt:"
)

    try:
        response = gemini_model.generate_content(prompt)
        return response.text.strip()
    except Exception as e:
        print(f"\n[Gemini hatası] {e}")
        return "[Model hatası]"

# === BLEU / ROUGE ===
def bleu_score(reference: str, candidate: str) -> float:
    reference_tokens = [word_tokenize(reference.lower())]
    candidate_tokens = word_tokenize(candidate.lower())
    smoothing = SmoothingFunction().method1
    return sentence_bleu(reference_tokens, candidate_tokens, smoothing_function=smoothing)

def rouge_scores(reference: str, candidate: str) -> dict:
    scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
    scores = scorer.score(reference, candidate)
    return {
        "rouge1": scores["rouge1"].fmeasure,
        "rouge2": scores["rouge2"].fmeasure,
        "rougeL": scores["rougeL"].fmeasure,
    }

def bert_score_single(reference: str, candidate: str) -> float:
    P, R, F1 = bert_score([candidate], [reference], lang="tr", rescale_with_baseline=False)
    return F1[0].item()


# === SUBJECTIVE LLM METRİKLERİ ===
def rate_subjective_metrics(question: str, answer: str) -> dict:
    prompt = (
        "Aşağıda verilen soru ve cevabı değerlendir.\n"
        "Her bir kriter için 0 ile 100 arasında bir puan ver:\n"
        "- Doğruluk (Factuality)\n"
        "- Tutarlılık (Consistency)\n"
        "- Eksiksizlik (Completeness)\n"
        "- Konuya Uygunluk (Relevance)\n"
        "- Halüsinasyon (Hallucination - yüksekse kötü)\n\n"
        f"Soru: {question}\n\n"
        f"Cevap: {answer}\n\n"
        "Her kriteri ayrı satıra yaz. Şu formatı takip et:\n"
        "Factuality: x\nConsistency: x\nCompleteness: x\nRelevance: x\nHallucination: x"
    )

    try:
        response = gemini_model.generate_content(prompt)
        scores = {}
        for line in response.text.strip().splitlines():
            if ':' in line:
                k, v = line.split(':', 1)
                match = re.search(r"\d+(\.\d+)?", v)
                if match:
                    scores[k.strip()] = float(match.group())
        return scores
    except Exception as e:
        print(f"\n[LLM skorlama hatası] {e}")
        return {}

# === DEĞERLENDİRME DÖNGÜSÜ ===
def evaluate_llm_generation(df: pd.DataFrame):
    bleu_total = rouge1_total = rouge2_total = rougeL_total = bert_total = 0
    fact_total = cons_total = comp_total = rel_total = hall_total = 0
    count = 0

    for _, row in df.iterrows():
        question = row["question"]
        ground_truth = row["answer"]

        answer = rag_answer_gemini(question)
        bleu = bleu_score(ground_truth, answer)
        rouge = rouge_scores(ground_truth, answer)
        bert = bert_score_single(ground_truth, answer)
        subjective = rate_subjective_metrics(question, answer)

        print(f"\n📙 Soru: {question}")
        print(f"GT: {ground_truth}\nYANIT: {answer}")
        print(f"BLEU: {bleu:.4f} | ROUGE-1: {rouge['rouge1']:.4f} | ROUGE-2: {rouge['rouge2']:.4f} | ROUGE-L: {rouge['rougeL']:.4f} | BERTScore: {bert:.4f}")
        print(f"Subjective: {subjective}")

        bleu_total += bleu
        rouge1_total += rouge["rouge1"]
        rouge2_total += rouge["rouge2"]
        rougeL_total += rouge["rougeL"]
        bert_total += bert
        fact_total += subjective.get("Factuality", 0)
        cons_total += subjective.get("Consistency", 0)
        comp_total += subjective.get("Completeness", 0)
        rel_total += subjective.get("Relevance", 0)
        hall_total += subjective.get("Hallucination", 0)
        count += 1
        time.sleep(1.2)  # rate limit önlemi

    print("\n===== 📊 ORTALAMA METRİKLER =====")
    print(f"BLEU: {bleu_total / count:.4f}")
    print(f"ROUGE-1: {rouge1_total / count:.4f}")
    print(f"ROUGE-2: {rouge2_total / count:.4f}")
    print(f"ROUGE-L: {rougeL_total / count:.4f}")
    print(f"BERTScore: {bert_total / count:.4f}")
    print(f"Factuality: {fact_total / count:.2f} | Consistency: {cons_total / count:.2f} | Completeness: {comp_total / count:.2f} | Relevance: {rel_total / count:.2f} | Hallucination: {hall_total / count:.2f}")

  return QdrantClient(url="http://localhost:6333", prefer_grpc=False)
    PyTorch 2.0.1+cu118 with CUDA 1108 (you have 2.7.1+cpu)
    Python  3.10.11 (you have 3.10.11)
  Please reinstall xformers (see https://github.com/facebookresearch/xformers#installing-xformers)
  Memory-efficient attention, SwiGLU, sparse and more won't be available.
  Set XFORMERS_MORE_DETAILS=1 for more details
  def forward(cls, ctx, x, w1, b1, w2, b2, w3, b3):
  def backward(cls, ctx, dx5):


In [7]:
# === ANA FONKSİYON ===
if __name__ == "__main__":
    df = pd.read_csv(CSV_PATH, nrows=NROWS)
    evaluate_llm_generation(df)

  results = qdrant_client.search(



📙 Soru: Metne göre, günümüzdeki "ekonomi" kavramının yaygınlaşmasında hangi tarihi olayın etkisi olmuştur?
GT: Metne göre, çağdaş "ekonomi" kavramının popülerleşmesinde 1930'lardaki Amerika'daki Büyük Buhran etkili olmuştur.
YANIT: Metne göre, günümüzdeki "ekonomi" kavramının bir devletin vatandaşlarının ekonomik faaliyetlerinin konusu olarak "ulusal ekonomi" anlamında yaygınlaşmasında Sanayi Devrimi'nin etkisi olmuştur.
BLEU: 0.1458 | ROUGE-1: 0.3103 | ROUGE-2: 0.2143 | ROUGE-L: 0.3103 | BERTScore: 0.7087
Subjective: {'Factuality': 95.0, 'Consistency': 100.0, 'Completeness': 100.0, 'Relevance': 100.0, 'Hallucination': 10.0}

📙 Soru: Metne göre, ulaşım gelişen bir teknoloji olmasına rağmen hangi bölgelerde hâlâ sorun olmaya devam etmektedir?
GT: Metne göre, ulaşım gelişen bir teknoloji olmasına rağmen başta gelişmemiş ülkeler ve kırsal bölgeler gibi yerlerde hâlâ sorun olmaya devam etmektedir.
YANIT: Metne göre, ulaşım gelişen bir teknoloji olmasına rağmen başta gelişmemiş ülkeler ve 