In [None]:
## 🔹 BABOK + RAG + Gemini tabanlı Business Requirement Chatbot
# ==============================================================
## 🎯 Projenin Amacı

# Bu proje, iş analizi sürecinde gereksinimlerin tanımlanması, sınıflandırılması ve önceliklendirilmesini otomatikleştirmek için geliştirilmiştir.
# Geleneksel olarak saatler süren gereksinim dokümantasyonu artık birkaç saniye içinde otomatik üretilmektedir.

# Sistem:
# Veri temelli (RAG destekli),
# Uluslararası standartlara uygun (BABOK),
# Ölçeklenebilir (ChromaDB + Gemini),
# Ve kullanıcı dostu (Gradio arayüzü) bir çözümdür.

# Yapay zekâ ve veri tabanı tekniklerini bir araya getirerek, kullanıcıdan alınan proje açıklamasına göre:
# Gereksinimin Functional (işlevsel) mi yoksa Non-Functional (işlevsel olmayan) mı olduğunu tahmin eder,
# BABOK (Business Analysis Body of Knowledge) standartlarına göre gereksinim dokümanı üretir,
# Gereksinimlerin önemini RICE ve WSJF gibi metriklerle önceliklendirir,
# Kullanıcıya kolay ve interaktif bir arayüz sunar.
# Kısaca bu chatbot, bir iş analistinin yaptığı “gereksinim çıkarımı, analizi ve dokümantasyon” sürecini kısmen otomatikleştirir.
# --------------------------------------------------------------
## 1️⃣ Ortam Değişkeni ve API Anahtarı
# Bu bölümde gerekli kütüphaneler yüklenir, ortam değişkenleri tanımlanır ve Google Gemini API’si yapılandırılır.
# Gemini, Google’ın büyük dil modeli (LLM) olup, bu projede gereksinim üretmek ve doğal dil işlemede kullanılır.
# --------------------------------------------------------------
!pip install -q chromadb sentence-transformers google-generativeai python-dotenv gradio pandas
!pip install -q sentence-transformers==2.2.2 transformers==4.41.2 huggingface_hub==0.22.2
import re
import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"
import pandas as pd
import gradio as gr
from dotenv import load_dotenv
load_dotenv()  
import google.generativeai as genai
GEMINI_API_KEY = os.getenv("GOOGLE_API_KEY") # Bu kod, Gemini API’ye bağlanmayı sağlar.

genai.configure(api_key="AIzaSyCuw97w5GcuQcvMyiyVJfma2tKslsjOC-M")

os.environ["TOKENIZERS_PARALLELISM"] = "false"
# resolve_gen_model() fonksiyonu mevcut modelleri kontrol ederek en güncel ve uygun Gemini sürümünü otomatik seçer.Bu sayede model değişse bile kodun bozulmadan çalışması sağlanır.
def resolve_gen_model(preferred=("gemini-1.5-flash-latest", 
                                 "gemini-1.5-flash-001",
                                 "gemini-1.5-flash",
                                 "gemini-1.5-pro-latest",
                                 "gemini-1.5-pro")) -> str:
    try:
        models = list(genai.list_models())
        def supports(m):
            methods = getattr(m, "supported_generation_methods", None) or []
            methods = [x.lower() for x in methods]
            return ("generatecontent" in "".join(methods)) or ("generate_content" in methods)
        available = {m.name for m in models if supports(m)}
        for cand in preferred:
            if cand in available:
                return cand
            pref_with_prefix = f"models/{cand}" if not cand.startswith("models/") else cand
            if pref_with_prefix in available:
                return pref_with_prefix
        if available:
            return sorted(available)[0]
    except Exception:
        pass
    return "gemini-1.5-flash-latest"

GEN_MODEL = resolve_gen_model()
EMBED_MODEL = "models/text-embedding-004"  # bazı SDK'larda 'text-embedding-004' de çalışır

# --------------------------------------------------------------
## 2️⃣ Veri Seti: PURE Annotate Dataset
# Bu aşamada, sistemin “gereksinim cümlelerini” öğrenmesi için Kaggle’daki Public Requirements PURE Dataset kullanılmıştır.
# Dataset’te her satır, bir iş gereksinimini temsil eder (örneğin “System shall encrypt user data.”).
# Bazı gereksinimler işlevseldir (Functional), bazıları ise kalite, güvenlik veya performans gibi konulara ait olup İşlevsel Olmayan (Non-Functional) olarak etiketlenmiştir.
# --------------------------------------------------------------
kaggle_path = "/kaggle/input/public-requirementspure-dataset/Pure_Annotate_Dataset.csv"
local_path  = "/mnt/data/Pure_Annotate_Dataset.csv"

if os.path.exists(kaggle_path):
    df = pd.read_csv(kaggle_path, encoding="latin1")
elif os.path.exists(local_path):
    df = pd.read_csv(local_path, encoding="latin1")
else:
    # Yedek (etiketsiz) örnekler: hepsini heuristikle etiketleyeceğiz.
    df = pd.DataFrame({
        "sentence": [
            "Bankacılık uygulamasında müşteri verisi gizliliği sağlanmalıdır ve tüm erişimler loglanmalıdır",
            "Sistem yoğun saatte saniyede en az bin işlem sağlamalıdır ve gecikme iki yüz milisaniyeyi aşmamalıdır",
            "Raporlama modülü PDF ve CSV dışa aktarımı desteklemeli, planlı rapor gönderimi sunmalıdır",
            "Rol tabanlı erişim kontrolü uygulanmalı ve yetkiler merkezi olarak yönetilmelidir",
            "Yedekleme günlük, otomatik ve şifreli yapılmalı; kurtarma testi aylık tekrarlanmalıdır",
            "API için hız sınırlaması uygulanmalı ve hatalı girişte ayrıntı sızdırılmamalıdır",
            "Kullanıcı arayüzü mobil uyumlu olmalı ve erişilebilirlik standartlarına uymalıdır",
            "Ödeme altyapısı PCI-DSS ile uyumlu olmalı ve kart verisi tokenleştirilmelidir",
            "Hata mesajları kullanıcı dostu olmalı; teknik ayrıntılar yalnızca loglarda yer almalıdır",
            "Loglar en az bir yıl boyunca güvenli bir depoda saklanmalıdır"
        ]
    })

# Temizlik + NFR etiketi
df["sentence"] = df["sentence"].astype(str)
df_clean = df[df["sentence"].str.split().str.len() >= 5].drop_duplicates(subset="sentence").copy()

# Eğer veri setinde NFR_boolean varsa onu kullan; yoksa heuristikten üret
if "NFR_boolean" in df_clean.columns:
    df_clean["nfr"] = df_clean["NFR_boolean"].fillna(0).astype(int)
else:
    # Basit heuristik: kalite öznitelikleri => NFR
    nfr_pat = r"(güvenlik|şifreleme|kvkk|gdpr|pci[- ]?dss|iso\s*27001|erişilebilirlik|uyumluluk|regülasyon|mevzuat|performans|gecikme|latency|throughput|yüksek erişilebilirlik|yedekleme|disaster|rto|rpo|log(la|)|izleme|availability|scal(e|)|ölçeklen|waf|rate[- ]?limit|sızma)"
    df_clean["nfr"] = df_clean["sentence"].str.lower().str.contains(nfr_pat).astype(int)

sample_df = df_clean.sample(n=min(300, len(df_clean)), random_state=42)
kb = sample_df[["sentence", "nfr"]].reset_index(drop=True).rename(columns={"sentence": "text"})
kb["id"] = kb.index.astype(str)
kb = kb[["id", "text", "nfr"]]
print(f"✅ Temizlenmiş veri boyutu: {kb.shape}")

# --------------------------------------------------------------
## 3️⃣ Embedding (Gemini ile)
# Her bir gereksinim cümlesi Gemini’nin embedding modeli ile sayısal vektöre dönüştürülür.
# Bu vektörler, gereksinimler arasındaki benzerliği bulmakta kullanılır.
# Örneğin:
# “Sistem verileri şifrelemelidir.”
# “Kullanıcı bilgileri güvenli şekilde saklanmalıdır.”
# Bu iki cümle birbirine anlamca yakın olduğu için embedding uzayında birbirine yakın noktalar olarak temsil edilir.
# --------------------------------------------------------------
def embed_texts(texts, batch_size=32):
    vecs = []
    for i in range(0, len(texts), batch_size):
        for t in texts[i:i+batch_size]:
            emb = genai.embed_content(model=EMBED_MODEL, content=t)
            vecs.append(emb["embedding"])
    return vecs

# --------------------------------------------------------------
# 4️⃣ ChromaDB Knowledge Base
# Bu bölümde, az önce oluşturulan gereksinim vektörleri ChromaDB adlı bir vektör veri tabanında saklanır.
# ChromaDB, metinleri depolarken aynı zamanda benzerlik aramaları (semantic search) yapmamıza olanak tanır.
# ChromaDB, RAG mimarisinin Retrieval kısmında kullanılır.
# --------------------------------------------------------------
import chromadb
from chromadb.config import Settings

client = chromadb.PersistentClient(path="./chroma_db", settings=Settings(anonymized_telemetry=False)) # Bu, verileri diske kaydeder, böylece yeniden çalıştırıldığında bilgi tabanı kaybolmaz.
try:
    collection = client.get_collection("requirements_kb") #“requirements_kb” adında bir koleksiyon (bilgi tabanı) oluşturulur.
except Exception:
    collection = client.create_collection(name="requirements_kb", metadata={"hnsw:space": "cosine"})

try:
    collection.delete(where={})
except Exception:
    pass

print("🔎 Bilgi tabanı için embedding hesaplanıyor (Gemini)...")
kb_embeddings = embed_texts(kb["text"].tolist(), batch_size=32)
# Dataset’ten elde edilen embedding vektörleri bu koleksiyona eklenir.
collection.add(
    ids=kb["id"].tolist(),
    documents=kb["text"].tolist(),
    embeddings=kb_embeddings,
    metadatas=[{"nfr": int(v)} for v in kb["nfr"].tolist()]
)
# Sonuçta elimizde, her gereksinim cümlesinin sayısal temsiline (embedding) göre aranabildiği bir bilgi tabanı olur.
# Bu sayede kullanıcı yeni bir proje açıklaması yazdığında, sistem bu bilgi tabanından benzer gereksinimleri bulup bağlamsal olarak kullanabilir.
# --------------------------------------------------------------
## 5️⃣ BABOK Uyumlu Prompt
# Burada modelin nasıl yanıt üreteceği “prompt” ile belirlenir.
# Prompt içinde BABOK (Business Analysis Body of Knowledge) standartlarına uygun biçimde bir gereksinim çıktısı şablonu tanımlanır.
# modelden şu alanları doldurması istenir:

#Gereksinim Türü (Business / Stakeholder / Solution / Transition)
#Gereksinim Doğası (Functional veya Non-Functional)
#Gerekçe (Rationale)
#Business Value
#Stakeholders
#Acceptance Criteria
#MoSCoW önceliklendirmesi (Must/Should/Could/Won’t)
#Kano modeli sınıfı
#Cost of Delay yorumu

# Bu yapının amacı, LLM’den sadece serbest metin almak yerine, iş analizi formatına uygun, yapısal ve ölçülebilir gereksinim çıktıları almak.
# Ayrıca sistem, kullanıcının cümlesindeki ipuçlarına göre gereksinimi otomatik olarak Functional veya Non-Functional olarak sınıflandırır.
# Bu sınıflandırma hem kelime temelli (heuristik) hem de embedding benzerliğiyle yapılır.
# Yani sadece kelimelere değil, cümlenin anlamına da bakar.
# --------------------------------------------------------------
import re

# --- Functional / Non-Functional tetikleyicileri ---
FN_TRIGGERS = r"(oluştur|kaydet|göster|listele|arama|güncelle|sil|ihraç|dışa aktar|içe aktar|onayla|doğrula|entegr(e|a)|yönlendir|bildir|planla|kapat|aç|tanımla|başlat|bitir|işleme al|işlet)"
NF_TRIGGERS = r"(güvenlik|şifreleme|mfa|kvkk|gdpr|pci[- ]?dss|iso\s*27001|erişilebilirlik|uyumluluk|regülasyon|mevzuat|performans|gecikme|latency|throughput|qps|rps|ölçeklen|availability|yüksek erişilebilirlik|yedekleme|disaster|kurtarma|rto|rpo|log(la|)|izleme|audit|rate[- ]?limit|waf|sızma|hata mesajı|kullanılabilirlik|stabilite|güvenirlik|reliability)"

# --- Heuristik + komşu oyu ile F/NF sınıflandırma ---
# Heuristik Analiz:
# Anahtar kelimelerle (ör. performans, güvenlik, kaydet, sil) Functional / Non-Functional kararını verir.
# Komşuluk Analizi:
# Kullanıcı cümlesi embedding’e dönüştürülür ve ChromaDB’deki en yakın komşuların NFR ortalaması hesaplanır.

#Birleştirme:
#Eğer heuristik kararsızsa, embedding temelli komşuluk sonucu kullanılır.
def classify_fnf(user_query: str, top_k: int = 5) -> str:
    text = (user_query or "").lower()

    # 1) Heuristik kısa devre
    if re.search(NF_TRIGGERS, text):
        heuristic = 1
    elif re.search(FN_TRIGGERS, text):
        heuristic = 0
    else:
        heuristic = -1  # kararsız

    # 2) Embedding komşuları üzerinden çoğunluk oyu (NFR ortalaması)
    try:
        q_emb = genai.embed_content(model=EMBED_MODEL, content=user_query)["embedding"]
        results = collection.query(query_embeddings=[q_emb], n_results=max(1, min(top_k, 10)))
        metas = results.get("metadatas", [[]])[0] if results else []
        votes = [int(m.get("nfr", 0)) for m in metas]
        neighbor_score = (sum(votes) / len(votes)) if votes else 0.0
    except Exception:
        neighbor_score = 0.0

    # 3) Birleştir: heuristik ağır basar; değilse komşular
    if heuristic == 1:
        return "Non-Functional"
    if heuristic == 0:
        return "Functional"
    return "Non-Functional" if neighbor_score >= 0.5 else "Functional"

# --- BABOK uyumlu çıktı üreten prompt ---
def generate_babok_prompt(user_query, retrieved_docs, fnf_label: str):
    docs_text = "\n".join([f"- {doc}" for doc in retrieved_docs])
    prompt = f"""Kullanıcının proje açıklaması: "{user_query}"

Benzer gereksinim örnekleri:
{docs_text}

Bu proje açıklaması için varsayılan gereksinim doğası: **{fnf_label}**.
Üreteceğin her gereksinimde bunu DOLDUR (Functional veya Non-Functional).

BABOK (Business Analysis Body of Knowledge) standartlarına göre gereksinim önerileri üret.
Her gereksinim için AŞAĞIDAKİ alanları eksiksiz doldur:

────────────────────────────
**Gereksinim Türü:** (Business / Stakeholder / Solution / Transition)
**Gereksinim Doğası (F/NF):** (Functional veya Non-Functional)
**Gereksinim:** ...
**Rationale (Gerekçe):** ...
**Business Value:** ...
**Stakeholders (Etkilenen Paydaşlar):** ...
**Acceptance Criteria:** ... (ölçülebilir ve test edilebilir)
Ayrıca her gereksinim için şunları da öner:
- MoSCoW: Must/Should/Could/Won't (kısa neden)
- Impact (1-5), Effort (1-5), Risk (1-5)
- Kano sınıfı: Temel / Performans / Heyecan (1 cümle gerekçe)
- Cost of Delay’e kısa yorum (varsa regülasyon/güvenlik vurgula)
────────────────────────────

Yanıtı Türkçe olarak oluştur. Kısa, net ve ölçülebilir kabul kriterleri ver.
Öncelikleri MoSCoW (Must/Should/Could/Won't) ile belirt.
"""
    return prompt
# --------------------------------------------------------------
## 6️⃣ Gereksinim Önceliklendirme Modülü
# İş analistlerinin en zor görevlerinden biri: hangi gereksinimin öncelikli olduğunu belirlemektir.
# Bu bölümde, sistem kullanıcıdan gelen gereksinimi analiz ederek RICE ve WSJF skorları hesaplar.
# Kısaca:

#RICE = (Reach × Impact × Confidence) / Effort
#WSJF = (Business Value + Time Criticality + Risk Reduction) / Job Size
#Kod, gereksinimdeki anahtar kelimelere göre etki, risk ve iş yükünü tahmin eder.

#Örneğin:

#Eğer metinde “güvenlik”, “şifreleme”, “regülasyon” gibi kelimeler varsa → Risk ve Etki yüksek atanır.

#Performans veya ölçeklenebilirlik vurgusu varsa → Impact artar.

#Bu sinyallerle otomatik skorlar hesaplanır.

#Sonuç: Kullanıcı yalnızca kısa bir proje cümlesi yazsa bile, sistem arka planda onun önceliklendirilmiş gereksinim analizini çıkarır.
# --------------------------------------------------------------

KEYS = {
    "security": r"(güvenlik|mfa|şifreleme|pci[- ]?dss|gdpr|iso\s*27001|yetki|rol|erişim|token|sızma|waf)",
    "perf": r"(performans|gecikme|lat(ency)?|ölçeklen|throughput|qps|rps|benchmark)",
    "compliance": r"(uyumluluk|regülasyon|mevzuat|kvkk|gdpr|sox|hipaa)",
    "availability": r"(yedekleme|yüksek erişilebilirlik|ha|disaster|kurtarma|rto|rpo)"
}

def heuristic_signals(text: str): #Metindeki anahtar kelimelere göre risk ve etki puanı çıkarır.
    t = text.lower()
    sig = {
        "is_security": 1 if re.search(KEYS["security"], t) else 0,
        "is_perf": 1 if re.search(KEYS["perf"], t) else 0,
        "is_compliance": 1 if re.search(KEYS["compliance"], t) else 0,
        "is_availability": 1 if re.search(KEYS["availability"], t) else 0,
    }
    sig["risk_hint"] = 5 if (sig["is_security"] or sig["is_compliance"]) else 3 if sig["is_availability"] else 2
    sig["impact_hint"] = 4 if (sig["is_perf"] or sig["is_security"]) else 3
    return sig

def score_rice(reach:int, impact:float, confidence:float, effort:float) -> float:
    confidence = max(0.1, min(confidence, 1.0))
    effort = max(0.1, effort)
    return (reach * impact * confidence) / effort

def score_wsjf(business_value:int, time_criticality:int, risk_reduction:int, job_size:float) -> float:
    cod = business_value + time_criticality + risk_reduction
    job_size = max(0.1, job_size)
    return cod / job_size

def enrich_with_priorities(req_text: str):
    sig = heuristic_signals(req_text)
    reach = 100 if sig["impact_hint"] >= 4 else 50
    impact = 2.0 if sig["impact_hint"] >= 4 else 1.0
    confidence = 0.7
    effort = 3.0 if sig["is_security"] else 2.0
    rice = score_rice(reach, impact, confidence, effort)

    business_value = 5 if sig["impact_hint"] >= 4 else 3
    time_criticality = sig["risk_hint"]
    risk_reduction = 4 if sig["is_security"] or sig["is_compliance"] else 2
    job_size = 3.0 if sig["is_security"] else 2.0
    wsjf = score_wsjf(business_value, time_criticality, risk_reduction, job_size)

    return {"RICE": round(rice, 2), "WSJF": round(wsjf, 2),
            "Risk": sig["risk_hint"], "Impact": sig["impact_hint"]}

# --------------------------------------------------------------
## 7️⃣ RAG Pipeline
# Bu aşama projenin beyni sayılabilir.
# RAG mimarisi, iki aşamadan oluşur:

# Retrieval (Bilgi Getirme):
# Kullanıcının sorgusu embedding’e dönüştürülür ve ChromaDB içinde benzer gereksinimler aranır.
# Böylece model, ilgili gerçek bilgilerle desteklenir.

# Generation (İçerik Üretme):
# Bulunan belgeler, modelin “hafızasına” verilerek daha isabetli ve bağlamlı bir yanıt üretilmesi sağlanır.

# Sonuç olarak model hem veriye dayalı hem de yaratıcı bir şekilde yanıt üretir.
# Bu yaklaşım, yalnızca dil modeline dayanan sistemlerden çok daha doğru, izlenebilir ve açıklanabilir sonuçlar verir.
# --------------------------------------------------------------
def rag_response_babok(user_query, top_k=5):
    if not user_query or not user_query.strip():
        return "⚠️ Lütfen bir proje açıklaması giriniz."

    # Sorgu embedding
    q_emb = genai.embed_content(model=EMBED_MODEL, content=user_query)["embedding"]

    # Chroma sorgu
    results = collection.query(query_embeddings=[q_emb], n_results=max(1, min(top_k, 10)))
    retrieved_docs = results.get("documents", [[]])[0] if results else []
    if not retrieved_docs:
        retrieved_docs = ["Benzer örnek bulunamadı. Genel şablona göre üret."]

    # Functional / Non-Functional sınıflandır
    fnf_label = classify_fnf(user_query, top_k=top_k)

    # LLM üretim
    prompt = generate_babok_prompt(user_query, retrieved_docs, fnf_label)
    model = genai.GenerativeModel(GEN_MODEL)
    response = model.generate_content(prompt)
    text = response.text if getattr(response, "text", None) else "⚠️ Modelden yanıt alınamadı."

    # Öncelik skorları (mevcut modül)
    prio = enrich_with_priorities(user_query)
    extra = (
        "\n\n🧮 **Önerilen Önceliklendirme**"
        f"\n- RICE: {prio['RICE']}"
        f"\n- WSJF: {prio['WSJF']}"
        f"\n- Risk: {prio['Risk']}"
        f"\n- Impact: {prio['Impact']}"
        f"\n\n🏷️ **Genel Gereksinim Doğası (F/NF) Tahmini:** {fnf_label}"
    )
    return text + extra

# --------------------------------------------------------------
## 8️⃣ Gradio Arayüzü
# İş analistinin veya proje yöneticisinin, teknik detaylara girmeden sadece bir metin yazarak gereksinim raporu almasını sağlamak.
# Arayüzde kullanıcı bir proje açıklaması yazar, sistem de BABOK formatında yanıt döndürür.
# --------------------------------------------------------------
def chatbot_interface(user_input):
    if not user_input.strip():
        return "⚠️ Lütfen bir proje açıklaması giriniz."
    return rag_response_babok(user_input)

demo = gr.Interface(
    fn=chatbot_interface,
    inputs=gr.Textbox(
        lines=4,
        placeholder="Proje açıklamasını giriniz (ör. 'Bankacılık uygulamasında müşteri verisi güvenliği ve işlem performansı').",
        label="💬 Proje Açıklaması"
    ),
    outputs=gr.Markdown(label="📘 BABOK Uyumlu Gereksinim Önerileri"),
    title="Business Requirement Chatbot (BABOK + RAG)",
    description="PURE Dataset + BABOK Framework + Gemini RAG tabanlı iş analizi asistanı",
    theme="soft",
    allow_flagging="never"
)
# Bu yapı sayesinde proje, tek satır kodla web üzerinde çalıştırılabilir hale gelir.
# --------------------------------------------------------------
# 9️⃣ Test: Kod sonunda örnek çıktı
# --------------------------------------------------------------
if __name__ == "__main__":
    test_query = "Günlük 5 milyon API çağrısını %99.9 başarı ile işleyebilmelidir."
    print("🚀 TEST ÇALIŞTIRILIYOR...")
    print(f"📝 Sorgu: {test_query}\n")
    test_answer = rag_response_babok(test_query, top_k=5)
    print("📘 Örnek Çıktı:\n")
    print(test_answer)

# Gradio arayüzünü başlatmak istersen:
# demo.launch(share=True)
