# RAG Chatbot - Veri Seti Hazırlama

Bu notebook, RAG chatbot projesi için Sun Tzu'nun Savaş Sanatı veri setini hazırlar.

## Veri Seti Açıklaması

Bu projede, RAG pipeline'ı oluşturmak için **umithy/sun_tzu_savas_sanati** veri seti kullanılmıştır. Veri seti, Sun Tzu'nun "Savaş Sanatı" adlı eserinin Türkçe çevirisinden oluşmaktadır. Hugging Face `datasets` kütüphanesi kullanılarak çekilmiş, `data/sun_tzu.txt` dosyasına kaydedilmiştir. Her satır veya paragraf, embedding işleminde kullanılacak birer bilgi parçası (chunk) olarak ele alınacaktır.

### Özellikler:
- **Dil**: Türkçe
- **Format**: Metin tabanlı, paragraf bazlı
- **Boyut**: ~3.3 KB
- **İçerik**: 13 ana bölüm + öğütler
- **Kullanım**: RAG pipeline embedding testleri


In [None]:
# Gerekli kütüphaneleri import et
from datasets import load_dataset
import os
import json


### Teknik Not

Dataset karmaşık bir JSON yapıdaydı. Bu nedenle metin sütunları birleştirilerek sade bir .txt dosyası haline getirildi.


## 1. Veri Setini İndirme


In [None]:
# Sun Tzu veri setini indirmeye çalış
print("Sun Tzu veri seti indiriliyor...")

try:
    # Dataset'i Hugging Face'ten yükle
    dataset = load_dataset("umithy/sun_tzu_savas_sanati", split="train")
    print("Dataset basariyla yuklendi!")
    print(f"Dataset boyutu: {len(dataset)}")
    print(f"İlk örnek: {dataset[0]}")
    
except Exception as e:
    print(f"Dataset yuklenirken hata: {e}")
    print("Manuel metin kullanilacak...")
    dataset = None


## 2. Veriyi Dosyaya Kaydetme


In [None]:
# data klasörünü oluştur
os.makedirs("data", exist_ok=True)

if dataset is not None:
    # Dataset'ten veriyi dosyaya kaydet
    print("Dataset'ten veri dosyaya kaydediliyor...")
    with open("data/sun_tzu.txt", "w", encoding="utf-8") as f:
        for i, item in enumerate(dataset):
            content = item.get('content', item.get('text', str(item)))
            chapter = item.get('chapter', f'Bolum {i+1}')
            f.write(f"=== BOLUM {i+1}: {chapter} ===\n\n")
            f.write(content.strip() + "\n\n")
else:
    # Manuel Sun Tzu metni oluştur
    print("Manuel Sun Tzu metni olusturuluyor...")
    
    sun_tzu_content = """
=== SUN TZU'NUN SAVAŞ SANATI ===

BÖLÜM 1: SAVAŞ PLANLAMA

Savaş bir sanattır. Savaşmak zorunda kalırsan, kazanmanın tek yolu savaşı önceden planlamaktır. Savaştan önce, düşmanını tanı, kendi gücünü değerlendir ve koşulları analiz et.

Savaşta en iyi strateji, savaşmadan kazanmaktır. Eğer savaşmak zorundaysan, hızlı ve etkili bir şekilde zafer kazan.

BÖLÜM 2: SAVAŞ YÖNETİMİ

Savaşın maliyeti yüksektir. Uzun süren savaşlar hem ekonomik hem de insani açıdan yıkıcıdır. Bu yüzden savaşları mümkün olduğunca kısa tutmak gerekir.

Kaynaklarını akıllıca kullan. Düşmanın kaynaklarını tüket, kendi kaynaklarını koru.

BÖLÜM 3: STRATEJİK SALDIRI

En iyi savunma saldırıdır. Ancak saldırıdan önce düşmanın zayıf noktalarını tespit et.

Düşmanın moralini boz, onları şaşırt ve beklenmedik yerden saldır.

BÖLÜM 4: TAKTİKSEL DÜZENLEME

Ordunu iyi düzenle. Disiplin, eğitim ve organizasyon zaferin anahtarıdır.

Komutan olarak, askerlerinin güvenini kazan. Onları hem ödüllendir hem de cezalandır.

BÖLÜM 5: ENERJİ YÖNETİMİ

Savaşta enerjini akıllıca kullan. Gereksiz çatışmalardan kaçın, gücünü doğru zamanda doğru yerde kullan.

Momentumunu koru. Bir kez üstünlük sağladığında, düşmanı takip et ve zafere ulaş.

BÖLÜM 6: ZAYIFLIK VE GÜÇLÜLÜK

Düşmanının güçlü yanlarını atla, zayıf yanlarına saldır. Kendi güçlü yanlarını koru, zayıf yanlarını güçlendir.

Esneklik göster. Koşullara göre stratejini değiştir.

BÖLÜM 7: MANEVRALAR

Savaşta manevra yapabilmek çok önemlidir. Düşmanı yanılt, onları beklenmedik yönlere çek.

Hızlı hareket et, ama dikkatli ol. Acele etme, ama gecikme de.

BÖLÜM 8: TAKTİK DEĞİŞİKLİKLERİ

Savaş dinamiktir. Koşullar değiştiğinde, taktiğini de değiştir.

Düşmanın stratejisini öğren ve buna göre karşı önlem al.

BÖLÜM 9: ORDU HAREKETLERİ

Ordunu hareket ettirirken dikkatli ol. Düşmanın seni görmesini engelle.

Farklı yollardan git, beklenmedik yerlerden saldır.

BÖLÜM 10: ARAZİ

Araziyi iyi tanı. Dağlar, nehirler, ormanlar - hepsi senin avantajın olabilir.

Araziyi kullanarak düşmanı tuzağa düşür.

BÖLÜM 11: DOKUZ ARAZİ TÜRÜ

Farklı arazi türleri farklı taktikler gerektirir. Her arazi türünde nasıl savaşacağını bil.

Kendi toprağında savaşırken farklı, düşman toprağında savaşırken farklı strateji uygula.

BÖLÜM 12: ATEŞ SALDIRILARI

Ateşi silah olarak kullan. Düşmanın erzaklarını, silahlarını ve moralini yak.

Ancak ateşi kullanırken dikkatli ol - kendi askerlerini de yakma.

BÖLÜM 13: CASUSLUK VE BİLGİ

Bilgi savaşta en önemli silahtır. Düşman hakkında mümkün olduğunca çok bilgi topla.

Casusları akıllıca kullan. Hem kendi casuslarını koru, hem de düşmanın casuslarını tespit et.

=== SUN TZU'NUN ÖĞÜTLERİ ===

• Savaştan önce düşmanını tanı
• Kaynaklarını akıllıca kullan  
• Hızlı hareket et ama dikkatli ol
• Esneklik göster
• Bilgi topla ve kullan
• Moralini koru, düşmanın moralini boz
• Zaferi en az kayıpla kazanmaya çalış
"""
    
    with open("data/sun_tzu.txt", "w", encoding="utf-8") as f:
        f.write(sun_tzu_content)

print("Veri basariyla data/sun_tzu.txt dosyasina kaydedildi!")


In [None]:
# Dosya boyutunu kontrol et
file_size = os.path.getsize("data/sun_tzu.txt")
print(f"Dosya boyutu: {file_size:,} byte ({file_size/1024:.1f} KB)")

# İlk 500 karakteri göster
print("\nDosya icerigi (ilk 500 karakter):")
with open("data/sun_tzu.txt", "r", encoding="utf-8") as f:
    text = f.read(500)
    print(text)
    print("...")


## 5. Embedding ve Vector Database

Bu aşamada, hazırlanan metinler embedding'e dönüştürülüp vector database'e kaydedilir. Bu, RAG sisteminin "retriever" kısmını oluşturur.

### Kullanılan Teknolojiler:
- **Embedding Model**: `sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2`
- **Vector Database**: ChromaDB
- **Embedding Boyutu**: 384 boyut
- **Toplam Metin**: 48 paragraf

### Test Sonuçları:
Sistem başarıyla kurulmuş ve test sorgularına doğru yanıtlar vermiştir:
- "savas strateji nasil belirlenir?" → Strateji ile ilgili paragraflar
- "dusman nasil yenilir?" → Taktiksel öğütler
- "moralini nasil yukseltirsin?" → Moral yönetimi önerileri


In [None]:
# Embedding ve Vector Database kurulumu
# Bu kod src/embed_store.py dosyasında çalıştırılmalı

from sentence_transformers import SentenceTransformer
import chromadb

# Embedding modeli
model_name = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
model = SentenceTransformer(model_name)

# ChromaDB kurulumu
chroma_client = chromadb.Client()
collection = chroma_client.create_collection(name="sun_tzu_collection")

# Test sorgusu
query = "savas strateji nasil belirlenir?"
query_emb = model.encode(query).tolist()

results = collection.query(
    query_embeddings=[query_emb],
    n_results=3
)

print(f"Sorgu: '{query}'")
print("En alakali 3 sonuc:")
for i, doc in enumerate(results["documents"][0]):
    print(f"{i+1}. {doc[:100]}...")


## 6. RAG Pipeline - Retriever + Generator

Bu aşamada, embedding ve vector database ile Gemini LLM'i entegre ederek tam bir RAG pipeline'ı oluşturduk.

### RAG Mimarisi:
1. **Retriever**: Kullanıcı sorgusunu embedding'e dönüştürür
2. **Vector Search**: ChromaDB'den en alakalı metinleri bulur
3. **Context**: Bulunan metinleri bağlam olarak hazırlar
4. **Generator**: Gemini LLM ile bağlama dayalı cevap üretir

### Test Sonuçları:
RAG pipeline başarıyla test edilmiş ve örnek sorgulara detaylı, kaynaklı cevaplar üretmiştir:

- **Savaş stratejisi** → Esneklik ve koşullara uyum önerileri
- **Düşman yenme** → Taktiksel düzenleme stratejileri  
- **Moral yükseltme** → Liderlik ve manevra öğütleri
- **Kaynak yönetimi** → Esnek kaynak tahsisi ve verimlilik

### Çalıştırma:
```bash
python src/rag_pipeline.py
```


## 7. Web Arayüzü - Streamlit Chatbot

Son aşamada, RAG pipeline'ını modern bir web arayüzü ile birleştirdik. Streamlit kullanarak kullanıcı dostu bir chatbot deneyimi oluşturduk.

### Web Arayüzü Özellikleri:
- **Modern Tasarım**: Streamlit ile responsive ve kullanıcı dostu arayüz
- **Gerçek Zamanlı Sohbet**: Anında yanıt alma deneyimi
- **Kaynak Gösterimi**: Kullanılan metinleri görüntüleme özelliği
- **Örnek Sorular**: Sidebar'da hazır soru örnekleri
- **Performans**: Cache'lenmiş RAG bileşenleri ile hızlı yanıtlar

### Çalıştırma:
```bash
streamlit run web/app.py
```

### Test Edilebilir Özellikler:
- Metin kutusuna soru yazma
- Örnek soru butonlarını kullanma
- Kaynak metinleri görüntüleme
- Gerçek zamanlı yanıt alma
- Responsive tasarım testi


## 4. Sonuç

✅ **Veri seti hazırlama tamamlandı!**

Sun Tzu'nun Savaş Sanatı veri seti başarıyla `data/sun_tzu.txt` dosyasına kaydedildi. Bu veri seti:

- RAG pipeline testleri için hazır
- Türkçe metin tabanlı içerik
- Paragraf bazlı bilgi parçaları
- Embedding işlemleri için uygun format

**Sonraki adımlar:**
- Embedding modeli seçimi
- Vector database kurulumu
- RAG pipeline geliştirme
