In [2]:
!pip install -r requirements.txt





[notice] A new release of pip is available: 25.0.1 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [3]:
import os
os.environ['HF_HUB_DISABLE_SYMLINKS_WARNING'] = '1'

In [4]:
import glob
import docx
import nltk
import transformers
import torch
import spacy
import numpy as np
import logging
import unstructured
import unstructured.partition.auto
import zipfile

  from .autonotebook import tqdm as notebook_tqdm


In [36]:
import os

# Transformers'ın TensorFlow modüllerini yüklemesini tamamen engelliyoruz:
os.environ["USE_TF"] = "0"
os.environ["TRANSFORMERS_NO_TF"] = "1"

# Şimdi güvenle diğer kütüphaneleri import edebilirsiniz:
print("TensorFlow'u devre dışı bırakma ayarları yapıldı.")
print(f"USE_TF: {os.getenv('USE_TF')}")
print(f"TRANSFORMERS_NO_TF: {os.getenv('TRANSFORMERS_NO_TF')}")

try:
    from qdrant_client import QdrantClient
    from nltk.tokenize import word_tokenize
    from sentence_transformers import SentenceTransformer
    from pypdf import PdfReader
    from qdrant_client import QdrantClient
    from qdrant_client.http.models import Distance, VectorParams
    from transformers import BitsAndBytesConfig, AutoModelForCausalLM, AutoTokenizer, pipeline
    from sklearn.metrics.pairwise import cosine_similarity
    from unstructured.partition.auto import partition
    from io import BytesIO
    from tqdm import tqdm
    print("Tüm kütüphaneler başarıyla import edildi!")
except Exception as e:
    print(f"Import sırasında bir hata oluştu: {e}")
    import traceback
    traceback.print_exc()

TensorFlow'u devre dışı bırakma ayarları yapıldı.
USE_TF: 0
TRANSFORMERS_NO_TF: 1
Tüm kütüphaneler başarıyla import edildi!


In [17]:
# --- 1. Doküman Parsers ---

# Logging ayarları
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

# --- 1. Doküman Parsers ---

def parse_with_unstructured(path):
    """
    Belirtilen yoldaki dokümanı unstructured kütüphanesi ile ayrıştırır.
    PDF, DOCX, TXT ve daha birçok formatı destekler.
    """
    try:
        elements = partition(filename=path)
        # Elementler genellikle Text, NarrativeText, Title gibi türlerdedir.
        # Basitçe tüm metin içeriklerini birleştirelim.
        return "\n".join(str(el.text) for el in elements if hasattr(el, 'text') and el.text)
    except Exception as e:
        logging.error(f"Unstructured ile '{path}' ayrıştırılırken hata: {e}")
        # İsteğe bağlı: Hata durumunda belirli ayrıştırıcılara geri dönebilirsiniz.
        # Örneğin, eğer PDF ise ve unstructured başarısız olursa parse_pdf_pypdf'i deneyebilirsiniz.
        if path.lower().endswith(".pdf"):
            logging.info(f"Unstructured başarısız oldu, '{path}' için pypdf deneniyor...")
            return parse_pdf_pypdf(path) # Yedek pypdf ayrıştırıcısı
        elif path.lower().endswith(".docx"):
            logging.info(f"Unstructured başarısız oldu, '{path}' için python-docx deneniyor...")
            return parse_docx_python_docx(path) # Yedek python-docx ayrıştırıcısı
        elif path.lower().endswith(".txt"):
             logging.info(f"Unstructured başarısız oldu, '{path}' için yerel TXT okuyucu deneniyor...")
             return parse_txt_native(path) # Yedek TXT ayrıştırıcısı
        return None

def parse_pdf_pypdf(path):
    """pypdf kullanarak PDF dosyasını ayrıştırır (unstructured'a yedek)."""
    try:
        reader = PdfReader(path)
        text_parts = []
        for page in reader.pages:
            extracted_text = page.extract_text()
            if extracted_text: # Boş metinleri ekleme
                text_parts.append(extracted_text)
        return "\n".join(text_parts) if text_parts else None
    except Exception as e:
        logging.error(f"pypdf ile PDF '{path}' ayrıştırılırken hata: {e}")
        return None

def parse_docx_python_docx(path):
    """python-docx kullanarak DOCX dosyasını ayrıştırır (unstructured'a yedek)."""
    try:
        doc = docx.Document(path)
        return "\n".join(p.text for p in doc.paragraphs if p.text)
    except Exception as e:
        logging.error(f"python-docx ile DOCX '{path}' ayrıştırılırken hata: {e}")
        return None

def parse_txt_native(path):
    """Standart Python ile TXT dosyasını ayrıştırır (unstructured'a yedek)."""
    try:
        with open(path, encoding="utf-8") as f:
            return f.read()
    except Exception as e:
        logging.error(f"TXT '{path}' okunurken hata: {e}")
        return None

def load_documents(source_path, use_unstructured_primarily=False):
    """
    Bir klasör ya da .zip dosyasından belgeleri okur.
    PDF, DOCX ve TXT belgeleri desteklenmektedir.
    """
    docs = {}
    supported_extensions = (".pdf", ".docx", ".txt")

    # Kaynak klasör mü yoksa zip mi kontrolü
    if os.path.isdir(source_path):
        # Klasörse, eski yöntemi uygula
        search_pattern = os.path.join(source_path, "**", "*")
        for path in glob.glob(search_pattern, recursive=True):
            if os.path.isfile(path) and path.lower().endswith(supported_extensions):
                logging.info(f"İşleniyor: {path}")
                content = process_file(path, use_unstructured_primarily)
                if content:
                    docs[path] = content
                    logging.info(f"'{os.path.basename(path)}' başarıyla yüklendi. Uzunluk: {len(content)} karakter.")
                else:
                    logging.warning(f"'{os.path.basename(path)}' için içerik ayrıştırılamadı veya boş.")
    elif zipfile.is_zipfile(source_path):
        with zipfile.ZipFile(source_path, 'r') as zip_ref:
            for file_name in zip_ref.namelist():
                if file_name.lower().endswith(supported_extensions) and not file_name.endswith('/'):
                    try:
                        with zip_ref.open(file_name) as file:
                            raw_data = file.read()
                            temp_path = f"./tmp_{os.path.basename(file_name)}"
                            with open(temp_path, "wb") as temp_file:
                                temp_file.write(raw_data)
                            content = process_file(temp_path, use_unstructured_primarily)
                            if content:
                                docs[file_name] = content
                                logging.info(f"'{file_name}' başarıyla yüklendi. Uzunluk: {len(content)} karakter.")
                            else:
                                logging.warning(f"'{file_name}' için içerik ayrıştırılamadı.")
                    except Exception as e:
                        logging.error(f"{file_name} okunurken hata oluştu: {e}")
    else:
        raise ValueError("Verilen kaynak klasör veya .zip dosyası olmalıdır.")

    return docs

In [18]:
def process_file(path, use_unstructured_primarily):
    content = None
    if use_unstructured_primarily:
        content = parse_with_unstructured(path)
    else:
        if path.lower().endswith(".pdf"):
            content = parse_pdf_pypdf(path)
        elif path.lower().endswith(".docx"):
            content = parse_docx_python_docx(path)
        elif path.lower().endswith(".txt"):
            content = parse_txt_native(path)
    return content


In [None]:
# --- Örnek Kullanım Parsers ---
from unstructured.partition.auto import partition  # colab dışında çalıştırılırken yorum satırından kaldırılacak
documents_folder_path = "dosya yoluuuu \\AutoRAG-End-to-End-RAG-Framework-with-Turkish-Embedding-Evaluation\\wikipedia_documents.zip"
all_documents = load_documents(documents_folder_path, use_unstructured_primarily=True)

if not all_documents:
    print(f"'{documents_folder_path}' klasöründe (ve alt klasörlerinde) desteklenen formatta doküman bulunamadı veya işlenemedi.")
else:
    print(f"\nToplam {len(all_documents)} doküman bulundu ve işlendi:")
    for path, text_content in all_documents.items():
        print(f"\n--- Doküman: {path} ---")
        # İlk 200 karakteri göster
        print((text_content[:200] + "...") if text_content and len(text_content) > 200 else text_content)


2025-07-08 15:04:28,731 - INFO - 'wikipedia_documents/wikipedia_500.docx' başarıyla yüklendi. Uzunluk: 562953 karakter.



Toplam 1 doküman bulundu ve işlendi:

--- Doküman: wikipedia_documents/wikipedia_500.docx ---
Henry Edwards (entomolog)
"Harry" olarak bilinen Henry Edwards (27 Ağustos 1827 - 9 Haziran 1891), tiyatro çalışmalarıyla Avustralya, San Francisco ve New York'ta ün kazanan bir İngiliz tiyatro oyuncu...


In [20]:
from sentence_transformers import SentenceTransformer

#embed_model = SentenceTransformer("sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
embed_model = SentenceTransformer("sentence-transformers/paraphrase-multilingual-mpnet-base-v2")


2025-07-08 15:04:34,620 - INFO - Use pytorch device_name: cpu
2025-07-08 15:04:34,621 - INFO - Load pretrained SentenceTransformer: sentence-transformers/paraphrase-multilingual-mpnet-base-v2


In [21]:
import stanza

stanza.download('tr')  # 'tr' = Türkçe

nlp_tr = stanza.Pipeline('tr')

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json: 433kB [00:00, 6.97MB/s]                    
2025-07-08 15:04:42,628 - INFO - Downloaded file to C:\Users\memo_\stanza_resources\resources.json
2025-07-08 15:04:42,645 - INFO - Downloading default packages for language: tr (Turkish) ...
2025-07-08 15:04:43,549 - INFO - File exists: C:\Users\memo_\stanza_resources\tr\default.zip
2025-07-08 15:04:45,889 - INFO - Finished downloading models and saved to C:\Users\memo_\stanza_resources
2025-07-08 15:04:45,889 - INFO - Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json: 433kB [00:00, 7.60MB/s]                    
2025-07-08 15:04:46,129 - INFO - Downloaded file to C:\Users\memo_\stanza_resources\resources.

In [22]:
def create_semantic_chunks_stanza(
    text_content: str,
    embed_model_instance,  # SentenceTransformer modeli
    stanza_nlp_model,  # Yüklenmiş Stanza modeli (nlp_tr)
    pre_segment_max_chars: int = 600,  # Ön segmentlerin maksimum karakter uzunluğu
    pre_segment_max_sentences: int = 5,  # Ön segmentlerdeki maksimum cümle sayısı
    similarity_threshold: float = 0.6,  # Nihai chunk'lar için benzerlik eşiği (0-1 arası)
    final_chunk_min_pre_segments: int = 1,  # Bir nihai chunk'ta en az kaç ön-segment olmalı
    final_chunk_max_pre_segments: int = 5,  # Bir nihai chunk'ta en fazla kaç ön-segment olmalı
):
    if not text_content or not text_content.strip() or not stanza_nlp_model:
        return []

    # 1. Adım: Metni Stanza ile cümlelere böl
    doc = stanza_nlp_model(text_content)
    sentences = [" ".join([word.text for word in sentence.words]) for sentence in doc.sentences]

    if not sentences:
        return []

    # 2. Adım: Cümleleri "ön-segmentlere" birleştir
    pre_segments = []
    current_pre_segment_sentences = []
    current_pre_segment_chars = 0
    for sentence in sentences:
        # Ön segment için karakter veya cümle limitine ulaşıldı mı?
        if (current_pre_segment_chars + len(sentence) > pre_segment_max_chars and current_pre_segment_sentences) or \
           (len(current_pre_segment_sentences) >= pre_segment_max_sentences):
            pre_segments.append(" ".join(current_pre_segment_sentences))
            current_pre_segment_sentences = []
            current_pre_segment_chars = 0

        current_pre_segment_sentences.append(sentence)
        current_pre_segment_chars += len(sentence)

    # Kalan son ön-segmenti ekle
    if current_pre_segment_sentences:
        pre_segments.append(" ".join(current_pre_segment_sentences))

    if not pre_segments:
        return []

    # 3. Adım: Ön-segmentlerin embedding'lerini al
    if len(pre_segments) == 1:  # Sadece bir ön-segment varsa, onu direkt chunk olarak döndür
        return pre_segments

    pre_segment_embeddings = embed_model.encode(pre_segments, convert_to_numpy=True)

    # 4. Adım: Ön-segmentleri anlamsal olarak nihai chunk'lara birleştir
    final_chunks = []
    # Metinleri ve embedding indekslerini saklamak için listeler
    current_final_chunk_pre_segments_texts = [pre_segments[0]]
    # current_final_chunk_pre_segments_indices = [0] # İndeksler şu an direkt kullanılmıyor ama ileride lazım olabilir

    for i in range(1, len(pre_segments)):
        emb_current_pre_segment = pre_segment_embeddings[i]
        emb_previous_pre_segment = pre_segment_embeddings[i-1] # Bir önceki ön-segmentle karşılaştır

        # Kosinüs benzerliğini hesapla
        similarity_score = cosine_similarity([emb_current_pre_segment], [emb_previous_pre_segment])[0][0]
        # similarity_score = np.clip(similarity_score, -1.0, 1.0) # İsteğe bağlı ekstra güvenlik

        split_condition_met = False

        # Benzerlik, belirlenen eşiğin ALTINDAYSA yeni bir chunk başlat
        if similarity_score < similarity_threshold:
            split_condition_met = True

        # Nihai chunk için maksimum ön-segment sayısına ulaşıldı mı?
        if len(current_final_chunk_pre_segments_texts) >= final_chunk_max_pre_segments:
            split_condition_met = True

        # Bölme koşulu sağlandıysa ve mevcut chunk minimum boyuttaysa, chunk'ı sonlandır
        if split_condition_met and len(current_final_chunk_pre_segments_texts) >= final_chunk_min_pre_segments:
            final_chunks.append(" ".join(current_final_chunk_pre_segments_texts))
            current_final_chunk_pre_segments_texts = [pre_segments[i]] # Yeni chunk bu ön-segmentle başlar
            # current_final_chunk_pre_segments_indices = [i]
        else:
            # Bölme koşulu sağlanmadıysa veya chunk minimum boyutta değilse, mevcut chunk'a ekle
            current_final_chunk_pre_segments_texts.append(pre_segments[i])
            # current_final_chunk_pre_segments_indices.append(i)

    # Döngü bittikten sonra kalan son nihai chunk'ı ekle
    if current_final_chunk_pre_segments_texts and len(current_final_chunk_pre_segments_texts) >= final_chunk_min_pre_segments:
        final_chunks.append(" ".join(current_final_chunk_pre_segments_texts))

    return [chunk for chunk in final_chunks if chunk.strip()] # Boş chunk'ları temizle

In [23]:
# --- 2. Semantic Chunking ---
chunks_text_list = []
metadata_for_qdrant = []
global_chunk_id_counter = 1

for path, text_content in all_documents.items():
    if not text_content or not text_content.strip():
        print(f"Uyarı: '{path}' dosyası boş veya sadece boşluk içeriyor.")
        continue

    if nlp_tr is None: 
        print(f"Stanza modeli yüklenemediği için '{path}' üzerinde semantic chunking atlanıyor.")
        continue

    # Yeni semantic chunker'ı kullanarak dokümanı parçala
    current_doc_chunks = create_semantic_chunks_stanza(
        text_content=text_content,
        embed_model_instance=embed_model,
        stanza_nlp_model=nlp_tr, # Stanza modeli
        pre_segment_max_chars=500,       
        pre_segment_max_sentences=5,     
        similarity_threshold=0.6,     
        final_chunk_min_pre_segments=1,
        final_chunk_max_pre_segments=5     # nihai chunk'ların çok uzamasını engeller
    )

    if not current_doc_chunks:
        print(f"Uyarı: '{path}' dosyasından semantic chunking ile hiç chunk üretilemedi.")
        continue

    print(f"'{path}' dosyasından {len(current_doc_chunks)} adet semantic chunk üretildi.")

    chunk_id_in_file_counter = 0
    for chunk_text in current_doc_chunks:
        if not chunk_text or not chunk_text.strip():
            continue

        chunks_text_list.append(chunk_text)
        metadata_for_qdrant.append({
            "source": path,
            "chunk_id_in_file": chunk_id_in_file_counter,
            "original_text": chunk_text
        })
        global_chunk_id_counter += 1
        chunk_id_in_file_counter += 1

if not chunks_text_list:
    print("Hiç chunk üretilemedi. İşlem durduruluyor.")
    exit()

print(f"Toplam {len(chunks_text_list)} adet chunk metni oluşturuldu.")

Batches: 100%|██████████| 45/45 [02:28<00:00,  3.30s/it]


'wikipedia_documents/wikipedia_500.docx' dosyasından 939 adet semantic chunk üretildi.
Toplam 939 adet chunk metni oluşturuldu.


In [24]:
# Tüm chunk’lar için embedding üret
embeddings = embed_model.encode(chunks_text_list, show_progress_bar=True, convert_to_numpy=True)

Batches: 100%|██████████| 30/30 [01:34<00:00,  3.16s/it]


In [None]:
#!pip uninstall -y tensorflow tensorflow-cpu tensorflow-gpu tensorboard tb-nightly tensorflow-estimator tensorflow-io tensorflow-io-gcs-filesystem tf-keras keras

In [33]:
from qdrant_client import QdrantClient
from qdrant_client.http.models import Distance, VectorParams

# Qdrant Cloud endpoint ve API key

CLOUD_URL = "https://d8f9c106-88a7-4933-bb28-d6b7b23bdc02.us-east4-0.gcp.cloud.qdrant.io:6333"
API_KEY   = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJhY2Nlc3MiOiJtIn0.uQ8vYNls4ViEcO1TAApHP4CDcpquhV6P_ey49x75IB4"

# Bağlantıyı kur
qdrant_client = QdrantClient(
    url=CLOUD_URL,
    api_key=API_KEY,
    prefer_grpc=False, # HTTP kullanmak isterseniz
     timeout=60.0
)

# Test: Mevcut koleksiyonları listele
print(qdrant_client.get_collections())

2025-07-08 15:24:09,590 - INFO - HTTP Request: GET https://d8f9c106-88a7-4933-bb28-d6b7b23bdc02.us-east4-0.gcp.cloud.qdrant.io:6333/collections "HTTP/1.1 200 OK"


collections=[CollectionDescription(name='llmfao_collection')]


In [37]:
# --- 4. Qdrant Bağlantısı ve İndeksleme ---

collection_name = "llmfao_collection"

vector_size = embeddings.shape[1]

try:
    qdrant_client.delete_collection(collection_name=collection_name)
    print(f"'{collection_name}' koleksiyonu silindi.")
except Exception:
    print(f"'{collection_name}' koleksiyonu silinemedi veya zaten yoktu.")

# Sonra koleksiyonu oluştur
qdrant_client.create_collection(
    collection_name=collection_name,
    vectors_config=VectorParams(size=vector_size, distance=Distance.COSINE),
)
print(f"'{collection_name}' koleksiyonu oluşturuldu/yeniden oluşturuldu.")

# Upsert
points = [
    {"id": idx,
     "vector": embeddings[idx].tolist(),
     "payload": metadata_for_qdrant[idx]}
    for idx in range(len(embeddings))
]

BATCH_SIZE = 100
uploaded_total = 0

for i in tqdm(range(0, len(points), BATCH_SIZE), desc="Uploading to Qdrant"):
    batch = points[i:i + BATCH_SIZE]
    try:
        qdrant_client.upsert(collection_name=collection_name, points=batch)
        uploaded_total += len(batch)
    except Exception as e:
        print(f"[!] Batch {i}-{i + BATCH_SIZE} yüklenemedi: {e}")
        time.sleep(2)

print(f"{uploaded_total} nokta başarıyla Qdrant'taki '{collection_name}' koleksiyonuna yüklendi.")

2025-07-08 15:28:23,541 - INFO - HTTP Request: DELETE https://d8f9c106-88a7-4933-bb28-d6b7b23bdc02.us-east4-0.gcp.cloud.qdrant.io:6333/collections/llmfao_collection "HTTP/1.1 200 OK"


'llmfao_collection' koleksiyonu silindi.


2025-07-08 15:28:23,841 - INFO - HTTP Request: PUT https://d8f9c106-88a7-4933-bb28-d6b7b23bdc02.us-east4-0.gcp.cloud.qdrant.io:6333/collections/llmfao_collection "HTTP/1.1 200 OK"


'llmfao_collection' koleksiyonu oluşturuldu/yeniden oluşturuldu.


Uploading to Qdrant:   0%|          | 0/10 [00:00<?, ?it/s]2025-07-08 15:28:25,755 - INFO - HTTP Request: PUT https://d8f9c106-88a7-4933-bb28-d6b7b23bdc02.us-east4-0.gcp.cloud.qdrant.io:6333/collections/llmfao_collection/points?wait=true "HTTP/1.1 200 OK"
Uploading to Qdrant:  10%|█         | 1/10 [00:01<00:16,  1.87s/it]2025-07-08 15:28:26,320 - INFO - HTTP Request: PUT https://d8f9c106-88a7-4933-bb28-d6b7b23bdc02.us-east4-0.gcp.cloud.qdrant.io:6333/collections/llmfao_collection/points?wait=true "HTTP/1.1 200 OK"
Uploading to Qdrant:  20%|██        | 2/10 [00:02<00:08,  1.10s/it]2025-07-08 15:28:26,840 - INFO - HTTP Request: PUT https://d8f9c106-88a7-4933-bb28-d6b7b23bdc02.us-east4-0.gcp.cloud.qdrant.io:6333/collections/llmfao_collection/points?wait=true "HTTP/1.1 200 OK"
Uploading to Qdrant:  30%|███       | 3/10 [00:03<00:06,  1.10it/s]2025-07-08 15:28:27,603 - INFO - HTTP Request: PUT https://d8f9c106-88a7-4933-bb28-d6b7b23bdc02.us-east4-0.gcp.cloud.qdrant.io:6333/collections/llmfa

939 nokta başarıyla Qdrant'taki 'llmfao_collection' koleksiyonuna yüklendi.





In [40]:
try:
    collection_info = qdrant_client.get_collection(collection_name=collection_name)
    print(f"Koleksiyon Bilgileri '{collection_name}':")
    print(f"  Durum: {collection_info.status}")
    print(f"  Nokta Sayısı: {collection_info.points_count}")
    print(f"  Vektör Boyutu: {collection_info.config.params.vectors.size}")
    print(f"  Uzaklık Metriği: {collection_info.config.params.vectors.distance}")
except Exception as e:
    print(f"Koleksiyon bilgileri alınırken hata oluştu: {e}")

2025-07-08 15:30:21,526 - INFO - HTTP Request: GET https://d8f9c106-88a7-4933-bb28-d6b7b23bdc02.us-east4-0.gcp.cloud.qdrant.io:6333/collections/llmfao_collection "HTTP/1.1 200 OK"


Koleksiyon Bilgileri 'llmfao_collection':
  Durum: green
  Nokta Sayısı: 939
  Vektör Boyutu: 768
  Uzaklık Metriği: Cosine


In [41]:
all_points = []
next_page_offset = None  # Başlangıçta offset yok

print(f"\n'{collection_name}' koleksiyonundaki noktalar (chunk'lar) çekiliyor...")

try:
    while True:
        # Scroll ile bir sonraki sayfayı al
        # limit: Her seferinde kaç nokta çekileceği
        # with_payload=True: Payload'ı da al (metin ve metadata burada)
        # with_vectors=False: Vektörleri çekmek istemiyorsanız (daha hızlı olabilir)
        records, next_page_offset = qdrant_client.scroll(
            collection_name=collection_name,
            limit=100,  # Her seferinde 100 nokta çek
            offset=next_page_offset,
            with_payload=True,
            with_vectors=False # Vektörlere ihtiyacınız yoksa False yapın
        )

        if not records:
            # Daha fazla nokta kalmadıysa döngüden çık
            break

        all_points.extend(records)

        # Eğer bir sonraki sayfa için offset None ise (son sayfa demek olabilir)
        if next_page_offset is None:
            break

    print(f"Toplam {len(all_points)} nokta (chunk) çekildi.")

    # İlk birkaç chunk'ı (payload'ını) yazdıralım
    for i, point in enumerate(all_points[:10]): # İlk 5 tanesini göster
        print(f"\n--- Chunk {i+1} (ID: {point.id}) ---")
        if point.payload:
            print(f"  Kaynak: {point.payload.get('source', 'N/A')}")
            print(f"  Dosya İçi Chunk ID: {point.payload.get('chunk_id_in_file', 'N/A')}")
            print(f"  Orijinal Metin: {point.payload.get('original_text', 'N/A')[:200]}...") # Metnin ilk 200 karakteri
        else:
            print("  Payload bulunamadı.")

except Exception as e:
    print(f"Noktalar çekilirken hata oluştu: {e}")
    import traceback
    traceback.print_exc()

2025-07-08 15:30:25,421 - INFO - HTTP Request: POST https://d8f9c106-88a7-4933-bb28-d6b7b23bdc02.us-east4-0.gcp.cloud.qdrant.io:6333/collections/llmfao_collection/points/scroll "HTTP/1.1 200 OK"



'llmfao_collection' koleksiyonundaki noktalar (chunk'lar) çekiliyor...


2025-07-08 15:30:25,873 - INFO - HTTP Request: POST https://d8f9c106-88a7-4933-bb28-d6b7b23bdc02.us-east4-0.gcp.cloud.qdrant.io:6333/collections/llmfao_collection/points/scroll "HTTP/1.1 200 OK"
2025-07-08 15:30:26,038 - INFO - HTTP Request: POST https://d8f9c106-88a7-4933-bb28-d6b7b23bdc02.us-east4-0.gcp.cloud.qdrant.io:6333/collections/llmfao_collection/points/scroll "HTTP/1.1 200 OK"
2025-07-08 15:30:26,224 - INFO - HTTP Request: POST https://d8f9c106-88a7-4933-bb28-d6b7b23bdc02.us-east4-0.gcp.cloud.qdrant.io:6333/collections/llmfao_collection/points/scroll "HTTP/1.1 200 OK"
2025-07-08 15:30:26,427 - INFO - HTTP Request: POST https://d8f9c106-88a7-4933-bb28-d6b7b23bdc02.us-east4-0.gcp.cloud.qdrant.io:6333/collections/llmfao_collection/points/scroll "HTTP/1.1 200 OK"
2025-07-08 15:30:26,622 - INFO - HTTP Request: POST https://d8f9c106-88a7-4933-bb28-d6b7b23bdc02.us-east4-0.gcp.cloud.qdrant.io:6333/collections/llmfao_collection/points/scroll "HTTP/1.1 200 OK"
2025-07-08 15:30:26,809 -

Toplam 939 nokta (chunk) çekildi.

--- Chunk 1 (ID: 0) ---
  Kaynak: wikipedia_documents/wikipedia_500.docx
  Dosya İçi Chunk ID: 0
  Orijinal Metin: Henry Edwards ( entomolog ) " Harry" olarak bilinen Henry Edwards ( 27 Ağustos 1827 - 9 Haziran 1891 ) , tiyatro çalışmalarıyla Avustralya , San Francisco ve New York'ta ün kazanan bir İngiliz tiyatro...

--- Chunk 2 (ID: 1) ---
  Kaynak: wikipedia_documents/wikipedia_500.docx
  Dosya İçi Chunk ID: 1
  Orijinal Metin: Avustralya'ya yelken açtıktan sonra Edwards , özellikle Melbourne ve Sidney'de Shakespeare oyunlarında ve hafif komedilerde profesyonel olarak rol aldı . İngiltere'de ki çocukluğu ve Avustrala'da ki o...

--- Chunk 3 (ID: 2) ---
  Kaynak: wikipedia_documents/wikipedia_500.docx
  Dosya İçi Chunk ID: 2
  Orijinal Metin: Edwards , San Francisco'da Bohemian Club'ın kurucu üyelerinden biri ydi ve kendisinin onuruna düzenlenen bir etkinlik sonrası , kulübün Bohemian Grove'da ki geleneksel yaz kampını hayata geçirildi . B...

--- C

In [42]:
# --- 5. Retrieve Fonksiyonu ---
def retrieve_top_k(query: str, k: int = 5):
    q_emb = embed_model.encode([query], convert_to_numpy=True)[0]
    search_result = qdrant_client.search(
        collection_name=collection_name,
        query_vector=q_emb.tolist(),
        limit=k,
        with_payload=True
    )
    results = []
    for hit in search_result:
        payload = hit.payload
        score = hit.score
        # idx = hit.id # Bu ID, Qdrant'a yüklerken verdiğiniz ID (0, 1, 2...)

        src = payload.get("source", "<unknown_source>")
        # chunk_id_in_file, payload'da sakladığınız isimle eşleşmeli
        chunk_id_file = payload.get("chunk_id_in_file", -1)

        # En önemlisi: Metni payload'dan alıyoruz!
        text = payload.get("original_text", "<text_not_found_in_payload>")

        results.append({
            "source": src,
            "chunk_id_in_file": chunk_id_file,
            "score": score,
            "text": text  # Payload'dan gelen metin
        })
    return results

In [None]:
"""# --- 6. Hugging Face LLM Entegrasyonu ---

model_id = "ytu-ce-cosmos/Turkish-Gemma-9b-v0.1"

quantization_config = BitsAndBytesConfig(
    load_in_8bit=True,
)

# 1) Tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_id)

# 2) Model
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=quantization_config,
    device_map="auto",
    max_memory={
        0: "20GB",    # GPU: 20 GB
        "cpu": "48GB" # CPU: geri kalan
    },
)

# 3) Pipeline – mutlaka burada tanımla
text_generator = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer
)
"""

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

Device set to use cuda:0


In [109]:
import requests

def ollama_generate(prompt, model="gemma:2b", max_tokens=1024, temperature=0.6):
    try:
        response = requests.post(
            "http://localhost:11434/api/generate",
            json={
                "model": model,
                "prompt": prompt,
                "stream": False,
                "options": {
                    "temperature": temperature,
                    "num_predict": max_tokens,
                    "top_p": 0.9
                }
            }
        )

        if response.status_code == 200:
            json_data = response.json()
            return json_data.get("response", "[cevap bulunamadı]")
        else:
            print("Hata:", response.text)
            return "[API Hatası]"

    except Exception as e:
        print("İstisna oluştu:", e)
        return "[HATA]"


In [111]:
def rag_answer(query: str):
    # Retrieve (aynı kalıyor)
    results = retrieve_top_k(query, k=5)
    print("Toplam bulunan kaynak sayısı:", len(results)) 
    if not results:
        print("Uyarı: Qdrant veri tabanı bu sorguya sonuç döndürmedi.")
        return "[Bilgi bulunamadı]"
    # Kaynak metinleri oluştur
    sources_text = "\n\n".join(
        f"[{i+1}] Skor: {r['score']:.4f}\n{r['text']}"
        for i, r in enumerate(results)
    )

    # Prompt
    prompt = (
        "Sen bir Türkçe NLP uzmanısın. Aşağıdaki kaynaklara dayanarak soruyu yanıtla:\n\n"
        f"Soru: {query}\n\n"
        f"Kaynaklar:\n{sources_text}\n\n"
        "Cevabı açıkla:"
    )
    print("Oluşan prompt:\n", prompt)

    answer = ollama_generate(prompt)
    
    return answer


In [None]:
"""#gemma 9b için

def rag_answer(query: str):
    # Retrieve
    results = retrieve_top_k(query, k=5)
    # Kaynak metinleri oluştur
    sources_text = "\n\n".join(
        f"[{i+1}] Skor: {r['score']:.4f}\n{r['text']}"
        for i, r in enumerate(results)
    )
    # Prompt
    prompt = (
        "Sen Türkçe NLP uzmanısın. Aşağıdaki kaynaklara dayanarak soruyu yanıtla:\n\n"
        f"Soru: {query}\n\n"
        f"Kaynaklar:\n{sources_text}\n\n"
        "Cevabı açıkla:"
    )

    # Cevap üret
    output = text_generator(
        prompt,
        max_new_tokens=512,
        do_sample=True,
        temperature=0.6,
        top_p=0.9
    )
    return output[0]["generated_text"]"""

In [112]:
# --- 7. Örnek Kullanım ---
if __name__ == "__main__":
    question = "Henry Edwards kimdir?"
    answer = rag_answer(question)
    print(answer)


Batches: 100%|██████████| 1/1 [00:00<00:00, 21.06it/s]
2025-07-08 16:12:09,655 - INFO - HTTP Request: POST https://d8f9c106-88a7-4933-bb28-d6b7b23bdc02.us-east4-0.gcp.cloud.qdrant.io:6333/collections/llmfao_collection/points/search "HTTP/1.1 200 OK"


Toplam bulunan kaynak sayısı: 5
Oluşan prompt:
 Sen bir Türkçe NLP uzmanısın. Aşağıdaki kaynaklara dayanarak soruyu yanıtla:

Soru: Henry Edwards kimdir?

Kaynaklar:
[1] Skor: 0.7333
Henry Edwards ( entomolog ) " Harry" olarak bilinen Henry Edwards ( 27 Ağustos 1827 - 9 Haziran 1891 ) , tiyatro çalışmalarıyla Avustralya , San Francisco ve New York'ta ün kazanan bir İngiliz tiyatro oyuncusu , yazar ve entomolog dur . Edwards , hayatının erken dönemlerinde tiyatroya ilgi duydu ve ilk olarak Londra'da amatör yapımlarda rol aldı .

[2] Skor: 0.6124
Edwards'ın rehberlik ettiği ve teşvik ettiği , ancak şahsen tanışmadığı bir öğrenci olan William Schaus , yayınlanmış geniş bir çalışma grubunda güve ve kelebek özelliklerini daha fazla tanımlamaya devam etti . Bazı kelebek türlerinin adlarına eklenen " Hy . Edw ." ataması , Henry Edwards tarafından yapılan ilk tanımlamayı gösterir . Bu , Edwards'ın çağdaşlarından William Henry Edwards'ın kısaltması olan " Edw" unvanı ile karıştırılama dırdır . 