In [1]:
from sentence_transformers import SentenceTransformer
import faiss
import numpy as np
import json

# Örnek veri: tıbbi metin parçaları
docs = [
    "Tip 2 diyabet, insülin direnci ile karakterizedir.",
    "Hipertansiyon, kan basıncının kronik olarak yüksek olmasıdır.",
    "Astım, solunum yollarının inflamasyonudur.",
    "İnme, beyne giden kan akışının bozulmasıyla oluşur.",
]

# Embedding modeli
model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

# Vektörleri hesapla
embeddings = model.encode(docs, convert_to_numpy=True)

# FAISS index oluştur
d = embeddings.shape[1]  # vektör boyutu
index = faiss.IndexFlatL2(d)
index.add(embeddings)

# Metadata ile eşleştirmek için ID-to-Doc haritası
id2doc = {i: doc for i, doc in enumerate(docs)}


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [5]:
def retrieve(query, top_k=3):
    query_vec = model.encode([query], convert_to_numpy=True)
    distances, indices = index.search(query_vec, top_k)
    
    results = []
    for i in range(top_k):
        doc_id = indices[0][i]
        results.append({
            "doc": id2doc[doc_id],
            "distance": float(distances[0][i])
        })
    return results

# Örnek sorgu
query = "Akciğer hastalığı nedir?"
results = retrieve(query)
print(json.dumps(results, indent=2, ensure_ascii=False))


[
  {
    "doc": "İnme, beyne giden kan akışının bozulmasıyla oluşur.",
    "distance": 0.5047488212585449
  },
  {
    "doc": "Hipertansiyon, kan basıncının kronik olarak yüksek olmasıdır.",
    "distance": 0.5383650660514832
  },
  {
    "doc": "Astım, solunum yollarının inflamasyonudur.",
    "distance": 0.7167724370956421
  }
]
