### Information Retrieval (IR) – Bilgiye Erişim

### IR Nedir?

**Bilgiye Erişim (Information Retrieval - IR)**, büyük bir metin koleksiyonu (örneğin belgeler, haberler, PDF'ler) içinde, bir kullanıcının sorgusuna en alakalı belgeleri bulma sürecidir.

- **Arama motorları** (Google), en temel IR uygulamasıdır.
- **Kütüphane sistemleri**
- **İçerik öneri sistemleri**

---

### Geleneksel IR vs NLP Tabanlı IR

| Yöntem | Nasıl Çalışır | Örnek |
| --- | --- | --- |
| **Boolean IR** | "anahtar kelime" eşleşmesi | "Türkiye AND başkent" |
| **TF-IDF + Cosine Similarity** | Terim sıklığı ve önemine göre skor | scikit-learn |
| **Dense Retrieval (DPR, SBERT)** | Embedding’ler arası benzerlik | BERT ile cümle embedding’i |

Bugün, **semantic search** (anlamsal arama) için embedding tabanlı yöntemler tercih edilir.

In [3]:
from sentence_transformers import SentenceTransformer
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

model = SentenceTransformer('eneSadi/turkuaz-embeddings')

documents = ["Kullanıcı oturumunu kapatmak için /api/logout endpoint'ine POST isteği gönderin.",
             "Yeni kullanıcı kaydı için /api/register adresine JSON verisiyle istek yapın.",
             "Şifre sıfırlama isteği için /api/forgot-password adresine POST isteği gönderin.",
             "API anahatlarını almak için profil ayarlarından istekte bulunun.",]


query = "Şifremi nasıl sıfırlarım?"

doc_embeddings = model.encode(documents)
query_embedding = model.encode(query)

cosine_similarities = cosine_similarity([query_embedding], doc_embeddings)[0]

most_relevant_idx = np.argmax(cosine_similarities)

print(f"Sorgu: {query}")
print(f"En uygun belge: {documents[most_relevant_idx]}")
print(f"Uygunluk derecesi: {cosine_similarities[most_relevant_idx]:.4f}")

  return forward_call(*args, **kwargs)


Sorgu: Şifremi nasıl sıfırlarım?
En uygun belge: Şifre sıfırlama isteği için /api/forgot-password adresine POST isteği gönderin.
Uygunluk derecesi: 0.6513


# Türkçe Bilgi Çekimi (Information Retrieval) için Güncel Modeller

Arama sonuçlarına göre, "dbmdz/bert-base-turkish-cased-mean-tokens" modelinin yerine kullanılabilecek birkaç güncel Türkçe bilgi çekimi (IR) modeli bulunmakta:

## Öne Çıkan Modeller

### 1. Turkuaz-Embeddings
- **Model Adı**: `eneSadi/turkuaz-embeddings` 
- **Özellikler**: Türkçe bilgi çekim görevleri için özel olarak optimize edilmiş yeni bir embedding modelidir. 
- **Avantaj**: Türkçe metinler üzerinde özellikle bilgi çekim performansını artırmak için tasarlanmıştır.
- **Kullanım Alanı**: Genel amaçlı Türkçe doküman arama ve benzerlik ölçümü

### 2. Turkish-Colpali
- **Model Adı**: `selimc/turkish-colpali` 
- **Özellikler**: Türkçe dokümanların etkili indekslenmesi ve geri alınması için tasarlanmış, hem metinsel hem de görsel özelliklerden yararlanan bir model. 
- **Avantaj**: Çok modlu (multimodal) bilgi çekim ihtiyacınız varsa idealdir
- **Kullanım Alanı**: Metin ve görsel içeren doküman koleksiyonlarında arama

### 3. Nomic-MoE-Turkish-v1
- **Model Adı**: `teoyidu/nomic-moe-turkish-v1` 
- **Özellikler**: Türkçe'deki anlamsal ilişkileri yakalama konusunda güçlü performans gösterir. 
- **Avantaj**: Dilin nüanslarını daha iyi anlama yeteneği
- **Kullanım Alanı**: Anlamsal arama (semantic search) uygulamaları

### 4. BERTurk-Legal
- **Model Adı**: `KocLab-Bilkent/BERTurk-Legal` 
- **Özellikler**: Türk hukuk alanı verileri üzerinde ön eğitilmiş, önceki hukuki davaları geri almak için tasarlanmış bir dil modeli. 
- **Avantaj**: Hukuk metinleri için özel olarak optimize edilmiş
- **Kullanım Alanı**: Hukuki doküman arama ve analiz sistemleri

## Ek Kaynaklar

- **Awesome Turkish Language Models**: Türkçe NLP/LLM modelleri ve veri kümelerinin seçilmiş bir listesini içeren kaynak. 
- **TR-MMLU**: Türkçe büyük dil modellerinin değerlendirilmesi için yeni bir standart oluşturan değerlendirme kiti. 

## Öneri

Genel amaçlı Türkçe bilgi çekim için **Turkuaz-Embeddings** (`eneSadi/turkuaz-embeddings`) en uygun seçenek gibi görünüyor, çünkü özellikle bilgi çekim görevleri için optimize edilmiş ve yeni geliştirilmiş bir model. 

Hukuk alanı ile ilgileniyorsanız, **BERTurk-Legal** modeli daha spesifik ve etkili sonuçlar verecektir. 

Bu modellerin her biri, Türkçe metinler üzerinde bilgi çekim performansını artırmak için özel olarak tasarlanmış olup, "dbmdz/bert-base-turkish-cased-mean-tokens" modeline kıyasla daha güncel ve IR odaklı yaklaşımlar sunmaktadır.