### 3. BERT ile Metin Sınıflandırma Uygulamaları

### BERT Nedir?

**BERT** (**B**idirectional **E**ncoder **R**epresentations from **T**ransformers), Google tarafından 2018’de tanıtılan, doğal dil işlemede devrim yaratan bir dil modelidir. Temel farkı, cümlenin hem soldan sağa hem de sağdan sola okunarak bağlamını anlamasıdır (çift yönlü – bidirectional).

Bu sayede:

- "Banka gitmek" ile "Banka çöktü" cümlelerinde "banka" kelimesinin farklı anlamlarını doğru ayırt edebilir.
- Daha zengin kelime temsilleri (embeddings) üretir.
- İleri düzey NLP görevlerinde (sınıflandırma, soru-cevap, NER) insan seviyesine yakın performans gösterir.

### Neden BERT?

- **Derin bidirectional training**: Kelimeler arasındaki tüm bağlamsal ilişkileri modelleyebilir.
- **Ön eğitim + Fine-tuning**: Büyük metinlerde (Wikipedia, kitaplar) önceden eğitilir, sonra küçük veriyle hedef göreve uyarlanır.
- **Çoklu görevde kullanılabilir**: Sınıflandırma, metin eşleştirme, metin üretimi (dolaylı), soru-cevap vs.




--------
code
--------

In [2]:
from transformers import pipeline

classifier = pipeline("text-classification",model="savasy/bert-base-turkish-sentiment-cased",return_all_scores=True)

yorumlar = [
    "Hızlı kargo,kaliteli ürün",
    "Kalitesiz ürün iade ettim",
    "iyi ama fiyatına göre beklediğim gibi değil"
]

sonuclar = classifier(yorumlar)

for yorum,sonuc in zip(yorumlar,sonuclar):
    print("Yorum:",yorum)
    for skor in sonuc:
        etiket = skor["label"]
        puan = skor["score"]
        print(f"{etiket}: {puan}")

Device set to use mps:0


Yorum: Hızlı kargo,kaliteli ürün
negative: 0.00688230711966753
positive: 0.9931176900863647
Yorum: Kalitesiz ürün iade ettim
negative: 0.9992490410804749
positive: 0.0007509849965572357
Yorum: iyi ama fiyatına göre beklediğim gibi değil
negative: 0.9981688261032104
positive: 0.0018311868188902736


  return forward_call(*args, **kwargs)


### BERT ile Sınıflandırma Nasıl Çalışır?

1. **Tokenization**: Metin, alt kelimelere (subword) bölünür (WordPiece).
2. **Embedding**: Her token’a bir vektör atanır (kelime + pozisyon + segment bilgisi).
3. **Encoder Katmanları**: 12 veya 24 katmanlı Transformer encoder’lar bağlamı öğrenir.
4. **[CLS] Tokenı**: Cümlenin başına eklenen özel token, tüm cümlenin özetini taşır.
5. **Sınıflandırıcı**: `[CLS]` tokenının çıktısı, bir fully-connected katmana verilir ve sınıflar tahmin edilir.

"BERT Text Classification Architecture" – [CLS] + Token Embeddings + Segment + Position → Transformer Encoder → Classifier Head

BERT

2018’de Google tarafından geliştirildi.

Çift yönlü bağlam anlayışı için Maskeli Dil Modellemesi (MLM) ve Sonraki Cümle Tahmini (NSP) görevleriyle eğitildi.

Maskeli kelime tahminlerinde maskeleri sabit uygular ve NSP görevine dayanır.

RoBERTa (Robustly Optimized BERT Approach)

BERT mimarisini aynen kullanır ancak eğitimi iyileştirir.

NSP görevini kaldırır, uzun süre ve çok daha büyük veri setleri üzerinde (16GB’den 160GB’a) eğitim yapar.

Maskeleri dinamik olarak değiştirir, batch boyutunu artırır ve kelime dağarcığını büyütür.

Bu iyileştirmeler performansı önemli ölçüde artırır.

Örneğin GLUE, SQuAD gibi benchmarklarda BERT'ten üstün performans gösterir.

DeBERTa (Decoding-enhanced BERT with Disentangled Attention)

BERT’in mimarisine önemli yenilikler getirir.

Dikkat mekanizmasında kelime içeriği ve konum bilgisini ayrı ayrı işler (disentangled attention).

Maskeli dil modellemesinde hem mutlak hem göreli pozisyon bilgisini kullanır (enhanced mask decoder).

Bu sayede bağlam ve pozisyon ilişkisini daha hassas yakalar ve karmaşık görevlerde (örneğin soru yanıtlama, semantik analiz) daha başarılı olur.

Daha az veriyle bile RoBERTa ve BERT'e göre daha iyi sonuçlar elde eder.

Ancak DeBERTa, RoBERTa ve BERT'e kıyasla daha fazla hesaplama ve bellek gerektirir.

Özetle, RoBERTa BERT’in eğitim sürecini optimize ederek performans artışı sağlarken, DeBERTa mimari yeniliklerle konum ve bağlam bilgisini daha etkili temsil eder. Uygulamaya ve kaynaklara bağlı olarak, BERT basitlik; RoBERTa dengeli performans; DeBERTa ise yüksek doğruluk ve karmaşık görevler için tercih edilir.

başka var mı böyle modeller
başka var mı böyle modeller
BERT, RoBERTa ve DeBERTa dışında da doğal dil işleme (NLP) için geliştirilmiş birçok benzer transformer tabanlı ön eğitimli modeller bulunmaktadır. Bunlardan bazıları şunlardır:

DistilBERT: BERT'in daha küçük, daha hızlı ve hafif bir versiyonudur. Parametre sayısı BERT'in yaklaşık %40'ı kadar olup, %60 daha hızlı çalışabilir. BERT performansına yakın sonuçlar verir ancak daha az kaynak tüketir. (3)

ALBERT (A Lite BERT): BERT'in daha az parametre ile benzer performansı korumayı amaçlayan modelidir. Parametre paylaşımı ve faktörizasyon teknikleri kullanarak modelin boyutunu küçültür ve eğitimini hızlandırır.

XLNet: BERT'e alternatif olarak geliştirilmiş, çift yönlü bağlam anlayışı sağlarken, otoregresif bir şekilde kelime sırasını da dikkate alan bir modeldir. NSP gibi görevleri kullanmaz ama daha karmaşık eğitim stratejileriyle yüksek doğruluk sağlar.

BART: Encoder-decoder yapısına sahip, hem ön eğitimde hem de sonrasında çeşitli NLP görevlerinde çok başarılı olan bir modeldir. BERT ve GPT'nin birleştirilmiş özelliklerini taşır.

Electra: Daha verimli eğitim sağlayan, "discriminative" bir yaklaşım kullanan modeldir. Maskelenmiş tokenların yerine konması tahmini yerine gerçek ve sahte tokenları ayırt etmeye çalışır, böylece daha hızlı ve düşük maliyetli eğitim yapar.

BERTweet: Twitter verileri üzerine özel ön eğitim yapılmış, sosyal medya metinleri için optimize edilmiş BERT tabanlı modeli.

Bu modeller, BERT’in temel mimarisi üzerine ya da aynı transformer prensipleriyle geliştirilmiş farklı mimari değişiklikler ve eğitim stratejileri kullanılarak oluşturulmuştur. Uygulamaya göre veri boyutu, model büyüklüğü, görev karmaşıklığı ve kaynak kısıtlamalarına göre tercih edilirler.

Özetle, BERT, RoBERTa, DeBERTa dışında özellikle DistilBERT, ALBERT, XLNet, BART, Electra ve BERTweet gibi modeller de yaygın olarak kullanılmaktadır ve benzer ancak spesifik avantajları olan alternatiflerdir.

Related
Başka hangi büyük ölçekli ön eğitimli dil modelleri var
Bu modellerin özellikleri ve farkları nelerdir
Hangi modeller daha hızlı ve verimli çalışıyor
Yeni modellerin hangi uygulamalarda kullanılması önerilir
Güncel gelişmeler ve yeni çıkan modeller hakkında bilgi var mı