# 🚀 <span style='color:#1976d2'><b>Transformers Tabanlı Metin Temsili</b></span>

Bu notebook, metin temsili kavramını sıfırdan başlayarak, <span style='color:#388e3c'><b>BERT</b></span> ve <span style='color:#388e3c'><b>Transformers</b></span> mimarisi ile profesyonel seviyeye kadar adım adım öğretecek şekilde hazırlanmıştır.

Her adımda <span style='background:#fffde7;border-radius:8px;padding:2px 8px'><b>vurgulu açıklamalar</b></span>, kod örnekleri ve uygulamalar yer almaktadır.

## 1️⃣ <span style='color:#d32f2f'><b>Metin Temsili Nedir?</b></span>

Doğal dil işleme (NLP) uygulamalarında metinler <span style='color:#1976d2'><b>sayısal vektörlere</b></span> dönüştürülerek makine öğrenmesi modellerinde kullanılabilir hale getirilir.

<div style='background:#e3f2fd;border-radius:8px;padding:8px;margin:8px 0'><b>Flashcard:</b> <br> <b>Metin Temsili</b> = Metni matematiksel olarak ifade etme yöntemidir.</div>

**Başlıca metin temsili yöntemleri:**

- 🟦 <b>Bag of Words (BoW)</b>
- 🟩 <b>TF-IDF</b>
- 🟨 <b>Word Embeddings (Word2Vec, GloVe)</b>
- 🟪 <b>Transformers tabanlı temsiller (BERT, RoBERTa, GPT, vb.)</b>

## 2️⃣ <span style='color:#388e3c'><b>Transformers ve BERT</b></span>

Transformers mimarisi, NLP'de <span style='color:#d32f2f'><b>devrim</b></span> yaratmıştır. <b>BERT</b> ise çift yönlü (bidirectional) öğrenme ile bağlamı çok daha iyi yakalar.

<div style='background:#fce4ec;border-radius:8px;padding:8px;margin:8px 0'><b>Flashcard:</b> <br> <b>BERT</b> = Bidirectional Encoder Representations from Transformers</div>

### <span style='color:#1976d2'><b>BERT'in Temel Özellikleri:</b></span>

- 📚 <b>Büyük veri üzerinde önceden eğitilmiş (pre-trained)</b>
- 🔄 <b>Çift yönlü bağlam analizi</b>
- 🏆 <b>Transfer öğrenmeye uygun</b>

<div style='background:#e8f5e9;border-radius:8px;padding:8px;margin:8px 0'><b>Model Özellikleri:</b><br>
<b>Model adı:</b> <span style='color:#388e3c'>bert-base-uncased</span><br>
<b>Katman sayısı:</b> 12<br>
<b>Gizli boyut:</b> 768<br>
<b>Toplam parametre:</b> 110 milyon<br>
<b>Tokenizasyon:</b> WordPiece<br>
<b>Uncased:</b> Büyük/küçük harf ayrımı yok</div>

## 3️⃣ <span style='color:#1976d2'><b>Gerekli Kütüphanelerin Kurulumu ve İçe Aktarılması</b></span>

Aşağıdaki kod ile gerekli kütüphaneleri yükleyin ve içe aktarın.

In [1]:
# !pip install transformers torch pandas
import pandas as pd
from transformers import BertTokenizer, BertModel
import torch

  from .autonotebook import tqdm as notebook_tqdm


## 4️⃣ <span style='color:#388e3c'><b>BERT Tokenizer ve Modelini Yükleme</b></span>

Model ve tokenizer'ı hazır hale getiriyoruz.

In [2]:
model_name = "bert-base-uncased"
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)

## 5️⃣ <span style='color:#d32f2f'><b>Metni Tokenlara Dönüştürme</b></span>

BERT ile çalışmak için metni tokenlara ve sayısal ID'lere dönüştürmemiz gerekir.

In [3]:
text = "Transformers can be used for language processing"
inputs = tokenizer(text, return_tensors="pt")

<div style='background:#fffde7;border-radius:8px;padding:8px;margin:8px 0'><b>Flashcard:</b><br>
<b>input_ids:</b> Tokenların sayısal karşılıkları<br>
<b>token_type_ids:</b> Cümle segmentleri (BERT iki cümle ile çalışabilir)<br>
<b>attention_mask:</b> Modelin dikkate alacağı tokenlar (1: dikkate alınır, 0: padding)</div>

In [4]:
print(inputs.keys())
print(inputs['input_ids'])
print(inputs['attention_mask'])

dict_keys(['input_ids', 'token_type_ids', 'attention_mask'])
tensor([[  101, 19081,  2064,  2022,  2109,  2005,  2653,  6364,   102]])
tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1]])


## 6️⃣ <span style='color:#1976d2'><b>Tokenları ve Özel Tokenları Görselleştirme</b></span>

BERT, özel tokenlar ekler:

- <span style='color:#388e3c'><b>[CLS]</b></span>: Cümlenin başına eklenir, tüm cümlenin temsili için kullanılır.
- <span style='color:#d32f2f'><b>[SEP]</b></span>: Cümle sonuna eklenir.

Tokenları görelim:

In [5]:
tokens = tokenizer.convert_ids_to_tokens(inputs['input_ids'][0])
print(tokens)

['[CLS]', 'transformers', 'can', 'be', 'used', 'for', 'language', 'processing', '[SEP]']


## 7️⃣ <span style='color:#388e3c'><b>BERT ile Metni Vektöre Dönüştürme</b></span>

Modeli kullanarak metnin bağlamlı vektör temsiline ulaşalım.

In [6]:
with torch.no_grad():
    outputs = model(**inputs)
last_hidden_state = outputs.last_hidden_state
print(last_hidden_state.shape)  # (batch_size, sequence_length, hidden_size)

torch.Size([1, 9, 768])


<div style='background:#e3f2fd;border-radius:8px;padding:8px;margin:8px 0'><b>Flashcard:</b><br>
Her bir token için <b>768 boyutlu vektör</b> elde edilir.<br>
Cümlenin temsili için genellikle <span style='color:#388e3c'><b>[CLS]</b></span> tokenının vektörü kullanılır.</div>

In [7]:
cls_embedding = last_hidden_state[0, 0, :].numpy()
print(cls_embedding.shape)  # (768,)
print(cls_embedding[:10])  # İlk 10 değer

(768,)
[-0.22262454 -0.00530452  0.0619366  -0.03184407 -0.4614734  -0.00632677
  0.38315377  0.33753243 -0.1393168   0.016642  ]


## 8️⃣ <span style='color:#d32f2f'><b>Farklı Metinlerle Uygulama</b></span>

Aşağıda <span style='color:#388e3c'><b>5 farklı örnek metin</b></span> için BERT tabanlı temsili çıkarıyoruz.

In [8]:
texts = [
    "Natural language processing is fascinating.",
    "BERT models achieve state-of-the-art results.",
    "Transformers are used in many NLP tasks.",
    "Word embeddings capture semantic meaning.",
    "Deep learning revolutionized artificial intelligence."
]

for i, text in enumerate(texts):
    inputs = tokenizer(text, return_tensors="pt")
    with torch.no_grad():
        outputs = model(**inputs)
    cls_embedding = outputs.last_hidden_state[0, 0, :].numpy()
    print(f"Örnek {i+1}: {text}")
    print(f"CLS embedding shape: {cls_embedding.shape}")
    print(f"İlk 5 değer: {cls_embedding[:5]}")
    print("-"*50)

Örnek 1: Natural language processing is fascinating.
CLS embedding shape: (768,)
İlk 5 değer: [-0.02465768 -0.06567323 -0.4308611  -0.05120884 -0.4532239 ]
--------------------------------------------------
Örnek 2: BERT models achieve state-of-the-art results.
CLS embedding shape: (768,)
İlk 5 değer: [-0.39154148 -0.0779348  -0.0739062  -0.00495347 -0.3944521 ]
--------------------------------------------------
Örnek 3: Transformers are used in many NLP tasks.
CLS embedding shape: (768,)
İlk 5 değer: [-0.32054856 -0.22583508  0.29232913 -0.20620836 -0.5454058 ]
--------------------------------------------------
Örnek 4: Word embeddings capture semantic meaning.
CLS embedding shape: (768,)
İlk 5 değer: [-0.17046957  0.15022808 -0.770761   -0.01613625 -0.4261918 ]
--------------------------------------------------
Örnek 5: Deep learning revolutionized artificial intelligence.
CLS embedding shape: (768,)
İlk 5 değer: [-0.3810167  -0.10912021 -0.41268447  0.29242918 -0.55516505]
---------

## 🏁 <span style='color:#1976d2'><b>Sonuç ve Özet</b></span>

<div style='background:#fffde7;border-radius:8px;padding:8px;margin:8px 0'><b>Flashcard:</b><br>
- <b>Transformers tabanlı modeller</b>, metinleri bağlamlı ve güçlü vektörlere dönüştürür.<br>
- <b>BERT'in [CLS] tokenı</b>, cümle temsili için idealdir.<br>
- Bu temsiller, <span style='color:#388e3c'><b>sınıflandırma, benzerlik, duygu analizi</b></span> gibi birçok NLP görevinde kullanılabilir.</div>

<span style='color:#388e3c'><b>Artık metin temsili konusunda profesyonel bir bakış açısına sahipsiniz! 🎉</b></span>