# 🚀 **Transformers Tabanlı Metin Temsili: From Zero to Hero**
Bu ders notunda, transformers tabanlı metin temsili oluşturmayı **sıfırdan ileri seviyeye** adım adım öğreneceksiniz.
Her bölümde açıklamalar, kodlar ve ⚡️ *flashcard* tarzı özetlerle yol gösterici içerik sunulmuştur.
Son bölümde ise **5 farklı metinle uygulama örnekleri** bulacaksınız.
---

## 1. 🛠️ <span style="color:#1976d2"><b>Gerekli Kütüphanelerin Kurulumu ve İçe Aktarılması</b></span>
İlk olarak, <span style="color:#d32f2f"><b>transformers</b></span> ve <span style="color:#388e3c"><b>torch</b></span> kütüphanelerini kurmamız gerekiyor.
> ⚡️ **Flashcard:**
<span style="background:#fff3cd; color:#795548; padding:2px 8px; border-radius:6px">transformers: Modern NLP modelleri için temel kütüphane.</span>
<span style="background:#e3f2fd; color:#1976d2; padding:2px 8px; border-radius:6px">torch: Derin öğrenme işlemleri için kullanılır.</span>
---

## 1. Gerekli Kütüphanelerin Kurulumu ve İçe Aktarılması
İlk olarak, transformers ve torch kütüphanelerini kurmamız gerekiyor. Ardından, gerekli modülleri içe aktaracağız.

In [1]:
# Kütüphaneleri kurun (ilk çalıştırmada gereklidir)
!pip install transformers torch

# Gerekli modülleri içe aktarın
from transformers import AutoTokenizer, AutoModel
import torch



## 2. 🤖 <span style="color:#388e3c"><b>Transformer Modelinin ve Tokenizer'ın Yüklenmesi</b></span>
BERT tabanlı bir transformer modelini ve tokenizer'ı yükleyelim. Model adı olarak <span style="color:#d32f2f"><b>bert-base-uncased</b></span> kullanıyoruz.
> ⚡️ **Flashcard:**
<span style="background:#e1bee7; color:#6a1b9a; padding:2px 8px; border-radius:6px">AutoTokenizer: Metni modele uygun şekilde böler.</span>
<span style="background:#c8e6c9; color:#388e3c; padding:2px 8px; border-radius:6px">AutoModel: Modelin kendisini yükler.</span>
---

In [2]:
# Model ve tokenizer'ı yükleyin
model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/440M [00:00<?, ?B/s]

## 3. ✂️ <span style="color:#d32f2f"><b>Metnin Tokenlara Dönüştürülmesi</b></span>
Bir metni tokenizer ile tokenlara dönüştürüp PyTorch tensörü olarak elde edelim.
> ⚡️ **Flashcard:**
<span style="background:#ffe0b2; color:#f57c00; padding:2px 8px; border-radius:6px">Tokenization: Metni küçük parçalara ayırma işlemi.</span>
<span style="background:#e3f2fd; color:#1976d2; padding:2px 8px; border-radius:6px">return_tensors='pt': PyTorch formatında çıktı alır.</span>
---

In [3]:
# Örnek metni tanımlayın
text = "Transformers can be used for natural language processing."

# Metni tokenlara dönüştürün
inputs = tokenizer(text, return_tensors="pt") # Çıktı: PyTorch tensörü

## 4. 🧠 <span style="color:#388e3c"><b>Model ile Metin Temsili Oluşturulması</b></span>
Tokenize edilmiş metni modele vererek, metnin temsili vektörlerini elde edelim.
<span style="background:#f8bbd0; color:#ad1457; padding:2px 8px; border-radius:6px">torch.no_grad(): Hesaplamaları hızlandırır, bellek tasarrufu sağlar.</span>
---

In [4]:
# Model ile metin temsili oluşturun
torch.manual_seed(42) # Sonuçların tekrarlanabilir olması için
with torch.no_grad():
    outputs = model(**inputs)

## 5. 🔬 <span style="color:#1976d2"><b>Gizli Durumların Analizi ve Token Embedding'lerinin Elde Edilmesi</b></span>
Modelin çıktısından <span style="color:#388e3c"><b>last_hidden_state</b></span> ile tüm token embedding'lerini elde edelim.
<span style="background:#fffde7; color:#fbc02d; padding:2px 8px; border-radius:6px">Embedding: Her token için sayısal vektör temsili.</span>
<span style="background:#e3f2fd; color:#1976d2; padding:2px 8px; border-radius:6px">Numpy array: Analiz ve görselleştirme için kullanılır.</span>
---

In [5]:
# Modelin çıktısından son gizli durumu alın
last_hidden_state = outputs.last_hidden_state # Tüm token embedding'leri

# İlk tokenin embedding'ini alın ve analiz edin
first_token_embedding = last_hidden_state[0,0,:].numpy()
print(f"İlk tokenin embedding'i: {first_token_embedding[:10]} ...")

İlk tokenin embedding'i: [-0.4133621  -0.4343125  -0.17268176  0.00721613 -0.6711857  -0.21830529
  0.32157677  0.35622373  0.04217588 -0.11231028] ...


## 6. 📝 <span style="color:#d32f2f"><b>Farklı Metinlerle 5 Uygulama Örneği</b></span>
Aşağıda, beş farklı metin için embedding çıkarımı yapılmıştır. Her bir metnin temsili vektörü elde edilip ilk 10 elemanı karşılaştırılmıştır.
<span style="background:#c8e6c9; color:#388e3c; padding:2px 8px; border-radius:6px">Her metin için embedding vektörü farklıdır!</span>
---

In [6]:
# 5 farklı metin için embedding çıkarımı
texts = [
    "Doğal dil işleme, metinleri anlamak için kullanılır.",
    "Transformers modelleri çok güçlüdür.",
    "Python programlama dili popülerdir.",
    "Makine öğrenmesi veriyle çalışır.",
    "BERT, Google tarafından geliştirilmiştir."
]

embeddings = []
for t in texts:
    inp = tokenizer(t, return_tensors="pt")
    with torch.no_grad():
        out = model(**inp)
    emb = out.last_hidden_state[0,0,:].numpy()
    embeddings.append(emb)
    print(f"Metin: {t}\nİlk 10 embedding değeri: {emb[:10]} ...\n")

Metin: Doğal dil işleme, metinleri anlamak için kullanılır.
İlk 10 embedding değeri: [-0.6111538   0.62565714 -0.43204787 -0.27560315 -0.07278416  0.45768288
  1.1616746   0.6673369   0.09347201 -0.48829797] ...

Metin: Transformers modelleri çok güçlüdür.
İlk 10 embedding değeri: [-0.4593045   0.08374814  0.11448742 -0.2737002  -0.20796123  0.13002476
 -0.16475822  0.69521266 -0.21344922 -0.3583117 ] ...

Metin: Python programlama dili popülerdir.
İlk 10 embedding değeri: [-0.48129368 -0.16268015  0.0245685  -0.10279255 -0.19690257  0.00859688
 -0.05066069  0.6742468  -0.46516615 -0.07819802] ...

Metin: Makine öğrenmesi veriyle çalışır.
İlk 10 embedding değeri: [-0.6234275   0.6321051  -0.441764   -0.3693313  -0.18219493  0.5061415
  1.5494415   0.5470597   0.35795778 -0.57683665] ...

Metin: BERT, Google tarafından geliştirilmiştir.
İlk 10 embedding değeri: [-0.5595822   0.18897703 -0.3379092  -0.12669961 -0.09492863  0.20633078
  0.87073016  0.5231529   0.06388404 -0.51450884] ...
