### 2. HuggingFace Kütüphanesi

### Neden HuggingFace?

HuggingFace, doğal dil işleme (NLP) alanında devrim yaratmış bir açık kaynak platformudur. Özellikle `transformers` kütüphanesi sayesinde, BERT, GPT, T5 gibi karmaşık modelleri sadece birkaç satır kodla indirip kullanabiliyoruz.

HuggingFace’in sunduğu temel bileşenler:

- **`transformers`**: Önceden eğitilmiş modeller ve tokenizer’lar.
- **`datasets`**: 30.000+ NLP veri kümesi.
- **`tokenizers`**: Hızlı ve esnek tokenleştirme.
- **`hub`**: Herkesin modellerini paylaştığı platform (model zoo).
- **`accelerate`**: Dağıtık eğitim desteği.
---
### Ana Kavramlar

- **Model**: Dil modeli (örneğin `bert-base-uncased`).
- **Tokenizer**: Metni modele girdi olarak verilebilecek sayısal forma dönüştürür.
- **Pipeline**: Ortak NLP görevleri (sınıflandırma, çeviri, soru-cevap) için hazır fonksiyonlar.

---

---
### Temel Özellikler:

- 300.000+ önceden eğitilmiş model (BERT, RoBERTa, DeBERTa, etc.)
- 2.000+ dil desteği (Türkçe de dahil)
- Kolay fine-tuning ve dağıtım
- Pipeline API: Satır kodla model kullan
---


### Kod Uygulaması: HuggingFace ile Metin Sınıflandırma

```
%pip install transformers torch datasets
```

In [1]:
from transformers import pipeline

classifier = pipeline("text-classification",model="savasy/bert-base-turkish-sentiment-cased")

yorumlar = [
    "Hızlı kargo,kaliteli ürün",
    "Kalitesiz ürün iade ettim",
    "iyi ama fiyatına göre beklediğim gibi değil"
]

sonuclar = classifier(yorumlar)

for yorum,sonuc in zip(yorumlar,sonuclar):
    print(f"{yorum} => {sonuc}")

Device set to use mps:0
  return forward_call(*args, **kwargs)


Hızlı kargo,kaliteli ürün => {'label': 'positive', 'score': 0.9931176900863647}
Kalitesiz ürün iade ettim => {'label': 'negative', 'score': 0.9992490410804749}
iyi ama fiyatına göre beklediğim gibi değil => {'label': 'negative', 'score': 0.9981688261032104}


In [3]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model_name = "savasy/bert-base-turkish-sentiment-cased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

text = "Çok iyi çok güzel çok ta iyi oldu tamam mı?"

inputs = tokenizer(
    text,
    return_tensors="pt",
    padding=True,
    truncation=True,
    max_length=512
)

with torch.no_grad():
    outputs = model(**inputs)

probs = torch.softmax(outputs.logits,dim=-1)
pred_label = torch.argmax(probs,dim=-1).item()

labels = ["OLUMSUZ","OLUMLU"]
print("Metin:",text)
print(f"Tahmin:{labels[pred_label]},Güven:{probs[0][pred_label]:.4f}")


  return forward_call(*args, **kwargs)


Metin: Çok iyi çok güzel çok ta iyi oldu tamam mı?
Tahmin:OLUMLU,Güven:0.9949
