# Giriş

Bu aşamada `transformers.pipeline()` fonksiyonunun arkaplanda neler yaptığı anlatılacaktır.

In [2]:
from transformers import pipeline

classifier = pipeline("sentiment-analysis",
                      model="distilbert-base-uncased-finetuned-sst-2-english")
classifier(
    [
        "I've been waiting for a HuggingFace course my whole life.",
        "I hate this so much!",
    ]
)

[{'label': 'POSITIVE', 'score': 0.9598050713539124},
 {'label': 'NEGATIVE', 'score': 0.9994558691978455}]

Yukarıda kullanılan fonksiyon, 3 işlemi yürütür:
- Preprocessing
- Inputları modele verme
- Postprocessing. 

![image.png](attachment:image.png)

## Preprocessing with Tokenizer

Sürecin ilk aşamasındır. Yapay sinir ağlarına benzer olarak, metinler direkt olarak işleme alınamaz. Bu yüzden, pipeline'ın ilk aşaması verilen metin gruplarını sayılara çevirmektir. Tokenizer'in görevleri şunlardır:
- Verilen cümleyi kelimelere, alt kelimelere, harflere veya sembollere bölmek.
- Elde edilen _token_'lara tamsayı atamak.
- Faydalı olabilecek inputları eklemek (cümle sonunu ve başını anlatan token'lar gibi).

Model pretrain edildiğinde aynı süreçler gerçekleştirilmiştir. Bu yüzden pretrain edilmiş modelin bilgilerini [Model Hub]() üzerinden indirebiliriz. Bu iş için `AutoTokenizer` sınıfından `from_pretrained()` metodunu kullanabiliriz. Modelin checkpoint ismini kullanarak bu metodu kullanırsak, modelin tokenizer'ı bilgisayara inmeye başlayacaktır. 


`sentiment-analysis` için default checkpoint ismi `distilbert-base-uncased-finetuned-sst-2-english`dir.

In [3]:
from transformers import AutoTokenizer

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

Yukarıdaki işlem tamamlandıktan sonra cümleyi direkt olarak tokenizer'a verebiliriz. Bu aşamadan sonra yapılması gereken şey cümlenin tamsayılardan oluşan ifadesini tensor formuna sokmaktır.

Huggingface Transformer modellerini kullanırken backend olarak hangi ML framework'u kullanacağınızı düşünmenize gerek yoktur. Ancak Transformer modelleri input olarak _tensor_ kabul eder. Dönecek tensor tipini belirtmek için `return_tensors` argumanı kullanılabilir. Örne kullanım aşağıdaki gibidir: 


In [6]:
raw_inputs = [
    "I've been waiting for a HuggingFace course my whole life.",
    "I hate this so much!",
]
inputs = tokenizer(raw_inputs, padding=True, truncation=True, return_tensors="pt")
print(inputs)

{'input_ids': tensor([[  101,  1045,  1005,  2310,  2042,  3403,  2005,  1037, 17662, 12172,
          2607,  2026,  2878,  2166,  1012,   102],
        [  101,  1045,  5223,  2023,  2061,  2172,   999,   102,     0,     0,
             0,     0,     0,     0,     0,     0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0]])}


Padding ve Truncation argümanları ilerleyen aşamalarda anlatılacaktır. Hatırlamanız gereken şeyler:
- Tokenizer'a cümle veya cümle listesi verilebilir.
- Tokenizer'ın return ettiği tensor tipini belirtebilirsiniz. Aksi takdirde default olan list of lists döndürülecektir. 

Yukarıda elde edilen çıktı aslında bir dictionary'dir ve iki adet key değeri vardır: `input_ids` ve `attention_mask`.

`input_ids` iki adet integer satırından oluşur (iki cümle için iki satır) ve bu satırların elemanları, cümledeki tokenleri tanımlayan eşsiz sayılardır. 
 

## Model

Tokenizer'ı indirdiğimiz gibi pretrained modeli de indirebiliriz. Bunun için `AutoModel` sınıfından `from_pretrained()` metodunu kullanabiliriz. 

In [7]:
from transformers import AutoModel

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
model = AutoModel.from_pretrained(checkpoint)

Some weights of the model checkpoint at distilbert-base-uncased-finetuned-sst-2-english were not used when initializing DistilBertModel: ['pre_classifier.weight', 'pre_classifier.bias', 'classifier.bias', 'classifier.weight']
- This IS expected if you are initializing DistilBertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing DistilBertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Yukarıdaki kod parçası, daha önceden pipeline fonksiyonu ile indirdiğimiz checkpoint'i yükleyecektir ve bir model oluşturacaktır.

Bu mimari sadece base Transformer modülünü içerir: Verilen girdiler için _hidden state_ veya _features_ denilen çıktılar üretir, yani her model input'u için high-dimensional vektör ifadesi döndürülür. Bu vektör, verilen girdinin içindeki bağlamsal anlayışı'ı (contextual understanding) içerir.

Bu hidden state'ler kendi başlarına da anlamlı olmasına rağmen genelde _head_ olarak bilinen modellerin input'larıdır. Bu head'lar tasklara göre değişir. 

### A high-dimensional vector?

Transformer tarafından üretilen vektör genelde oldukça büyüktür ve üç boyutludur.

- Batch size: Tek seferde işlenen sequence sayısı, yukarıdaki örnek için 2'dir.
- Sequence length: Cümlenin nümerik ifadesinin uzunluğu, yukarıdaki örnek için 16'dır.
- Hidden size: The vector dimension of each model input.

Hidden size boyutu küçük modeller için 768 iken 3072'ye kadar büyüyebilir. Modelin çıktısını görmek için aşağıdaki blok çalıştırılabilir. `outputs` değişkeni namedtuple ya da dictionary olarak davranabilir. 


In [9]:
outputs = model(**inputs)
print(outputs.last_hidden_state.shape)

torch.Size([2, 16, 768])


### Model heads: Making sense out of numbers
Model heads girdi olarak hidden state içindeki yüksek boyutlu vektörü alır ve farklı bir boyuta "project" eder.

Genelde bir ya da birkaç linear katmandan oluşturulur. Transformer modelin çıktısı, işlenmek için direkt olarak model head'a gönderilir. 
![image.png](attachment:image.png)

Görseldeki model, embedding layer ve subsequent layers olarak ifade edilmiştir. Embedding layer input ID'leri vektöre çevirir. Subsequent layer'lar bu vektörleri attention mechanism ile manipüle ederek final cümlenin representation'unu oluşturur.

Huggingface Transformers'ta farklı mimariler de mevcuttur ve her biri farklı bir iş için tasarlanmıştır.