ViT-Pytorch

Bu repoda Vision Transformer mimarisinin Pytorch kütühanesi ile implementasyonu bulunmaktadır. İncelemek isterseniz vision_transformers_implementation.py koduna bakabilirsiniz.

Kütüphaneler

Torch
Numpy
Tqdm
Matplotlib

Adım Adım Vision Transformer

Aşağıdaki görselde mimarinin tamamı gösterilmektedir. Genel anlamda özetlersek ilk olarak görüntü alınarak patch'lere ayrılır. Elde edilen patch'ler vektörlere çevrilerek bir dizi elde edilir ve bu dizinin en başına öğrenilebilir bir parametre olan classification token eklenir. Encoder'a girdi olarak verilmeden önce bu diziye bir de konum bilgisi (positional encoding) eklenir. Bu aşamalardan sonra artık girdi Encoder'a verilmek için uygun hale getirilmiş olur ve dizi Transformer Encoder'a girer. Transformer Encoder içerisinde MSA(Multi-Head Self Attention) ve MLP(Multi Layer Perceptron) olmak üzere 2 temel kısım bulunur. MSA kısmında attention skorları elde edilir. MLP kısmında da classification token ile sınıflandırma işlemi gerçekleştirilir.

Vision Transformer Model Mimarisi

1) Splitting an Image Into Patches and Linear Mapping

Bu kısımda görüntü belli bir patch (parça) sayısına göre parçalara ayrılır. NxNxC'lik bir görüntü için patch boyutunu PxP olarak belirlediğimizde elde edilen toplam patch sayısı (H*W*C)/(P*P) olur. Örneğin elimizde 28x28x1 boyutunda bir görsel olsun. Eğer patch boyutunu 7x7 olarak belirlersek elde edeceğimiz toplam patch sayısı 16 olur ve oluşan her bir patch'in boyutu da 4x4x1 olur. Daha iyi anlamak için aşağıdaki şekildeki görselleştirmeye bakılabilir. Ayrıca patch'lere ayırma ve görselleştirme için patchifying.ipynb kodu da incelenebilir.

Sonrasında 2D olan her bir patch 1D haline getirilir. Bu da P*P*C işlemi ile gerçekleştirilir. Önceki örneğimizi düşündüğümüzde vektörün uzunluğu 4x4x1'den 16 olur. Elde edilen vektör linear mapping ile istenilen boyuta eşlenebilir. Kodda hidden_d ile belirtilen değer aslında dizinin embedding size olarak kaça eşleneceğini belirtir.

2) Adding Classification Token

Classification token elde edilen dizinin başına eklenir. Bu eklenen token değeri öğrenilebilir bir parametredir. Bu Vision Transformer modelindeki amacımız sınıflandırma olduğu için böyle bir parametre ekleriz.

3) Positional Encoding

Positional encoding ile elde edilen bu patch embedding dizisine konum bilgisi eklenir. Transformer yapıları girdilerin sırasını hatırlama yeteneğine sahip değildir. Bu nedenle görüntüdeki patch'lerin sırasının değişmesi demek görüntünün anlamının kaybolması demektir. Bundan dolayı positional encoding'e ihtiyaç duyarız. Positional encoding için kullanılan formüller aşağıdaki görselde verilmiştir. O satırdaki indis çift ise sin fonskiyonu tek ise cos fonskiyonu kullanılmaktadır.

4) Transformer Encoder

Transformer Encoder detaylı gösterimi

4.1) Multi-Head Self Attention (MSA)

Transformer mimarisinin en önemli kısmı diyebiliriz. Bu kısımda kolaylık olması açısından sadece tek bir görüntü üzerinden ilerlenmektedir. Elimizdeki (seq, emb_size) şeklinde bir matrisimiz mevcut. Bu aşamada Query(Q), Key(K) ve Value(V) matrislerimizi oluşturmak için öncelikle (seq, emb_size) matrisimiz her birinin ağırlıkları birbirinden farklı olan Wq, Wk ve Wv matrisleri ile çarpılır. Bu çarpım sonucunda Q, K ve V matrislerimizi elde ederiz (aşağıdaki görselde sol taraf). Bu kısımda aslında bahsetmemiz gereken bir diğer kavram da head kavramıdır. Bu elde ettiğimiz Q, K ve V matrislerinin her biri sonraki işlemler için head'lere ayrılırlar. Q matrisi için şekildeki sağ taraftaki kısmı inceleyelim. Head sayısı 2 ise eğer artık emb_size kısmı her bir head için emb_size/n_head ile 3 olacaktır. Bizim kendi kodumuzda emb_size değeri 8 ve n_heads değeri 2 olarak belirlendiğinden elde edilen değer 4 olmaktadır. Sonrasında bu matrislerden Q ile K matrisi dot product yapılarak head sayısının kareköküne bölünür. Ardından ise elde edilen matris softmax fonskiyonundan geçirilir ve V matrisi ile çarpılır. Bu işlem sonucunda aslında bir head için attention score elde etmiş olunur. Bu attention score'lar ise en sonda birleştirilerek tek bir matris haline getirilirler.

4.2) Multi-Layer Perceptron (MLP)

MLP, iki tane Linear katman ve bunların arasına eklenen GELU aktivasyon fonksiyonundan oluşan bir kısımdır. Bir de en sonda sınıflandırma için kullanılan bir diğer MLP daha bulunur. Tüm bunlara ek olarak hem MSA hem de MLP katmanlarından önce layer normalization işlemi gerçekleştirilir. Ayrıca, mimaride bulunan residual connection'lar da eklenerek ağ daha güçlü hale getirilmeye çalışılır.

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
README.md		README.md
patchifying.ipynb		patchifying.ipynb
vision_transformers_implementation.py		vision_transformers_implementation.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

ViT-Pytorch

Kütüphaneler

Adım Adım Vision Transformer

1) Splitting an Image Into Patches and Linear Mapping

2) Adding Classification Token

3) Positional Encoding

4) Transformer Encoder

4.1) Multi-Head Self Attention (MSA)

4.2) Multi-Layer Perceptron (MLP)

Sources

About

Uh oh!

Releases

Packages

Languages

FidanVural/ViT-Pytorch

Folders and files

Latest commit

History

Repository files navigation

ViT-Pytorch

Kütüphaneler

Adım Adım Vision Transformer

1) Splitting an Image Into Patches and Linear Mapping

2) Adding Classification Token

3) Positional Encoding

4) Transformer Encoder

4.1) Multi-Head Self Attention (MSA)

4.2) Multi-Layer Perceptron (MLP)

Sources

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages