Diplomová práca zameraná na experimentálne prístupy ku klasifikácii obrazu vo Vision Transformeroch pomocou viacvektorového vynorenia kategórií.
Vision Transformery (ViT) patria medzi moderné architektúry určené na klasifikáciu obrazu. Štandardne býva klasifikácia realizovaná pomocou klasifikačnej hlavy (MLP head), ktorá zo špeciálneho CLS tokenu vypočítava logaritmy pravdepodobností jednotlivých tried.
Hlavným cieľom práce je experimentálne overiť prístup, v ktorom môže byť jedna kategória reprezentovaná viacerými vektormi namiesto jedného prototypu. Tento prístup môže umožniť lepšie zachytenie variability objektov v rámci jednej triedy.
- analyzovať architektúru Vision Transformerov,
- preskúmať klasické klasifikačné hlavy vo Vision Transformeroch,
- implementovať klasifikáciu založenú na vynorení,
- navrhnúť viacvektorovú reprezentáciu kategórií,
- experimentálne porovnať navrhnutý prístup s klasickým MLP head prístupom,
- vyhodnotiť výsledky pomocou metrík klasifikácie.
Experimenty budú zamerané na porovnanie:
- klasického MLP head prístupu,
- klasifikácie založenej na vynorení,
- viacvektorového modelu vynorenia.
Vyhodnocované budú napríklad:
- accuracy,
- validation loss,
- confusion matrix,
- stabilita učenia,
- podobnosť embeddingov.
- Python
- PyTorch
- torchvision
- NumPy
- Matplotlib
- Jupyter Notebook
- Založenie GitHub repozitára
- Príprava LaTeX kostry práce
- Základný prehľad literatúry
- Testovanie knižníc a Vision transformeru z torch vision knižnice
- Príprava prezentácie na Projektový seminár 1
- Implementácia baseline Vision Transformer modelu
- Implementácia klasického classification head
- Implementácia klasifikácie založenej na vynorení
- Implementácia viacvektorového modelu vynorenia
- Experimentálne vyhodnotenie
- Finalizácia diplomovej práce
.
├── docs/ # diplomová práca, literatúra, PDF a .bib súbor
├── experiments/ # experimenty a notebooky
├── src/ # implementácia modelov
├── data/ # datasety
├── results/ # výsledky experimentov
└── README.md
- Dosovitskiy et al. — An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
- Vaswani et al. — Attention Is All You Need
Bc. Matej Miškovčík
FMFI UK Bratislava