Vizuálny transformer so sekundárym vynorením

Diplomová práca zameraná na experimentálne prístupy ku klasifikácii obrazu vo Vision Transformeroch pomocou viacvektorového vynorenia kategórií.

Popis projektu

Vision Transformery (ViT) patria medzi moderné architektúry určené na klasifikáciu obrazu. Štandardne býva klasifikácia realizovaná pomocou klasifikačnej hlavy (MLP head), ktorá zo špeciálneho CLS tokenu vypočítava logaritmy pravdepodobností jednotlivých tried.

Hlavným cieľom práce je experimentálne overiť prístup, v ktorom môže byť jedna kategória reprezentovaná viacerými vektormi namiesto jedného prototypu. Tento prístup môže umožniť lepšie zachytenie variability objektov v rámci jednej triedy.

Ciele práce

analyzovať architektúru Vision Transformerov,
preskúmať klasické klasifikačné hlavy vo Vision Transformeroch,
implementovať klasifikáciu založenú na vynorení,
navrhnúť viacvektorovú reprezentáciu kategórií,
experimentálne porovnať navrhnutý prístup s klasickým MLP head prístupom,
vyhodnotiť výsledky pomocou metrík klasifikácie.

Predbežný plán experimentov

Experimenty budú zamerané na porovnanie:

klasického MLP head prístupu,
klasifikácie založenej na vynorení,
viacvektorového modelu vynorenia.

Vyhodnocované budú napríklad:

accuracy,
validation loss,
confusion matrix,
stabilita učenia,
podobnosť embeddingov.

Použité technológie

Python
PyTorch
torchvision
NumPy
Matplotlib
Jupyter Notebook

Aktuálny progres

Štruktúra repozitára

.
├── docs/           # diplomová práca, literatúra, PDF a .bib súbor
├── experiments/    # experimenty a notebooky
├── src/            # implementácia modelov
├── data/           # datasety
├── results/        # výsledky experimentov
└── README.md

Literatúra

Dosovitskiy et al. — An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
Vaswani et al. — Attention Is All You Need

Autor

Bc. Matej Miškovčík
FMFI UK Bratislava

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Vizuálny transformer so sekundárym vynorením

Popis projektu

Ciele práce

Predbežný plán experimentov

Použité technológie

Aktuálny progres

Štruktúra repozitára

Literatúra

Autor

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
data		data
docs		docs
experiments		experiments
results		results
src		src
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

Vizuálny transformer so sekundárym vynorením

Popis projektu

Ciele práce

Predbežný plán experimentov

Použité technológie

Aktuálny progres

Štruktúra repozitára

Literatúra

Autor

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages