Skip to content

boostcampaitech4lv23nlp2/final-project-level3-nlp-14

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

43 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Naver_BoostCamp_NOTA Final Project

팀 소개

김광연 김민준 김병준 김상혁 서재명
광연님 민준님 병준님 상혁2 재명님

Training

  1. 데이터셋 준비 ADE20K, Tiny_ImageNet
dataset
    |--ADE20K
    |--Tiny_ImageNet
  1. 학습 시작
    • tiny_imagenet Pretraining
    bash dist_train.sh {사용하는 gpu 개수} \
        --data-path {tiny_imagenet path} \ # 이름에 tiny가 포함되어야함
        --output_dir {save dir path} \
        --batch-size {batch size per gpu } # default=128
    
    # example
    bash dist_train.sh 4 \
        --data-path /workspace/dataset/tiny_imagenet \
        --output_dir result/mod_segformer/ \
        --batch-size 64
    
    • ADE20K fine-tuning
    # 현재 디렉토리: /root/Naver_BoostCamp_NOTA
    python train.py \
        --data_dir {ADE20K의 path} \
        --device 0,1,2,3 \ # 환경에 맞게 수정 
        --save_path {save하고자 하는 dir의 path} \ 
        --pretrain {pretrain 모델 dir 혹은 .pth의 path} # .pth(pretrain의 output), dir(huggingface의 모델허브에서 제공하는 형태)
        --batch_size {batch size} # default=16

Evaluation & FLOPs, 파라미터 개수 확인

  • evaluate 수행
# phase를 통해 val 또는 test set 설정
python eval.py \ # eval.py 내의 model을 정의하는 코드 수정
    --data_dir {ADE20K의 path} \
    --pretrain {pretrain 모델 dir의 path}
  • FLOPs, 파라미터 개수 확인
python util/get_flops_params.py \ # get_flops_params.py 내의 model을 정의하는 코드 수정
    --data_dir {ADE20K의 path}

프로젝트 소개

d7ab99c2_1 d7ab99c2_2 d7ab99c2_3 d7ab99c2_4 d7ab99c2_5 d7ab99c2_6

주요 참고자료

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

Feature Pyramid Networks for Object Detection

Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions

PVTv2: Improved Baselines with Pyramid Vision Transformer

Depth Estimation with Simplified Transformer

SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation

Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios

IS ATTENTION BETTER THAN MATRIX DECOMPOSITION

Efficient Attention: Attention with Linear Complexities

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

MLP-Mixer: An all-MLP Architecture for Vision

Lawin Transformer: Improving Semantic Segmentation Transformer with Multi-Scale Representations via Large Window Attention

About

final-project-14 created by GitHub Classroom

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published