[Feature] update readme

open-mmlab · Sep 26, 2022 · 950ad9c · 950ad9c
1 parent 0958cfe
commit 950ad9c
Show file tree

Hide file tree

Showing 12 changed files with 141 additions and 55 deletions.
diff --git a/configs/_base_/models/tinyvit/tinyvit-11m-224.py b/configs/_base_/models/tinyvit/tinyvit-11m-224.py
@@ -0,0 +1,23 @@
+# Model settings
+model = dict(
+    type='ImageClassifier',
+    backbone=dict(
+        type='TinyViT',
+        arch='tinyvit_11m_224',
+        out_indices=(3, ),
+        drop_path_rate=0.1,
+        gap_before_final_norm=True,
+        init_cfg=[
+            dict(
+                type='TruncNormal',
+                layer=['Conv2d', 'Linear'],
+                std=.02,
+                bias=0.),
+            dict(type='Constant', layer=['LayerNorm'], val=1., bias=0.),
+        ]),
+    head=dict(
+        type='LinearClsHead',
+        num_classes=1000,
+        in_channels=448,
+        loss=dict(type='CrossEntropyLoss', loss_weight=1.0),
+    ))
diff --git a/configs/_base_/models/tinyvit/tinyvit-21m-224.py b/configs/_base_/models/tinyvit/tinyvit-21m-224.py
@@ -0,0 +1,23 @@
+# Model settings
+model = dict(
+    type='ImageClassifier',
+    backbone=dict(
+        type='TinyViT',
+        arch='tinyvit_21m_224',
+        out_indices=(3, ),
+        drop_path_rate=0.2,
+        gap_before_final_norm=True,
+        init_cfg=[
+            dict(
+                type='TruncNormal',
+                layer=['Conv2d', 'Linear'],
+                std=.02,
+                bias=0.),
+            dict(type='Constant', layer=['LayerNorm'], val=1., bias=0.),
+        ]),
+    head=dict(
+        type='LinearClsHead',
+        num_classes=1000,
+        in_channels=576,
+        loss=dict(type='CrossEntropyLoss', loss_weight=1.0),
+    ))
diff --git a/configs/_base_/models/tinyvit/tinyvit-21m-384.py b/configs/_base_/models/tinyvit/tinyvit-21m-384.py
@@ -0,0 +1,23 @@
+# Model settings
+model = dict(
+    type='ImageClassifier',
+    backbone=dict(
+        type='TinyViT',
+        arch='tinyvit_21m_384',
+        out_indices=(3, ),
+        drop_path_rate=0.1,
+        gap_before_final_norm=True,
+        init_cfg=[
+            dict(
+                type='TruncNormal',
+                layer=['Conv2d', 'Linear'],
+                std=.02,
+                bias=0.),
+            dict(type='Constant', layer=['LayerNorm'], val=1., bias=0.),
+        ]),
+    head=dict(
+        type='LinearClsHead',
+        num_classes=1000,
+        in_channels=576,
+        loss=dict(type='CrossEntropyLoss', loss_weight=1.0),
+    ))
diff --git a/configs/_base_/models/tinyvit/tinyvit-21m-512.py b/configs/_base_/models/tinyvit/tinyvit-21m-512.py
@@ -0,0 +1,23 @@
+# Model settings
+model = dict(
+    type='ImageClassifier',
+    backbone=dict(
+        type='TinyViT',
+        arch='tinyvit_21m_512',
+        out_indices=(3, ),
+        drop_path_rate=0.1,
+        gap_before_final_norm=True,
+        init_cfg=[
+            dict(
+                type='TruncNormal',
+                layer=['Conv2d', 'Linear'],
+                std=.02,
+                bias=0.),
+            dict(type='Constant', layer=['LayerNorm'], val=1., bias=0.),
+        ]),
+    head=dict(
+        type='LinearClsHead',
+        num_classes=1000,
+        in_channels=576,
+        loss=dict(type='CrossEntropyLoss', loss_weight=1.0),
+    ))
diff --git a/configs/_base_/models/tinyvit/tinyvit-5m-224.py b/configs/_base_/models/tinyvit/tinyvit-5m-224.py
@@ -0,0 +1,23 @@
+# Model settings
+model = dict(
+    type='ImageClassifier',
+    backbone=dict(
+        type='TinyViT',
+        arch='tinyvit_5m_224',
+        out_indices=(3, ),
+        drop_path_rate=0.0,
+        gap_before_final_norm=True,
+        init_cfg=[
+            dict(
+                type='TruncNormal',
+                layer=['Conv2d', 'Linear'],
+                std=.02,
+                bias=0.),
+            dict(type='Constant', layer=['LayerNorm'], val=1., bias=0.),
+        ]),
+    head=dict(
+        type='LinearClsHead',
+        num_classes=1000,
+        in_channels=320,
+        loss=dict(type='CrossEntropyLoss', loss_weight=1.0),
+    ))
diff --git a/configs/tinyvit/README.md b/configs/tinyvit/README.md
@@ -22,12 +22,12 @@ Vision transformer (ViT) recently has drawn great attention in computer vision d
 
 |            Model            |   Pretrain   | Params(M) | Flops(G) | Top-1 (%) | Top-5 (%) |                             Config                             |                             Download                             |
 | :-------------------------: | :----------: | :-------: | :------: | :-------: | :-------: | :------------------------------------------------------------: | :--------------------------------------------------------------: |
-|      TinyViT-5M-224\*       | From scratch |   28.59   |   4.46   |   82.05   |   95.86   | [config](https://github.com/open-mmlab/mmclassification/blob/master/configs/convnext/convnext-tiny_32xb128_in1k.py) | [model](https://download.openmmlab.com/mmclassification/v0/convnext/convnext-tiny_3rdparty_32xb128_in1k_20220124-18abde00.pth) |
-|      TinyViT-11M-224\*      | From scratch |   50.22   |   8.69   |   83.13   |   96.44   | [config](https://github.com/open-mmlab/mmclassification/blob/master/configs/convnext/convnext-small_32xb128_in1k.py) | [model](https://download.openmmlab.com/mmclassification/v0/convnext/convnext-small_3rdparty_32xb128_in1k_20220124-d39b5192.pth) |
-|      TinyViT-21M-224\*      | From scratch |   88.59   |  15.36   |   83.85   |   96.74   | [config](https://github.com/open-mmlab/mmclassification/blob/master/configs/convnext/convnext-base_32xb128_in1k.py) | [model](https://download.openmmlab.com/mmclassification/v0/convnext/convnext-base_3rdparty_32xb128_in1k_20220124-d0915162.pth) |
-| TinyViT-5M-224-Distilled\*  | ImageNet-21k |   88.59   |  15.36   |   85.81   |   97.86   | [config](https://github.com/open-mmlab/mmclassification/blob/master/configs/convnext/convnext-base_32xb128_in1k.py) | [model](https://download.openmmlab.com/mmclassification/v0/convnext/convnext-base_in21k-pre-3rdparty_32xb128_in1k_20220124-eb2d6ada.pth) |
-| TinyViT-11M-224-Distilled\* | From scratch |  197.77   |  34.37   |   84.30   |   96.89   | [config](https://github.com/open-mmlab/mmclassification/blob/master/configs/convnext/convnext-large_64xb64_in1k.py) | [model](https://download.openmmlab.com/mmclassification/v0/convnext/convnext-large_3rdparty_64xb64_in1k_20220124-f8a0ded0.pth) |
-| TinyViT-21M-224-Distilled\* | ImageNet-21k |  197.77   |  34.37   |   86.61   |   98.04   | [config](https://github.com/open-mmlab/mmclassification/blob/master/configs/convnext/convnext-large_64xb64_in1k.py) | [model](https://download.openmmlab.com/mmclassification/v0/convnext/convnext-large_in21k-pre-3rdparty_64xb64_in1k_20220124-2412403d.pth) |
+|      TinyViT-5M-224\*       | From scratch |   5.39   |   1.29   |   79.02   |   94.74   | [config](https://github.com/open-mmlab/mmclassification/blob/master/configs/tinyvit/tinyvit-5m-224_8xb256_in1k.py) | [model](https://download.openmmlab.com/mmclassification/v0/convnext/convnext-tiny_3rdparty_32xb128_in1k_20220124-18abde00.pth) |
+|      TinyViT-11M-224\*      | From scratch |   11.00   |   2.05   |   81.44   |   95.79   | [config](https://github.com/open-mmlab/mmclassification/blob/master/configs/tinyvit/tinyvit-11m-224_8xb256_in1k.py) | [model](https://download.openmmlab.com/mmclassification/v0/convnext/convnext-small_3rdparty_32xb128_in1k_20220124-d39b5192.pth) |
+|      TinyViT-21M-224\*      | From scratch |   21.20   |   4.30   |   83.08   |   96.54   | [config](https://github.com/open-mmlab/mmclassification/blob/master/configs/tinyvit/tinyvit-21m-224_8xb256_in1k.py) | [model](https://download.openmmlab.com/mmclassification/v0/convnext/convnext-base_3rdparty_32xb128_in1k_20220124-d0915162.pth) |
+| TinyViT-5M-224-Distilled\*  | ImageNet-21k |   5.39    |   1.29   |   80.71   |   95.57   | [config](https://github.com/open-mmlab/mmclassification/blob/master/configs/convnext/tinyvit-5m-224-distill_8xb256_in1k.py) | [model](https://download.openmmlab.com/mmclassification/v0/convnext/convnext-base_in21k-pre-3rdparty_32xb128_in1k_20220124-eb2d6ada.pth) |
+| TinyViT-11M-224-Distilled\* | ImageNet-21k |   11.00   |   2.05   |   83.19   |   96.53   | [config](https://github.com/open-mmlab/mmclassification/blob/master/configs/convnext/tinyvit-11m-224-distill_8xb256_in1k.py) | [model](https://download.openmmlab.com/mmclassification/v0/convnext/convnext-large_3rdparty_64xb64_in1k_20220124-f8a0ded0.pth) |
+| TinyViT-21M-224-Distilled\* | ImageNet-21k |   21.20   |   4.30   |   84.85   |   97.27   | [config](https://github.com/open-mmlab/mmclassification/blob/master/configs/convnext/tinyvit-21m-224-distill_8xb256_in1k.py) | [model](https://download.openmmlab.com/mmclassification/v0/convnext/convnext-large_in21k-pre-3rdparty_64xb64_in1k_20220124-2412403d.pth) |
 | TinyViT-21M-384-Distilled\* | ImageNet-21k |  350.20   |  60.93   |   86.97   |   98.20   | [config](https://github.com/open-mmlab/mmclassification/blob/master/configs/convnext/convnext-xlarge_64xb64_in1k.py) | [model](https://download.openmmlab.com/mmclassification/v0/convnext/convnext-xlarge_in21k-pre-3rdparty_64xb64_in1k_20220124-76b6863d.pth) |
 | TinyViT-21M-812-Distilled\* | ImageNet-21k |  350.20   |  60.93   |   86.97   |   98.20   | [config](https://github.com/open-mmlab/mmclassification/blob/master/configs/convnext/convnext-xlarge_64xb64_in1k.py) | [model](https://download.openmmlab.com/mmclassification/v0/convnext/convnext-xlarge_in21k-pre-3rdparty_64xb64_in1k_20220124-76b6863d.pth) |
 

diff --git a/configs/tinyvit/metafile.yml b/configs/tinyvit/metafile.yml
@@ -82,7 +82,7 @@ Models:
       Code: https://github.com/microsoft/Cream/tree/main/TinyViT
   - Name: tinyvit-11m-224-distill_3rdparty_8xb256_in1k
     Metadata:
-      FLOPs: 255640144
+      FLOPs: 2050033664
       Parameters: 10996972
     In Collections: TinyViT
     Results:

diff --git a/configs/tinyvit/tinyvit-11m-224_8xb256_in1k.py b/configs/tinyvit/tinyvit-11m-224_8xb256_in1k.py
@@ -1,8 +1,6 @@
 _base_ = [
-    './tinyvit-5m-224_8xb256_in1k.py',
+    '../_base_/datasets/imagenet_bs32_pil_bicubic.py',
+    '../_base_/schedules/imagenet_bs1024_adamw_swin.py',
+    '../_base_/default_runtime.py',
+    '../_base_/models/tinyvit/tinyvit-11m-224.py',
 ]
-
-# Model settings
-model = dict(
-    backbone=dict(arch='tinyvit_11m_224', drop_path_rate=0.1),
-    head=dict(in_channels=448))
diff --git a/configs/tinyvit/tinyvit-21m-224_8xb256_in1k.py b/configs/tinyvit/tinyvit-21m-224_8xb256_in1k.py
@@ -1,8 +1,6 @@
 _base_ = [
-    './tinyvit-5m-224_8xb256_in1k.py',
+    '../_base_/datasets/imagenet_bs32_pil_bicubic.py',
+    '../_base_/schedules/imagenet_bs1024_adamw_swin.py',
+    '../_base_/default_runtime.py',
+    '../_base_/models/tinyvit/tinyvit-21m-224.py',
 ]
-
-# Model settings
-model = dict(
-    backbone=dict(arch='tinyvit_21m_224', drop_path_rate=0.2),
-    head=dict(in_channels=576))
diff --git a/configs/tinyvit/tinyvit-21m-384-distill_8xb256_in1k.py b/configs/tinyvit/tinyvit-21m-384-distill_8xb256_in1k.py
@@ -1,12 +1,11 @@
 _base_ = [
-    './tinyvit-21m-224_8xb256_in1k.py',
+    '../_base_/datasets/imagenet_bs32_pil_bicubic.py',
+    '../_base_/schedules/imagenet_bs1024_adamw_swin.py',
+    '../_base_/default_runtime.py',
+    '../_base_/models/tinyvit/tinyvit-21m-384.py',
 ]
 
-# Model settings
-model = dict(
-    backbone=dict(arch='tinyvit_21m_384', drop_path_rate=0.1),
-    head=dict(in_channels=576))
-
+# data settings
 test_pipeline = [
     dict(type='LoadImageFromFile'),
     dict(

diff --git a/configs/tinyvit/tinyvit-21m-512-distill_8xb256_in1k.py b/configs/tinyvit/tinyvit-21m-512-distill_8xb256_in1k.py
@@ -1,12 +1,11 @@
 _base_ = [
-    './tinyvit-21m-224_8xb256_in1k.py',
+    '../_base_/datasets/imagenet_bs32_pil_bicubic.py',
+    '../_base_/schedules/imagenet_bs1024_adamw_swin.py',
+    '../_base_/default_runtime.py',
+    '../_base_/models/tinyvit/tinyvit-21m-512.py',
 ]
 
-# Model settings
-model = dict(
-    backbone=dict(arch='tinyvit_21m_512', drop_path_rate=0.1),
-    head=dict(in_channels=576))
-
+# data settings
 test_pipeline = [
     dict(type='LoadImageFromFile'),
     dict(

diff --git a/configs/tinyvit/tinyvit-5m-224_8xb256_in1k.py b/configs/tinyvit/tinyvit-5m-224_8xb256_in1k.py
@@ -2,28 +2,5 @@
     '../_base_/datasets/imagenet_bs32_pil_bicubic.py',
     '../_base_/schedules/imagenet_bs1024_adamw_swin.py',
     '../_base_/default_runtime.py',
+    '../_base_/models/tinyvit/tinyvit-5m-224.py',
 ]
-
-# Model settings
-model = dict(
-    type='ImageClassifier',
-    backbone=dict(
-        type='TinyViT',
-        arch='tinyvit_5m_224',
-        out_indices=(3, ),
-        drop_path_rate=0.0,
-        gap_before_final_norm=True,
-        init_cfg=[
-            dict(
-                type='TruncNormal',
-                layer=['Conv2d', 'Linear'],
-                std=.02,
-                bias=0.),
-            dict(type='Constant', layer=['LayerNorm'], val=1., bias=0.),
-        ]),
-    head=dict(
-        type='LinearClsHead',
-        num_classes=1000,
-        in_channels=320,
-        loss=dict(type='CrossEntropyLoss', loss_weight=1.0),
-    ))