In [1]:
import torch
from PIL import Image
import torchvision.transforms as T
import timm
from timm.data import resolve_data_config
from timm.data.transforms_factory import create_transform
import os
import argparse
import json
from tqdm import tqdm

In [2]:
def extract_features(img_type, input_image):
    if img_type == "vit":
        config = resolve_data_config({}, model=vit_model, verbose=1)
        transform = create_transform(**config)
        with torch.no_grad():
            img = Image.open(input_image).convert("RGB")
            input = transform(img).unsqueeze(0)
            feature = vit_model.forward_features(input)
        return feature
    
    elif img_type == "detr":
        transform = T.Compose([
            T.Resize(224),
            T.ToTensor(),
            T.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
        ])
        with torch.no_grad():
            img = Image.open(input_image).convert("RGB")
            input = transform(img).unsqueeze(0)
            feature = detr_model(input)[-1]
        return feature

In [3]:
data_root = 'data/images'
all_images = os.listdir(data_root)
all_images

['1',
 '100',
 '10001',
 '10003',
 '10007',
 '10008',
 '10009',
 '1001',
 '10010',
 '10014',
 '10015',
 '10017',
 '10019',
 '1002',
 '10023',
 '10024',
 '10025',
 '10026',
 '10027',
 '1003',
 '10032',
 '10038',
 '10039',
 '10044',
 '10046',
 '10053',
 '10055',
 '10056',
 '10057',
 '10059',
 '10066',
 '10067',
 '10069',
 '10071',
 '10072',
 '10073',
 '10076',
 '10077',
 '10078',
 '10079',
 '10080',
 '10081',
 '10082',
 '10084',
 '10085',
 '10087',
 '10088',
 '1009',
 '10090',
 '10092',
 '10094',
 '10095',
 '10098',
 '10099',
 '101',
 '1010',
 '10100',
 '10105',
 '10107',
 '1011',
 '10111',
 '10116',
 '10117',
 '10118',
 '1012',
 '10123',
 '10126',
 '10128',
 '1013',
 '10130',
 '10132',
 '10134',
 '10135',
 '10139',
 '1014',
 '10141',
 '10143',
 '10145',
 '10147',
 '10148',
 '1015',
 '10150',
 '10152',
 '10157',
 '10159',
 '10161',
 '10162',
 '10163',
 '10168',
 '10169',
 '1017',
 '10171',
 '10172',
 '10176',
 '10177',
 '10178',
 '10179',
 '1018',
 '10180',
 '10181',
 '10182',
 '10183',


In [4]:
tmp = []
name_map = {}
all_images.sort(key=lambda x:int(x))
print(len(all_images))

11208


In [16]:
vit_model = timm.create_model("vit_large_patch32_384", pretrained=True, num_classes=0)
vit_model.eval()

VisionTransformer(
  (patch_embed): PatchEmbed(
    (proj): Conv2d(3, 1024, kernel_size=(32, 32), stride=(32, 32))
    (norm): Identity()
  )
  (pos_drop): Dropout(p=0.0, inplace=False)
  (patch_drop): Identity()
  (norm_pre): Identity()
  (blocks): Sequential(
    (0): Block(
      (norm1): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
      (attn): Attention(
        (qkv): Linear(in_features=1024, out_features=3072, bias=True)
        (q_norm): Identity()
        (k_norm): Identity()
        (attn_drop): Dropout(p=0.0, inplace=False)
        (proj): Linear(in_features=1024, out_features=1024, bias=True)
        (proj_drop): Dropout(p=0.0, inplace=False)
      )
      (ls1): Identity()
      (drop_path1): Identity()
      (norm2): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)
      (mlp): Mlp(
        (fc1): Linear(in_features=1024, out_features=4096, bias=True)
        (act): GELU(approximate='none')
        (drop1): Dropout(p=0.0, inplace=False)
        (norm): Id

In [17]:
for idx, image in enumerate(tqdm(all_images)):
    if idx % 100 == 0: print(idx)
    if os.path.exists(os.path.join(data_root, image, "image.png")):
        curr_dir = os.path.join(data_root, image, "image.png")
        feature = extract_features('vit', curr_dir)
        tmp.append(feature.detach().cpu())
        name_map[str(image)] = idx

  0%|                                                                                        | 0/11208 [00:00<?, ?it/s]

0


  1%|▋                                                                           | 100/11208 [01:23<2:48:37,  1.10it/s]

100


  2%|█▎                                                                          | 200/11208 [02:38<2:16:04,  1.35it/s]

200


  3%|██                                                                          | 300/11208 [03:53<2:07:31,  1.43it/s]

300


  4%|██▋                                                                         | 400/11208 [05:13<2:14:00,  1.34it/s]

400


  4%|███▍                                                                        | 500/11208 [06:35<2:50:15,  1.05it/s]

500


  5%|████                                                                        | 600/11208 [08:08<2:22:19,  1.24it/s]

600


  6%|████▋                                                                       | 699/11208 [09:37<2:43:56,  1.07it/s]

700


  7%|█████▍                                                                      | 800/11208 [11:05<2:19:20,  1.24it/s]

800


  8%|██████                                                                      | 900/11208 [12:34<2:19:19,  1.23it/s]

900


  9%|██████▋                                                                    | 1000/11208 [14:02<2:35:06,  1.10it/s]

1000


 10%|███████▎                                                                   | 1100/11208 [15:32<2:02:54,  1.37it/s]

1100


 11%|████████                                                                   | 1200/11208 [16:58<2:09:09,  1.29it/s]

1200


 12%|████████▋                                                                  | 1300/11208 [18:26<1:44:44,  1.58it/s]

1300


 12%|█████████▎                                                                 | 1400/11208 [19:56<2:47:13,  1.02s/it]

1400


 13%|██████████                                                                 | 1499/11208 [21:28<2:50:48,  1.06s/it]

1500


 14%|██████████▋                                                                | 1600/11208 [22:59<2:30:17,  1.07it/s]

1600


 15%|███████████▍                                                               | 1700/11208 [24:30<2:29:08,  1.06it/s]

1700


 16%|████████████                                                               | 1800/11208 [25:57<2:18:16,  1.13it/s]

1800


 17%|████████████▋                                                              | 1900/11208 [27:29<2:17:44,  1.13it/s]

1900


 18%|█████████████▍                                                             | 2000/11208 [29:02<2:00:15,  1.28it/s]

2000


 19%|██████████████                                                             | 2100/11208 [30:35<2:33:27,  1.01s/it]

2100


 20%|██████████████▋                                                            | 2200/11208 [32:04<1:56:38,  1.29it/s]

2200


 21%|███████████████▍                                                           | 2300/11208 [33:34<2:07:39,  1.16it/s]

2300


 21%|████████████████                                                           | 2400/11208 [35:10<1:47:42,  1.36it/s]

2400


 22%|████████████████▋                                                          | 2500/11208 [36:50<2:46:25,  1.15s/it]

2500


 23%|█████████████████▍                                                         | 2600/11208 [38:19<2:27:50,  1.03s/it]

2600


 24%|██████████████████                                                         | 2700/11208 [39:52<1:36:38,  1.47it/s]

2700


 25%|██████████████████▋                                                        | 2800/11208 [41:22<2:18:03,  1.01it/s]

2800


 26%|███████████████████▍                                                       | 2900/11208 [42:52<1:48:19,  1.28it/s]

2900


 27%|████████████████████                                                       | 3000/11208 [44:25<2:07:12,  1.08it/s]

3000


 28%|████████████████████▋                                                      | 3100/11208 [45:57<1:57:39,  1.15it/s]

3100


 29%|█████████████████████▍                                                     | 3200/11208 [47:26<1:51:51,  1.19it/s]

3200


 29%|██████████████████████                                                     | 3300/11208 [48:54<1:43:34,  1.27it/s]

3300


 30%|██████████████████████▊                                                    | 3400/11208 [50:29<2:20:38,  1.08s/it]

3400


 31%|███████████████████████▍                                                   | 3500/11208 [52:05<2:00:53,  1.06it/s]

3500


 32%|████████████████████████                                                   | 3600/11208 [53:38<1:45:15,  1.20it/s]

3600


 33%|████████████████████████▊                                                  | 3700/11208 [55:09<2:00:34,  1.04it/s]

3700


 34%|█████████████████████████▍                                                 | 3800/11208 [56:39<1:59:01,  1.04it/s]

3800


 35%|██████████████████████████                                                 | 3899/11208 [58:20<1:57:56,  1.03it/s]

3900


 36%|██████████████████████████▊                                                | 3999/11208 [59:58<1:26:07,  1.40it/s]

4000


 37%|██████████████████████████▋                                              | 4100/11208 [1:01:36<2:14:05,  1.13s/it]

4100


 37%|███████████████████████████▎                                             | 4200/11208 [1:03:09<1:41:14,  1.15it/s]

4200


 38%|████████████████████████████                                             | 4300/11208 [1:04:45<1:45:10,  1.09it/s]

4300


 39%|████████████████████████████▋                                            | 4400/11208 [1:06:29<1:18:50,  1.44it/s]

4400


 40%|█████████████████████████████▎                                           | 4500/11208 [1:08:01<1:43:46,  1.08it/s]

4500


 41%|█████████████████████████████▉                                           | 4600/11208 [1:09:38<1:48:17,  1.02it/s]

4600


 42%|██████████████████████████████▌                                          | 4700/11208 [1:11:07<1:45:27,  1.03it/s]

4700


 43%|███████████████████████████████▎                                         | 4800/11208 [1:12:42<1:37:27,  1.10it/s]

4800


 44%|███████████████████████████████▉                                         | 4900/11208 [1:14:20<1:46:39,  1.01s/it]

4900


 45%|████████████████████████████████▌                                        | 5000/11208 [1:15:53<1:36:24,  1.07it/s]

5000


 46%|█████████████████████████████████▏                                       | 5100/11208 [1:17:27<1:38:01,  1.04it/s]

5100


 46%|█████████████████████████████████▊                                       | 5200/11208 [1:19:04<1:45:43,  1.06s/it]

5200


 47%|██████████████████████████████████▌                                      | 5300/11208 [1:20:36<1:50:57,  1.13s/it]

5300


 48%|███████████████████████████████████▏                                     | 5400/11208 [1:22:06<1:28:43,  1.09it/s]

5400


 49%|███████████████████████████████████▊                                     | 5500/11208 [1:23:38<1:33:21,  1.02it/s]

5500


 50%|████████████████████████████████████▍                                    | 5600/11208 [1:25:10<1:27:01,  1.07it/s]

5600


 51%|█████████████████████████████████████▏                                   | 5700/11208 [1:26:35<1:11:09,  1.29it/s]

5700


 52%|████████████████████████████████████▏                                 | 5798/11208 [2:47:52<519:54:45, 345.97s/it]

5800


 53%|██████████████████████████████████████▍                                  | 5900/11208 [2:49:19<1:02:40,  1.41it/s]

5900


 54%|███████████████████████████████████████                                  | 6000/11208 [2:50:37<1:10:41,  1.23it/s]

6000


 54%|███████████████████████████████████████▋                                 | 6100/11208 [2:52:10<1:29:24,  1.05s/it]

6100


 55%|████████████████████████████████████████▍                                | 6200/11208 [2:53:47<1:22:32,  1.01it/s]

6200


 56%|█████████████████████████████████████████                                | 6300/11208 [2:55:18<1:17:40,  1.05it/s]

6300


 57%|█████████████████████████████████████████▋                               | 6400/11208 [2:56:50<1:23:17,  1.04s/it]

6400


 58%|██████████████████████████████████████████▎                              | 6500/11208 [2:58:28<1:12:54,  1.08it/s]

6500


 59%|██████████████████████████████████████████▉                              | 6600/11208 [2:59:50<1:01:14,  1.25it/s]

6600


 60%|███████████████████████████████████████████▋                             | 6700/11208 [3:01:19<1:10:08,  1.07it/s]

6700


 61%|████████████████████████████████████████████▎                            | 6800/11208 [3:02:42<1:02:48,  1.17it/s]

6800


 62%|████████████████████████████████████████████▉                            | 6900/11208 [3:04:11<1:01:52,  1.16it/s]

6900


 62%|██████████████████████████████████████████████▊                            | 7000/11208 [3:05:34<52:25,  1.34it/s]

7000


 63%|███████████████████████████████████████████████▌                           | 7100/11208 [3:06:59<53:00,  1.29it/s]

7100


 64%|████████████████████████████████████████████████▏                          | 7200/11208 [3:08:28<56:19,  1.19it/s]

7200


 65%|████████████████████████████████████████████████▊                          | 7300/11208 [3:09:56<58:01,  1.12it/s]

7300


 66%|████████████████████████████████████████████████▏                        | 7400/11208 [3:11:22<1:02:25,  1.02it/s]

7400


 67%|██████████████████████████████████████████████████▏                        | 7500/11208 [3:12:54<48:42,  1.27it/s]

7500


 68%|█████████████████████████████████████████████████▍                       | 7599/11208 [3:14:28<1:03:45,  1.06s/it]

7600


 69%|███████████████████████████████████████████████████▌                       | 7700/11208 [3:16:09<41:54,  1.40it/s]

7700


 70%|████████████████████████████████████████████████████▏                      | 7800/11208 [3:17:42<51:57,  1.09it/s]

7800


 70%|████████████████████████████████████████████████████▊                      | 7900/11208 [3:19:10<54:17,  1.02it/s]

7900


 71%|█████████████████████████████████████████████████████▌                     | 8000/11208 [3:20:36<49:03,  1.09it/s]

8000


 72%|██████████████████████████████████████████████████████▏                    | 8100/11208 [3:22:03<46:13,  1.12it/s]

8100


 73%|██████████████████████████████████████████████████████▊                    | 8200/11208 [3:23:35<49:45,  1.01it/s]

8200


 74%|███████████████████████████████████████████████████████▌                   | 8300/11208 [3:25:05<47:37,  1.02it/s]

8300


 75%|████████████████████████████████████████████████████████▏                  | 8400/11208 [3:26:29<35:53,  1.30it/s]

8400


 76%|████████████████████████████████████████████████████████▉                  | 8500/11208 [3:27:56<42:02,  1.07it/s]

8500


 77%|█████████████████████████████████████████████████████████▌                 | 8600/11208 [3:29:20<35:56,  1.21it/s]

8600


 78%|██████████████████████████████████████████████████████████▏                | 8700/11208 [3:30:50<34:26,  1.21it/s]

8700


 79%|██████████████████████████████████████████████████████████▉                | 8800/11208 [3:32:17<32:57,  1.22it/s]

8800


 79%|███████████████████████████████████████████████████████████▌               | 8900/11208 [3:33:44<33:55,  1.13it/s]

8900


 80%|████████████████████████████████████████████████████████████▏              | 9000/11208 [3:35:14<33:02,  1.11it/s]

9000


 81%|████████████████████████████████████████████████████████████▉              | 9099/11208 [3:36:46<32:35,  1.08it/s]

9100


 82%|█████████████████████████████████████████████████████████████▌             | 9200/11208 [3:38:17<34:31,  1.03s/it]

9200


 83%|██████████████████████████████████████████████████████████████▏            | 9300/11208 [3:39:42<28:33,  1.11it/s]

9300


 84%|██████████████████████████████████████████████████████████████▉            | 9400/11208 [3:41:06<26:33,  1.13it/s]

9400


 85%|███████████████████████████████████████████████████████████████▌           | 9500/11208 [3:42:36<21:32,  1.32it/s]

9500


 86%|████████████████████████████████████████████████████████████████▏          | 9600/11208 [3:43:58<21:17,  1.26it/s]

9600


 87%|████████████████████████████████████████████████████████████████▉          | 9700/11208 [3:45:26<24:32,  1.02it/s]

9700


 87%|█████████████████████████████████████████████████████████████████▌         | 9800/11208 [3:46:52<20:45,  1.13it/s]

9800


 88%|██████████████████████████████████████████████████████████████████▏        | 9900/11208 [3:48:21<18:56,  1.15it/s]

9900


 89%|██████████████████████████████████████████████████████████████████        | 10000/11208 [3:49:49<17:24,  1.16it/s]

10000


 90%|██████████████████████████████████████████████████████████████████▋       | 10100/11208 [3:51:16<16:45,  1.10it/s]

10100


 91%|███████████████████████████████████████████████████████████████████▎      | 10200/11208 [3:52:50<15:57,  1.05it/s]

10200


 92%|███████████████████████████████████████████████████████████████████▉      | 10299/11208 [3:54:19<13:53,  1.09it/s]

10300


 93%|████████████████████████████████████████████████████████████████████▋     | 10400/11208 [3:55:42<12:34,  1.07it/s]

10400


 94%|█████████████████████████████████████████████████████████████████████▎    | 10500/11208 [3:57:11<11:04,  1.06it/s]

10500


 95%|█████████████████████████████████████████████████████████████████████▉    | 10600/11208 [3:58:39<08:05,  1.25it/s]

10600


 95%|██████████████████████████████████████████████████████████████████████▋   | 10700/11208 [4:00:04<07:21,  1.15it/s]

10700


 96%|███████████████████████████████████████████████████████████████████████▎  | 10800/11208 [4:01:31<04:50,  1.40it/s]

10800


 97%|███████████████████████████████████████████████████████████████████████▉  | 10900/11208 [4:02:57<03:10,  1.61it/s]

10900


 98%|████████████████████████████████████████████████████████████████████████▋ | 11000/11208 [4:04:26<03:22,  1.03it/s]

11000


 99%|█████████████████████████████████████████████████████████████████████████▎| 11100/11208 [4:05:58<01:33,  1.16it/s]

11100


100%|█████████████████████████████████████████████████████████████████████████▉| 11200/11208 [4:07:32<00:07,  1.11it/s]

11200


100%|██████████████████████████████████████████████████████████████████████████| 11208/11208 [4:07:40<00:00,  1.33s/it]


In [18]:
res = torch.cat(tmp).cpu()
torch.save(res, os.path.join('vision_features', 'vit_large_patch32_384' +'.pth'))
with open(os.path.join('vision_features', 'vit_large_patch32_384_name_map.json'), 'w') as outfile:
    json.dump(name_map, outfile)

In [14]:
detr_model = torch.hub.load('cooelf/detr', 'detr_resnet101_dc5', pretrained=True)
detr_model.eval()

Downloading: "https://github.com/cooelf/detr/zipball/main" to C:\Users\pakale/.cache\torch\hub\main.zip
Downloading: "https://download.pytorch.org/models/resnet101-63fe2227.pth" to C:\Users\pakale/.cache\torch\hub\checkpoints\resnet101-63fe2227.pth
100%|███████████████████████████████████████████████████████████████████████████████| 171M/171M [00:15<00:00, 11.2MB/s]
Downloading: "https://dl.fbaipublicfiles.com/detr/detr-r101-dc5-a2e86def.pth" to C:\Users\pakale/.cache\torch\hub\checkpoints\detr-r101-dc5-a2e86def.pth
100%|███████████████████████████████████████████████████████████████████████████████| 232M/232M [00:21<00:00, 11.0MB/s]


DETR(
  (transformer): Transformer(
    (encoder): TransformerEncoder(
      (layers): ModuleList(
        (0-5): 6 x TransformerEncoderLayer(
          (self_attn): MultiheadAttention(
            (out_proj): NonDynamicallyQuantizableLinear(in_features=256, out_features=256, bias=True)
          )
          (linear1): Linear(in_features=256, out_features=2048, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (linear2): Linear(in_features=2048, out_features=256, bias=True)
          (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
          (dropout1): Dropout(p=0.1, inplace=False)
          (dropout2): Dropout(p=0.1, inplace=False)
        )
      )
    )
    (decoder): TransformerDecoder(
      (layers): ModuleList(
        (0-5): 6 x TransformerDecoderLayer(
          (self_attn): MultiheadAttention(
            (out_proj): NonDynamicallyQuantizableLinear(in_features=256, ou

In [15]:
for idx, image in enumerate(tqdm(all_images)):
    if idx % 100 == 0: print(idx)
    if os.path.exists(os.path.join(data_root, image, "image.png")):
        curr_dir = os.path.join(data_root, image, "image.png")
        feature = extract_features('detr', curr_dir)
        tmp.append(feature.detach().cpu())
        name_map[str(image)] = idx

  0%|                                                                                            | 0/1 [00:00<?, ?it/s]

0


100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.18it/s]


In [16]:
res = torch.cat(tmp).cpu()
print(res.shape)
torch.save(res, os.path.join('vision_features', 'detr_resnet101_dc5' +'.pth'))
with open(os.path.join('vision_features', 'detr_resnet101_dc5_name_map.json'), 'w') as outfile:
    json.dump(name_map, outfile)

torch.Size([4, 145, 1024])


In [None]:
processor = AutoImageProcessor.from_pretrained("SenseTime/deformable-detr-with-box-refine-two-stage")
model = DeformableDetrForObjectDetection.from_pretrained("SenseTime/deformable-detr-with-box-refine-two-stage")

In [None]:
for idx, image in enumerate(tqdm(all_images)):
    if idx % 100 == 0: print(idx)
    if os.path.exists(os.path.join(data_root, image, "image.png")):
        input_image = os.path.join(data_root, image, "image.png")
        img = Image.open(input_image).convert("RGB")
        inputs = processor(images=img, return_tensors="pt")
        outputs = model(**inputs)
        tmp.append(outputs['last_hidden_state'].detach().cpu())
        name_map[str(image)] = idx

In [None]:
res = torch.cat(tmp).cpu()
print(res.shape)
torch.save(res, os.path.join('vision_features', 'deformable-detr-with-box-refine-two-stage' +'.pth'))
with open(os.path.join('vision_features', 'deformable-detr-with-box-refine-two-stage_name_map.json'), 'w') as outfile:
    json.dump(name_map, outfile)