# SW Challenge 2024

이 문서는 SW Challenge 2024 zero-shot classification 코드를 포함함. 해당의 challenge의 목표는 multi-modal (vision, language) model 을 이용한 zero-shot classification task 의 성능을 높이는 것 임. 아래 예시 코드를 돌리면 baseline 모델 (CLIP, ViT-B/16) 을 활용해서 Scene dataset 에서 zero-shot classification 결과를 csv 파일 형식으로 저장함. 해당 코드를 참고해서 zero-shot classification 성능을 향상하는 것이 해당 과제의 목표임.

### 1. 문제 설명
Zero-shot classification 이란 한 번도 학습하지 않은 class 에 대해서 모델이 language 정보를 활용해서 예측하는 것을 의미함. Language 정보를 활용하기 위해서 multi-modal (vision, language) model 을 사용함. 이미지가 주어졌을 때 multi-modal model 은 하나의 이미지 임베딩, 전체 클래스 개수만큼의 텍스트 임베딩을 추출함. 그리고 이미지 임베딩과 텍스트 임베딩간의 거리를 계산한 뒤 가장 거리가 가까운 텍스트 임베딩의 원본 클래스를 정답으로 예측함.

### 2. 데이터셋 설명
Scene dataset statistics:
- #Samples: 8100
- #Classes: 6

### 3. 규칙
- Model 을 제공하는 데이터셋에 직접 학습하는것은 규칙에 위배됨.
- 더 자세한 규칙은 kaggle competition homepage 에 규칙 탭을 참고 바람.

### 4. 데이터셋 및 라이브러리 설치

In [1]:
!wget -nc -O 2024swunivchallenge.zip https://huggingface.co/datasets/sw24/sw24/resolve/main/data.zip?download=true && unzip -q -n 2024swunivchallenge.zip
!pip3 -q install open_clip_torch natsort

--2024-07-29 11:23:09--  https://huggingface.co/datasets/sw24/sw24/resolve/main/data.zip?download=true
Resolving huggingface.co (huggingface.co)... 18.67.181.126, 18.67.181.36, 18.67.181.100, ...
Connecting to huggingface.co (huggingface.co)|18.67.181.126|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://cdn-lfs-us-1.huggingface.co/repos/88/4b/884bf409ac92c279aafc40bc0f36a43146f1d6f7b6ac4c45040d3f43907e9ec9/7bfbb28b490da1d1b5123758da505495fd3c23436a9a060fa9cb1471d99e7ce6?response-content-disposition=attachment%3B+filename*%3DUTF-8%27%27data.zip%3B+filename%3D%22data.zip%22%3B&response-content-type=application%2Fzip&Expires=1722511389&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTcyMjUxMTM4OX19LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy11cy0xLmh1Z2dpbmdmYWNlLmNvL3JlcG9zLzg4LzRiLzg4NGJmNDA5YWM5MmMyNzlhYWZjNDBiYzBmMzZhNDMxNDZmMWQ2ZjdiNmFjNGM0NTA0MGQzZjQzOTA3ZTllYzkvN2JmYmIyOGI0OTBkYTFkMWI1MTIzNzU4ZGE1MDU0OTVmZDNjMj

### 5. Zero-shot inference

- Inference 데이터셋에서 학습되지 않은 CLIP 모델을 활용해서 이미지의 레이블을 예측하는 task를 수행함.
- 코드를 실행하면 결과로 `submission.csv` 파일 생성됨. 해당 파일을 Kaggle leaderboard 에 제출하면 됨.

In [2]:
import pandas as pd
from tqdm import tqdm
from natsort import natsorted
import os, json, open_clip, torch
from torchvision.datasets import ImageFolder
from torch.utils.data import DataLoader

# 0. Settings
device = 'cuda:0'
model_name = 'ViT-B-16'
pretrained = 'openai'
root = './'
dataset_name = 'Scene'

# 1. Load CLIP model.
model, _, preprocess = open_clip.create_model_and_transforms(model_name, pretrained=pretrained)
tokenizer = open_clip.get_tokenizer(model_name)

# 2. Load test dataset.
ds = ImageFolder(os.path.join(root, dataset_name), transform=preprocess)
ds.samples = natsorted(ds.samples)
dl = DataLoader(ds, shuffle=False, batch_size=32, num_workers=2)

# 3. Load class name list.
with open(os.path.join(root, 'classes.json'), 'r') as j:
     class_names = json.loads(j.read())

# 4. Perform zero-shot classification.
zero_shot_top1 = 0
submission = dict({'id_idx':list(range(8100)), 'label':[]})
with torch.no_grad(), torch.cuda.amp.autocast():
    text = tokenizer([f"{class_name}" for class_name in class_names])
    text_features = model.encode_text(text)
    text_features /= text_features.norm(dim=-1, keepdim=True)
    model = model.to(device)
    for x, y in tqdm(dl):
        x = x.cuda(device)
        image_features = model.encode_image(x).to('cpu').float()
        image_features /= image_features.norm(dim=-1, keepdim=True)
        zero_shot_probs = (100.0 * image_features @ text_features.T).softmax(dim=-1)
        zero_shot_pred = zero_shot_probs.max(dim=-1)[1].tolist()
        submission['label'] += zero_shot_pred

# 5. Save prediction as submission.scv file.
pd.DataFrame(submission).to_csv(os.path.join(root, 'submission.csv'), index=False)

100%|████████████████████████████████████████| 351M/351M [00:02<00:00, 130MiB/s]
100%|██████████| 254/254 [00:33<00:00,  7.66it/s]
