## 딥페이크 범죄 대응을 위한 AI 탐지 모델 경진대회

**※주의** : 반드시 본 파일을 이용하여 제출을 수행해야 하며, 파일의 이름은 `task.ipynb`로 유지되어야 합니다.

* #### 추론 실행 환경
    * `python 3.9` 환경
    * `CUDA 10.2`, `CUDA 11.8`, `CUDA 12.6`를 지원합니다.
    * 각 CUDA 환경에 미리 설치돼있는 torch 버전은 다음 표를 참고하세요.

<table>
  <thead>
    <tr>
      <th align="center">Python</th>
      <th align="center">CUDA</th>
      <th align="center">torch</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td align="center" style="vertical-align: middle;">3.8</td>
      <td align="center">10.2</td>
      <td align="center">1.6.0</td>
    </tr>
    <tr>
      <td align="center" style="vertical-align: middle;">3.9</td>
      <td align="center">11.8</td>
      <td align="center">1.8.0</td>
    </tr>
    <tr>
      <td align="center">3.10</td>
      <td align="center">12.6</td>
      <td align="center">2.7.1</td>
    </tr>
  </tbody>
</table>

* #### CUDA 버전 관련 안내사항  
  - 이번 경진대회는 3개의 CUDA 버전을 지원합니다.  
  - 참가자는 자신의 모델의 라이브러리 의존성에 맞는 CUDA 환경을 선택하여 모델을 제출하면 됩니다.   
  - 각 CUDA 환경에는 기본적으로 torch가 설치되어 있으나, 참가자는 제출하는 CUDA 버전과 호환되는 torch, 필요한 버전의 라이브러리를 `!pip install` 하여 사용하여도 무관합니다.

* #### `task.ipynb` 작성 규칙
코드는 크게 3가지 파트로 구성되며, 해당 파트의 특성을 지켜서 내용을 편집하세요.   
1. **제출용 aifactory 라이브러리 및 추가 필요 라이브러리 설치**
    - 채점 및 제출을 위한 aifactory 라이브러리를 설치하는 셀입니다. 이 부분은 수정하지 않고 그대로 실행합니다.
    - 그 외로, 모델 추론에 필요한 라이브러리를 직접 설치합니다.
2. **추론용 코드 작성**
    - 모델 로드, 데이터 전처리, 예측 등 실제 추론을 수행하는 모든 코드를 이 영역에 작성합니다.
3. **aif.submit() 함수를 호출하여 최종 결과를 제출**
    - **마이 페이지-활동히스토리**에서 발급받은 key 값을 함수의 인자로 정확히 입력해야 합니다.
    - **※주의** : 제출하고자 하는 CUDA 환경에 맞는 key를 입력하여야 합니다.

<table>
  <thead>
    <tr>
      <th align="left">Competition 이름</th>
      <th align="center">CUDA</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td align="left">딥페이크 범죄 대응을 위한 AI 탐지 모델 경진대회</td>
      <td align="center">11.8</td>
    </tr>
    <tr>
      <td align="left">딥페이크 범죄 대응을 위한 AI 탐지 모델 경진대회 CUDA 12.6</td>
      <td align="center">12.6</td>
    </tr>
    <tr>
      <td align="left">딥페이크 범죄 대응을 위한 AI 탐지 모델 경진대회 CUDA 10.2</td>
      <td align="center">10.2</td>
    </tr>
  </tbody>
</table>

------

#### 1. 제출용 aifactory 라이브러리 설치
※ 결과 전송에 필요하므로 아래와 같이 aifactory 라이브러리가 반드시 최신버전으로 설치될 수 있게끔 합니다

In [3]:
!pip install -U aifactory

Collecting aifactory
  Using cached aifactory-2.0.0-py3-none-any.whl.metadata (317 bytes)
Collecting pipreqs (from aifactory)
  Using cached pipreqs-0.5.0-py3-none-any.whl.metadata (7.9 kB)
Collecting ipynbname (from aifactory)
  Using cached ipynbname-2025.8.0.0-py3-none-any.whl.metadata (2.2 kB)
Collecting gdown (from aifactory)
  Using cached gdown-5.2.0-py3-none-any.whl.metadata (5.8 kB)
Collecting docopt==0.6.2 (from pipreqs->aifactory)
  Using cached docopt-0.6.2-py2.py3-none-any.whl
Collecting IPython (from aifactory)
  Using cached ipython-8.12.3-py3-none-any.whl.metadata (5.7 kB)
Collecting yarg==0.1.9 (from pipreqs->aifactory)
  Using cached yarg-0.1.9-py2.py3-none-any.whl.metadata (4.6 kB)
Collecting backcall (from IPython->aifactory)
  Using cached backcall-0.2.0-py2.py3-none-any.whl.metadata (2.0 kB)
Collecting pickleshare (from IPython->aifactory)
  Using cached pickleshare-0.7.5-py2.py3-none-any.whl.metadata (1.5 kB)
Collecting PySocks!=1.5.7,>=1.5.6 (from requests[socks

* 자신의 모델 추론 실행에 필요한 추가 라이브러리 설치

In [4]:
!apt-get update -y && apt-get install -y cmake build-essential

Get:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease [1581 B]
Get:2 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages [2149 kB]
Get:3 http://security.ubuntu.com/ubuntu jammy-security InRelease [129 kB]      
Get:4 http://archive.ubuntu.com/ubuntu jammy InRelease [270 kB]                
Get:5 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy InRelease [18.1 kB]
Get:6 http://security.ubuntu.com/ubuntu jammy-security/restricted amd64 Packages [5988 kB]
Get:7 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy/main amd64 Packages [38.5 kB]
Get:8 http://security.ubuntu.com/ubuntu jammy-security/universe amd64 Packages [1290 kB]
Get:9 http://security.ubuntu.com/ubuntu jammy-security/main amd64 Packages [3532 kB]
Get:10 http://security.ubuntu.com/ubuntu jammy-security/multiverse amd64 Packages [60.9 kB]
Get:11 http://archive.ubuntu.com/ubuntu jammy-updates InRelease [128 kB]       
Get:12 http://arc

In [1]:
!pip install --index-url https://download.pytorch.org/whl/cu126 torch==2.7.1 torchvision==0.22.1

!pip install transformers==4.30 datasets==4.4.0 tqdm==4.67.1
!pip install opencv-python-headless==4.10.0.82 numpy==1.26.4 scikit-learn==1.3.2 scipy==1.11.4
!pip install pandas Pillow
!pip install -U dlib

Looking in indexes: https://download.pytorch.org/whl/cu126
Collecting torch==2.7.1
  Using cached https://download.pytorch.org/whl/cu126/torch-2.7.1%2Bcu126-cp310-cp310-manylinux_2_28_x86_64.whl.metadata (29 kB)
Collecting torchvision==0.22.1
  Using cached https://download.pytorch.org/whl/cu126/torchvision-0.22.1%2Bcu126-cp310-cp310-manylinux_2_28_x86_64.whl.metadata (6.1 kB)
Collecting sympy>=1.13.3 (from torch==2.7.1)
  Using cached https://download.pytorch.org/whl/sympy-1.14.0-py3-none-any.whl.metadata (12 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.6.77 (from torch==2.7.1)
  Using cached https://download.pytorch.org/whl/cu126/nvidia_cuda_nvrtc_cu12-12.6.77-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.6.77 (from torch==2.7.1)
  Using cached https://download.pytorch.org/whl/cu126/nvidia_cuda_runtime_cu12-12.6.77-py3-none-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.6.80 (from torch

-----

#### 2. 추론용 코드 작성

##### 추론 환경의 기본 경로 구조

- 평가 데이터셋 경로: `./data/`
   - 채점에 사용될 테스트 데이터셋은 `./data/` 디렉토리 안에 포함되어 있습니다.
   - 해당 디렉토리에는 이미지(JPG, PNG)와 동영상(MP4) 파일이 별도의 하위 폴더 없이 혼합되어 있습니다.
```bash
/aif/
└── data/
    ├── {이미지 데이터1}.jpg
    ├── {이미지 데이터2}.png
    ├── {동영상 데이터1}.mp4
    ├── {이미지 데이터3}.png
    ├── {동영상 데이터2}.mp4
    ...
```

- 모델 및 자원 경로: 예시 : `./model/`
   - 추론 스크립트가 실행되는 위치를 기준으로, 제출된 모델 관련 파일들이 위치해야하 하는 상대 경로입니다.
   - 학습된 모델 가중치(.pt, .ckpt, .pth 등)

* 제출 파일은 `submission.csv`로 저장돼야 합니다.
  * submission.csv는 *filename*과 *label* 컬럼으로 구성돼야 합니다.
  * filename은 추론한 파일의 이름(확장자 포함), label은 추론 결과입니다. (real:0, fake:1)
  * filename은 *string*, label은 *int* 자료형이어야 합니다.
  * 추론하는 데이터의 순서는 무작위로 섞여도 상관 없습니다.

<table>
  <thead>
    <tr>
      <th align="center">filename</th>
      <th align="center">label</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td align="center">{이미지 데이터1}.jpg</td>
      <td align="center">0</td>
    </tr>
    <tr>
      <td align="center">{동영상 데이터1}.mp4</td>
      <td align="center">1</td>
    </tr>
    <tr>
      <td colspan="2" align="center">...</td>
    </tr>
  </tbody>
</table>

**※ 주의 사항**

* argparse 사용시 `args, _ = parser.parse_known_args()`로 인자를 지정하세요.   
   - `args = parser.parse_args()`는 jupyter에서 오류가 발생합니다.
* return 할 결과물과 양식에 유의하세요.

In [1]:

# inference with UnifiedAdapterModel checkpoint
import csv
import os
from pathlib import Path
from typing import List, Tuple

import cv2
import numpy as np
import torch
import torch.nn.functional as F
import torchvision.transforms as T
from PIL import Image
from tqdm import tqdm

from src import ClipBackbone, UnifiedAdapterModel

DATA_DIR = Path("./data")
CKPT_PATH = Path("./outputs_video/checkpoint-28290/pytorch_model.bin")
SUBMIT_CSV = Path("submission.csv")

CLIP_BACKBONE_NAME = os.environ.get(
    "CLIP_BACKBONE_PATH",
    "./model/clip_base/clip_backbone"
)
NUM_FRAMES = 16
IMAGE_SIZE = 224
IMAGE_MEAN = (0.48145466, 0.4578275, 0.40821073)
IMAGE_STD = (0.26862954, 0.26130258, 0.27577711)

IMAGE_EXTS = {".jpg", ".jpeg", ".png", ".bmp"}
VIDEO_EXTS = {".mp4", ".avi", ".mov", ".mkv"}

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
torch.backends.cudnn.benchmark = True

img_transform = T.Compose([
    T.Resize((IMAGE_SIZE, IMAGE_SIZE)),
    T.ToTensor(),
    T.Normalize(mean=IMAGE_MEAN, std=IMAGE_STD),
])

def sample_video_frames(path: Path, num_frames: int = NUM_FRAMES) -> Tuple[List[Image.Image], int]:
    if not path.exists():
        return [], 1
    cap = cv2.VideoCapture(str(path))
    total = int(cap.get(cv2.CAP_PROP_FRAME_COUNT) or 0)
    if total <= 0:
        cap.release()
        return [], 1
    idxs = np.linspace(0, max(total - 1, 0), num_frames).round().astype(int).tolist()
    frames: List[Image.Image] = []
    for idx in idxs:
        cap.set(cv2.CAP_PROP_POS_FRAMES, int(idx))
        ok, frame = cap.read()
        if not ok or frame is None:
            frames.append(None)
            continue
        frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
        frames.append(Image.fromarray(frame))
    cap.release()
    if not frames:
        return [], 1
    last_valid = None
    for i, fr in enumerate(frames):
        if fr is None and last_valid is not None:
            frames[i] = last_valid
        elif fr is not None:
            last_valid = fr
    next_valid = None
    for i in range(len(frames) - 1, -1, -1):
        if frames[i] is None and next_valid is not None:
            frames[i] = next_valid
        elif frames[i] is not None:
            next_valid = frames[i]
    fallback = Image.new("RGB", (IMAGE_SIZE, IMAGE_SIZE), color=0)
    frames = [fr if fr is not None else fallback for fr in frames]
    valid_len = max(1, min(total, num_frames))
    return frames, valid_len

def preprocess_media(path: Path) -> Tuple[torch.Tensor, bool, int]:
    ext = path.suffix.lower()
    try:
        if ext in IMAGE_EXTS:
            img = Image.open(path).convert("RGB")
            ten = img_transform(img).unsqueeze(0)
            return ten, False, 1
        if ext in VIDEO_EXTS:
            frames, valid_len = sample_video_frames(path, NUM_FRAMES)
            if not frames:
                raise RuntimeError("no frames")
            tens = torch.stack([img_transform(f) for f in frames], dim=0)
            return tens, True, valid_len
        raise ValueError(f"unsupported file type: {path.suffix}")
    except Exception as exc:
        print(f"[WARN] failed to process {path.name}: {exc}")
        media_flag = ext in VIDEO_EXTS
        length = 1
        shape = (NUM_FRAMES if media_flag else 1, 3, IMAGE_SIZE, IMAGE_SIZE)
        return torch.zeros(shape, dtype=torch.float32), media_flag, length

def build_model(device: torch.device) -> UnifiedAdapterModel:
    if not CKPT_PATH.exists():
        raise FileNotFoundError(f"checkpoint not found: {CKPT_PATH}")
    backbone = ClipBackbone(
        model_name=CLIP_BACKBONE_NAME,
        dtype="fp32",
        freeze_backbone=True,
    )
    model = UnifiedAdapterModel(
        backbone=backbone,
        num_frames=12,
        adapter_type="transformer",
        adapter_kwargs=dict(
            num_layers=2,
            num_heads=8,
            mlp_ratio=4.0,
            dropout=0.1,
            attn_dropout=0.1,
        ),
        temporal_pool="attn",
        head_hidden=(2048, 1024),
        num_classes=2,
    )
    state_dict = torch.load(CKPT_PATH, map_location="cpu")
    missing, unexpected = model.load_state_dict(state_dict, strict=False)
    if missing:
        print("[WARN] missing keys:", missing)
    if unexpected:
        print("[WARN] unexpected keys:", unexpected)
    model.to(device)
    model.eval()
    return model

def main():
    model = build_model(device)
    files = sorted(p for p in DATA_DIR.iterdir() if p.is_file())
    SUBMIT_CSV.parent.mkdir(parents=True, exist_ok=True)
    with SUBMIT_CSV.open("w", newline="") as f:
        writer = csv.writer(f)
        writer.writerow(["filename", "label"])
        for path in tqdm(files, desc="Infer", ncols=100):
            tensor, media_flag, t_len = preprocess_media(path)
            pixel_values = tensor.unsqueeze(0).to(device)
            media_tensor = torch.tensor([media_flag], dtype=torch.bool, device=device)
            temporal_tensor = torch.tensor([t_len], dtype=torch.long, device=device)
            with torch.no_grad():
                logits = model(
                    pixel_values=pixel_values,
                    media_type=media_tensor,
                    temporal_lengths=temporal_tensor,
                )
                probs = F.softmax(logits, dim=-1)
                pred = int(torch.argmax(probs, dim=-1).item())
            writer.writerow([path.name, pred])
    print(f"Saved predictions for {len(files)} files to {SUBMIT_CSV}")

if __name__ == "__main__":
    main()


ImportError: libGL.so.1: cannot open shared object file: No such file or directory

----

#### 3. `aif.submit()` 함수를 호출하여 최종 결과를 제출

**※주의** : task별, 참가자별로 key가 다릅니다. 잘못 입력하지 않도록 유의바랍니다.
- key는 대회 페이지 [베이스라인 코드](https://aifactory.space/task/9197/baseline) 탭에 기재된 가이드라인을 따라 task 별로 확인하실 수 있습니다.
- key가 틀리면 제출이 진행되지 않거나 잘못 제출되므로 task에 맞는 자신의 key를 사용해야 합니다.
-  **NOTE** : 이번 경진대회에서는 3개의 CUDA 버전을 지원하며, 각 CUDA 버전에 따라 task key가 상이합니다. 함수를 실행하기 전에 현재 key가 제출하고자 하는 CUDA 환경에 대한 key인지 반드시 확인하세요.

In [None]:
import aifactory.score as aif
import time
t = time.time()

#-----------------------------------------------------#
aif.submit(model_name="CLIP_jiwon",
    key="02a86f53-4f47-4086-bac4-172d86ebcefe"
)
#-----------------------------------------------------#
print(time.time() - t)

file : task
jupyter notebook
