<a href="https://colab.research.google.com/github/osgeokr/torchgeo-explained/blob/main/TorchGeo%EB%A5%BC%20%EC%9D%B4%EC%9A%A9%ED%95%9C%20%EA%B0%9D%EC%B2%B4%20%ED%83%90%EC%A7%80(Object%20Detection).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# NWPU VHR-10 데이터셋

[VHR-10](https://torchgeo.readthedocs.io/en/stable/api/datasets.html#vhr-10)은 중국 서북공업대학교(NWPU: Northwestern Polytechnical University)에서 제공하는 초고해상도(Very High Resolution) 10개 클래스 원격탐사 이미지 데이터셋입니다.

총 800장의 초고해상도(VHR) 광학 원격탐사 이미지로 구성되어 있으며, 이 중 715장의 컬러 이미지는 Google Earth로부터 0.5에서 2m 사이의 공간 해상도로 획득되었고, 나머지 85장의 팬 샤프닝된 컬러 적외선(CIR: Color InfraRed) 이미지는 Vaihingen(바이힝겐) 데이터로부터 0.08m 공간해상도로 획득되었습니다.

데이터셋은 두 세트로 나뉩니다:

양성 이미지 세트(650장)는 이미지 내에 적어도 하나의 대상이 포함되어 있는 이미지입니다.

- Positive image set(양성 이미지 세트: 650장): 이미지 내에 적어도 하나의 대상이 포함되어 있는 이미지
- Negative image set(음성 이미지 세트: 150장): 어떤 대상도 포함하지 않은 이미지

양성 이미지 세트는 다음과 같은 열 클래스의 객체를 포함합니다:

- Airplanes(비행기) (757)
- Ships(배) (302)
- Storage tanks(저장 탱크) (655)
- Baseball diamonds(야구장) (390)
- Tennis courts(테니스 코트) (524)
- Basketball courts(농구장) (159)
- Ground track fields(육상 트랙 필드) (163)
- Harbors(항구) (224)
- Bridges(다리) (124)
- Vehicles(차량) (477)

객체 탐지 바운딩 박스(object detection bounding boxes)와 인스턴스 분할 마스크(instance segmentation masks)를 포함합니다. 이 데이터셋을 연구에 사용하는 경우, 다음 논문들을 인용해야 합니다:
- https://doi.org/10.1016/j.isprsjprs.2014.10.002
- https://doi.org/10.1109/IGARSS.2019.8898573
- https://doi.org/10.3390/rs12060989


이 데이터셋을 사용하기 위해서는 다음 추가 라이브러리들이 설치되어야 합니다:

- "양성" 이미지 세트에 대한 annotations.json 파일을 불러오기 위한 pycocotools
- 데이터셋이 RAR 파일로 저장되어 있으므로, 이를 추출하기 위한 rarfile

In [None]:
%pip install -q -U torchgeo
%pip install -q -U pycocotools
%pip install -q -U rarfile

In [None]:
import torchgeo
import torch
from torchgeo.trainers import ObjectDetectionTask
from torchgeo.datasets import VHR10
from torch.utils.data import DataLoader
import lightning.pytorch as pl
import matplotlib.pyplot as plt

In [None]:
torchgeo.__version__

In [None]:
import os

dataset_path = 'data/VHR10/'
os.makedirs(dataset_path, exist_ok=True)

In [None]:
ds = VHR10(root='data/VHR10/', split='positive', download=True)

In [None]:
def preprocess(sample):
    sample["image"] = sample["image"].float() / 255.0
    return sample

ds = VHR10(root='data/VHR10/', split='positive', transforms=preprocess, download=True)

In [None]:
len(ds)

In [None]:
ds[0]

In [None]:
ds[0]["image"].shape, ds[1]["image"].shape

In [None]:
ds.plot(ds[1])
plt.show()
plt.close()

In [None]:
def collate_fn(batch):
    new_batch = {
        "image": [item["image"] for item in batch],
        "boxes": [item["boxes"] for item in batch],
        "labels": [item["labels"] for item in batch],
        "masks": [item["masks"] for item in batch],
    }
    return new_batch

dl = DataLoader(ds, batch_size=32, num_workers=8, shuffle=True, collate_fn=collate_fn)

In [None]:
# The current (torchgeo 0.5.0) ObjectDetectionTask does not seem to support variable
# size inputs. We can quickly fix this by subclassing it and overriding the
# training_step method.
class VariableSizeInputObjectDetectionTask(ObjectDetectionTask):
    def training_step(self, batch, batch_idx, dataloader_idx=0):
        x = batch["image"]
        batch_size = len(x)  # we change this line to support variable size inputs
        y = [
            {"boxes": batch["boxes"][i], "labels": batch["labels"][i]}
            for i in range(batch_size)
        ]
        loss_dict = self(x, y)
        train_loss: Tensor = sum(loss_dict.values())
        self.log_dict(loss_dict)
        return train_loss


task = VariableSizeInputObjectDetectionTask(
    model="faster-rcnn",
    backbone="resnet18",
    weights=True,
    in_channels=3,
    num_classes=11,
    trainable_layers=3,
    lr=1e-3,
    patience=10,
    freeze_backbone=False,
)
task.monitor = "loss_classifier"

In [None]:
trainer = pl.Trainer(
    default_root_dir="logs/",
    accelerator="gpu",
    devices=[0],
    min_epochs=6,
    max_epochs=100,
    log_every_n_steps=20,
)

In [None]:
trainer.fit(task, train_dataloaders=dl)

## Inference example

In [None]:
batch = next(iter(dl))
#batch["image"] = [image.to("cuda:0") for image in batch["image"]]

In [None]:
model = task.model
model.eval()

with torch.no_grad():
    out = model(batch["image"])

In [None]:
batch_idx = 0
sample = {
    "image": batch["image"][batch_idx],
    "boxes": batch["boxes"][batch_idx],
    "labels": batch["labels"][batch_idx],
    "masks": batch["masks"][batch_idx],
    "prediction_labels": out[batch_idx]["labels"],
    "prediction_boxes": out[batch_idx]["boxes"],
    "prediction_scores": out[batch_idx]["scores"],
}

In [None]:
ds.plot(sample)
plt.show()
plt.close()