**Connect Colab with Google Drive**

# **Detectron2: PyTorch 기반 모듈식 객체 감지 라이브러리**
Detectron2는 Facebook 에서 만든 딥러닝 기반의 객체 탐지 및 분할 라이브러리입니다.  

**1. Detectron2 설치**  
- Google Colab 환경에서 Detectron2를 설치하고 설정합니다
- 설치에 5 분 정도 소요

**2. COCO 데이터셋 및 사전 학습된 모델 로드**

**3. 사전 학습된 Faster R-CNN 모델로 객체 탐지**

**4. 사전 학습된 Mask R-CNN을 이용한 객체 분할**

**5. 사용자 정의 데이터셋(Balloon Dataset) 미세 조정(Fine-tuning)**

**6. Detectron2를 사용한 모델 학습 (Fine-Tuning)**

**7. 학습된 모델을 사용한 추론 및 평가**

필요한 라이브러리 임포트

In [None]:
# Detectron2의 로거(Logger)를 설정하는 코드
# 로거(Logger)는 모델 실행 중 발생하는 정보(예: 학습 상태, 경고 메시지, 오류 등)를 기록하고 출력합니다.
# import some common detectron2 utilities
#https://github.com/facebookresearch/detectron2/blob/main/MODEL_ZOO.md
# Detectron2에서 제공하는 사전 학습된 모델(예: Faster R-CNN, Mask R-CNN)
# 사전 학습된 모델을 사용해 이미지에서 추론(예측)을 수행하는 API
# Detectron2 모델 설정(configuration) 관리
# 객체 탐지 및 분할 결과를 시각화(예: 이미지 위에 바운딩 박스, 마스크, 클래스 정보 추가)
# 데이터셋의 메타데이터(예: 클래스 이름, 색상 등)를 관리

In [None]:
# https://cocodataset.org/#home
# COCO 2017 train 데이터셋의 메타데이터를 불러옵니다.
# 메타데이터에서 클래스 이름(thing_classes)을 가져옵니다.
# 클래스의 개수와 이름을 출력합니다.

- Local PC 에서 aeroplane image 찾아서 upload

## 사전 학습된 Detectron2 모델을 사용한 객체 감지




### Faster R-CNN
- `faster_rcnn_R_101_FPN_3x`  사전학습 모델 사용
```
- R_101 : ResNet 101 Layer   
- FPN :  Feature Pyramid Network - 객체 탐지에서 다양한 크기의 객체를 효과적으로 탐지하기 위해 사용되는 구조  
- 3x: 기본 학습 스케줄의 3배(270,000 iteration, 약 36 epoch)
```

In [None]:
# Detectron2에서 COCO 데이터셋 기반 사전 학습된 객체 탐지 모델 설정
# 참조: https://github.com/facebookresearch/detectron2/tree/main/configs/COCO-Detection
# Detectron2의 모델 설정 객체(cfg) 생성
# 사전 학습된 Faster R-CNN 모델 구성 불러오기
#  Faster R-CNN 모델의 사전 학습된 가중치 불러오기
# 객체를 탐지할 최소 신뢰도(점수) 임계값을 0.5로 설정
# predictor 생성

In [None]:
# 사전 학습된 Faster R-CNN 모델(R_101_FPN_3x)을 사용하여 객체 탐지 수행

```
{
    '_image_size': (2592, 3888),  # 입력 이미지의 크기
    '_fields': {
        'pred_boxes': Boxes(tensor([...]))  # 예측된 바운딩 박스 좌표 (x1,y1,x2,y2)
        'scores': tensor([...])  # 각 객체의 신뢰도 점수
        'pred_classes': tensor([...])  # 각 객체의 클래스
    }
}

```

In [None]:
# 출력 확인. 모델 출력 형식에 대한 자세한 내용은 [Detectron2 공식 문서](https://detectron2.readthedocs.io/tutorials/models.html#model-output-format) 참조

In [None]:
# Detectron2의 Visualizer를 사용하여 이미지 시각화
# 예측 결과(outputs["instances"])를 CPU로 변환한 뒤, Visualizer를 사용해 바운딩 박스, 마스크 등을 시각화
# Matplotlib을 사용해 결과를 화면에 출력

In [None]:
# 예측된 클래스 레이블을 리스트로 변환
# # 클래스 ID를 클래스 이름으로 변환
# 예측된 클래스 이름을 출력합니다.
# 예측된 바운딩 박스 좌표를 출력합니다.

In [None]:
# COCO 데이터셋의 이미지 중 한개를 다운로드 (-q : 진행상황 표시 X, -O: 파일 이름 지정)
# OpenCV를 사용하여 다운로드한 이미지를 읽어 NumPy 배열 형식으로 메모리에 로드

In [None]:
# 사전 학습된 Faster R-CNN 모델(R_101_FPN_3x)을 사용하여 객체 탐지 수행
# Detectron2의 Visualizer를 사용하여 이미지를 시각화

### Mask R-CNN을 이용한 객체 분할

- Mask R-CNN (mask_rcnn_R_50_FPN_3x)을 사용  
- 물체 탐지(Object Detection) + 인스턴스 분할(Instance Segmentation)

In [None]:
# Detectron2의 설정 객체 생성
# COCO 데이터셋에서 학습된 ResNet-50 백본 Mask R-CNN 모델 구성 파일 불러오기
# 객체 검출 시 사용할 점수 임계값(Threshold) 설정
# Detectron2 모델 저장소(Model Zoo)에서 사전 학습된 모델의 가중치 불러오기
# DefaultPredictor 객체 생성

In [None]:
# `Visualizer`를 사용하여 이미지에 예측 결과를 그립니다.

## 사용자 정의 데이터셋(Balloon Dataset) 미세 조정(Fine-tuning)

COCO dataset 에는 baloon category 가 없으므로 COCO dataset으로 사전 학습된 Mask R-CNN 모델은 baloon 을 detect 하지 못함

In [None]:
# Local PC 에서 baloons.jpg upload
# 사전 학습된 Mask R-CNN 으로 예측

In [None]:
# Detectron2의 Visualizer를 사용하여 이미지를 시각화
# 예측 결과(outputs["instances"])를 CPU로 변환한 뒤, Visualizer를 사용해 바운딩 박스, 마스크 등을 시각화
# Matplotlib을 사용해 결과를 화면에 출력

## 사용자 정의 데이터세트에서 학습 (Fine Tuning)
새 형식의 사용자 정의 데이터세트에서 기존 detectron2 모델을 학습하는 방법.

풍선이라는 클래스가 하나뿐인 baloon segmentation dataset을 사용합니다. detectron2의 model zoo에서 제공되는 COCO 데이터세트에서 사전 학습된 기존 모델에서 baloon segmentation 모델을 학습합니다.

COCO 데이터세트에는 "baloon" category가 없습니다. 몇 분 안에 이 새로운 클래스를 인식할 수 있을 것입니다.

In [None]:
# 데이터 다운로드/압축 해제

- VIA (VGG Image Annotator) 형식의 JSON 파일
```
{
  "fileref": "",  // 파일 참조 (보통 빈 문자열로 유지됨)
  "size": 668058,  // 이미지 파일 크기 (바이트 단위)
  "filename": "24631331976_defa3bb61f_k.jpg",  // 이미지 파일 이름
  "base64_img_data": "",  // Base64 인코딩된 이미지 데이터 (현재 없음)
  "file_attributes": {},  // 이미지에 대한 추가 속성 (현재 없음)
  "regions": {  // 이미지에서 객체(관심 영역, ROI)를 정의하는 부분
    "0": {  // 첫 번째 객체 (여러 개의 영역이 있을 경우 "1", "2", ... 로 증가)
      "shape_attributes": {  // 해당 영역의 도형(Shape) 속성
        "name": "polygon",  // 다각형(Polygon) 형태의 영역
        "all_points_x": [916, 913, 905, ...],  // 다각형 꼭짓점의 X 좌표 리스트
        "all_points_y": [515, 583, 616, ...]  // 다각형 꼭짓점의 Y 좌표 리스트
      },
      "region_attributes": {}  // 특정 객체(영역)의 속성 (현재 없음)
    }
  }
}
```

- COCO 형식의 JSON 파일
```
{
  "info": {  // 데이터셋 정보
    "description": "Custom Dataset",  // 데이터셋 설명
    "version": "1.0",  // 버전 정보
    "year": 2025,  // 데이터셋 생성 연도
    "contributor": "User",  // 기여자 정보
    "date_created": "2025-03-05"  // 데이터셋 생성 날짜
  },
  "licenses": [  // 라이선스 정보
    {
      "id": 1,  
      "name": "Attribution 4.0 International (CC BY 4.0)",  // 라이선스 이름
      "url": "https://creativecommons.org/licenses/by/4.0/"  // 라이선스 URL
    }
  ],
  "images": [  // 이미지 정보 목록
    {
      "id": 1,  // 이미지 ID (고유 식별자)
      "file_name": "24631331976_defa3bb61f_k.jpg",  // 이미지 파일명
      "width": 1024,  // 이미지 너비
      "height": 768,  // 이미지 높이
      "license": 1,  // 사용된 라이선스 ID
      "date_captured": "2025-03-05"  // 이미지 캡처 날짜
    }
  ],
  "annotations": [  // 주석(Annotation) 정보 목록
    {
      "id": 1,  // 객체 ID (고유 식별자)
      "image_id": 1,  // 해당 객체가 속한 이미지 ID
      "category_id": 1,  // 객체의 카테고리 ID (categories에서 정의됨)
      "segmentation": [  // 다각형(Polygon) 형태의 객체 경계선 좌표[x1, y1, x2, y2, ..xn, yn]
        [916, 515, 913, 583, 905, 616, 889, 656, 868, 696, 836, 737,
         809, 753, 792, 767, 789, 777, 784, 785, 777, 785, 769, 778,
         767, 768, 777, 766, 786, 760, 791, 755, 769, 755, 739, 743,
         714, 728, 678, 702, 645, 670, 615, 629, 595, 588, 583, 539,
         580, 500, 584, 458, 595, 425, 614, 394, 645, 360, 676, 342,
         716, 329, 769, 331, 815, 347, 849, 371, 875, 398, 900, 442,
         916, 504]
      ],
      "area": 50000,  // 객체의 영역(면적), 단위: 픽셀^2
      "bbox": [580, 329, 336, 456],  // 바운딩 박스 좌표 (xmin, ymin, width, height)
      "iscrowd": 0  // 객체가 개별적인지 여부 (0: 개별 객체, 1: 군집 객체)
    }
  ],
  "categories": [  // 객체(카테고리) 정보 목록
    {
      "id": 1,  // 카테고리 ID (annotations의 category_id와 연결됨)
      "name": "object",  // 객체 이름 (예: "balloon", "car" 등)
      "supercategory": "none"  // 상위 카테고리 (없으면 "none")
    }
  ]
}
```

In [None]:
# JSON 파일 읽기 및 파싱

In [None]:
# JSON 데이터 출력
    # 각 이미지의 주석(region) 정보 출력

In [None]:
# 데이터 세트가 COCO 형식인 경우 이 셀은 다음 세 줄로 대체될 수 있습니다.:
# from detectron2.data.datasets import register_coco_instances
# register_coco_instances("my_dataset_train", {}, "json_annotation_train.json", "path/to/image/dir")
# register_coco_instances("my_dataset_val", {}, "json_annotation_val.json", "path/to/image/dir")
# Detectron2의 BoxMode 모듈 가져오기 (바운딩 박스 모드 지정)
# VIA 형식의 Annotation을 COCO 형식으로 변환하여 Detectron2에서 사용할 수 있는 딕셔너리 생성
def get_balloon_dicts(img_dir):
    # 이미지 디렉터리에서 JSON 파일 경로 지정
        # 이미지 파일 경로와 크기 정보 저장
        # 이미지 메타데이터 설정
        # 이미지의 주석(객체 정보) 처리
            # 객체 정보를 딕셔너리에 저장
# 학습(train) 및 검증(val) 데이터셋 등록
    # 데이터셋을 Detectron2에 등록
    # 데이터셋의 메타데이터 설정
# 학습 데이터셋의 메타데이터 가져오기

데이터 세트가 올바른 형식인지 확인하기 위해 학습 세트에서 무작위로 선택한 샘플의 주석을 시각화해 보겠습니다.

In [None]:
# 학습 데이터셋에서 3개의 샘플을 무작위로 선택하여 시각화
# "balloon/train" 경로의 데이터셋을 Detectron2 형식으로 변환하여 가져오기
# 데이터셋에서 무작위로 3개의 샘플을 선택
    # 이미지 파일을 읽어오기 (cv2.imread는 이미지를 BGR 형식으로 읽음)
    # Detectron2의 Visualizer를 사용하여 이미지 시각화
    # 데이터셋 정보(d)를 사용해 바운딩 박스, 세그멘테이션 등을 이미지 위에 그리기
    # 시각화 결과를 Colab 환경에서 표시 (cv2_imshow는 Colab에서 사용)

## Train

이제 COCO 사전 훈련된 R50-FPN 마스크 R-CNN 모델을 풍선 데이터 세트에서 미세 조정해 보겠습니다. P100 GPU에서 300회 반복을 훈련하는 데 약 2분이 걸립니다.

In [None]:
# Detectron2에서 데이터 로딩 속도 최적화

In [None]:
# 실행 시작 시간 기록
# Detectron2의 기본 학습 트레이너(DefaultTrainer)를 불러옵니다.
# Detectron2의 설정 객체 생성
# 사전 학습된 Mask R-CNN 모델 구성 파일 로드
# 학습 데이터셋 설정 ("balloon_train"으로 등록된 데이터셋 사용)
# DataLoader의 워커 수 설정 (데이터 로드 병렬 처리, 워커 수는 CPU 코어 수와 관련)
# 사전 학습된 모델 가중치 설정 (Detectron2 Model Zoo에서 가져옴)
# 배치 크기 설정 (1번 학습 단계에서 처리할 이미지 수)
# 학습률(Learning Rate) 설정
# 학습 반복(iteration) 수 설정
# 학습률 감소 단계 설정
# RoI(Region of Interest) Head의 배치 크기 설정. 각 이미지에서 128개의 RoI sample을 학습에 사용
# 모델의 클래스 수 설정
# 출력 디렉터리 생성 (학습 결과 저장 디렉터리)
# 기본 학습 트레이너(DefaultTrainer) 생성

In [None]:
# 실행 종료 시간 기록
# 실행 시간 출력

## 훈련된 모델을 사용한 추론 및 평가
이제 훈련된 모델로 baloon validation 데이터 세트에 대해  추론을 실행해 보겠습니다. 먼저 방금 훈련한 모델을 사용하여 predictor를 만들어 보겠습니다.

In [None]:
# cfg 객체는 학습 시 사용했던 설정을 그대로 포함하고 있으며, 추론에 필요한 몇 가지 설정을 추가로 변경합니다.
# 방금 학습한 모델의 최종 가중치 경로 설정
# 추론 시 신뢰도 임계값 설정 (0.7 이상인 경우에만 예측 결과를 출력)
# DefaultPredictor 생성

여러 샘플을 무작위로 선택하여 예측 결과를 시각화 합니다.

In [None]:
# 검증 데이터셋("balloon/val")을 Detectron2 형식으로 가져옴
# 검증 데이터셋에서 무작위로 3개의 샘플을 선택
    # 이미지 파일 읽기 (OpenCV는 기본적으로 BGR 형식으로 이미지를 읽음)
    # 학습된 모델을 사용하여 이미지에서 객체 추론
    # Visualizer를 사용하여 추론 결과를 시각화
    # 모델 추론 결과(outputs["instances"])를 시각화
    # Colab 환경에서 이미지를 표시 (cv2_imshow는 이미지를 BGR 형식으로 표시)

In [None]:
# 학습된 모델을 사용하여 이미지에서 객체 추론
# 예측

In [None]:
# 학습된 모델을 사용하여 이미지에서 객체 추론
# Visualizer를 사용하여 추론 결과를 시각화
# 모델 추론 결과(outputs["instances"])를 시각화
# Colab 환경에서 이미지를 표시 (cv2_imshow는 이미지를 BGR 형식으로 표시)