## 1. Object Detection
Object Detection(객체 탐지)은 이미지나 영상에서 특정 객체의 존재 여부를 확인하고, 해당 객체의 위치를 바운딩 박스(bounding box)로 표시하는 기술입니다. 이는 컴퓨터 비전에서 중요한 분야로, 이미지 내에서 여러 개의 객체를 동시에 탐지하고 분류할 수 있습니다. Object Detection은 주로 딥러닝 기반의 CNN(합성곱 신경망) 모델을 활용하며, 대표적인 알고리즘으로는 R-CNN 계열(Faster R-CNN, Mask R-CNN), YOLO(You Only Look Once), SSD(Single Shot MultiBox Detector) 등이 있습니다. 이러한 기술은 자율 주행, 보안 감시, 의료 영상 분석, 증강 현실 등 다양한 분야에서 활용됩니다.

Object Detection은 방식에 따라 크게 딥러닝 기반 기법과 전통적인 기법으로 나눌 수 있으며, 딥러닝 기반 기법은 다시 1단계 탐지(One-Stage)와 2단계 탐지(Two-Stage) 방식으로 분류됩니다.

### 1. 전통적인 기법
- HOG(Histogram of Oriented Gradients) + SVM(Support Vector Machine), Haar Cascade, Selective Search 등의 방법을 사용하여 특징을 추출하고 객체를 탐지하는 방식입니다. 하지만 최근에는 딥러닝 방식이 더 우수하여 잘 사용되지 않습니다.

### 2. 딥러닝 기반 기법

#### 2단계 탐지(Two-Stage Detection):
- Two-Stage Detection은 두 단계로 객체를 찾는 방식입니다. 첫 번째 단계에서는 이미지에서 "어디에 객체가 있을 것 같은지" 후보 영역(Region Proposal)을 찾습니다. 예를 들어, Faster R-CNN에서는 Region Proposal Network(RPN)이 다양한 위치에서 객체가 있을 가능성이 높은 영역을 예측합니다. 두 번째 단계에서는 이 후보 영역들을 하나씩 분석하여 "이것이 어떤 객체인지" 분류하고, 바운딩 박스를 정밀하게 조정합니다.
> 쉽게 말해, 먼저 전체 이미지를 훑어서 "여기에 뭔가 있다!"라고 판단한 후, 더 자세히 들여다보며 "이건 자동차야!"라고 확정하는 방식입니다. 이렇게 두 번에 걸쳐 탐지하기 때문에 정확도가 높지만 속도는 상대적으로 느릴 수 있습니다.

    <img src="https://blog.kakaocdn.net/dna/cXfxep/btsPGvboODW/AAAAAAAAAAAAAAAAAAAAAFMKQ9fksbXDyuQNg-T13CjDxOuvrgzVl_ph_787fsL0/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=VN2dC5GRCiEkuVXSWVCYLGFtwTU%3D">

#### 1단계 탐지(One-Stage Detection):
- One-Stage Detection은 객체를 찾을 때 한 번의 과정만 거치는 방식입니다. 이미지를 입력받으면, 네트워크가 바로 객체의 위치(바운딩 박스)와 종류(클래스)를 동시에 예측합니다. 대표적인 알고리즘으로 YOLO(You Only Look Once)와 SSD(Single Shot MultiBox Detector)가 있습니다.
> 쉽게 말해, 이미지를 여러 영역으로 나눈 뒤, 각각의 영역에서 "여기에 자동차가 있다!"처럼 바로 객체를 판별하는 방식입니다. 이렇게 한 번에 예측하기 때문에 속도가 빠르지만, 정확도는 Two-Stage Detection보다 다소 낮을 수 있습니다. 따라서 실시간 객체 탐지가 중요한 자율주행, 영상 감시, 드론 탐색 등에서 많이 활용됩니다.

    <img src="https://blog.kakaocdn.net/dna/c6xAXO/btsPHNicOTi/AAAAAAAAAAAAAAAAAAAAAAMH4o-zoWlqpRh3aXc14HCu1uQxbtmtCLA5x66y0air/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=qW3FJUETU5W2F9kSFjhP7jcKPb4%3D">

## 2. YOLO
YOLO(You Only Look Once)는 이미지 전체를 한 번에 처리해 객체의 위치와 종류를 동시에 예측하는 실시간 객체 탐지 알고리즘으로, 빠른 속도와 높은 효율성이 특징입니다. 최신 버전인 YOLO8은 이전 모델들보다 개선된 네트워크 구조와 최적화된 학습 기법을 적용해 정확도와 속도를 크게 향상시켰으며, 특히 작은 객체나 복잡한 배경에서도 강력한 탐지 성능을 보입니다. 이를 통해 다양한 실시간 컴퓨터 비전 응용 분야에서 뛰어난 활용도를 제공하고 있습니다.

### **1. YOLOv8 모델 크기별 분류**

- n (nano): 초경량 모델로 모바일 및 임베디드 장치에서 사용하기 적합합니다.
- s (small): 속도가 빠르면서도 정확도가 준수하여 실시간 추론이 필요한 경우 사용합니다.
- m (medium): 균형 잡힌 모델로 중간 정도의 성능과 속도를 제공합니다.
- l (large): 높은 정확도를 요구하는 애플리케이션에서 사용합니다.
- x (extra-large): 최대 성능을 발휘하지만, 속도가 상대적으로 느립니다.

### **2. YOLOv8 모델 유형별 분류**

- YOLOv8 Detect
    - 가장 일반적인 객체 탐지 모델로, 특정 객체의 위치와 크기를 바운딩 박스로 반환합니다.
    - yolov8n.pt, yolov8s.pt, yolov8m.pt, yolov8l.pt, yolov8x.pt 형태로 제공됩니다.
- YOLOv8 Segment
    - 객체 탐지뿐만 아니라 픽셀 단위의 분할(Segmentation)까지 수행하는 모델입니다.
    - 바운딩 박스뿐만 아니라 객체 마스크까지 제공합니다.
    - yolov8n-seg.pt, yolov8s-seg.pt 등의 형태로 제공됩니다.
- YOLOv8 Pose
    - 사람의 관절 위치를 탐지하여 포즈를 예측하는 모델입니다.
    - 예를 들어, 사람의 팔, 다리, 머리 등의 관절을 찾아낼 수 있습니다.
    - yolov8n-pose.pt, yolov8s-pose.pt 등의 형태로 제공됩니다.
- YOLOv8 Classify
    - 이미지에서 객체를 분류하는 모델입니다.
    - 기존의 CNN 기반 분류 모델(ResNet, EfficientNet 등)과 유사한 역할을 합니다.
    - yolov8n-cls.pt, yolov8s-cls.pt 등의 형태로 제공됩니다.

### 3. 역사
- YOLO는 2015년 Joseph Redmon가 처음 출시한 이후 컴퓨터 비전 커뮤니티에 의해 성장
- 초기버전(1~4)에서의  YOLO는 딥러닝 프레임워크인 Darknet에서 유지
- YOLOv3 레포(github)를 PyTorch로 작성하여 Ultralytics에서 YOLOv5를 출시
- YOLOv5 SOTA 레포가 되었음
- Ultralytics는 2023년 1월에 YOLOv8을 출시
- [Ultralytics 공식 사이트](https://www.ultralytics.com/)
- [YOLOv8 아키텍처](https://docs.ultralytics.com/ko/models/yolov8/)

## 3. PascalVOC 2007

PascalVOC 2007은 객체 탐지(Object Detection), 분할(Segmentation), 동작 인식(Action Recognition) 등의 다양한 컴퓨터 비전 과제를 위한 벤치마크 데이터셋입니다. 총 20개의 객체 클래스(예: 사람, 자동차, 개, 고양이 등)를 포함하며, 훈련(train), 검증(val), 테스트(test) 세트로 구성되어 있습니다. 각 이미지에는 객체의 경계 상자(Bounding Box) 및 해당 클래스 레이블이 주어지며, Mean Average Precision(mAP) 평가 기준을 적용하여 성능을 측정합니다.

> MAP(Mean Average Precision) : 객체 탐지 평가지표

In [None]:
# PascalVOC 2007 Train/Val 다운로드
# train: 2501장, val: 2510장
# !wget http://pjreddie.com/media/files/VOCtrainval_06-Nov-2007.tar

--2025-08-05 00:30:29--  http://pjreddie.com/media/files/VOCtrainval_06-Nov-2007.tar
Resolving pjreddie.com (pjreddie.com)... 104.21.88.156, 172.67.185.199, 2606:4700:3037::6815:589c, ...
Connecting to pjreddie.com (pjreddie.com)|104.21.88.156|:80... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://pjreddie.com/media/files/VOCtrainval_06-Nov-2007.tar [following]
--2025-08-05 00:30:29--  https://pjreddie.com/media/files/VOCtrainval_06-Nov-2007.tar
Connecting to pjreddie.com (pjreddie.com)|104.21.88.156|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘VOCtrainval_06-Nov-2007.tar’

VOCtrainval_06-Nov-     [ <=>                ]   8.88K  --.-KB/s    in 0s      

2025-08-05 00:30:30 (61.5 MB/s) - ‘VOCtrainval_06-Nov-2007.tar’ saved [9093]



In [None]:
# test: 4952장
# !wget http://pjreddie.com/media/files/VOCtest_06-Nov-2007.tar

--2025-08-05 00:30:42--  http://pjreddie.com/media/files/VOCtest_06-Nov-2007.tar
Resolving pjreddie.com (pjreddie.com)... 104.21.88.156, 172.67.185.199, 2606:4700:3037::6815:589c, ...
Connecting to pjreddie.com (pjreddie.com)|104.21.88.156|:80... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://pjreddie.com/media/files/VOCtest_06-Nov-2007.tar [following]
--2025-08-05 00:30:42--  https://pjreddie.com/media/files/VOCtest_06-Nov-2007.tar
Connecting to pjreddie.com (pjreddie.com)|104.21.88.156|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘VOCtest_06-Nov-2007.tar’

VOCtest_06-Nov-2007     [<=>                 ]       0  --.-KB/s               VOCtest_06-Nov-2007     [ <=>                ]   8.88K  --.-KB/s    in 0s      

2025-08-05 00:30:42 (67.7 MB/s) - ‘VOCtest_06-Nov-2007.tar’ saved [9093]



In [1]:
# 파일 및 디렉토리 경로를 객체 지향적으로 다룰 수 있는 모듈
# ./ 이런거 가능함
from pathlib import Path

In [2]:
root = Path('./pascal_datasets')
# parents = True : 부모 폴더가 존재하지 않으면 새로 생성
# exist_ok = True : 이미 폴더가 있어서 에러나도 지나감
Path('./pascal_datasets/trainval').mkdir(parents=True,exist_ok=True)
Path('./pascal_datasets/test').mkdir(parents=True,exist_ok=True)

In [3]:
for path1 in ('images','labels'):
    for path2 in ('train2007','val2007','test2007'):
        new_path = root /'VOC'/path1 /path2
        new_path.mkdir(parents=True,exist_ok=True)

# 결과
'''
pascal_datasets
pascal_datasets/trainval
pascal_datasets/test
pascal_datasets/VOC
pascal_datasets/VOC/images
pascal_datasets/VOC/labels
pascal_datasets/VOC/images/train2007
pascal_datasets/VOC/images/val2007
pascal_datasets/VOC/images/test2007
pascal_datasets/VOC/labels/train2007
pascal_datasets/VOC/labels/val2007
pascal_datasets/VOC/labels/test2007
'''

'\npascal_datasets\npascal_datasets/trainval\npascal_datasets/test\npascal_datasets/VOC\npascal_datasets/VOC/images\npascal_datasets/VOC/labels\npascal_datasets/VOC/images/train2007\npascal_datasets/VOC/images/val2007\npascal_datasets/VOC/images/test2007\npascal_datasets/VOC/labels/train2007\npascal_datasets/VOC/labels/val2007\npascal_datasets/VOC/labels/test2007\n'

In [33]:
# !tar -xvf VOCtrainval_06-Nov-2007.tar -C ./pascal_datasets/trainval/
# !tar -xvf VOCtest_06-Nov-2007.tar -C ./pascal_datasets/test/

tar: VOCtrainval_06-Nov-2007.tar: Cannot open: No such file or directory
tar: Error is not recoverable: exiting now
tar: VOCtest_06-Nov-2007.tar: Cannot open: No such file or directory
tar: Error is not recoverable: exiting now


In [8]:
%cd /content/pascal_datasets/test

/content/pascal_datasets/test


In [9]:
!unzip -q VOCtest_06-Nov-2007.zip

In [10]:
%cd /content/pascal_datasets/trainval

/content/pascal_datasets/trainval


In [11]:
!unzip -q VOCtrainval_06-Nov-2007.zip

In [4]:
%cd /content/pascal_datasets

/content/pascal_datasets


In [5]:
# 어노테이션을 YOLO 형식으로 변환
!git clone https://github.com/ssaru/convert2Yolo.git

Cloning into 'convert2Yolo'...
remote: Enumerating objects: 215, done.[K
remote: Counting objects: 100% (43/43), done.[K
remote: Compressing objects: 100% (8/8), done.[K
remote: Total 215 (delta 38), reused 35 (delta 35), pack-reused 172 (from 1)[K
Receiving objects: 100% (215/215), 994.67 KiB | 2.66 MiB/s, done.
Resolving deltas: 100% (95/95), done.


In [19]:
%cd /content/pascal_datasets/convert2Yolo

/content/pascal_datasets/convert2Yolo


In [7]:
%pip install -qr requirements.txt

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m39.1/39.1 MB[0m [31m17.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m37.3/37.3 MB[0m [31m14.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m4.9/4.9 MB[0m [31m77.0 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m56.4/56.4 kB[0m [31m5.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m212.3/212.3 kB[0m [31m19.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m510.9/510.9 kB[0m [31m38.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for Pillow (setup.py) ... 

In [20]:
# datasets: 데이터셋이 VOC 형식임을 지정
# img_path: 이미지 파일 경로
# label: 어노테이션(xml) 경로
# convert_output_path: YOLO 형식으로 변환된 라벨 저장 경로
# img_type: 사용할 이미지 파일 확장자
# manifest_path: 변환 과정에서 사용할 추가적인 정보 파일 저장 경로
# cls_list_file: VOC에서 사용할 클래스 목록이 정의된 파일

!python example.py \
    --datasets VOC \
    --img_path /content/pascal_datasets/trainval/VOCdevkit/VOC2007/JPEGImages \
    --label /content/pascal_datasets/trainval/VOCdevkit/VOC2007/Annotations \
    --convert_output_path /content/pascal_datasets/VOC/labels/train2007 \
    --img_type '.jpg' \
    --manifest_path /content \
    --cls_list_file ./voc.names


VOC Parsing:   |████████████████████████████████████████| 100.0% (5011/5011)  Complete


YOLO Generating:|████████████████████████████████████████| 100.0% (5011/5011)  Complete


YOLO Saving:   |████████████████████████████████████████| 100.0% (5011/5011)  Complete



In [21]:
!python example.py \
    --datasets VOC \
    --img_path /content/pascal_datasets/test/VOCdevkit/VOC2007/JPEGImages \
    --label /content/pascal_datasets/test/VOCdevkit/VOC2007/Annotations \
    --convert_output_path /content/pascal_datasets/VOC/labels/test2007 \
    --img_type '.jpg' \
    --manifest_path /content \
    --cls_list_file ./voc.names


VOC Parsing:   |████████████████████████████████████████| 100.0% (4952/4952)  Complete


YOLO Generating:|████████████████████████████████████████| 100.0% (4952/4952)  Complete


YOLO Saving:   |████████████████████████████████████████| 100.0% (4952/4952)  Complete



In [22]:
# /content/pascal_datasets/trainval/VOCdevkit/VOC2007/ImageSets/Main/val.txt 파일을 읽어서
# /content/pascal_datasets/VOC/labels/train2007 파일 중 txt 문서에 있는 파일을
# /content/pascal_datasets/VOC/labels/val2007 으로 옮기기

import shutil

path = '/content/pascal_datasets/trainval/VOCdevkit/VOC2007/ImageSets/Main/val.txt'

with open(path) as f:
    image_ids = f.read().strip().split()
    for id in image_ids:
        ori_path = '/content/pascal_datasets/VOC/labels/train2007'
        mv_path = '/content/pascal_datasets/VOC/labels/val2007'
        shutil.move(f'{ori_path}/{id}.txt', f'{mv_path}/{id}.txt')

In [23]:
# /content/pascal_datasets/trainval/VOCdevkit/VOC2007/JPEGImages 와
# /content/pascal_datasets/test/VOCdevkit/VOC2007/JPEGImages 에서
# 이미지를 가져와 디렉토리에 맞게 저장

import os

path = '/content/pascal_datasets'

for folder, subset in ('trainval', 'train2007'), ('trainval', 'val2007'), ('test', 'test2007'):
    ex_imgs_path = f'{path}/{folder}/VOCdevkit/VOC2007/JPEGImages'
    label_path = f'{path}/VOC/labels/{subset}'
    img_path = f'{path}/VOC/images/{subset}'
    print(subset, ": ", len(os.listdir(label_path)))
    for lbs_list in os.listdir(label_path):
        shutil.move(os.path.join(ex_imgs_path, lbs_list.split('.')[0]+'.jpg'),
                    os.path.join(img_path, lbs_list.split('.')[0]+'.jpg'))

train2007 :  2501
val2007 :  2510
test2007 :  4952


In [24]:
%cd /content/

/content


## 4. YAML 파일

YAML 파일은 모델 구성, 데이터 경로, 하이퍼파라미터 등을 정의하는 설정 파일로, 모델 학습과 추론을 자동화하는 데 중요한 역할을 합니다. 주로 data.yaml과 model.yaml 같은 파일이 있으며, data.yaml은 학습 및 검증 데이터셋의 경로, 클래스 개수, 클래스 이름 등을 정의하고, model.yaml은 네트워크 구조(레이어, 채널 수, 활성화 함수 등)를 설정합니다. YAML 형식은 가독성이 뛰어나고 계층적 구조를 쉽게 표현할 수 있어 YOLO의 설정을 직관적으로 관리할 수 있으며, 이를 통해 사용자 맞춤형 모델을 효율적으로 구축할 수 있습니다.

```
.yaml 파일의 예

path: /content/pascal_datasets/VOC
train:
  - images/train2007
val:
  - images/val2007
test:
  - images/test2007

nc: 20
names: ['aeroplane', 'bicycle', 'bird', 'boat', 'bottle', 'bus', 'car', 'cat', 'chair', 'cow', 'diningtable', 'dog',
        'horse', 'motorbike', 'person', 'pottedplant', 'sheep', 'sofa', 'train', 'tvmonitor']
```

In [None]:
!pip install ultralytics

In [25]:
from ultralytics import YOLO

Creating new Ultralytics Settings v0.0.6 file ✅ 
View Ultralytics Settings with 'yolo settings' or at '/root/.config/Ultralytics/settings.json'
Update Settings with 'yolo settings key=value', i.e. 'yolo settings runs_dir=path/to/dir'. For help see https://docs.ultralytics.com/quickstart/#ultralytics-settings.


In [26]:
# data: 데이터셋 설정 파일
# epochs: 학습 에포크 수
# batch: 배치 크기
# imgsz: 입력 이미지 크기
# device: GPU(0), CPU(-1)
# workers: 데이터 로딩에 사용할 CPU 스레드 수
# name: 학습 결과 저장 폴더명

model = YOLO('yolov8s.pt')
results = model.train(
    data='custom_voc.yaml',
    epochs=10,
    batch=32,
    imgsz=640,
    device=0,
    workers=2,
    name='custom_s'
)

Downloading https://github.com/ultralytics/assets/releases/download/v8.3.0/yolov8s.pt to 'yolov8s.pt': 100%|██████████| 21.5M/21.5M [00:00<00:00, 114MB/s] 


Ultralytics 8.3.174 🚀 Python-3.11.13 torch-2.6.0+cu124 CUDA:0 (Tesla T4, 15095MiB)
[34m[1mengine/trainer: [0magnostic_nms=False, amp=True, augment=False, auto_augment=randaugment, batch=32, bgr=0.0, box=7.5, cache=False, cfg=None, classes=None, close_mosaic=10, cls=0.5, conf=None, copy_paste=0.0, copy_paste_mode=flip, cos_lr=False, cutmix=0.0, data=custom_voc.yaml, degrees=0.0, deterministic=True, device=0, dfl=1.5, dnn=False, dropout=0.0, dynamic=False, embed=None, epochs=10, erasing=0.4, exist_ok=False, fliplr=0.5, flipud=0.0, format=torchscript, fraction=1.0, freeze=None, half=False, hsv_h=0.015, hsv_s=0.7, hsv_v=0.4, imgsz=640, int8=False, iou=0.7, keras=False, kobj=1.0, line_width=None, lr0=0.01, lrf=0.01, mask_ratio=4, max_det=300, mixup=0.0, mode=train, model=yolov8s.pt, momentum=0.937, mosaic=1.0, multi_scale=False, name=custom_s, nbs=64, nms=False, opset=None, optimize=False, optimizer=auto, overlap_mask=True, patience=100, perspective=0.0, plots=True, pose=12.0, pretrained

Downloading https://ultralytics.com/assets/Arial.ttf to '/root/.config/Ultralytics/Arial.ttf': 100%|██████████| 755k/755k [00:00<00:00, 21.6MB/s]

Overriding model.yaml nc=80 with nc=20

                   from  n    params  module                                       arguments                     
  0                  -1  1       928  ultralytics.nn.modules.conv.Conv             [3, 32, 3, 2]                 
  1                  -1  1     18560  ultralytics.nn.modules.conv.Conv             [32, 64, 3, 2]                
  2                  -1  1     29056  ultralytics.nn.modules.block.C2f             [64, 64, 1, True]             
  3                  -1  1     73984  ultralytics.nn.modules.conv.Conv             [64, 128, 3, 2]               
  4                  -1  2    197632  ultralytics.nn.modules.block.C2f             [128, 128, 2, True]           
  5                  -1  1    295424  ultralytics.nn.modules.conv.Conv             [128, 256, 3, 2]              
  6                  -1  2    788480  ultralytics.nn.modules.block.C2f             [256, 256, 2, True]           
  7                  -1  1   1180672  ultralytic




 22        [15, 18, 21]  1   2123788  ultralytics.nn.modules.head.Detect           [20, [128, 256, 512]]         
Model summary: 129 layers, 11,143,340 parameters, 11,143,324 gradients, 28.7 GFLOPs

Transferred 349/355 items from pretrained weights
Freezing layer 'model.22.dfl.conv.weight'
[34m[1mAMP: [0mrunning Automatic Mixed Precision (AMP) checks...


Downloading https://github.com/ultralytics/assets/releases/download/v8.3.0/yolo11n.pt to 'yolo11n.pt': 100%|██████████| 5.35M/5.35M [00:00<00:00, 82.7MB/s]


[34m[1mAMP: [0mchecks passed ✅
[34m[1mtrain: [0mFast image access ✅ (ping: 0.0±0.0 ms, read: 40.5±9.1 MB/s, size: 85.1 KB)


[34m[1mtrain: [0mScanning /content/pascal_datasets/VOC/labels/train2007... 2501 images, 0 backgrounds, 0 corrupt: 100%|██████████| 2501/2501 [00:04<00:00, 539.66it/s]


[34m[1mtrain: [0mNew cache created: /content/pascal_datasets/VOC/labels/train2007.cache
[34m[1malbumentations: [0mBlur(p=0.01, blur_limit=(3, 7)), MedianBlur(p=0.01, blur_limit=(3, 7)), ToGray(p=0.01, method='weighted_average', num_output_channels=3), CLAHE(p=0.01, clip_limit=(1.0, 4.0), tile_grid_size=(8, 8))
[34m[1mval: [0mFast image access ✅ (ping: 0.0±0.0 ms, read: 16.8±5.7 MB/s, size: 80.0 KB)


[34m[1mval: [0mScanning /content/pascal_datasets/VOC/labels/val2007... 2510 images, 0 backgrounds, 0 corrupt: 100%|██████████| 2510/2510 [00:06<00:00, 412.82it/s]

[34m[1mval: [0mNew cache created: /content/pascal_datasets/VOC/labels/val2007.cache





Plotting labels to runs/detect/custom_s/labels.jpg... 
[34m[1moptimizer:[0m 'optimizer=auto' found, ignoring 'lr0=0.01' and 'momentum=0.937' and determining best 'optimizer', 'lr0' and 'momentum' automatically... 
[34m[1moptimizer:[0m AdamW(lr=0.000417, momentum=0.9) with parameter groups 57 weight(decay=0.0), 64 weight(decay=0.0005), 63 bias(decay=0.0)
Image sizes 640 train, 640 val
Using 2 dataloader workers
Logging results to [1mruns/detect/custom_s[0m
Starting training for 10 epochs...
Closing dataloader mosaic
[34m[1malbumentations: [0mBlur(p=0.01, blur_limit=(3, 7)), MedianBlur(p=0.01, blur_limit=(3, 7)), ToGray(p=0.01, method='weighted_average', num_output_channels=3), CLAHE(p=0.01, clip_limit=(1.0, 4.0), tile_grid_size=(8, 8))

      Epoch    GPU_mem   box_loss   cls_loss   dfl_loss  Instances       Size


       1/10      6.81G          1      3.142      1.212          8        640: 100%|██████████| 79/79 [00:52<00:00,  1.52it/s]
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 40/40 [00:24<00:00,  1.62it/s]


                   all       2510       7818      0.692      0.643      0.701      0.489

      Epoch    GPU_mem   box_loss   cls_loss   dfl_loss  Instances       Size


       2/10      6.84G      1.067      1.502       1.27          8        640: 100%|██████████| 79/79 [00:44<00:00,  1.77it/s]
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 40/40 [00:22<00:00,  1.81it/s]


                   all       2510       7818      0.674      0.587      0.638      0.416

      Epoch    GPU_mem   box_loss   cls_loss   dfl_loss  Instances       Size


       3/10      6.93G      1.082      1.398      1.283          5        640: 100%|██████████| 79/79 [00:45<00:00,  1.75it/s]
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 40/40 [00:21<00:00,  1.88it/s]


                   all       2510       7818      0.597      0.532      0.553      0.348

      Epoch    GPU_mem   box_loss   cls_loss   dfl_loss  Instances       Size


       4/10      6.86G      1.126      1.373      1.321         13        640: 100%|██████████| 79/79 [00:44<00:00,  1.76it/s]
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 40/40 [00:21<00:00,  1.85it/s]


                   all       2510       7818      0.659      0.574      0.623      0.413

      Epoch    GPU_mem   box_loss   cls_loss   dfl_loss  Instances       Size


       5/10      6.93G       1.08      1.201      1.276         14        640: 100%|██████████| 79/79 [00:43<00:00,  1.82it/s]
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 40/40 [00:21<00:00,  1.86it/s]


                   all       2510       7818      0.673      0.557      0.618      0.406

      Epoch    GPU_mem   box_loss   cls_loss   dfl_loss  Instances       Size


       6/10      6.85G      1.034      1.078      1.237         18        640: 100%|██████████| 79/79 [00:43<00:00,  1.83it/s]
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 40/40 [00:21<00:00,  1.85it/s]


                   all       2510       7818      0.725       0.61      0.688      0.465

      Epoch    GPU_mem   box_loss   cls_loss   dfl_loss  Instances       Size


       7/10      7.23G     0.9778     0.9458      1.201         12        640: 100%|██████████| 79/79 [00:44<00:00,  1.76it/s]
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 40/40 [00:21<00:00,  1.83it/s]


                   all       2510       7818      0.747      0.642      0.722      0.498

      Epoch    GPU_mem   box_loss   cls_loss   dfl_loss  Instances       Size


       8/10      6.88G     0.9263     0.8615      1.159         10        640: 100%|██████████| 79/79 [00:47<00:00,  1.65it/s]
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 40/40 [00:22<00:00,  1.79it/s]


                   all       2510       7818      0.746      0.667      0.734      0.519

      Epoch    GPU_mem   box_loss   cls_loss   dfl_loss  Instances       Size


       9/10      6.93G     0.8719     0.7477      1.124         17        640: 100%|██████████| 79/79 [00:45<00:00,  1.73it/s]
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 40/40 [00:21<00:00,  1.85it/s]


                   all       2510       7818      0.768       0.69      0.763      0.542

      Epoch    GPU_mem   box_loss   cls_loss   dfl_loss  Instances       Size


      10/10      6.86G     0.8287     0.6899      1.098          6        640: 100%|██████████| 79/79 [00:47<00:00,  1.68it/s]
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 40/40 [00:21<00:00,  1.88it/s]


                   all       2510       7818      0.798      0.698      0.779      0.558

10 epochs completed in 0.192 hours.
Optimizer stripped from runs/detect/custom_s/weights/last.pt, 22.5MB
Optimizer stripped from runs/detect/custom_s/weights/best.pt, 22.5MB

Validating runs/detect/custom_s/weights/best.pt...
Ultralytics 8.3.174 🚀 Python-3.11.13 torch-2.6.0+cu124 CUDA:0 (Tesla T4, 15095MiB)
Model summary (fused): 72 layers, 11,133,324 parameters, 0 gradients, 28.5 GFLOPs


                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 40/40 [00:24<00:00,  1.63it/s]


                   all       2510       7818      0.799      0.697      0.779      0.558
             aeroplane        127        175       0.82      0.783      0.839      0.613
               bicycle        133        216      0.835       0.75      0.827      0.594
                  bird        151        305      0.811      0.633      0.734       0.47
                  boat        101        190      0.686      0.587      0.661      0.414
                bottle        109        296      0.806      0.576      0.702      0.484
                   bus         97        141      0.889      0.582      0.761      0.641
                   car        359        818      0.848      0.746      0.847       0.63
                   cat        178        198      0.803      0.798      0.834      0.649
                 chair        290        706      0.676      0.582      0.645      0.429
                   cow         75        171      0.838      0.668      0.796      0.607
           diningtabl

## 5. 객체 탐지 모델의 성능 평가 지표

### 정밀도(Precision)
 객체 탐지 모델이 예측한 객체 중 실제로 정답인 객체의 비율을 의미합니다. 즉, 모델이 "이것이 객체다"라고 판단한 것들 중에서 실제로 맞는 것이 얼마나 많은지를 측정합니다. 수식으로 표현하면 Precision = (TP) / (TP + FP)이며, 여기서 TP(True Positive)는 모델이 올바르게 탐지한 객체 수, FP(False Positive)는 잘못 탐지한 객체 수를 뜻합니다. 정밀도가 높을수록 모델이 잘못된 탐지를 덜 한다는 의미입니다.

### 재현율(Recall)
 실제 존재하는 객체 중에서 모델이 올바르게 탐지한 객체의 비율을 의미합니다. 즉, 놓치지 않고 얼마나 많은 객체를 찾았는지를 평가합니다. 수식으로 표현하면 Recall = (TP) / (TP + FN)이며, 여기서 FN(False Negative)은 모델이 놓친 실제 객체 수를 의미합니다. 재현율이 높을수록 모델이 더 많은 객체를 탐지하지만, 때때로 잘못된 탐지(FP)도 많아질 수 있습니다.

### Precision Recall Curve (PR curve)

<img src="https://blog.kakaocdn.net/dna/bhXVN8/btsPHXyzvOg/AAAAAAAAAAAAAAAAAAAAANrJ61PJLke96RLpUHXX6XQ89-MoE7_jEZW7Ygreh80y/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=5bndbQXhDsRBhANR8GiHRbZBfE0%3D">

### AP(Average Precision)
 특정 클래스에 대해 Precision-Recall 곡선을 기반으로 평균 정밀도를 계산한 값입니다. AP는 Recall을 0에서 1까지 변화시키면서 Precision을 계산한 후 평균을 내는 방식으로 구합니다. 객체 탐지 모델의 성능을 측정하는 대표적인 방법이며, 보통 특정 IoU 기준에서 계산됩니다(예: AP@IoU=0.5는 IoU가 0.5 이상인 경우에 대해 AP를 구함)

### PR curve -> AP curve

<img src="https://blog.kakaocdn.net/dna/8jvMs/btsPHXk2PYN/AAAAAAAAAAAAAAAAAAAAAAYyEZ5ICBsV2nVctf3kEMX27UqaUNktWqszRG5P_gE3/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=1Wqny6ZqI8h2IQHyY08VFax8x3A%3D">

### IoU(Intersection over Union)
 예측된 바운딩 박스와 실제 객체의 바운딩 박스가 얼마나 겹치는지를 나타내는 값입니다. IoU는 두 박스가 겹치는 영역의 면적을 두 박스의 총 합집합 면적으로 나누어 계산합니다. 값이 1에 가까울수록 예측 박스와 실제 박스가 거의 일치한다는 뜻이며, 보통 객체 탐지 성능 평가에서 특정 임계값(예: IoU ≥ 0.5)을 기준으로 모델의 정확도를 평가합니다.

 <img src="https://blog.kakaocdn.net/dna/XgUe9/btsPFiYBVU9/AAAAAAAAAAAAAAAAAAAAAKkleX610ymgOZLTbVbC3v21t8d3mzjtHX_yzUVErBgK/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=Emg7mzlyAVD7Cg0fqnkfolQvZrY%3D" width=700>

 <img src="https://blog.kakaocdn.net/dna/3bKBa/btsPIgrjGb0/AAAAAAAAAAAAAAAAAAAAAEfESZY99__JUsBQwuZ8-HoYSUC6WW_rEZCstG3mTBV3/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1756652399&allow_ip=&allow_referer=&signature=bwuTYtgmR9fuYTukop3S7gG%2Bbwk%3D">

### mAP(mean Average Precision)
 여러 클래스에 대한 AP 값을 평균 낸 값으로, 전체 모델의 객체 탐지 성능을 평가하는 종합적인 지표입니다. 단일 클래스가 아닌 전체 데이터셋에 포함된 모든 클래스의 성능을 반영하며, 다양한 IoU 임곗값(예: 0.5~0.95)에 대해 평균을 내기도 합니다. 높은 mAP 값은 모델이 다양한 클래스의 객체를 정확하게 탐지한다는 것을 의미합니다.

#### mAP@50
IoU(Intersection over Union)가 0.5(50%) 이상이면 정답으로 인정하고 계산한 평균 정밀도입니다. 즉, 모델이 대략적인 위치라도 맞추면 성능이 좋게 나옵니다.
mAP@50-95: IoU를 0.5부터 0.95까지 0.05 간격으로 변화시키면서 성능을 평가한 평균 정밀도입니다. 즉, 객체의 위치를 더욱 정확하게 맞춰야 높은 점수를 받기 때문에 더 엄격한 기준입니다.

#### mAP@50-95
 IoU를 0.5부터 0.95까지 0.05 간격으로 변화시키면서 성능을 평가한 평균 정밀도입니다. 즉, 객체의 위치를 더욱 정확하게 맞춰야 높은 점수를 받기 때문에 더 엄격한 기준입니다.

In [30]:
%cd /content/

/content


In [32]:
# 학습된 모델 로드
model = YOLO("/content/runs/detect/custom_s/weights/best.pt")

# 검증 수행
results = model.val(
    data="custom_voc.yaml",  # 데이터셋 설정
    imgsz=640,               # 이미지 크기
    iou=0.5,                 # IoU 임계값 조정할 필요가 있음 why? 이미지가 깔끔하지 않아서 0.3, 0.4로 조정해야할 수도 있다.
    batch=32,                # 배치 크기
    device=0,                # GPU 사용
    workers=2,               # 데이터 로드 시 병렬 처리할 워커 수 (core 수)
    half=True,               # FP16 연산 활성화 (속도 향상)
    split="test"             # 테스트 데이터셋을 사용
)

print(results)

Ultralytics 8.3.174 🚀 Python-3.11.13 torch-2.6.0+cu124 CUDA:0 (Tesla T4, 15095MiB)
Model summary (fused): 72 layers, 11,133,324 parameters, 0 gradients, 28.5 GFLOPs
[34m[1mval: [0mFast image access ✅ (ping: 0.0±0.0 ms, read: 1691.5±345.0 MB/s, size: 95.1 KB)


[34m[1mval: [0mScanning /content/pascal_datasets/VOC/labels/test2007.cache... 4952 images, 0 backgrounds, 0 corrupt: 100%|██████████| 4952/4952 [00:00<?, ?it/s]
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 155/155 [00:43<00:00,  3.54it/s]


                   all       4952      14976      0.781      0.707      0.775      0.548
             aeroplane        205        311      0.871      0.772       0.84      0.596
               bicycle        250        389      0.839      0.777      0.841      0.602
                  bird        289        576      0.828      0.677       0.76        0.5
                  boat        176        393      0.692      0.533      0.615      0.343
                bottle        240        657      0.805      0.571      0.665      0.433
                   bus        183        254      0.841      0.642      0.786      0.651
                   car        775       1541       0.85      0.792      0.875      0.653
                   cat        332        370      0.785      0.819      0.829      0.611
                 chair        545       1374      0.651      0.578      0.637      0.413
                   cow        127        329      0.813      0.772      0.851      0.598
           diningtabl

In [33]:
model = YOLO("/content/runs/detect/custom_s/weights/best.pt")

# 객체 탐지 수행
results = model.predict(
    source="/content/pascal_datasets/VOC/images/custom2007",  # 테스트 이미지 폴더
    imgsz=640,           # 입력 이미지 크기
    conf=0.25,           # 신뢰도(Confidence) 임계값
    device=0,            # GPU 사용 (CPU 사용 시 "cpu")
    save=True,           # 탐지 결과 저장
    save_txt=True,       # 탐지 결과를 txt 형식으로 저장 (YOLO 포맷)
    save_conf=True       # 탐지된 객체의 신뢰도 점수도 저장
)

print(results)


image 1/5 /content/pascal_datasets/VOC/images/custom2007/000254.jpg: 448x640 4 cars, 43.3ms
image 2/5 /content/pascal_datasets/VOC/images/custom2007/000442.jpg: 480x640 1 cat, 47.1ms
image 3/5 /content/pascal_datasets/VOC/images/custom2007/000539.jpg: 480x640 1 dog, 1 horse, 1 person, 13.2ms
image 4/5 /content/pascal_datasets/VOC/images/custom2007/001300.jpg: 640x416 1 horse, 43.2ms
image 5/5 /content/pascal_datasets/VOC/images/custom2007/001967.jpg: 448x640 1 bird, 13.7ms
Speed: 2.6ms preprocess, 32.1ms inference, 1.5ms postprocess per image at shape (1, 3, 448, 640)
Results saved to [1mruns/detect/predict[0m
5 labels saved to runs/detect/predict/labels
[ultralytics.engine.results.Results object with attributes:

boxes: ultralytics.engine.results.Boxes object
keypoints: None
masks: None
names: {0: 'aeroplane', 1: 'bicycle', 2: 'bird', 3: 'boat', 4: 'bottle', 5: 'bus', 6: 'car', 7: 'cat', 8: 'chair', 9: 'cow', 10: 'diningtable', 11: 'dog', 12: 'horse', 13: 'motorbike', 14: 'person',