# **1. 객체 탐지 ( Object Detection )**
* 컴퓨터 비전과 이미지 처리와 관련된 컴퓨터 기술로써, 디지털 이미지와 비디오로 특정한 계열의 시멘틱 객체 인스턴스를 감지하는 일
* 보행자 검출, 동물 사물 검출 등이 포함

# **2. 컴퓨터 비전의 Task  비교**
* Image classification : 이미지에 있는 객체 범주 목록 생성
* Single - Object Localization: 이미지에 있는 객체 범주의 한 인스턴스의 위치와 배율을 나타내는 Bounding Box를 생성
* Object Detection: 각 객체 범주의 모든 인스턴스의 위치와 배율을 나타내는 경계 상자와 함께 이미지에 있는 객체 목록을 생성


# **3. One-Stage 모델**
* Resion Proposal과 Dectection이 한번에 수행
* YOLO(You only Look Once): 2015년에 제안된 객체 검출 모델로 이미지 전체를 단일 그리드로 나누고, 각 그리드 셀마다 여러개의 바운딩 박스와 클래스를 예측하는 방식


# **4. YOLO**
* 이미지 분류, 객체 탐지, 인스턴스 분할 작업에 사용할 수 있는 모델
* 초기버전(1~4)에서는 Reemond가 작성한 커스텀 딥러닝 프레임워크인 Darknet에서 유지
* Ultralytics에서 YOLOv3 레포를 PyTorch로 작성하여 출시 (YOLOv5)
* 유연한 Python 구조 덕분에 YOLOv5 는 SOTA 레포가 되었음
* Ultralytics는 2023년 1월에 YOLOv8을 출시
* [아키텍처](https://docs.ultralytics.com/ko/yolov5/tutorials/architecture_description/)



# **5. PascalVOC 2007 데이터셋**
* 분류와 객체 검출을 위해 만들어진 데이터셋
* 총 20개의 클래스를 가지고 있음
  * Person: person
  * Animal: bird, cat, cow, dog, horse, sheep
  * Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
  * Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

# **6. YOLO 실습**
* PascalVOC 2007 데이터셋
  * train: 2501장, val: 2510장
  * test: 4952장
  * 학습데이터가 너무 적어서 train과 val을 합쳐서 학습시킨후, 테스트 데이터를 검증 데이터셋으로 사용, 테스트는 직접 만들어서 사용

In [None]:
!wget http://pjreddie.com/media/files/VOCtrainval_06-Nov-2007.tar

--2024-09-21 04:25:55--  http://pjreddie.com/media/files/VOCtrainval_06-Nov-2007.tar
Resolving pjreddie.com (pjreddie.com)... 162.0.215.52
Connecting to pjreddie.com (pjreddie.com)|162.0.215.52|:80... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://pjreddie.com/media/files/VOCtrainval_06-Nov-2007.tar [following]
--2024-09-21 04:25:55--  https://pjreddie.com/media/files/VOCtrainval_06-Nov-2007.tar
Connecting to pjreddie.com (pjreddie.com)|162.0.215.52|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 460032000 (439M) [application/x-tar]
Saving to: ‘VOCtrainval_06-Nov-2007.tar’


2024-09-21 04:27:39 (32.4 MB/s) - ‘VOCtrainval_06-Nov-2007.tar’ saved [460032000/460032000]



In [None]:
!wget http://pjreddie.com/media/files/VOCtest_06-Nov-2007.tar

--2024-09-21 04:27:39--  http://pjreddie.com/media/files/VOCtest_06-Nov-2007.tar
Resolving pjreddie.com (pjreddie.com)... 162.0.215.52
Connecting to pjreddie.com (pjreddie.com)|162.0.215.52|:80... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://pjreddie.com/media/files/VOCtest_06-Nov-2007.tar [following]
--2024-09-21 04:27:39--  https://pjreddie.com/media/files/VOCtest_06-Nov-2007.tar
Connecting to pjreddie.com (pjreddie.com)|162.0.215.52|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 451020800 (430M) [application/x-tar]
Saving to: ‘VOCtest_06-Nov-2007.tar’


2024-09-21 04:27:52 (33.0 MB/s) - ‘VOCtest_06-Nov-2007.tar’ saved [451020800/451020800]



### 디렉토리 구조
```
pascal_datasets
pascal_datasets/trainval
pascal_datasets/test
pascal_datasets/VOC
pascal_datasets/VOC/images
pascal_datasets/VOC/labels
pascal_datasets/VOC/images/train2007
pascal_datasets/VOC/images/val2007
pascal_datasets/VOC/images/test2007
pascal_datasets/VOC/labels/train2007
pascal_datasets/VOC/labels/val2007
pascal_datasets/VOC/labels/test2007
```

In [None]:
from pathlib import Path

In [None]:
root = Path('pascal_datasets')

In [None]:
Path('./pascal_datasets/trainval').mkdir(parents=True, exist_ok=True)
Path('./pascal_datasets/test').mkdir(parents=True, exist_ok=True)

In [None]:
for path1 in ('images', 'labels'):
    for path2 in ('train2007', 'val2007', 'test2007'):
      new_path = root / 'VOC' / path1 / path2
      new_path.mkdir(parents=True, exist_ok=True)

In [None]:
!tar -xvf VOCtrainval_06-Nov-2007.tar -C ./pascal_datasets/trainval/
!tar -xvf VOCtest_06-Nov-2007.tar -C ./pascal_datasets/test/

[1;30;43m스트리밍 출력 내용이 길어서 마지막 5000줄이 삭제되었습니다.[0m
VOCdevkit/VOC2007/JPEGImages/000725.jpg
VOCdevkit/VOC2007/JPEGImages/000727.jpg
VOCdevkit/VOC2007/JPEGImages/000732.jpg
VOCdevkit/VOC2007/JPEGImages/000734.jpg
VOCdevkit/VOC2007/JPEGImages/000735.jpg
VOCdevkit/VOC2007/JPEGImages/000736.jpg
VOCdevkit/VOC2007/JPEGImages/000737.jpg
VOCdevkit/VOC2007/JPEGImages/000741.jpg
VOCdevkit/VOC2007/JPEGImages/000743.jpg
VOCdevkit/VOC2007/JPEGImages/000744.jpg
VOCdevkit/VOC2007/JPEGImages/000745.jpg
VOCdevkit/VOC2007/JPEGImages/000747.jpg
VOCdevkit/VOC2007/JPEGImages/000749.jpg
VOCdevkit/VOC2007/JPEGImages/000751.jpg
VOCdevkit/VOC2007/JPEGImages/000757.jpg
VOCdevkit/VOC2007/JPEGImages/000758.jpg
VOCdevkit/VOC2007/JPEGImages/000759.jpg
VOCdevkit/VOC2007/JPEGImages/000762.jpg
VOCdevkit/VOC2007/JPEGImages/000765.jpg
VOCdevkit/VOC2007/JPEGImages/000766.jpg
VOCdevkit/VOC2007/JPEGImages/000769.jpg
VOCdevkit/VOC2007/JPEGImages/000773.jpg
VOCdevkit/VOC2007/JPEGImages/000775.jpg
VOCdevkit/VOC2007/JPEGImages/0

* xml 에서 ( Xmin, Ymin, XMax, Ymax)을 YOLO 모델에서 사용하기 위해 포멧 변경이 필요
* YOLO 형식: 클래스번호 X의 Center좌표, Y의 Center좌표 너비 높이

In [None]:
!git clone https://github.com/ssaru/convert2Yolo.git

Cloning into 'convert2Yolo'...
remote: Enumerating objects: 215, done.[K
remote: Counting objects: 100% (43/43), done.[K
remote: Compressing objects: 100% (8/8), done.[K
remote: Total 215 (delta 38), reused 35 (delta 35), pack-reused 172 (from 1)[K
Receiving objects: 100% (215/215), 994.67 KiB | 2.83 MiB/s, done.
Resolving deltas: 100% (95/95), done.


In [None]:
%cd convert2Yolo/

/content/yolov5/convert2Yolo


In [None]:
%pip install -qr requirements.txt

# **7. names 파일**
* 머신러닝, 딥러닝 모델이 데이터셋 내의 클래스를 인식하고 구분할 수 있도록 클래스 이름을 정의한 파일 형식
* YOLO와 같은 유명한 객체 탐지 알고리즘을 구현하는데 제공

In [None]:
# trainval 데이터 yolo 포멧 변환
!python3 example.py --datasets VOC --img_path /content/pascal_datasets/trainval/VOCdevkit/VOC2007/JPEGImages --label /content/pascal_datasets/trainval/VOCdevkit/VOC2007/Annotations --convert_output_path /content/pascal_datasets/VOC/labels/train2007 --img_type ".jpg" --manifest_path /content --cls_list_file ./voc.names


VOC Parsing:   |████████████████████████████████████████| 100.0% (5011/5011)  Complete


YOLO Generating:|████████████████████████████████████████| 100.0% (5011/5011)  Complete


YOLO Saving:   |████████████████████████████████████████| 100.0% (5011/5011)  Complete



In [None]:
# test 데이터 yolo 포멧 변환
!python3 example.py --datasets VOC --img_path /content/pascal_datasets/test/VOCdevkit/VOC2007/JPEGImages --label /content/pascal_datasets/test/VOCdevkit/VOC2007/Annotations --convert_output_path /content/pascal_datasets/VOC/labels/test2007 --img_type ".jpg" --manifest_path /content --cls_list_file ./voc.names


VOC Parsing:   |████████████████████████████████████████| 100.0% (4952/4952)  Complete


YOLO Generating:|████████████████████████████████████████| 100.0% (4952/4952)  Complete


YOLO Saving:   |████████████████████████████████████████| 100.0% (4952/4952)  Complete



# **8. PascalVOC 제공 파일로 train, val 라벨 분할**
* /content/pascal_datasets/trainval/VOCdevkit/VOC2007/ImageSets/Main/val.txt 파일을 읽어서 /content/pascal_datasets/VOC/labels/train2007 파일 중 txt문서에 있는 파일이름을 /content/pascal_datasets/VOC/labels/val2007 옮기기  

In [None]:
import shutil

In [None]:
path = '/content/pascal_datasets/trainval/VOCdevkit/VOC2007/ImageSets/Main/val.txt'

with open(path) as f:
    image_ids = f.read().strip().split()
    for id in image_ids:
        ori_path = '/content/pascal_datasets/VOC/labels/train2007'
        mv_path = '/content/pascal_datasets/VOC/labels/val2007'
        shutil.move(f'{ori_path}/{id}.txt', f'{mv_path}/{id}.txt')


# **9. VOC/labels에 맞게 images 분할**
* /content/pascal_datasets/trainval/VOCdevkit/VOC2007/JPEGImages 와 /content/pascal_datasets/test/VOCdevkit/VOC2007/JPEGImages 에서 이미지를 가져와 디렉토리에 맞게 저장

In [None]:
import os

In [None]:
path = '/content/pascal_datasets'

for folder, subset in ('trainval', 'train2007'), ('trainval', 'val2007'), ('test', 'test2007'):
    ex_imgs_path = f'{path}/{folder}/VOCdevkit/VOC2007/JPEGImages'
    label_path = f'{path}/VOC/labels/{subset}'
    img_path = f'{path}/VOC/images/{subset}'
    print(subset, ": ", len(os.listdir(label_path)))
    for lbs_list in os.listdir(label_path):
        shutil.move(os.path.join(ex_imgs_path, lbs_list.split('.')[0]+'.jpg'),
                    os.path.join(img_path, lbs_list.split('.')[0]+'.jpg'))

train2007 :  2501
val2007 :  2510
test2007 :  4952


# **10.커스텀 데이터 준비**
1. [cvat](https://www.cvat.ai/)
2. 새로운 프로젝트 생성
3. 라벨 정보 입력( 이름과 색상 설정 )
4. 새로운 task 생성
5. 이미지 업로드
6. 이미지 데이터 경계상자 라벨링
7. 라벨링 결과물 저장
8. Menu -> Export job #1247156 as a dataset
9. YOLO 1.1 을 선택 후 YOLO 포맷으로 Export
10. Requests 에서 다운로드


# **11. YOLO 모델 불러오기**

In [None]:
%cd /content/

/content


In [None]:
!git clone -b v6.2 https://github.com/ultralytics/yolov5

Cloning into 'yolov5'...
remote: Enumerating objects: 16960, done.[K
remote: Counting objects: 100% (155/155), done.[K
remote: Compressing objects: 100% (109/109), done.[K
remote: Total 16960 (delta 79), reused 96 (delta 46), pack-reused 16805 (from 1)[K
Receiving objects: 100% (16960/16960), 15.70 MiB | 19.35 MiB/s, done.
Resolving deltas: 100% (11608/11608), done.
Note: switching to 'd3ea0df8b9f923685ce5f2555c303b8eddbf83fd'.

You are in 'detached HEAD' state. You can look around, make experimental
changes and commit them, and you can discard any commits you make in this
state without impacting any branches by switching back to a branch.

If you want to create a new branch to retain commits you create, you may
do so (now or later) by using -c with the switch command. Example:

  git switch -c <new-branch-name>

Or undo this operation with:

  git switch -

Turn off this advice by setting config variable advice.detachedHead to false



In [None]:
%cd yolov5

/content/yolov5/yolov5


In [None]:
%pip install -r requirements.txt



In [None]:
!pip install numpy==1.23.0



In [None]:
import torch

# **12. WanDB를 이용한 학습 및 평가 과정 로깅**
* [WanDB](https://wandb.ai/site)
* 머신러닝/딥러닝 개발자들을 위한 종합적인 보조 도구
* 딥러닝 모델 학습할 떄 학습 과정에 대해 로깅을 진행
* 손실값의 감소하는 형태를 쉽게 파악할 수 있음
* 팀 단위로 실험 결과를 추적할 수 있도록 해주기 때문에 웹에서 편리하게 분석이 가능


In [None]:
!pip install wandb



In [None]:
import wandb

In [None]:
wandb.login()

[34m[1mwandb[0m: Currently logged in as: [33mhanbii4167[0m ([33mhanbii4167-no[0m). Use [1m`wandb login --relogin`[0m to force relogin


True

# **13. 실험의 재현성 보장**

In [None]:
import random
import numpy as np

In [None]:
seed = 2024
deterministic = True

random.seed(seed)
np.random.seed(seed)
torch.manual_seed(seed)
torch.cuda.manual_seed(seed)

if deterministic:
  # cudnn을 사용하는 GPU 연산에서 설정
  # True(동일한 입력에 대해 항상 동일한 결과를 보장)
  torch.backends.cudnn.deterministic = True
  # CuDNN 벤치마크 모드를 활성화
  # 입력 크기가 변경되지 않을 경우 최적의 알고리즘을 선택하여 성능을 향상
  torch.backends.cudnn.benchmark = True

# **14. data.yaml 파일**
* custom_voc.yaml: Pascalvoc2007 데이터 명시 파일
* custom_dataset.yaml: 직접 라벨링한 테스트 데이터 명시 파일
* 파일 경로: /content/yolo5/data/

# **15. YOLO5 가중치 파일**
* yolo5s.pt: 가장 작은 버전으로 경량화된 모델이며 작은 크기의 객체를 감지하거나 시스템 리소스가 제한된 환경에서 사용
* yoloy5m.pt: 중간 크기의 모델로 기본적인 객체 탐지와 분류에 적합
* yolo5l.pt: 큰 모델로 더 높은 정확도를 제공. 크기가 큰 객체나 복잡한 시노리오에 유용
* yolo5x.pt: 가장 큰 모델로 가장 높은 정확도를 목표로 함

In [None]:
%cd /content/yolov5

/content/yolov5


In [76]:
!python3 train.py --img 640 --batch 32 --epochs 10 --data custom_voc.yaml --weights yolov5s.pt --seed 2024

2024-09-21 05:25:17.517011: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:485] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-09-21 05:25:17.550178: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:8454] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-09-21 05:25:17.560140: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1452] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-09-21 05:25:17.583139: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
[34m[1mwandb[0m: Currently logged in as: [33mhanb

## **16. mAP(mean Average Precision)**
* Precision(정밀도): 모델이 검출한 객체 중에서 실제로 객체인 비율
  * True Positive(TP): 올바르게 검출한 객체
  * False Positive(FP): 잘못 검출한 객체
* Recall(재현율): 실제 객체 중에서 모델이 올바르게 검출한 비율
  * Fales Nagative(FN): 검출하지 못한 객체
* Average Precision(AP)
  * Precision과 Recall의 관계를 나타내는 Recision-Recall 곡선의 아래 면적(Area Under Curve)을 계산하여 얻음
* mean Average Precision(mAP)
  * 다양한 객체 클래스에 대해 AP를 평균한 값
  * 예) 클래스 1: AP=0.75, 클래스 2:AP=0.85, 클래스 3: AP=0.8 -> mAP = (0.75+0.85+0.8)/3 = 0.8
  * 모델이 다양한 객체 클래스를 얼마나 잘 검출하고 있는지를 종합적으로 평가할 수 있는 중요한 지표
  * 객체 검출 모델의 성능을 비교할 때 많이 사용 -> mAP값이 높을수록 모델의 검출 성능이 좋다는 것을 의미

In [81]:
!python3 val.py /content/yolov5/runs/train/exp/weights/best.pt --data custom_voc.yaml --img 640 --iou 0.5 --task test --half

usage: val.py [-h] [--data DATA] [--weights WEIGHTS [WEIGHTS ...]] [--batch-size BATCH_SIZE]
              [--imgsz IMGSZ] [--conf-thres CONF_THRES] [--iou-thres IOU_THRES] [--task TASK]
              [--device DEVICE] [--workers WORKERS] [--single-cls] [--augment] [--verbose]
              [--save-txt] [--save-hybrid] [--save-conf] [--save-json] [--project PROJECT]
              [--name NAME] [--exist-ok] [--half] [--dnn]
val.py: error: unrecognized arguments: /content/yolov5/runs/train/exp/weights/best.pt


In [82]:
!python3 detect.py --weights /content/yolov5/runs/train/exp/weights/best.pt --img 640 --conf 0.25 --source /content/yolov5/pascal_datasets/VOC/images/test2007

[34m[1mdetect: [0mweights=['/content/yolov5/runs/train/exp/weights/best.pt'], source=/content/yolov5/pascal_datasets/VOC/images/test2007, data=data/coco128.yaml, imgsz=[640, 640], conf_thres=0.25, iou_thres=0.45, max_det=1000, device=, view_img=False, save_txt=False, save_conf=False, save_crop=False, nosave=False, classes=None, agnostic_nms=False, augment=False, visualize=False, update=False, project=runs/detect, name=exp, exist_ok=False, line_thickness=3, hide_labels=False, hide_conf=False, half=False, dnn=False
YOLOv5 🚀 v6.2-0-gd3ea0df8 Python-3.10.12 torch-2.4.1+cu121 CUDA:0 (Tesla T4, 15102MiB)

  ckpt = torch.load(attempt_download(w), map_location='cpu')  # load
Fusing layers... 
Model summary: 213 layers, 7064065 parameters, 0 gradients, 15.9 GFLOPs
Traceback (most recent call last):
  File "/content/yolov5/detect.py", line 257, in <module>
    main(opt)
  File "/content/yolov5/detect.py", line 252, in main
    run(**vars(opt))
  File "/usr/local/lib/python3.10/dist-packages/t

In [83]:
!python3 detect.py --weights /content/yolov5/runs/train/exp/weights/best.pt --img 640 --conf 0.25 --source /content/pascal_datasets/VOC/custom_datasets/obj_train_data

[34m[1mdetect: [0mweights=['/content/yolov5/runs/train/exp/weights/best.pt'], source=/content/pascal_datasets/VOC/custom_datasets/obj_train_data, data=data/coco128.yaml, imgsz=[640, 640], conf_thres=0.25, iou_thres=0.45, max_det=1000, device=, view_img=False, save_txt=False, save_conf=False, save_crop=False, nosave=False, classes=None, agnostic_nms=False, augment=False, visualize=False, update=False, project=runs/detect, name=exp, exist_ok=False, line_thickness=3, hide_labels=False, hide_conf=False, half=False, dnn=False
YOLOv5 🚀 v6.2-0-gd3ea0df8 Python-3.10.12 torch-2.4.1+cu121 CUDA:0 (Tesla T4, 15102MiB)

  ckpt = torch.load(attempt_download(w), map_location='cpu')  # load
Fusing layers... 
Model summary: 213 layers, 7064065 parameters, 0 gradients, 15.9 GFLOPs
image 1/5 /content/pascal_datasets/VOC/custom_datasets/obj_train_data/000254.jpg: 448x640 4 cars, Done. (0.029s)
image 2/5 /content/pascal_datasets/VOC/custom_datasets/obj_train_data/000442.jpg: 480x640 1 cat, Done. (0.031s