https://velog.io/@bbirong/YOLO-Object-Detection

## 객체 탐지 (Object Detection)
- 한 이미지에서 객체와 그 경계 상자(bounding box)를 탐지
- 객체 탐지 알고리즘은 일반적으로 이미지를 입력으로 받고, 경계 상자와 객체 클래스 리스트를 출력
- 경계상자에 대해 그에 대응하는 예측 클래스의 신뢰도(confidence)를 출력

## Applications
- 자율 주행 자동차에서 다른 자동차와 보행자를 찾을 때
- 의료 분야에서 방사선 사진을 사용해 종양이나 위험한 조직을 찾을 때
- 제조업에서 조립 로봇이 제품을 조립하거나 수리할 때
- 보안 산업에서 위협을 탐지하거나 사람을 셀 때

## 용어 설명

### Bounding Box
- 이미지에서 하나의 객체 전체를 포함하는 가장 작은 직사각형
![image.png](attachment:image.png)
- https://miro.medium.com/max/850/1*KL6r494Eyfh3iYEXQA2tzg.png

### IOU(Intersection Over Union)
- 실측값(Ground Truth)과 모델이 예측한 값이 얼마나 겹치는지를 나타내는 지표
![image.png](attachment:image.png)
- https://www.google.com/url?sa=i&url=https%3A%2F%2Fzeuseyera.github.io%2Fdarknet-kr%2F11_SaYongBeob%2FSaYongBeob_Yolo-v2.html&psig=AOvVaw38g7_1YrCd6QTozU0L0lbK&ust=1642121481894000&source=images&cd=vfe&ved=0CAsQjRxqFwoTCLi__7zBrfUCFQAAAAAdAAAAABAi

- IOU가 높을수록 예측한 모델
![image.png](attachment:image.png)
- https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FBrYnp%2FbtqCxQnMbYR%2Fzx5nkeNpfTrUf2aPqOWK1K%2Fimg.png


![image.png](attachment:image.png)
- https://www.google.com/url?sa=i&url=https%3A%2F%2Fwww.waytoliah.com%2F1491&psig=AOvVaw09JMoVSA2qYPzYaPl9zTbE&ust=1642120585602000&source=images&cd=vfe&ved=0CAsQjRxqFwoTCLimxr--rfUCFQAAAAAdAAAAABAD
- https://www.waytoliah.com/1491

In [6]:
def compute_iou(pred_box, gt_box):
    x1 = np.maximum(pred_box[0], gt_box[0])
    y1 = np.maximum(pred_box[1], gt_box[1])
    x2 = np.maximum(pred_box[2], gt_box[2])
    y2 = np.maximum(pred_box[3], gt_box[3])
            
    intersection = np.maximum(x2 - x1, 0) * np.maximum(y2 - y1, 0)
    
    pred_box_area = (pred_box[2] - pred_box[0]) * (pred_box[3] - pred_box[1]) # prediction 예측
    gt_box_area = (gt_box[2] - gt_box[0]) * (gt_box[3] - gt_box[1]) # ground truth 실제
    
    union = pred_box_area + gt_box_area - intersection_area
    
    iou = intersection / union
    
    return iou

![image.png](attachment:image.png)
- https://kuklife.tistory.com/125
- 위에 코드 잘 이해 어렵던데, 그림 보니까 쪼끔 도움 되더라..?

## NMS(Non-Maximum Suppression, 비최댓값 억제)
- 확률이 가장 높은 상자와 겹치는 상자들을 제거하는 과정
- 최댓값을 갖지 않는 상자들을 제거
- 과정
    - 1. 확률 기준으로 모든 상자를 정렬하고 먼저 가장 확률이 높은 상자를 취함
    - 2. 각 상자에 대해 다른 모든 상자와의 IOU를 계산
    - 3. 특정 임곗값을 넘는 상자는 제거

![image.png](attachment:image.png)
- https://www.google.com/url?sa=i&url=https%3A%2F%2Fichi.pro%2Fko%2Fnms-non-maximum-suppression-162513367734140&psig=AOvVaw0TX_org0LVZU3IgdZvNEMe&ust=1642134440520000&source=images&cd=vfe&ved=0CAsQjRxqFwoTCPDgttzxrfUCFQAAAAAdAAAAABAD

In [7]:
import numpy as np

def non_max_suppression_fast(boxes, overlap_thresh):
    if len(boxes) == 0:
        return []
    
    if boxes.dtype.kind == 'i':
        boxes = boxes.astype('float')
        
    pick = []
    x1 = boxes[:, 0]
    y1 = boxes[:, 1]
    x2 = boxes[:, 2]
    y2 = boxes[:, 3]
    
    area = (x2 - x1 + 1) * (y2 - y1 + 1)
    idxs = np.argsort(y2)
    
    while len(idxs) > 0:
        last = len(idxs) - 1
        i = idxs[last]
        pick.append(i)
        
        xx1 = np.maximum(x1[i], x1[idxs[:last]])
        yy1 = np.maximum(y1[i], y1[idxs[:last]])
        xx2 = np.maximum(x2[i], x2[idxs[:last]])
        yy2 = np.maximum(y2[i], y2[idxs[:last]])
        
        w = np.maximum(0, xx2 - xx1 + 1) # width
        h = np.maximum(0, yy2 - yy1 + 1) # height
        
        overlap = (w * h) / area[idxs[:last]]
        
        idxs = np.delete(idxs, np.concatenate(([last], np.where(overlap > overlap_thresh)[0])))
    
    return boxes[pick].astype('int')

## 모델 성능 평가

### 정밀도와 재현율
- 일반적으로 객체 탐지 모델 평가에 사용되지는 않지만, 다른 지표를 계산하는 기본 지표 역할을 함
    - TP
        - True Positives
        - 예측이 동일 클래스의 실제 상자와 일치하는지 측정
    - FP
        - False Positives
        - 예측이 실제 상자와 일치하지 않는지 측정
    - FN
        - False Negatives
        - 실제 분류값이 그와 일치하는 예측을 갖지 못하는지 측정
        
    - precision = TP / TP+FP
    - recall    = TP / TP+FN

- 모델이 안정적이지 않은 특징을 기반으로 객체 존재를 예측하면 거짓긍정(FP)이 많아져서 정밀도가 낮아짐
- 모델이 너무 엄격해서 정확한 조건을 만족할 때만 객체가 탐지된 것으로 간주하면 거짓부정(FN)이 많아져서 재현율이 낮아짐
      

## 정밀도-재현율 곡선(precision-recall curve)
- 신뢰도 임곗값마다 모델의 정밀도와 재현율을 시각화
- 모든 bounding box와 함께 모델이 예측의 정확성을 얼마나 확실하는지 0~1 사이의 숫자로 나타내는 신뢰도를 출력
- 임계값 T에 따라 정밀도와 재현율이 달라짐
    - 임곗값 T 이하의 예측은 제거함
    - T가 1에 가까우면 정밀도는 높지만 재현율은 낮음
      놓치는 객체가 많아져서 재현율이 낮아짐. 즉, 신뢰도가 높은 예측만 유지하기 때문에 정밀도는 높아짐
    - T가 0에 가까우면 정밀도는 낮지만 재현율은 높음
      대부분의 예측을 유지하기 때문에 재현율은 높아지고, 거짓긍정(FP)이 많아져서 정밀도가 낮아짐
- 예를 들어, 모델이 보행자를 탐지하고 있으면 특별한 이유 없이 차를 세우더라도 어떤 보행자도 놓치지 않도록 재현율을 높여야 함
  모델이 투자 기회를 탐지하고 있다면 일부 기회를 놓치게 되더라도 잘못된 기회에 돈을 거는 일을 피하기 위해 정밀도를 높여야 함
![image.png](attachment:image.png)
- https://www.google.com/url?sa=i&url=https%3A%2F%2Famirhessam88.github.io%2Froc-vs-pr%2F&psig=AOvVaw187WE7gjF0Z6kad9EsuYKM&ust=1642144444051000&source=images&cd=vfe&ved=0CAsQjRxqFwoTCNiFp_qWrvUCFQAAAAAdAAAAABAD

### AP(Average Precision, 평균 정밀도)와 mAP(mean Average Precision)
- 곡선의 아래 영역에 해당
- 항상 1x1 정사각형으로 구성되어 있음
  즉, 항상 0 ~ 1 사이의 값을 가짐
- 단일 클래스에 대한 모델 성능 정보를 제공
- 전역 점수를 얻기 위해서 mAP를 사용
- 예를 들어, 데이터셋이 10개의 클래스로 구성된다면 각 클래스에 대한 AP를 계산하고, 그 숫자들의 평균을 다시 구함
- (참고)
    - 최소 2개 이상의 객체를 탐지하는 대회인 PASCAL Visual Object Classes(VOC)와 Common Objects in Context(COCO)에서 mAP가 사용됨
    - COCO 데이터셋이 더 많은 클래스를 포함하고 있기 때문에 보통 Pascal VOC보다 점수가 더 낮게 나옴
    - 예시
    ![image.png](attachment:image.png)
    - https://www.google.com/url?sa=i&url=https%3A%2F%2Fwww.researchgate.net%2Ffigure%2FEvaluation-on-PASCAL-VOC-2007-and-MS-COCO-test-dev_tbl2_328939155&psig=AOvVaw2QTL7PZ2ZClgv7RgHjBE1j&ust=1642145715589000&source=images&cd=vfe&ved=0CAsQjRxqFwoTCPidktebrvUCFQAAAAAdAAAAABAD

## Dataset

### VOC
- 2005년부터 2012년까지 진행
- Object Detection 기술의 benchmark로 간주
- 데이터셋에는 20개의 클래스가 존재
- 훈련 및 검증 데이터 : 11,530개
- ROI에 대한 27,450개의 Annotation이 존재
- 이미지 당 2.4개의 객체 존재

### COCO Dataset
- Common Objects in Context
- 200,000개의 이미지
- 80개의 카테고리에 500,000개 이상의 객체 Annotation이 존재

## YOLO(You Only Look Once)
- 가장 빠른 객체 검출 알고리즘 중 하나
- 256x256 사이즈의 이미지
- GPU 사용 시, 초 당 170프레임(170FPS, frames per second),
  이는 파이썬, 텐서플로 기반 프레임워크가 아닌 C++로 구현된 코드 기준
- 작은 크기의 물체를 탐지하는데는 어려움

### YOLO Backbone
- 백본 모델(backbone model) 기반
- 특징 추출기(Feature Extractor)라고도 불림
- YOLO는 자체 맞춤 아키텍쳐 사용
- 어떤 특징 추출기 아키텍쳐를 사용했는지에 따라 성능 달라짐
![image.png](attachment:image.png)
- https://www.google.com/url?sa=i&url=https%3A%2F%2Fwww.researchgate.net%2Ffigure%2FStructure-detail-of-YOLOv3It-uses-Darknet-53-as-the-backbone-network-and-uses-three_fig1_335865923&psig=AOvVaw04cIb63mYFDTL636mZ-EMZ&ust=1642225400947000&source=images&cd=vfe&ved=0CAsQjRxqFwoTCLCUssDEsPUCFQAAAAAdAAAAABAD
- 마지막 계층은 크기가 w X h X D 인 특징 볼륨 출력
- w X h 는 그리드의 크기이고, D는 특징 볼륨 깊이

### YOLO의 계층 출력
- 마지막 계층 출력은 w X h X M 행렬
    - M = B X (C+5)
        - B : 그리드 셀 당 경계 상자 개수
        - C : 클래스 개수
    - 클래스 개수에 5를 더한 이유는 해당 값만큼의 숫자를 예측해야 함
        - tx, ty는 경계상자의 중심좌표를 계산
        - tw, th는 경계상자의 너비와 높이를 계산
        - C는 객체가 경계 상자 안에 있다고 확신하는 신뢰도
        - p1, p2, ..., pC는 경계상자가 클래스 1,2, ...,C의 객체를 포함할 확률
        
![image.png](attachment:image.png)
- https://www.google.com/url?sa=i&url=https%3A%2F%2Fvelog.io%2F%40bbirong%2FYOLO-Object-Detection&psig=AOvVaw15_RbhlFhq0UC7-suwBh-k&ust=1642225999719000&source=images&cd=vfe&ved=0CAsQjRxqFwoTCJjL3d7GsPUCFQAAAAAdAAAAABAD

## 앵커 박스(Anchor Box)
- YOLOv2에서 도입
- 사전 정의된 상자(prior box)
- 객체에 가장 근접한 앵커 박스를 맞추고 신경망을 사용해 앵커 박스의 크기를 조정하는 과정 때문에 tx, ty, tw, th이 필요

## YOLOv3 Inference 연습 : tensorflow 2
- 코드 참조 : https://github.com/zzh8829/yolov3-tf2

### Clone and install dependencies

In [None]:
!git clone https://github.com/zzh8829/yolov3-tf2
%cd yolov3-tf2
!pip install -r requirements-gpu.txt