## Yolo v3 Object Detection in Tensorflow 파헤치기

- 이 자료는 Kaggle 내 Open Source 중 Object Detection Model들을 좀더 알아보기 쉽게 학습하기 위해 만들어졌습니다. 
- 출처 : https://www.kaggle.com/aruchomu/yolo-v3-object-detection-in-tensorflow

### 1. Yolo란 무엇일까?

- 욜로는 object detection을 위한 CNN을 사용하는 알고리즘으로 기존의 다른 알고리즘에 비하면 class label들을 예측하고 물건의 장소들도 탐지할 수 있게 해준다.

### 2. Dependency

- Yolo 설치를 위해서는 Tensorflow(Deep learning), NumPy(numerical computation)과 Pillow(Image Processing) 라이브러리들이 필요하다. 또한 박스 색깔들을 위한 seaborn의 color palette도 사용해야한다. 그리고 노트북에 있는 이미지들을 보여주기 위한 IPython 내 display() 함수도 가져와야 한다.

In [1]:
import tensorflow as tf
import numpy as np
from PIL import Image, ImageDraw, ImageFont
from IPython.display import display
from seaborn import color_palette
import cv2

ModuleNotFoundError: No module named 'tensorflow'

### 3. Model hyperparameters

- Yolo를 위한 여러 수치들을 설정해준다.
- Hyperparameter : 머신러닝에서 하이퍼 파라미터는 학습 프로세스가 시작되기 전에 값이 설정되는 매개 변수를 의미한다.

In [None]:
_BATCH_NORM_DECAY = 0.9
_BATCH_NORM_EPSILON = 1e-05
_LEAKY_RELU = 0.1
_ANCHORS = [(10, 13), (16, 30), (33, 23),
           (30, 61), (62, 45), (59, 119),
           (116, 90), (156, 198), (373, 326)]
_MODEL_SIZE = (416, 416)

#### Batch normalization

- Batch normalization은 학습과정에서 각 배치별로 평균과 분산을 이용해 정규화하는 것을 의미한다.
- 거의 욜로 내 모든 계층들은 Batch normalization을 가지고 있으며 이것은 학습을 좀더 빠르게 하고 단위들간 분산들도 줄여주는 역할을 한다. 
- BATCH_NORM_EPSILON는 공식 내 epsilon들을 의미하고 BATCH_NORM_DECAY는 평균과 분산을 움직이는 컴퓨팅 모멘트를 의미한다.
- 공식 참고 : moving_average = momentum * moving_average + (1 - momentum) * current_average

#### Leaky ReLU

- Leaky ReLU는 ReLU 활성함수를 조금 변형시킨 것으로 이 아이디어는 많은 수의 활성들이 0 이되는 "neuron dying"을  방지하는 것에서 착안이 되었다.
- LEAKY_RELU는 다음 함수의 알파를 의미한다.f(x)={(x>0) x, (x<0) 알파*x}

#### Anchors

- Anchors는 bounding box priors의 종류들이고 이는 k-means 클러스터링을 사용한 데이터에서 계산된 것이다. 우리는 클러스터 중심의 더해진 값으로 박스의 넓이 높이들을 예측하고 시그모이드 함수를 활용하여 박스의 중심좌표들을 예측할 것이다.
- Bounding Box Prior란? 디지털 이미지 처리에서 bounding box는 화면상에 이미지가 있을때 이 이미지를 감싸주는 사각형 박스들의 좌표들을 말한다.

### 4. Model definition

#### Batch norm and fixed padding

- batch_norm 함수는 배치정규화 모델에서 변수들과 함꼐 사용되기 때문에 유용하다. 또한 ResNet에서 Yolo는 고정된 padding 값으로 합성곱을 사용한다. 이는 오직 커널 사이즈에 의해 paddin이 정해진다는 의미이다.

In [None]:
def batch_norm(inputs, training, data_format):
    """표준 변수들을 활용하여 배치정규화를 수행함."""
    return tf.layers.batch_nomalization(inputs=inputs, axis=1
            if data_format == 'channels_first' else 3, 
            momentum=_BATCH_NORM_DECAY, epsilon=_BATCH_NORM_EPSILON, scale=Treu, training=training)

def fixed_padding(inputs, kernel_size, data_format):
    """고정된 padding의 ResNet 이행.
    
    입력된 사이즈의 부분적 크기에 따라 입력을 패드시킨다.
    
    인수:
        입력값: Tensor input to be padded.
        커널 사이즈: The kernel to be used in the conv2d or max_pool2d.
        데이터 형식: 입력값 형식
    
    반환값:
        A tensor with the same format as the input(같은 형식의 인풋을 받아내겠다는 의미)
    """
    if data_format == 'channels_first':
        padded_inputs = tf.pad(inputs, [[0, 0], [0, 0], [pad_beg, pad_end], [pad_beg, pad_end], [0,0]])
    else:
        padded_inputs = tf.pad(inputs, [ [[0, 0], [pad_beg, pad_end], [pad_beg, pad_end], [0, 0]]])
    return padded_inputs

def conv2d_fixed_padding(inputs, filters, kernel_size, data_format, strides=1):
    """Strided 2-D convolution with explicit padding"""
    if strides > 1:
        inputs = fixed_padding(inputs, kernel_size, data_format)
    
    return tf.layers.conv2d(
        inputs=inputs, filters=filters, kernel_size=kernel_size,
        strides=strides, padding=('SAME' if strides == 1 else 'VALID'),
        use_bias=False, data_format=data_format)

#### 특징 추출기: Darknet-53

- 특징 추출을 위해서 욜로는 ImageNet에서 이미 훈련된 Darknet-53 신경망을 사용한다. 이는 ResNet과 같이, 정보가 더 멀리 나갈 수 있도록 도와주는 shorcut (residual) connection들을 가지고 있다. 마지막 3개의 층(Avgpool. Connected and Softmax)들을 생략시켰다.

In [None]:
def darknet53_residual_block(inputs, filters, training, data_format, strides=1):
    """Darknet의 Residual Block 생성하기"""
    shortcut=inputs
    
    inputs = conv2d_fixxed_padding(inputs, filters=filters, kernel_size=1, strides=strides,
        data_format=data_format)
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)
    
    inputs = conv2d_fixed_padding(inputs, filters=2 * filters, kernel_size=3, strides=strides,
        data_format=data_format)
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)
    
    inputs += shortcut
    
    return inputs

def darknet53(inputs, training, data_format):
    """특징추출하기 위한 Darknet53 모델 만들기"""
    inputs = conv2d_fixed_padding(inputs, filters=32, kernel_size=3,
                                  data_format=data_format)
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)
    inputs = conv2d_fixed_padding(inputs, filters=64, kernel_size=3,
                                  strides=2, data_format=data_format)
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

    inputs = darknet53_residual_block(inputs, filters=32, training=training,
                                      data_format=data_format)

    inputs = conv2d_fixed_padding(inputs, filters=128, kernel_size=3,
                                  strides=2, data_format=data_format)
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

    for _ in range(2):
        inputs = darknet53_residual_block(inputs, filters=64,
                                          training=training,
                                          data_format=data_format)

    inputs = conv2d_fixed_padding(inputs, filters=256, kernel_size=3,
                                  strides=2, data_format=data_format)
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

    for _ in range(8):
        inputs = darknet53_residual_block(inputs, filters=128,
                                          training=training,
                                          data_format=data_format)

    route1 = inputs

    inputs = conv2d_fixed_padding(inputs, filters=512, kernel_size=3,
                                  strides=2, data_format=data_format)
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

    for _ in range(8):
        inputs = darknet53_residual_block(inputs, filters=256,
                                          training=training,
                                          data_format=data_format)

    route2 = inputs

    inputs = conv2d_fixed_padding(inputs, filters=1024, kernel_size=3,
                                  strides=2, data_format=data_format)
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

    for _ in range(4):
        inputs = darknet53_residual_block(inputs, filters=512,
                                          training=training,
                                          data_format=data_format)

    return route1, route2, inputs

#### Convoution layers(합성곱 계층)

- 욜로는 많은 수의 합성곱 계층들을 가지고 있고 이들을 블록으로 묶는 것이 유용하다.

In [None]:
def yolo_convolution_block(inputs, filters, training, data_format):
    """Darknet 뒤에 수행되는 합성곱 계층들을 만들고 있다"""
    inputs = conv2d_fixed_padding(inputs, filters=filters, kernel_size=1,
                                  data_format=data_format)
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

    inputs = conv2d_fixed_padding(inputs, filters=2 * filters, kernel_size=3,
                                  data_format=data_format)
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

    inputs = conv2d_fixed_padding(inputs, filters=filters, kernel_size=1,
                                  data_format=data_format)
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

    inputs = conv2d_fixed_padding(inputs, filters=2 * filters, kernel_size=3,
                                  data_format=data_format)
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

    inputs = conv2d_fixed_padding(inputs, filters=filters, kernel_size=1,
                                  data_format=data_format)
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

    route = inputs

    inputs = conv2d_fixed_padding(inputs, filters=2 * filters, kernel_size=3,
                                  data_format=data_format)
    inputs = batch_norm(inputs, training=training, data_format=data_format)
    inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)

    return route, inputs

#### Detection layers

- 욜로는 3개의 서로 다른 크기의 규모를 탐지하는 3개의 Dectection layer를 가지고 있다. 각각은 1x1 층을 사용하여 'n_anchors * (5 + n_classes)' 값을 예측한다. 각 규모마다 'n_anchors = 3. 5 + n_classes' 박스의 4개의 좌표들, 물건일 가능성, 클래스의 가능성을 예측하는 3개의 anchor들을 각각 의미한다. 

In [None]:
def yolo_layer(inputs, n_classes, anchors, img_size, data_format):
    """Yolo 마지막 detection layer 만들기

    anchor에 관한 박스들을 탐지한다.

    인수:
        inputs: Tensor input
        n_classes: 라벨 수들
        anchors: anchor 크기목록
        img_size: 모델의 입력받은 크기
        data_format: 입력값 형식.

    반환값:
        Tensor output.
    """
    n_anchors = len(anchors)

    inputs = tf.layers.conv2d(inputs, filters=n_anchors * (5 + n_classes),
                              kernel_size=1, strides=1, use_bias=True,
                              data_format=data_format)

    shape = inputs.get_shape().as_list()
    grid_shape = shape[2:4] if data_format == 'channels_first' else shape[1:3]
    if data_format == 'channels_first':
        inputs = tf.transpose(inputs, [0, 2, 3, 1])
    inputs = tf.reshape(inputs, [-1, n_anchors * grid_shape[0] * grid_shape[1],
                                 5 + n_classes])

    strides = (img_size[0] // grid_shape[0], img_size[1] // grid_shape[1])

    box_centers, box_shapes, confidence, classes = \
        tf.split(inputs, [2, 2, 1, n_classes], axis=-1)

    x = tf.range(grid_shape[0], dtype=tf.float32)
    y = tf.range(grid_shape[1], dtype=tf.float32)
    x_offset, y_offset = tf.meshgrid(x, y)
    x_offset = tf.reshape(x_offset, (-1, 1))
    y_offset = tf.reshape(y_offset, (-1, 1))
    x_y_offset = tf.concat([x_offset, y_offset], axis=-1)
    x_y_offset = tf.tile(x_y_offset, [1, n_anchors])
    x_y_offset = tf.reshape(x_y_offset, [1, -1, 2])
    box_centers = tf.nn.sigmoid(box_centers)
    box_centers = (box_centers + x_y_offset) * strides

    anchors = tf.tile(anchors, [grid_shape[0] * grid_shape[1], 1])
    box_shapes = tf.exp(box_shapes) * tf.to_float(anchors)

    confidence = tf.nn.sigmoid(confidence)

    classes = tf.nn.sigmoid(classes)

    inputs = tf.concat([box_centers, box_shapes,
                        confidence, classes], axis=-1)

    return inputs

#### Unsample layer(분류되지 않은 층)

- 다른 크기의 탐지를 적용하기 전에 Darknet-53의 짧은 아웃풋을 합치기 위해서 가장 가까운 점에 연결하는 방법을 사용하여 특징지도를 분류하지 않는다.

In [None]:
def upsample(inputs, out_shape, data_format):
    """가장 가까운 점을 연결하는 방법을 사용하여 'out_shape'에 분류되지 않게 함"""
    if data_format == 'channels_first':
        inputs = tf.transpose(inputs, [0, 2, 3, 1])
        new_height = out_shape[3]
        new_width = out_shape[2]
    else:
        new_height = out_shape[2]
        new_width = out_shape[1]

    inputs = tf.image.resize_nearest_neighbor(inputs, (new_height, new_width))

    if data_format == 'channels_first':
        inputs = tf.transpose(inputs, [0, 3, 1, 2])

    return inputs

#### NMS(Non-max suppression)

- 이 모델은 많은 박스들을 만들고 낮은 점수의 박스들을 버린다. 또한 하나의 물건에 복잡한 박스들을 가지게 하는 것을 피하기 위하여 각 층마다 NMS를 활용하여 많이 겹쳐진 박스들도 버린다.

In [None]:
def build_boxes(inputs):
    """박스 위아래좌우 위치를 계산한다."""
    center_x, center_y, width, height, confidence, classes = \
        tf.split(inputs, [1, 1, 1, 1, 1, -1], axis=-1)

    top_left_x = center_x - width / 2
    top_left_y = center_y - height / 2
    bottom_right_x = center_x + width / 2
    bottom_right_y = center_y + height / 2

    boxes = tf.concat([top_left_x, top_left_y,
                       bottom_right_x, bottom_right_y,
                       confidence, classes], axis=-1)

    return boxes


def non_max_suppression(inputs, n_classes, max_output_size, iou_threshold,
                        confidence_threshold):
    """각 층마다 분리해 NMS를 실행시킨다.

    인수:
        inputs: Tensor input.
        n_classes: 계층들의 개수.
        max_output_size: 각 층마다 선택된 박스의 최대 개수
        iou_threshold: IOU 임계치(IoU = 교집합 영역 넓이 / 합집합 영역 넓이)
        confidence_threshold: Threshold for the confidence score.
    반환:
        배치 안에 있는 각 샘플마다의 박스 목록
    """
    batch = tf.unstack(inputs)
    boxes_dicts = []
    for boxes in batch:
        boxes = tf.boolean_mask(boxes, boxes[:, 4] > confidence_threshold)
        classes = tf.argmax(boxes[:, 5:], axis=-1)
        classes = tf.expand_dims(tf.to_float(classes), axis=-1)
        boxes = tf.concat([boxes[:, :5], classes], axis=-1)

        boxes_dict = dict()
        for cls in range(n_classes):
            mask = tf.equal(boxes[:, 5], cls)
            mask_shape = mask.get_shape()
            if mask_shape.ndims != 0:
                class_boxes = tf.boolean_mask(boxes, mask)
                boxes_coords, boxes_conf_scores, _ = tf.split(class_boxes,
                                                              [4, 1, -1],
                                                              axis=-1)
                boxes_conf_scores = tf.reshape(boxes_conf_scores, [-1])
                indices = tf.image.non_max_suppression(boxes_coords,
                                                       boxes_conf_scores,
                                                       max_output_size,
                                                       iou_threshold)
                class_boxes = tf.gather(class_boxes, indices)
                boxes_dict[cls] = class_boxes[:, :5]

        boxes_dicts.append(boxes_dict)

    return boxes_dicts

#### Final model class

- 이전에 사용한 모든 층들을 활용해 모델링을 한다.

In [None]:
class Yolo_v3:
    """Yolo v3 model class."""

    def __init__(self, n_classes, model_size, max_output_size, iou_threshold,
                 confidence_threshold, data_format=None):
        """모델 생성

        인수:
            n_classes: 클래스 라벨 개수
            model_size: 모델의 입력받은 크기
            max_output_size: 각 층마다 선택된 박스의 최대 개수
            iou_threshold: IOU 임계치(IoU = 교집합 영역 넓이 / 합집합 영역 넓이)
            confidence_threshold: Threshold for the confidence score.
            data_format: 인풋 데이터 형식

        반환:
            None.
        """
        if not data_format:
            if tf.test.is_built_with_cuda():
                data_format = 'channels_first'
            else:
                data_format = 'channels_last'

        self.n_classes = n_classes
        self.model_size = model_size
        self.max_output_size = max_output_size
        self.iou_threshold = iou_threshold
        self.confidence_threshold = confidence_threshold
        self.data_format = data_format

    def __call__(self, inputs, training):
        """입력받은 이미지의 배치를 위한 박스들을 감지하는 작동방법을 더해줌

        인수:
            inputs: A Tensor representing a batch of input images.
            training: A boolean, whether to use in training or inference mode.

        반환:
            배치 안에 있는 각 샘플마다의 박스 목록
        """
        with tf.variable_scope('yolo_v3_model'):
            if self.data_format == 'channels_first':
                inputs = tf.transpose(inputs, [0, 3, 1, 2])

            inputs = inputs / 255

            route1, route2, inputs = darknet53(inputs, training=training,
                                               data_format=self.data_format)

            route, inputs = yolo_convolution_block(
                inputs, filters=512, training=training,
                data_format=self.data_format)
            detect1 = yolo_layer(inputs, n_classes=self.n_classes,
                                 anchors=_ANCHORS[6:9],
                                 img_size=self.model_size,
                                 data_format=self.data_format)

            inputs = conv2d_fixed_padding(route, filters=256, kernel_size=1,
                                          data_format=self.data_format)
            inputs = batch_norm(inputs, training=training,
                                data_format=self.data_format)
            inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)
            upsample_size = route2.get_shape().as_list()
            inputs = upsample(inputs, out_shape=upsample_size,
                              data_format=self.data_format)
            axis = 1 if self.data_format == 'channels_first' else 3
            inputs = tf.concat([inputs, route2], axis=axis)
            route, inputs = yolo_convolution_block(
                inputs, filters=256, training=training,
                data_format=self.data_format)
            detect2 = yolo_layer(inputs, n_classes=self.n_classes,
                                 anchors=_ANCHORS[3:6],
                                 img_size=self.model_size,
                                 data_format=self.data_format)

            inputs = conv2d_fixed_padding(route, filters=128, kernel_size=1,
                                          data_format=self.data_format)
            inputs = batch_norm(inputs, training=training,
                                data_format=self.data_format)
            inputs = tf.nn.leaky_relu(inputs, alpha=_LEAKY_RELU)
            upsample_size = route1.get_shape().as_list()
            inputs = upsample(inputs, out_shape=upsample_size,
                              data_format=self.data_format)
            inputs = tf.concat([inputs, route1], axis=axis)
            route, inputs = yolo_convolution_block(
                inputs, filters=128, training=training,
                data_format=self.data_format)
            detect3 = yolo_layer(inputs, n_classes=self.n_classes,
                                 anchors=_ANCHORS[0:3],
                                 img_size=self.model_size,
                                 data_format=self.data_format)

            inputs = tf.concat([detect1, detect2, detect3], axis=1)

            inputs = build_boxes(inputs)

            boxes_dicts = non_max_suppression(
                inputs, n_classes=self.n_classes,
                max_output_size=self.max_output_size,
                iou_threshold=self.iou_threshold,
                confidence_threshold=self.confidence_threshold)

            return boxes_dicts

### 5. Utility functions

- 파일로부터 클래스 이름, Numpy 배열과 같은 이미지들을 업로드 하고 예측된 박스들을 그려주는 함수이다.

In [None]:
def load_images(img_names, model_size):
    """4D 배열로 이미지를 업로드한다

    인수:
        img_names: 이미지 이름 목록
        model_size: 모델의 입력받은 크기
        data_format: 반환된 배열 형식
            ('channels_first' or 'channels_last').

    반환:
        4D Numpy 배열
    """
    imgs = []

    for img_name in img_names:
        img = Image.open(img_name)
        img = img.resize(size=model_size)
        img = np.array(img, dtype=np.float32)
        img = np.expand_dims(img, axis=0)
        imgs.append(img)

    imgs = np.concatenate(imgs)

    return imgs


def load_class_names(file_name):
    """파일 이름으로 부터 클래스 이름 목록을 반환함"""
    with open(file_name, 'r') as f:
        class_names = f.read().splitlines()
    return class_names


def draw_boxes(img_names, boxes_dicts, class_names, model_size):
    """탐지된 박스들을 그림

    인수:
        img_names: 입력받은 이미지 이름 목록
        boxes_dict: A class-to-boxes dictionary.
        class_names: 클래스 이름 목록
        model_size: 모델의 입력받은 크기

    반환:
        없음
    """
    colors = ((np.array(color_palette("hls", 80)) * 255)).astype(np.uint8)
    for num, img_name, boxes_dict in zip(range(len(img_names)), img_names,
                                         boxes_dicts):
        img = Image.open(img_name)
        draw = ImageDraw.Draw(img)
        font = ImageFont.truetype(font='../input/futur.ttf',
                                  size=(img.size[0] + img.size[1]) // 100)
        resize_factor = \
            (img.size[0] / model_size[0], img.size[1] / model_size[1])
        for cls in range(len(class_names)):
            boxes = boxes_dict[cls]
            if np.size(boxes) != 0:
                color = colors[cls]
                for box in boxes:
                    xy, confidence = box[:4], box[4]
                    xy = [xy[i] * resize_factor[i % 2] for i in range(4)]
                    x0, y0 = xy[0], xy[1]
                    thickness = (img.size[0] + img.size[1]) // 200
                    for t in np.linspace(0, 1, thickness):
                        xy[0], xy[1] = xy[0] + t, xy[1] + t
                        xy[2], xy[3] = xy[2] - t, xy[3] - t
                        draw.rectangle(xy, outline=tuple(color))
                    text = '{} {:.1f}%'.format(class_names[cls],
                                               confidence * 100)
                    text_size = draw.textsize(text, font=font)
                    draw.rectangle(
                        [x0, y0 - text_size[1], x0 + text_size[0], y0],
                        fill=tuple(color))
                    draw.text((x0, y0 - text_size[1]), text, fill='black',
                              font=font)

        display(img)

### 6. Converting weights to Tensorflow format

-  파일들을 반복시켜 'tf.assign' 작동법을 점진적으로 생성시키고 가중치를 적용할 것이다.

In [None]:
def load_weights(variables, file_name):
    """미리 훈련된 욜로 가중치를 업로드하고 모양을 다시 잡음

    인수:
        variables: 배정받은 tf.Variable 목록
        file_name: 가중치를 포함한 파일 이름

    반환:
        assign 작동 목록
    """
    with open(file_name, "rb") as f:
        # Skip first 5 values containing irrelevant info
        np.fromfile(f, dtype=np.int32, count=5)
        weights = np.fromfile(f, dtype=np.float32)

        assign_ops = []
        ptr = 0

        # Load weights for Darknet part.
        # Each convolution layer has batch normalization.
        for i in range(52):
            conv_var = variables[5 * i]
            gamma, beta, mean, variance = variables[5 * i + 1:5 * i + 5]
            batch_norm_vars = [beta, gamma, mean, variance]

            for var in batch_norm_vars:
                shape = var.shape.as_list()
                num_params = np.prod(shape)
                var_weights = weights[ptr:ptr + num_params].reshape(shape)
                ptr += num_params
                assign_ops.append(tf.assign(var, var_weights))

            shape = conv_var.shape.as_list()
            num_params = np.prod(shape)
            var_weights = weights[ptr:ptr + num_params].reshape(
                (shape[3], shape[2], shape[0], shape[1]))
            var_weights = np.transpose(var_weights, (2, 3, 1, 0))
            ptr += num_params
            assign_ops.append(tf.assign(conv_var, var_weights))

        # Loading weights for Yolo part.
        # 7th, 15th and 23rd convolution layer has biases and no batch norm.
        ranges = [range(0, 6), range(6, 13), range(13, 20)]
        unnormalized = [6, 13, 20]
        for j in range(3):
            for i in ranges[j]:
                current = 52 * 5 + 5 * i + j * 2
                conv_var = variables[current]
                gamma, beta, mean, variance =  \
                    variables[current + 1:current + 5]
                batch_norm_vars = [beta, gamma, mean, variance]

                for var in batch_norm_vars:
                    shape = var.shape.as_list()
                    num_params = np.prod(shape)
                    var_weights = weights[ptr:ptr + num_params].reshape(shape)
                    ptr += num_params
                    assign_ops.append(tf.assign(var, var_weights))

                shape = conv_var.shape.as_list()
                num_params = np.prod(shape)
                var_weights = weights[ptr:ptr + num_params].reshape(
                    (shape[3], shape[2], shape[0], shape[1]))
                var_weights = np.transpose(var_weights, (2, 3, 1, 0))
                ptr += num_params
                assign_ops.append(tf.assign(conv_var, var_weights))

            bias = variables[52 * 5 + unnormalized[j] * 5 + j * 2 + 1]
            shape = bias.shape.as_list()
            num_params = np.prod(shape)
            var_weights = weights[ptr:ptr + num_params].reshape(shape)
            ptr += num_params
            assign_ops.append(tf.assign(bias, var_weights))

            conv_var = variables[52 * 5 + unnormalized[j] * 5 + j * 2]
            shape = conv_var.shape.as_list()
            num_params = np.prod(shape)
            var_weights = weights[ptr:ptr + num_params].reshape(
                (shape[3], shape[2], shape[0], shape[1]))
            var_weights = np.transpose(var_weights, (2, 3, 1, 0))
            ptr += num_params
            assign_ops.append(tf.assign(conv_var, var_weights))

    return assign_ops

### 7. Running the model

- 몇개의 샘플 이미지를 사용하여 모델을 돌려보자.

#### Sample images

In [None]:
img_names = ['../input/dog.jpg', '../input/office.jpg']
for img in img_names: display(Image.open(img))

#### Detections

- 0.5로 세팅된 IOU 한계치를 가진 모델들과 Confidence threshold를 테스트 한다.

In [None]:
batch_size = len(img_names)
batch = load_images(img_names, model_size=_MODEL_SIZE)
class_names = load_class_names('../input/coco.names')
n_classes = len(class_names)
max_output_size = 10
iou_threshold = 0.5
confidence_threshold = 0.5

model = Yolo_v3(n_classes=n_classes, model_size=_MODEL_SIZE,
                max_output_size=max_output_size,
                iou_threshold=iou_threshold,
                confidence_threshold=confidence_threshold)

inputs = tf.placeholder(tf.float32, [batch_size, 416, 416, 3])

detections = model(inputs, training=False)

model_vars = tf.global_variables(scope='yolo_v3_model')
assign_ops = load_weights(model_vars, '../input/yolov3.weights')

with tf.Session() as sess:
    sess.run(assign_ops)
    detection_result = sess.run(detections, feed_dict={inputs: batch})
    
draw_boxes(img_names, detection_result, class_names, _MODEL_SIZE)