### 导入的库和模型简介

我们将利用YOLO模型来实现自动驾驶中对目标的检测，需要导入的库如下：

这里用一个注意的地方那就是，我们在使用keras的时候，需要利用K.function(),为什么要这样子呢：
- keras是一个基于tensorflow/theano/CNTK等后端来开发的框架
- tensorflow/theano/CNTK就是keras的后端
- 当我们使用了from keras import backend as K 就表示我们这些函数兼容Theano 于TensorFlow.

[详细的解释](https://keras.io/zh/backend/)


In [1]:
import argparse
import os
import matplotlib.pyplot as plt
from matplotlib.pyplot import imshow
import scipy.io
import scipy.misc
import numpy as np
import pandas as pd
import PIL
import tensorflow as tf
from keras import backend as K
from keras.layers import Input, Lambda, Conv2D
from keras.models import load_model, Model
from yolo_utils import read_classes, read_anchors, generate_colors, preprocess_image, draw_boxes, scale_boxes
from yad2k.models.keras_yolo import yolo_head, yolo_boxes_to_corners, preprocess_true_boxes, yolo_loss, yolo_body

%matplotlib inline


Using TensorFlow backend.


我们在开始构建模型细节前，我们先来看看数据集，这里的数据不仅仅是一张图片，还需要我们对每张图片中的目标进行bounding box标注，具体标注内容如下图所示：
![](imgs/1.png)

几个解释：
- pc：表示图片存在目标的置信度
- bx,by,bh,bw:表示目标的位置和size
- c:表示目标属于哪一类：1-80个，
    - 这里也可以使用one-hot来表示[0,0,0,1,0,...]

### YOLO详解

其实这里只是介绍了前向传播和关于非极大抑制的介绍这些关键的东西，具体model的细节的方方面面没有完整，不过这些也是非常关键的。让我们开始吧。
YOLO (“you only look once”)，通过对图片做一次前向传播获得对图的目标的预测，然后利用non-maxsuppression,然后就可以输出识别到目标的bounding boxes.

#### 模型的具体细节


**模型的过程**  
假设类型有80个种类，
对于模型的输入和输出介绍：

- 输入：(m，608，608，3)
- 输出：一个bounding boxes的数据集
    - 每个bounding box都要6个数据组成$(p_c,b_x,b_y,b_h,b_w,c)$
    - 如果这里c展开成one_hot的形式，那么c就有80个维度，整个数据就有85个数据组成。

这里我们使用5个anchor boxes，也就是每一个输出我们这里有5个候选框，这里就需要将每个anchor boxes数据组合起来。

关于输出模型的过程：

- 输入图片(m，608，608，3)
- 模型网络 CNN
- 输出：(m，19，19，5，85)
    - 19x19表示最后将数据编码成19x19的格子
    - 每一个格子的位置就代表原始图像（608/19）中32x32的区域
    - 每一个格子我们将会对其进行预测

我们来看如下图：   

![](imgs/2.png)

**模型的输出**  

下面我再来详细看看输出每一小格预测的数据组成：
- 数据由（5，85）组成
- 这里5：表示有5个anchor boxes,候选框
- 每一个anchor box又有85个数据
    - $(p_c,b_x,b_y,b_h,b_w,c_1,c_2,...,c_80)$
- 这里我们还可以将(5,85)拉伸成一维的数据425，那么输出就变为(19,19,425)
具体详解如下图：
![](imgs/3.png)

这里我们还有一个问题就是如何对box进行分类，其实很简单：
- 判断这个格子里面有没有需要检测的目标：通过Pc来定，
- 如果有：Pc * c，然后找到其中得分最高的，就是可以知道这个格子中包含那个待测目标
具体过程如下：
![](imgs/4.png)

**输出的可视化**  

这里有两种方式来可视这个19x19格子，但是我想介绍第二种，因为第一种方式很容易让人产生困恼。
先来看一张图输出的图：
![](imgs/5.png)

上图中我们看到很多框，而且框的颜色不一样，不同的颜色代表不同的种类，出现那些框，也都是置信都比较高的，才绘制出来。但是这里仍然有很多框。这个时候就需要使用非极大抑制了。具体过程如下：
- 去除得分较低的框
- 如果有多个重叠的框，我选择一个较好的


#### 过滤得分低的box

在计算得分前，我要知道以下的信息，
- 我们刚刚通过CNN网络，获得了一个(19,19,5,85)的输出。
- 19x19个格子，每个格子有5个anchor box预测值，总共也就有19x19x5个boxes.
- 接下来，我们要过滤一些得分低的box，下面的关键是如何计算score,这个计算公式上面的图中以及给出了。
-  Pc * c，然后找到其中得分最高的，就是可以知道这个格子中包含那个待测目标
![](imgs/4.png)

我们现在将(19,19,5,85)输出de 85进行展开：
- box_confidence：Pc,每个box(19×19,5,1)的置信度
- boxes: boxes的位置和大小(19×19,5,4) ，(bx,by,bh,bw) 
- box_class_probs：(19×19,5,80)，每个box的可能的类型值

有了这些值，我们就来计算我们需要过滤的那个得分值：Pc * c

直接使用矩阵乘积即可.

整个流程归纳如下：
- 计算我们需要过滤的那个得分值：Pc * c
- 找到80个种类中，得分最大的值与类型
- 与阈值比较是否需要过滤

**tf.boolean_mask**

将mask中所有为true的抽取出来，放到一起，这里从n维降到1维度

``` python
tensor = [[[1, 2], [3, 4], [5, 6]],[[1, 2], [3, 4], [5, 6]]]
import numpy as np
mask=np.array([[[True,True],[False,True],[False,False]],[[True,True],[False,True],[False,False]]])
z=tf.boolean_mask(tensor, mask)
sess.run(z)
array([1, 2, 4, 1, 2, 4])
```



In [4]:
# 计算box 的scores
a = np.random.randn(19*19,5,1)
b = np.random.randn(19*19,5,80)
c = a * b
print(c.shape)

with tf.Session() as sess:
    boxclass = K.argmax(c,axis=-1) # 找类型
    score = K.max(c,axis=-1,keepdims=False) # 找得分
#     filtering_mask = score >= 0.2
    print(sess.run(boxclass))
    print(sess.run(score))
    
    

(361, 5, 80)
[[53 35 16  6 29]
 [10 19 42 64 60]
 [50 11 77  5 26]
 ...
 [ 5 49 61 22  2]
 [59 44 11  1 52]
 [47 67 22 33 79]]
[[3.58489945 2.78060998 0.48599298 1.02386544 1.41484706]
 [3.90718508 2.0947611  6.01959884 0.30817252 2.49654424]
 [1.43636616 1.98705057 0.07016062 1.12005143 2.28076756]
 ...
 [2.16059223 1.0830609  2.70297796 2.40607255 0.6552023 ]
 [1.2690839  1.7772078  0.32175522 4.17397981 1.24154026]
 [1.12791652 2.68629292 2.46063518 3.1603636  0.59834759]]


In [6]:
def yolo_filter_boxes(box_confidence, boxes, box_class_probs, threshold = .6):
    """
    输入：
        - box_confidence：Pc (19, 19, 5, 1)
        - boxes: boxes的位置和大小(19×19,5,4) ，(bx,by,bh,bw) 
        - box_class_probs：(19×19,5,80)，每个box的可能的类型值
        - threshold: 过滤的阈值 
   """
    
    # 计算每个box每个类型的得分值
    box_scores = box_confidence * box_class_probs
    
    #找到该box种最大的分数，以及类型
    box_classes = K.argmax(box_scores,axis=-1) # 找类型
    box_class_scores = K.max(box_scores,
                             axis=-1,
                             keepdims=False) # 找得分
    
    # 与阈值比较,找到需要保存的标志为
    filtering_mask = box_class_scores >= threshold
    
    # 过滤
    scores = tf.boolean_mask(box_class_scores,filtering_mask)
    boxes = tf.boolean_mask(boxes,filtering_mask)
    classes = tf.boolean_mask(box_classes,filtering_mask)
    
    return scores,boxes,classes
      

In [7]:
tf.reset_default_graph()

with tf.Session() as test_a:
    box_confidence = tf.random_normal([19, 19, 5, 1], mean=1, stddev=4, seed = 1)
    boxes = tf.random_normal([19, 19, 5, 4], mean=1, stddev=4, seed = 1)
    box_class_probs = tf.random_normal([19, 19, 5, 80], mean=1, stddev=4, seed = 1)
    scores, boxes, classes = yolo_filter_boxes(box_confidence, boxes, box_class_probs, threshold = 0.5)
    print("scores[2] = " + str(scores[2].eval()))
    print("boxes[2] = " + str(boxes[2].eval()))
    print("classes[2] = " + str(classes[2].eval()))
    print("scores.shape = " + str(scores.shape))
    print("boxes.shape = " + str(boxes.shape))
    print("classes.shape = " + str(classes.shape))

scores[2] = 10.750582
boxes[2] = [ 8.426533   3.2713668 -0.5313436 -4.9413733]
classes[2] = 7
scores.shape = (?,)
boxes.shape = (?, 4)
classes.shape = (?,)


#### 非极大抑制（Non-max suppression ）

经过了上面的过滤后，我们可能发现仍然有一些重叠的框绘制到了同一个目标上面，我们需要将重叠的框去掉，如下图所示：
![](imgs/6.jpg)

这里我们要保留哪个呢？又是怎么去掉呢？

- 保留精度最高的，也就可能性最大的那个
- 利用Non-max suppression 来去掉

**IoU交并比的概念**

就是用两个集合的交集个数除以并集的个数，具体如下图：

![](imgs/7.jpg)

在coding中我们怎么来实现呢？

- 首先我们说明以下，这里我们先用左上角与右下角来表示一个box(x1,y1,x2,y2)
- 然后我们通过高(y2-y1)\*宽(x2-x1)计算box的面积
- 然后我们需要找到两个box的交集坐标(xi1, yi1, xi2, yi2)
    - xi1=max(b1_x1,b2_x1)
    - yi1=max(b1_y1,b2_y1)
    - xi2=min(b1_x2,b2_x2)
    - yi2=min(b1_y2,b2_y2)
    - 左上角其实就是选两个box左上角中最大值
    - 右下角其实就是选两个box右下角中最小值
    
 那么我来实现以下IOU如下：


In [5]:
def iou(box1, box2):
    
    
    # 交集的面积
    xi1 = max(box1[0], box2[0])
    yi1 = max(box1[1], box2[1])
    xi2 = min(box1[2], box2[2])
    yi2 = min(box1[3], box2[3])
    
    # # 这里如何考虑两个不相交的情况
    if xi2-xi1<0 or yi2 - yi1<0:
        return -1
    inter_area = (xi2-xi1) * (yi2 - yi1)
    
    # 并集的面积
    box1_area = (box1[2] - box1[0]) * (box1[3] - box1[1])
    box2_area = (box2[2] - box2[0]) * (box2[3] - box2[1])
    union_area = box1_area + box2_area - inter_area
    
    iou = inter_area / union_area
    
    return iou
    
    
    

In [7]:
box1 = (2, 1, 4, 3)
box2 = (1, 2, 3, 4) 
print("iou = " + str(iou(box1, box2)))

box1 = (1, 1, 2, 2)
box2 = (3, 3, 4, 4) 
print("iou = " + str(iou(box1, box2)))

iou = 0.14285714285714285
iou = -1


下面我们要开始实践非极大抑制了，主要步骤如下：
- 选择box中得分最高的box
- 计算其他的box与选定box的IOU
- 判断IOU是否大于iou_threshold,如果大于则去除

这里需要使用 tensorflow两个函数：

**tf.image.non_max_suppression() **

>参数：
boxes:2-D的float类型的，大小为[num_boxes,4]的张量；  
scores：1-D的float类型的大小为[num_boxes]代表上面boxes的每一行，对应的每一个box的一个score；  
max_output_size:一个整数张量，代表我最多可以利用NMS选中多少个边框；  
iou_threshold:一个浮点数，IOU阙值展示的是否与选中的那个边框具有较大的重叠度；      
score_threshold:一个浮点数，来决定上面时候删除这个边框  
name:可选  
返回的是selected_indices:表示的是一个1-D的整数张量，大小为[M]，代表的是选出来的留下来的边框下标，M小于等于max_outpuy_size.

**K.gather()**
>在给定的张量中搜索给定下标的向量。
参数：  
reference表示被搜寻的向量；
indices表示整数张量，要查询的元素的下标。  
返回值：一个与参数reference数据类型一致的张量。