Skip to content

Commit

Permalink
2pass bounding box
Browse files Browse the repository at this point in the history
  • Loading branch information
astonzhang committed Oct 24, 2018
1 parent c483416 commit d1add60
Show file tree
Hide file tree
Showing 2 changed files with 12 additions and 16 deletions.
2 changes: 1 addition & 1 deletion STYLE_GUIDE.md
Original file line number Diff line number Diff line change
Expand Up @@ -21,7 +21,7 @@
* 第一人称 → 我们
* 第二人称 → 你、大家
* 工具或部件
* Gluon, MXNet, NumPy, spaCy, NDArray, Symbol, Block, HybridBlock, ResNet-18, Fashion-MNIST
* Gluon, MXNet, NumPy, spaCy, NDArray, Symbol, Block, HybridBlock, ResNet-18, Fashion-MNIST, matplotlib
* 这些都作为词,不要带重音符
* Sequential类/实例, HybridSequential类/实例
* 不要带重音符
Expand Down
26 changes: 11 additions & 15 deletions chapter_computer-vision/bounding-box.md
Original file line number Diff line number Diff line change
@@ -1,50 +1,45 @@
# 目标检测和边界框

前面小节里我们介绍了诸多用于图像分类的模型。在这个任务里,我们假设图像里只有一个主体目标,然后目标是识别这个目标的类别。但很多时候图像里有多个我们感兴趣的目标,我们不仅仅想知道它们是什么,而且想得到它们在图像中的具体位置。在计算机视觉里,我们将这类任务称为目标检测。
前面小节里我们介绍了诸多用于图像分类的模型。在图像分类任务里,我们假设图像里只有一个主体目标,并关注如何识别该目标的类别。然而,很多时候图像里有多个我们感兴趣的目标,我们不仅想知道它们的类别,还想得到它们在图像中的具体位置。在计算机视觉里,我们将这类任务称为目标检测(或物体检测)

目标检测在多个领域被广泛使用。例如在无人驾驶里,我们需要通过识别拍摄到的视频图像里的车辆、行人、道路和障碍的位置来规划行进线路。机器人里也常使用它来检测感兴趣目标。安防领域则需要检测异常目标,例如歹徒或者炸弹。
目标检测在多个领域被广泛使用。例如在无人驾驶里,我们需要通过识别拍摄到的视频图像里的车辆、行人、道路和障碍的位置来规划行进线路。机器人也常通过该任务来检测感兴趣的目标。安防领域则需要检测异常目标,例如歹徒或者炸弹。

在接下来的数小节里我们将介绍目标检测里的多个深度学习模型。在此之前,让我们先讨论目标位置这个概念。首先导入本节实验所需的包或模块
在接下来的几节里,我们将介绍目标检测里的多个深度学习模型。在此之前,让我们先介绍目标位置这个概念。下面加载本节将使用的示例图像。可以看到图像左边是一只狗,右边是一只猫。它们是这张图像里的两个主要目标

```{.python .input n=1}
```{.python .input}
import sys
sys.path.insert(0, '..')
%matplotlib inline
import gluonbook as gb
from mxnet import image
```

我们加载本小节将使用的示例图像。可以看到图像左边是一只小狗,右边是一只小猫。跟前面使用的图像的主要不同点在于这张图里有两个主要物体。
```{.python .input}
gb.set_figsize()
img = image.imread('../img/catdog.jpg').asnumpy()
gb.plt.imshow(img); # 加分号只显示图。
```

## 边界框

在目标检测里,我们通常使用边界框(bounding box)来描述目标位置。它是一个矩形框,可以由左上角的x、y轴位置与右下角x、y轴位置确定。我们根据上图坐标信息来定义图中小狗和小猫的边界框
在目标检测里,我们通常使用边界框(bounding box)来描述目标位置。边界框是一个矩形框,可以由矩形左上角的$x$和$y$轴坐标与右下角的$x$和$y$轴坐标确定。我们根据上图坐标信息来定义图中狗和猫的边界框。上图中的坐标原点在图像的左上角

```{.python .input n=2}
# 注意坐标轴原点是图像的左上角。bbox 是 bounding box 的缩写。
# bbox 是 bounding box 的缩写。
dog_bbox, cat_bbox = [60, 45, 378, 516], [400, 112, 655, 493]
```

我们可以在图中将边框画出来检查其准确性。画之前我们定义一个辅助函数`bbox_to_rect`它将边界框表示成matplotlib的边框格式
我们可以在图中将边界框画出来,以检查其是否准确。画之前,我们定义一个辅助函数`bbox_to_rect`它将边界框表示成matplotlib的边界框格式

```{.python .input n=3}
# 本函数已保存在 gluonbook 包中方便以后使用。
def bbox_to_rect(bbox, color):
def bbox_to_rect(bbox, color): # 本函数已保存在 gluonbook 包中方便以后使用。
# 将边界框(左上 x、左上 y,右下 x,右下 y)格式转换成 matplotlib 格式:
# ((左上 x,左上 y),宽,高)。
return gb.plt.Rectangle(
xy=(bbox[0], bbox[1]), width=bbox[2]-bbox[0], height=bbox[3]-bbox[1],
fill=False, edgecolor=color, linewidth=2)
```

我们将边界框加载在图上,可以看到目标的主要轮廓基本在框内。
我们将边界框加载在图像上,可以看到目标的主要轮廓基本在框内。

```{.python .input}
fig = gb.plt.imshow(img)
Expand All @@ -58,7 +53,8 @@ fig.axes.add_patch(bbox_to_rect(cat_bbox, 'red'));

## 练习

* 找一些图像,尝试标注下其中目标的边界框。比较下同图像分类标注所花时间的区别。
* 找一些图像,尝试标注其中目标的边界框。比较标注边界框与标注类别所花时间的差异。


## 扫码直达[讨论区](https://discuss.gluon.ai/t/topic/7023)

Expand Down

0 comments on commit d1add60

Please sign in to comment.