2pass bounding box

d2l-ai · Oct 24, 2018 · d1add60 · d1add60
1 parent c483416
commit d1add60
Show file tree

Hide file tree

Showing 2 changed files with 12 additions and 16 deletions.
diff --git a/STYLE_GUIDE.md b/STYLE_GUIDE.md
@@ -21,7 +21,7 @@
     * 第一人称 → 我们
     * 第二人称 → 你、大家
 * 工具或部件
-    * Gluon, MXNet, NumPy, spaCy, NDArray, Symbol, Block, HybridBlock, ResNet-18, Fashion-MNIST
+    * Gluon, MXNet, NumPy, spaCy, NDArray, Symbol, Block, HybridBlock, ResNet-18, Fashion-MNIST, matplotlib
         * 这些都作为词，不要带重音符
     * Sequential类/实例, HybridSequential类/实例
         * 不要带重音符

diff --git a/chapter_computer-vision/bounding-box.md b/chapter_computer-vision/bounding-box.md
@@ -1,50 +1,45 @@
 # 目标检测和边界框
 
-前面小节里我们介绍了诸多用于图像分类的模型。在这个任务里，我们假设图像里只有一个主体目标，然后目标是识别这个目标的类别。但很多时候图像里有多个我们感兴趣的目标，我们不仅仅想知道它们是什么，而且想得到它们在图像中的具体位置。在计算机视觉里，我们将这类任务称为目标检测。
+前面小节里我们介绍了诸多用于图像分类的模型。在图像分类任务里，我们假设图像里只有一个主体目标，并关注如何识别该目标的类别。然而，很多时候图像里有多个我们感兴趣的目标，我们不仅想知道它们的类别，还想得到它们在图像中的具体位置。在计算机视觉里，我们将这类任务称为目标检测（或物体检测）。
 
-目标检测在多个领域被广泛使用。例如在无人驾驶里，我们需要通过识别拍摄到的视频图像里的车辆、行人、道路和障碍的位置来规划行进线路。机器人里也常使用它来检测感兴趣目标。安防领域则需要检测异常目标，例如歹徒或者炸弹。
+目标检测在多个领域被广泛使用。例如在无人驾驶里，我们需要通过识别拍摄到的视频图像里的车辆、行人、道路和障碍的位置来规划行进线路。机器人也常通过该任务来检测感兴趣的目标。安防领域则需要检测异常目标，例如歹徒或者炸弹。
 
-在接下来的数小节里我们将介绍目标检测里的多个深度学习模型。在此之前，让我们先讨论目标位置这个概念。首先导入本节实验所需的包或模块。
+在接下来的几节里，我们将介绍目标检测里的多个深度学习模型。在此之前，让我们先介绍目标位置这个概念。下面加载本节将使用的示例图像。可以看到图像左边是一只狗，右边是一只猫。它们是这张图像里的两个主要目标。
 
-```{.python .input  n=1}
+```{.python .input}
 import sys
 sys.path.insert(0, '..')
 
 %matplotlib inline
 import gluonbook as gb
 from mxnet import image
-```
-
-我们加载本小节将使用的示例图像。可以看到图像左边是一只小狗，右边是一只小猫。跟前面使用的图像的主要不同点在于这张图里有两个主要物体。
 
-```{.python .input}
 gb.set_figsize()
 img = image.imread('../img/catdog.jpg').asnumpy()
 gb.plt.imshow(img);  # 加分号只显示图。
 ```
 
 ## 边界框
 
-在目标检测里，我们通常使用边界框（bounding box）来描述目标位置。它是一个矩形框，可以由左上角的x、y轴位置与右下角x、y轴位置确定。我们根据上图坐标信息来定义图中小狗和小猫的边界框。
+在目标检测里，我们通常使用边界框（bounding box）来描述目标位置。边界框是一个矩形框，可以由矩形左上角的$x$和$y$轴坐标与右下角的$x$和$y$轴坐标确定。我们根据上图坐标信息来定义图中狗和猫的边界框。上图中的坐标原点在图像的左上角。
 
 ```{.python .input  n=2}
-# 注意坐标轴原点是图像的左上角。bbox 是 bounding box 的缩写。
+# bbox 是 bounding box 的缩写。
 dog_bbox, cat_bbox = [60, 45, 378, 516], [400, 112, 655, 493]
 ```
 
-我们可以在图中将边框画出来检查其准确性。画之前我们定义一个辅助函数`bbox_to_rect`。它将边界框表示成matplotlib的边框格式。
+我们可以在图中将边界框画出来，以检查其是否准确。画之前，我们定义一个辅助函数`bbox_to_rect`。它将边界框表示成matplotlib的边界框格式。
 
 ```{.python .input  n=3}
-# 本函数已保存在 gluonbook 包中方便以后使用。
-def bbox_to_rect(bbox, color):
+def bbox_to_rect(bbox, color):  # 本函数已保存在 gluonbook 包中方便以后使用。
     # 将边界框（左上 x、左上 y，右下 x，右下 y）格式转换成 matplotlib 格式：
     # （（左上 x，左上 y），宽，高）。
     return gb.plt.Rectangle(
         xy=(bbox[0], bbox[1]), width=bbox[2]-bbox[0], height=bbox[3]-bbox[1],
         fill=False, edgecolor=color, linewidth=2)
 ```
 
-我们将边界框加载在图上，可以看到目标的主要轮廓基本在框内。
+我们将边界框加载在图像上，可以看到目标的主要轮廓基本在框内。
 
 ```{.python .input}
 fig = gb.plt.imshow(img)
@@ -58,7 +53,8 @@ fig.axes.add_patch(bbox_to_rect(cat_bbox, 'red'));
 
 ## 练习
 
-* 找一些图像，尝试标注下其中目标的边界框。比较下同图像分类标注所花时间的区别。
+* 找一些图像，尝试标注其中目标的边界框。比较标注边界框与标注类别所花时间的差异。
+
 
 ## 扫码直达[讨论区](https://discuss.gluon.ai/t/topic/7023)