# 计算机视觉基本原理
## 计算机视觉概念
- 计算机视觉（Computer Vision）技术利用摄像机以及电脑替代人眼对目标进行识别、跟踪、测量和判别决策等，并进一步做图形处理，使电脑处理的信息成为更适合人眼观察或传送给仪器检测的图像。 
- 计算机视觉技术是一门包括计算机科学与工程、神经生理学、物理学、信号处理、认知科学、应用数学与统计等多学科的综合性科学技术， 是人工智能的一个重要分支， 目前在智能安防、自动驾驶汽车、医疗保健、生成制造等领域具有重要的应用价值。
- 计算机视觉的研究目标是使计算机具备人类的视觉能力，能看懂图像内容、理解动态场景，期望计算机能自动提取图像、视频等视觉数据中蕴含的层次化语义概念及多语义概念间的时空关联等。
- 计算机视觉的研究内容，大体可以分为物体视觉（Object Vision）和空间视觉（Spatial Vision）两大部分。物体视觉在于对物体进行精细分类和鉴别，而空间视觉在于确定物体的位置和形状，为“动作（action）”服务。正像著名的认知心理学家 J.J.Gibson 所言，视觉的主要功能在于“适应外界环境，控制自身运动”。适应外界环境和控制自身运动，是生物生存的需求，这些功能的实现需要靠物体视觉和空间视觉协调完成。
- 计算机视觉包括了诸多不同的研究方向，比较基础和热门的方向有物体识别和检测（Object Detection）、语义分割（Semantic Segmentation）、运动和跟踪（Motion & Tracking）、视觉问答（Visual Question & Answering）等 。
## 计算机视觉过去十年主要进展
- 计算机视觉研究兴起于 20 世纪 60 年代初。 1982 年马尔（David Marr）《视觉》一书的问世，可以看成计算机视觉成为了一门独立学科的标志。在计算机视觉 40 多年的发展中，总体上经历了三个主要历程：马尔计算视觉（ComputationalVision）、多视几何与分层三维重建和基于学习的视觉。 过去十年来，巨量数据的不断涌现与计算能力的快速提升，给以非结构化视觉数据为研究对象的计算机视觉带来了巨大的发展机遇与挑战性难题；计算机视觉的部分研究成果已实际应用，催生出人脸识别、 物体识别与分类、智能视频监控等多个极具显示度的商业化应用。
- 基于机器学习的视觉研究可以分为两个阶段：本世纪初的以流形学习为代表的子空间法和目前以深度学习为代表的视觉方法。流形学习是从图像表达学习其“内在流形”（Intrinsic Manifold）表达的过程，这种学习过程一般是一种非线性优化过程。目前深度学习方法被引入到计算机视觉中。
- 2012 年 6 月，谷歌研究人员 Jeff Dean 和吴恩达从 YouTube 视频中提取了1000 万个未标记的图像，训练一个由 16000 个电脑处理器组成的庞大神经网络。在没有给出任何识别信息的情况下，人工智能通过深度学习算法准确地从中识别出了猫科动物的照片。随着以卷积神经网络（CNN）的深度学习技术的发展，以图像去噪、图像超分辨和图像去模糊等为代表的图像复原与增强以及以视觉生成与合成为代表的图像编辑问题获得了较多关注。 2014 年， Schmidt 等学者[32]针对图像复原问题，提出了基于逐次迭代学习的判别学习模型，即基于半二次分裂算法的级联收缩场（Cascade of Shrinkage Fields, CSF），该方法通过将预测过程展开为迭代学习算法，从训练数据中学习阶段模型参数。 2015 年， Chen 等学者[33]从反应扩散方程的角度出发，提出了非线性反应扩散（ Trainable Nonlinear Reaction Diffusion,TNRD）模型，对每次迭代的滤波器和响应函数进行学习，并从递归神经网络的角度对模型进行了解释。受 CSF 和 TNRD 启发，一些学者[34]设计了一种基于卷积神经网络的深度去噪网络 DnCNN（Denoising Convolutional Neural Network），该模型通过端到端的残差学习，从函数回归角度用卷积神经网络将噪声从噪声图像中分离出来，取得了显著优于其他方法的去噪结果。

# 卷积神经网络基本原理
## 二维互相关运算
- 二维互相关（cross-correlation）运算的输入是一个二维输入数组和一个二维核（kernel）数组，输出也是一个二维数组，其中核数组通常称为卷积核或过滤器（filter）。卷积核的尺寸通常小于输入数组，卷积核在输入数组上滑动，在每个位置上，卷积核与该位置处的输入子数组按元素相乘并求和，得到输出数组中相应位置的元素。下图展示了一个互相关运算的例子，阴影部分分别是输入的第一个计算区域、核数组以及对应的输出。

<center><img src="https://cdn.nlark.com/yuque/0/2021/jpeg/1508544/1614176900511-2104c69b-dd17-4fbd-8b15-097b20c86f5a.jpeg"/></center>

## 二维卷积层
- 二维卷积层将输入和卷积核做互相关运算，并加上一个标量偏置来得到输出。卷积层的模型参数包括卷积核和标量偏置。
## 互相关运算与卷积运算
- 卷积层得名于卷积运算，但卷积层中用到的并非卷积运算而是互相关运算。我们将核数组上下翻转、左右翻转，再与输入数组做互相关运算，这一过程就是卷积运算。由于卷积层的核数组是可学习的，所以使用互相关运算与使用卷积运算并无本质区别。
## 特征图与感受野
- 二维卷积层输出的二维数组可以看作是输入在空间维度（宽和高）上某一级的表征，也叫特征图（feature map）。影响元素xx的前向计算的所有可能输入区域（可能大于输入的实际尺寸）叫做xx的感受野（receptive field）。
## 填充
- 填充（padding）是指在输入高和宽的两侧填充元素（通常是0元素），下图里我们在原输入高和宽的两侧分别添加了值为0的元素。

<center><img src="https://cdn.nlark.com/yuque/0/2021/jpeg/1508544/1614177106459-b45de351-5fe1-4052-9f19-6bb5e0445e39.jpeg"/></center>

- 如果原输入的高和宽是$n_h$和$n_w$，卷积核的高和宽是$k_h$和$k_w$，在高的两侧一共填充$p_h$行，在宽的两侧一共填充$p_w$列，则输出形状为：
    - $(n_h + p_h - k_h + 1)\times (n_w + p_w - k_w + 1)$
- 我们在卷积神经网络中使用奇数高宽的核，比如3×3，5×5的卷积核，对于高度（或宽度）为大小为2k+1的核，令步幅为1，在高（或宽）两侧选择大小为k的填充，便可保持输入与输出尺寸相同。
## 步幅
- 在互相关运算中，卷积核在输入数组上滑动，每次滑动的行数与列数即是步幅（stride）。此前我们使用的步幅都是1，下图展示了在高上步幅为3、在宽上步幅为2的二维互相关运算。

<center><img src="https://cdn.nlark.com/yuque/0/2021/jpeg/1508544/1614177360054-a26214be-3ee5-4d38-bb31-5afcd6fd9605.jpeg"/></center>

- 一般来说，当高上步幅为$s_h$，宽上步幅为$s_w$时，输出形状为：
    - $[(n_h + p_h - k_h + s_h)/s_h]\times [(n_w + p_w - k_w + s_w)/s_w]$
- 如果$p_h=k_h-1$，$p_w=k_w-1$，那么输出形状将简化为$[(n_h + s_h - 1)/s_h]\times [(n_w + s_w - 1)/s_w)]$。更进一步，如果输入的高和宽能分别被高和宽上的步幅整除，那么输出形状将是$()$。
- 当时，我们称填充为；当时，我们称步幅为。