# 卷积神经网络-基础

CNN和深度学习简介

# 一、简介



   卷积神经网络（CNN）与我们之前遇到的标准NN非常相关。我发现，当我搜索两者之间的链接时，就教程而言，似乎并没有自然发展的趋势。

CNN似乎是在1980年代后期开发的，但由于缺乏处理能力而被人们遗忘了。实际上，直到廉价但功能强大的GPU（图形卡）问世时，有关CNN和深度学习的研究

才焕然一新。因此，您会发现过去3或4年中有关CNN的论文激增。

但是，已经进行的研究已经基本成熟了。 CNN现在用于许多应用中：

   1、图像和视频中的对象识别（想想在Google中进行图像搜索，在Facebook中标记朋友的脸，在Snapchat中添加过滤器以及在Kinect中跟踪运动）
   
   2、自然语言处理（Google Assistant或Amazon的Alexa中的语音识别）
   
   3、玩游戏（最近Google击败DeepMind击败了世界“围棋”冠军）
   
   4、医学创新（从药物发现到疾病预测）

# 二、CNN还是深度学习？



1、深度学习的“深度”部分有两个地方：层数和特征数。 首先，正如人们可能期望的那样，深度学习框架中的层通常比平均多层感知器或标准神经网络中的层更多。

我们有一些150层深的架构。 其次，CNN的每一层将学习将其连接到上一层的多个“功能”（多组权重）。 因此从这个意义上讲，它也比普通的神经网络更深。 

实际上，一些强大的神经网络，甚至是CNN，也仅由几层组成。 因此，DL中的“深层”承认网络的每一层都学习多种功能。 

此处提供了论文“深度学习的起源”（Wang和Raj 2016）。 这是一本冗长的文章-包括参考文献在内的72页-但显示了DL中逐步步骤之间的逻辑。

2、与对神经网络的研究一样，CNN的灵感来自自然：视觉皮层中的神经元专注于图像的不同大小的块，从而在不同的层中获得不同级别的信息。 

如果可以将计算机编程为以这种方式工作，则它可能能够模仿大脑的图像识别能力。 

CNN会将阵列或图像（2D或3D，灰度或彩色）作为输入，并尝试了解此图像与某些目标数据（例如目标图像）之间的关系。 

 通过“学习”权重，就像在常规神经网络中一样。 CNN的差异在于，这些权重将输入的小部分连接到第一层中的每个不同神经元。 

从根本上讲，单层中有多个神经元，每个神经元对输入的同一小节都有自己的权重。 这些不同的权重集称为“内核”。



# 三、卷积和核


假设我们要在一张纸上以规则的间隔重复一个图案或一个图章，一种非常方便的方法是在纸上以规则的网格对图案进行卷积。

考虑将内核悬停在纸张上方，在每个间隔将其推入页面之前，将其沿网格移动。

想要在某个域中重复模式（内核）的想法出现在信号处理和计算机视觉领域。

实际上，如果您曾经使用过诸如Photoshop，Inkscape或GIMP之类的图形包，那么您以前就会看到许多内核。 

“模糊”，“锐化”和“边缘检测”之类的“过滤器”列表都是通过将内核或过滤器与图像进行卷积来完成的。

例如，让我们找到图像“ A”的轮廓（边缘）。

![android.png](attachment:android.png)

我们可以使用内核或一组权重，如下所示。

![vertFilter.png](attachment:vertFilter.png)Finds horizontals
![horizFilter.png](attachment:horizFilter.png)Finds verticals

内核位于图像的左上角。 将内核覆盖的像素值与相应的内核值相乘，然后将乘积相加。 将结果放置在新图像中与内核中心相对应的点。 

下图显示了第一步的示例。 采用垂直Sobel滤波器（用于边缘检测）。

![convExample.png](attachment:convExample.png)
A step in the Convolution Process.

使用水平Sobel过滤器，使内核移动一个像素(一个步长的距离)，然后重复此过程，直到图像中所有可能的位置都按如下所示进行过滤为止。 

请注意，在卷积图像周围有一个空白的边框。 这是因为卷积的结果位于内核的中心。 

为了解决这个问题，我们使用了称为“填充”或更常用的“零填充”的过程。 

这仅表示在原始图像周围放置了一个零边界，以使其四周像素变宽。 然后按正常方式进行卷积，卷积结果将生成与原始大小相等的图像。

![convSobel.gif](attachment:convSobel.gif)

The kernel is moved over the image performing the convolution as it goes.

![convZeros.png](attachment:convZeros.png)

Zero-padding is used so that the resulting image doesn't shrink.

现在我们有了卷积图像，我们可以使用色图将结果可视化。 在这里，对0到255之间的值进行了标准化，以便可以应用灰度可视化效果：

![convResult.png](attachment:convResult.png)

Result of the convolution

在完整的264 x 264图像上执行水平和垂直sobel滤波可得出：

![horiz.png](attachment:horiz.png)
Horizontal Sobel

![both.png](attachment:both.png)
Combined Sobel

![vert.png](attachment:vert.png)
Vertical Sobel

# 四、卷积加入到CNN网络中

显然，如果我们已经知道要使用的内核，则卷积在查找图像特征方面非常强大。内核设计是一种艺术形式，在过去的几十年中经过了改进，

可以对图像进行一些令人惊奇的事情（只需查看图形软件中的大量列表即可！）。但是重要的问题是，如果我们不知道要寻找的特征怎么办？

或者，如果我们知道特征但不知道内核该怎么办？

好吧，首先我们应该认识到图像中的每个像素都是一个特征，这意味着它代表一个输入节点。

每次卷积的结果将放入隐藏节点的下一层。卷积图像的每个特征或像素都是隐藏层中的一个节点。

我们已经说过，内核中的每个数字都是权重，而权重是输入图像的特征与隐藏层的节点之间的联系。

内核扫过了整个图像，因此隐藏节点的数量必须与输入节点的数量一样多（实际上要少得多，因为我们应该在输入图像中添加零填充）。

这意味着隐藏层也像输入图像一样是2D的。有时，可以将步长提高，而不是一次将内核移到一个像素上。这将导致卷积图像中的节点更少或像素更少。


![hiddenLayer.png](attachment:hiddenLayer.png)
Hidden Layer Nodes in a CNN

![strideHidden.png](attachment:strideHidden.png)
Increased stride means fewer hidden-layer nodes

需要以与常规神经网络完全相同的方式来学习连接到节点的这些权重。 图像通过这些节点（通过与权重（也称为内核）进行卷积）进行比较，

并将结果与某些输出进行比较（然后对其误差进行反向传播和优化）。 该行中的每个节点都尝试学习不同的内核（不同的权重），

这些内核将显示图像的某些不同特征，例如边缘。 因此，隐藏层可能看起来像这样：

![deepConv.png](attachment:deepConv.png)
For a 2D image learning a set of kernels.

![deepConv3.png](attachment:deepConv3.png)
For a 3 channel RGB image the kernel becomes 3D.

这就是为什么将深度学习称为深度学习的原因。 卷积神经网络的每个隐藏层都能够学习大量内核。 该隐藏层的输出被传递到更多的层，

这些层能够基于该层的卷积图像输出来学习自己的内核（在进行一些池操作以减小卷积输出的大小之后）。 

这使CNN能够查看检测的边缘并将其构建为更大的特征。

# CNN的网络结构：

1、不同层：

输入层

输入图像放置在该层中。 它可以是单层2D图像（灰度），2D 3通道图像（RGB彩色）或3D。 输入的排列方式之间的主要区别在于预期内核形状的形成。 

需要学习与输入深度相同的内核，即对于尺寸为5 x 5的2D RGB图像为5 x 5 x 3。

卷积层

我们已经研究了卷积层的作用。在使用Python实施CNN时，这些尺寸的顺序可能很重要。 因为进行大量矩阵乘法！

非线性

这里的“非线性”不是CNN自身的独特层，而是作为卷积层的一部分，因为它是在神经元的输出上完成的（就像正常的NN）。 通过这种方式，我们的意思是“不

要按原样转发数据（线性），而要对它做一些事情（非线性）对以后有所帮助”。

在我们的神经网络教程中，我们研究了不同的激活函数。 这些都提供输入到输出的不同映射，映射到[-1 1]，[0 1]或其他某个域，例如，整流线性单元将数据

阈值设置为$0：max（0，x）$。 ReLU非常受欢迎，因为它不需要任何昂贵的计算，并且已证明可以加快随机梯度下降算法的收敛速度。


池化层

池化层是确保CNN的后续层能够拾取比边缘和曲线更大比例的细节的关键。 它通过在尝试学习卷积核之前将卷积图像中的像素区域合并在一起（缩小图像）来实

现此目的。 实际上，此阶段需要另一个内核，例如[2 x 2]，并将其传递到整个图像上，就像卷积一样。 通常，步幅和内核大小相等，即[2 x 2]内核的步幅为

2。此示例将为卷积图像大小的一半。 学习的内核生成的特征图的数量将保持不变，因为依次对每个特征图进行池化。 因此，池化层返回深度与卷积层相同的数

组。 下图显示了原理图。

![poolfig.gif](attachment:poolfig.gif)
Max-pooling: Pooling using a "max" filter with stride equal to the kernel size

全连接层

如果我将最终池化层的所有[3 x 3 x 64]特征图都考虑在内，那么我将考虑并更新3 x 3 x 64 = 576个不同的权重。需要确保训练标签与输出层的输出匹配。

输出层中可能只有10种可能性（例如，经典MNIST数字分类任务中的数字0-9）。因此，我们希望输出层中的最终数字为一个大小为10的数组，而在此之前的层为

[？ x 10] ？表示之前的层：全连接（FC）层中的节点数。

如果全连接层中只有1个节点，则它将附加576个权重-每个权重均来自上一个池化层。将神经元的数量增加到1000个将使FC层提供许多不同的特征组合，并学习表

示特征空间的更复杂的非线性函数。该层中的节点数可以是我们想要的任何形式，不受任何先前尺寸的限制。

但是，FC层充当“黑匣子”，并且众所周知是无法解释的。它们也容易过拟合，因此经常会执行“dropout”操作。

dropout层

前面提到的全连接层连接到上一层中的所有权重-这可以是非常大的数量。 因此，FC层容易过拟合，这意味着网络无法很好地推广到新数据。 

尽管在CNN中最常见的是Hinton提出的dropout层，但仍有许多技术可用于减少过度拟合。 顾名思义，这会导致网络以特定的概率“丢弃”每次迭代中的某些节

点。 保持概率在0到1之间，最常见的是在0.2-0.5左右。 这是在训练过程中某个特定节点掉落的概率。 发生反向传播时，不会更新连接到这些节点的权重。 

如果另外一组节点选择激活这些dropout节点，那么他们将会在下一次迭代前被读取。

输出层

当然，根据您的CNN的目的，输出层会略有不同。通常，输出层由多个节点组成，如果这些节点为“ true”或被激活，则它们具有较高的值。

考虑一个分类问题，其中给CNN一组包含猫，狗和大象的图像。如果我们要求CNN了解猫，狗和大象的模样，则输出层将是三个节点的集合，每个“类”或动物一

个节点。我们希望当CNN找到猫的图片时，代表“猫”的节点上的值会高于其他两个。这与常规神经网络中的想法相同。

实际上，FC层和输出层可以视为传统的NN，我们通常还包括softmax激活函数。一些输出层是概率，因此总和为1，而其他输出层将仅获得一个值，该值可能是

0-255范围内的像素强度。如果我们要进行回归或确定图像是否属于特定类别，则输出也可以包含单个节点，例如患病或健康。但是，通常，即使是二进制分类，

也建议在输出中使用2个节点，并使用“一次性”编码的标签进行训练，即对于类0为[1,0]，对于类1为[0,1]。

关于反向传播的注意事项

我发现反向考虑CNN很有帮助。在我看来，CNN首先会学习所有不同类型的边线，曲线等，然后将其构建为大型特征，例如一张脸。

反向传播将权重从最后一层更新回第一层。最小化错误（或损失）首先发生在最后一层，因此，网络正在“看到”更全面的景象。

梯度（权重更新）向输入层消失，在输出层最大。我们可以有效地认为CNN在输出层正在学习“面部-眼睛，鼻子和嘴巴”，

然后在上一个中“我不知道面部是什么，但是这里有一些眼睛，鼻子，嘴巴”，然后“眼睛是什么？我只看到圆圈，一些白点和一个黑洞”，

然后是“ woohoo！圆的东西！”首先是“我认为这是一条线的样子”。可能我们可以认为CNN在第一层对自己的不确定性较高，而在最后一层则更为先进。

CNN可用于细分，分类，回归以及其他过程的整体方式。总体而言，它们仅相差四点：

    体系结构（conv，池和fc层的数量和顺序以及内核的大小和数量）
    
    输出（概率等）
    
    训练方法（成本或损失函数，正则化和优化器）
   
    超参数（学习率，正则化权重，批处理大小，迭代次数……）

https://mlnotebook.github.io/post/tensorflow-basics/