## 1. Tqdm 

`tqmd` 是一个快速，可扩展的 `Python` 进度条，可以在 `Python` 长循环中添加一个进度提示信息，用户只需要封装任意的迭代器 `tqdm(iterator)`。

In [3]:
# test
from tqdm import tqdm 
import time
for i in tqdm(range(10000)):  
    time.sleep(0.01)  

100%|██████████| 10000/10000 [01:44<00:00, 95.85it/s]


## 2. numpy.expand_dims的用法

函数通过在指定位置插入新的轴来扩展数组形状。

`expand_dims(a, axis)` 就是在 `axis` 的那一个轴上把数据加上去，这个数据在 `axis` 这个轴的 `0` 位置。 

例如原本为一维的 `2` 个数据，`axis=0`，则 `shape` 变为 `(1,2)`,`axis=1` 则 `shape` 变为 `(2,1)` 

再例如 原本为 `(2,3)`,`axis=0`，则 `shape` 变为 `(1,2,3)`,`axis=1` 则 `shape` 变为`(2,1,3)`

In [5]:
import numpy as np
x = np.array([1,2])
x.shape

(2,)

In [6]:
y = np.expand_dims(x, axis=0)
y

array([[1, 2]])

In [7]:
y.shape

(1, 2)

## 3. Numpy中stack()，hstack()，vstack()函数详解

### 3.1 stack()函数 

函数原型为：`stack(arrays, axis=0)`，`arrays` 可以传数组和列表。

In [9]:
a=[[1,2,3,4],
   [5,6,7,8],
   [9,10,11,12]]

print("列表a如下：")
print(a)

print("增加一维，新维度的下标为0")
c=np.stack(a,axis=0)
print(c)

print("增加一维，新维度的下标为1")
c=np.stack(a,axis=1)
print(c)

列表a如下：
[[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]]
增加一维，新维度的下标为0
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
增加一维，新维度的下标为1
[[ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]
 [ 4  8 12]]


### 3.2 hstack()函数 

函数原型：`hstack(tup)` ，参数 `tup` 可以是元组，列表，或者 `numpy` 数组，返回结果为 `numpy` 的数组。

In [10]:
a=[1,2,3]
b=[4,5,6]
print(np.hstack((a,b)))

[1 2 3 4 5 6]


In [11]:
a=[[1],[2],[3]]
b=[[1],[2],[3]]
c=[[1],[2],[3]]
d=[[1],[2],[3]]
print(np.hstack((a,b,c,d)))

[[1 1 1 1]
 [2 2 2 2]
 [3 3 3 3]]


它其实就是水平(按列顺序)把数组给堆叠起来，`vstack()` 函数正好和它相反。

### 3.3 vstack()函数 

函数原型：`vstack(tup)` ，参数 `tup` 可以是元组，列表，或者 `numpy` 数组，返回结果为 `numpy` 的数组。

In [12]:
a=[1,2,3]
b=[4,5,6]
print(np.vstack((a,b)))

[[1 2 3]
 [4 5 6]]


In [13]:
a=[[1],[2],[3]]
b=[[1],[2],[3]]
c=[[1],[2],[3]]
d=[[1],[2],[3]]
print(np.vstack((a,b,c,d)))

[[1]
 [2]
 [3]
 [1]
 [2]
 [3]
 [1]
 [2]
 [3]
 [1]
 [2]
 [3]]


它是垂直（按照行顺序）的把数组给堆叠起来。

## CNNs

* 经过“卷积”层的处理后，图像含有深度，这个“深度”，等于过滤器的个数。

* 如何确定“补零”的圈数，才能保证图片大小一致？

    假设过滤器的大小为 F，滑动步幅 S=1，想要实现这一目标，补零的圈数为：
$$P = \frac{F - 1}{2}$$

* 特征图片大小：

    假设原始图片的大小为 W，过滤器的大小（F）、滑动的步幅（S）以及补零的圈数（P）：

$$\frac{W - F + 2 x P}{S}$$

    所以，当我们设置这些超参数时，需要遵循一个原则，即“上面公式得到的结果，必须为一个整数”：

![](http://aiportal.net/wp-content/uploads/2017/12/33%E5%85%AC%E5%BC%8F%E5%AE%88%E5%88%99.png)

* 在提取特征的过程中，我们采用的是“过滤器中的数值，与原始图片中的相应数值，相乘、相加”的方法，例如：

![](http://www.aiportal.net/wp-content/uploads/2017/12/16ReLU-01-1.jpg)

    事实上，在“卷积”过程中
    
![](http://www.aiportal.net/wp-content/uploads/2017/12/34%E5%8D%B7%E7%A7%AF%E5%85%AC%E5%BC%8F.png)

    上面这种对应数值相乘、再相加的计算，仅仅是“线性”计算；
    而在现实世界中，很多很多的数据，都是“非线性”的。
    所以，在“卷积”处理的后面，我们常常引入一个“非线性”的计算，来使得数据更加接近真实世界。
    这个“非线性”计算，就是ReLU函数，它的图像形态犹如一条折线：

![](http://www.aiportal.net/wp-content/uploads/2017/12/35ReLU-02.jpg)

    它就像是一个魔法袋子，所有经过它的数值：
        
        1. 如果是负数，出来的结果就是0
        2. 如果是正数或零，出来的结果仍是自己本身

![](http://www.aiportal.net/wp-content/uploads/2017/12/36%E9%AD%94%E6%B3%95%E8%A2%8B.png)

    ReLU计算，相当于把一条直线（“线性”）掰弯。

    虽然，这种方法有点儿简单（……粗暴），但是，它能使我们最终的预测准确度得到提升。
    
![](http://www.aiportal.net/wp-content/uploads/2017/12/37%E6%8A%98%E5%BC%AF.png)

    具体到图片计算，ReLU相当于将“特征图片”中，像素值小于0的部分，全部变为0。
    
    回到我们之前的例子中，在“卷积”的后面，再加上一步“ReLU计算”，即为：
    
![](http://www.aiportal.net/wp-content/uploads/2017/12/39%E6%9E%B6%E6%9E%841.png)

* 所谓“池化”，就是在保留图片主要信息的前提下，将图片的尺寸缩小。

    池化的类型有很多种，诸如“最大池化”、“平均池化”、“求和池化”等等，它们的运算原理基本一致。

    因为“最大池化”更为常用，所以我们重点介绍“最大池化”的运算过程。

    假设经过ReLU处理后，我们得到的特征图片，如下图：
    
![](http://www.aiportal.net/wp-content/uploads/2017/12/40%E6%9C%80%E5%A4%A7%E6%B1%A0%E5%8C%96-01.jpg)

    在对特征图片进行“池化”处理时，与“卷积”类似，需要我们设置2个超参数：
        1. 过滤器大小（F）和 滑动的步幅数（S）
        
    这里，假设我们设置 F=2，S=2，那么，“最大池化”为：
        > 在每 2*2（即4个）像素区域内，保留像素值最大的那一个，其余3个像素值抛弃。

![](http://www.aiportal.net/wp-content/uploads/2017/12/41%E6%9C%80%E5%A4%A7%E6%B1%A0%E5%8C%96%E8%BF%90%E7%AE%97.png)

    这样，经过“池化”处理，就将一个4*4大小的图片，缩小为2*2大小的图片了。

    当然，在“池化”过程中，你也可以将超参数设置为F=3、S=2，只不过“F=2、S=2”更为常用。

    回到我们之前的例子中，在“ReLU计算”的后面，再加上一步“最大池化”，即为：

![](http://www.aiportal.net/wp-content/uploads/2017/12/5%E6%AD%A5%E9%AA%A42-1.jpg)

![](http://www.aiportal.net/wp-content/uploads/2017/12/42%E6%9E%B6%E6%9E%842-1.png)

> &emsp;&emsp;**输入图片 → 卷积 → ReLU → 池化（可选） **

    当然，你也可以不拘泥于此。有的时候，我们会进行多次卷积和池化，所以，更一般的形式：
    
![](http://www.aiportal.net/wp-content/uploads/2017/12/43-%E6%9E%84%E6%9E%B6-%E6%8D%A2.png)

    1. 池化”层使用的过滤器，与“卷积”层使用的过滤器有所不同：
        池化”层的过滤器，其内部没有数值,因为“池化”层的过滤器，其功能只是将图片缩小，故其内部没有参数。
        
![](http://www.aiportal.net/wp-content/uploads/2017/12/44%E5%8C%BA%E5%88%AB1.png)

    2. 在“池化”层中，仅有1个过滤器；而在“卷积”层中，可以设置多个过滤器。
        因为“卷积”层的过滤器，其功能是提取图片的特征，因而，我们使用不同的过滤器，可以提取不同的图片细节。

        而“池化”层的过滤器，仅仅是为了缩小图片的尺寸，因而，使用一种过滤器，就可以达到这一目标，无需设置多个。

![](http://www.aiportal.net/wp-content/uploads/2017/12/45%E5%8C%BA%E5%88%AB2.png)

    3. 经过“卷积”处理后，得到的图片张数（即“图片深度”），应该等于该卷积层的过滤器个数；

        而经过“池化”处理后，得到的图片张数（即“图片深度”），仍等于上一层的图片张数。

        概念描述比较晦涩，直接看下图：

![](http://www.aiportal.net/wp-content/uploads/2017/12/46%E5%8C%BA%E5%88%AB3.png)

    当仅有1个卷积层时，关于每一层的图片深度问题，尚且好理解（如上图所示）。

    但是，当模型中含有多个卷积层，或者，输入的图片为彩色图片时，这个问题就容易被混淆，后面，我们在讲到彩色图片的图像处理时，仍会强调这个问题，此处，仅需记住这一概念就可以。
    
![](http://www.aiportal.net/wp-content/uploads/2017/12/6%E6%AD%A5%E9%AA%A43.jpg)

* 最后一步，该轮到我们的压轴大戏——“图片分类”了。

    经过上面一系列的处理，此时得到的图片，已经可以被视为一串串简单的数字（即像素值）。

    将这一个个的像素值，塞到我们初中就已接触过的表达式中：
    
![](http://www.aiportal.net/wp-content/uploads/2017/12/47%E8%A1%A8%E8%BE%BE%E5%BC%8F.png)

    1. x 是谁？

        还记得之前讲的计算机“眼中”的世界吗？
        
![](http://www.aiportal.net/wp-content/uploads/2017/12/7dog-%E9%BB%91%E7%99%BD-%E5%83%8F%E7%B4%A0-1.jpg)

    那一个格子、一个格子中的数字，就是 x。
    
    2. y 是谁？

        我们给每张图片打上的标签：这张图是“猫”、那张图是“狗”…… 统统这些标签，就是 y。

    3. θ 是什么鬼？

        当你给计算机很多组、很多组（x,y）时，它会自己去学习寻找x与y之间的关系，这个“关系”，就是 θ。

        当你拥有了 θ，下一次，即使拿到一张没有打过标签的图片，你也可以通过已知的 θ 和 x，知道y的取值，从而“知道图片里画的是什么？”。
        
* 所以，在“第3步 – 图片分类”中：

    首先，需要把第2步得到的图片，其中的像素值“展开”。

    为了方便大家理解，假设我们从第 2 步中，得到了 2 张 2*2 的图片，如果把它们的像素值“展开”，得到的效果为：
    
![](http://www.aiportal.net/wp-content/uploads/2017/12/48FC-07.jpg)

    这样，我们就拿到了x。展开后所得到的 

![](http://www.aiportal.net/wp-content/uploads/2017/12/48-%E8%A1%A5.jpg)

    就是 x。

    在训练的最初，我们拥有每张图片的标签，即“我们已经拥有了y值”。

    所以，在模型的最后，我们需要让计算机努力找到x-y之间的关系。

    而寻找的办法，就需要依靠“全连接神经网络”：
    
![](http://www.aiportal.net/wp-content/uploads/2017/12/49FC.png)

    所谓“全连接”，是指下一层的每一个神经元（即图中的“□”），与上一层的神经元全部相连，这里为了表达得更清晰，已经省去了中间的连接符。实际上，更多的时候，你会看到下面这样的图片：
    
![](http://www.aiportal.net/wp-content/uploads/2017/12/50FC-10.jpg)

* 本文的核心在于卷积神经网络（CNNs）。

    这里，你只需要记住2点：
    
    1. “全连接神经网络”可以帮助我们学习到参数 θ。有了它，下一次再给计算机“看”图片时，计算机便会自动识别出图中的景象。
    
    2. 模型得到的最终结果，表示“图片为某种类别的概率”。注意：这里的概率之和，永远为 1。
    
    例如：
    
![](http://www.aiportal.net/wp-content/uploads/2017/12/51FC%E7%BB%93%E6%9E%9C.png)

    即计算机“判断”，最初输入的图片为“狗”。

    我们将CNNs的所有流程，整合起来，即：
    
![](http://www.aiportal.net/wp-content/uploads/2017/12/52%E6%95%B4%E5%90%88%E5%9B%BE%EF%BC%88%E9%87%87%E7%94%A8%EF%BC%89.jpg)

[**原图**](http://www.aiportal.net/wp-content/uploads/2017/12/52%E6%95%B4%E5%90%88%E5%9B%BE%EF%BC%88%E9%87%87%E7%94%A8%EF%BC%89.jpg)

![](http://www.aiportal.net/wp-content/uploads/2017/12/66%E5%BD%A9%E8%89%B2%E5%8D%B7%E7%A7%AF-%E5%8A%A8%E7%94%BB.gif)

[**原图**](http://www.aiportal.net/wp-content/uploads/2017/12/66%E5%BD%A9%E8%89%B2%E5%8D%B7%E7%A7%AF-%E5%8A%A8%E7%94%BB.gif)

* **总 结**

![](http://www.aiportal.net/wp-content/uploads/2017/12/71%E8%AF%86%E5%88%AB%E5%9B%BE%E7%89%87%E8%BF%87%E7%A8%8B%E2%80%94%E2%80%94%E4%BA%BA%E6%9C%BA%E5%AF%B9%E6%AF%94.jpg)

    用图片可以更形象的表述

    人类：
    
![](http://www.aiportal.net/wp-content/uploads/2017/12/72%E6%80%BB%E7%BB%931.png)

    计算机：
    
![](http://www.aiportal.net/wp-content/uploads/2017/12/69%E7%AD%89%E4%BB%B7%E4%BA%8E.jpg)

[**原图**](http://www.aiportal.net/wp-content/uploads/2017/12/69%E7%AD%89%E4%BB%B7%E4%BA%8E.jpg)

**在构建模型时，需要我们设置的超参数有：**

* 卷积层： 过滤器的大小（F）、滑动的步幅数（S），以及过滤器的个数（K）
    如果你期望输出的图片，与输入的图片尺寸一致，你还可以在原始图片的外围补零，补零的圈数 $P=\frac{F - 1}{2}$
    
* 池化层：过滤器的大小（F）

**在算法运行时，计算机会自己学习的参数有：**

* 卷积层： 过滤器中的具体数值。

![](http://www.aiportal.net/wp-content/uploads/2017/12/73%E6%80%BB%E7%BB%932.png)

* 全连接层： 神经元的参数 θ

    当计算机算出最优参数后，下一次，在输入一张没有打过标签的图片时，算法就能自动对图片做出分类。
    
**结束语**

    卷积神经网络（CNNs）能够提取图像的核心特征，并使用这些特征，来识别包含类似特征的图像，在“自动驾驶”、“人类识别”、“医疗图像诊断”等方面，都发挥着极大的作用。

## 库和框架中文社区

[Keras: 基于 Python 的深度学习库](https://keras.io/zh/)

[Keras:基于Python的深度学习库](https://keras-cn.readthedocs.io/en/latest/)

[OpenCV参考手册](http://wiki.opencv.org.cn/index.php/Template:Doc)

[Tensorflow 中文社区](http://www.tensorfly.cn/tfdoc/get_started/os_setup.html)

[Scikit-Learn CN](http://cwiki.apachecn.org/display/sklearn/Index)

[scikit-learn Python 中的机器学习](http://sklearn.apachecn.org/cn/0.19.0/index.html)

[机器学习资源](https://feisky.xyz/machine-learning/appendix/reference.html)

[Numpy 教程](https://wizardforcel.gitbooks.io/ts-numpy-tut/content/12.html)

[数学乐](https://www.shuxuele.com/index.html)

[Theano 中文文档 0.9](https://www.ctolib.com/docs/sfile/theano-docs/index.html)

[]()

[]()

[]()

[]()

[]()

## Reference 

[Numpy中stack()，hstack()，vstack()函数详解](https://blog.csdn.net/csdn15698845876/article/details/73380803)

[吊炸天的CNNs，这是我见过最详尽的图解！（上）](http://www.aiportal.net/cnns/%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E5%85%A5%E9%97%A8%E6%95%99%E7%A8%8B-%E6%BB%A4%E6%B3%A2%E5%99%A8-%E6%8F%90%E5%8F%96%E7%89%B9%E5%BE%81)

[吊炸天的CNNs，这是我见过最详尽的图解！（下）](http://www.aiportal.net/cnns/%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E5%85%A5%E9%97%A8%E6%95%99%E7%A8%8B-%E6%B1%A0%E5%8C%96-%E5%85%A8%E8%BF%9E%E6%8E%A5-%E5%BD%A9%E8%89%B2%E5%9B%BE%E7%89%87%E5%8D%B7%E7%A7%AF)

[keras教程：卷积神经网络（CNNs）终极入门指南](http://www.aiportal.net/cnns/%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C-%E5%9B%BE%E5%83%8F%E8%AF%86%E5%88%AB-keras%E4%BB%A3%E7%A0%81)

[Cmd Markdown 公式指导手册](https://www.zybuluo.com/codeep/note/163962)

[卷积神经网络改进想法初探（上篇）](https://blog.csdn.net/u010402786/article/details/49272757)

[CNN卷积神经网络的改进（15年最新paper）](https://blog.csdn.net/u010402786/article/details/50499864)

[Deep Visualization:可视化并理解CNN](https://zhuanlan.zhihu.com/p/24833574)

[CNN超参数优化和可视化技巧详解](https://zhuanlan.zhihu.com/p/27905191)

[如何一步一步提高图像分类准确率？](https://www.leiphone.com/news/201709/NByqFlpeg3DcQQ7A.html)

[]()

[]()

[]()