<a href="https://www.nvidia.com/en-us/deep-learning-ai/education/"> <img src="files/DLI Header.png" alt="Header" style="width: 400px;"/> </a>

# 通过NVIDIA DIGITS进行图像分类
入门深度学习

在这个实验中，您将学习如何使用干净的带标签数据训练神经网络。我们将通过有监督的图像分类任务来介绍深度学习，在这个任务中，您将利用实验平台已给出的大量带标签图片，构建一个可以预测新图像标签的工具。

实验目的是通过实验入门深度学习。您会体验到：
- 训练和编程的意义分别是什么
- 数据在人工智能中的作用
- 如何加载训练神经网络的数据
- “网络”在深度学习中的作用
- 如何基于数据对模型进行训练

在实验结束之时，您将得到一个训练而成的神经网络模型，它可以成功地对图像进行分类，以解决经典的深度学习难题：
我们怎样才能把手写体数字化

我们怎样才能把手写体数字化

## 训练与编程

人工智能（AI）与传统编程的根本区别在于AI是有学习的能力，而传统算法是程序化的。让我们通过一个例子来体会其中差异：

想象一下，您用传统的计算机编程方式给机器人下达一系列的指令，请它做一份三明治，按照下一条接一条指令的方式，您将怎么开始？

您也许会下达这样的指令：
 
<code>把两片面包放在空盘子里。</code>  

运行下面的代码，看看机器人对您的第一个指令会做什么。点击以下 In [ ] 并按下 Shift + Enter 并执行。

In [None]:
readyPlate = 2*bread + emptyPlate

您可能会得到一个“错误”，您会如何为您的机器人定义“面包”？更不用说其他成分和如何组合这些？

计算机通过一系列的像素点，其中包括大量的“红色”、“蓝色”和“绿色”数据，来“看见”图片。若是想要计算机知道其他任何概念，都必须以像素的方式来表达。


人工智能则采用不同的方式，不是人们向计算机提供指令，而是提供例子。在以上例子中，我们可以向我们的机器人展示数以千计的打过”面包”的图片和数以千计的其他打过标签的物体图像，并要求机器人了解差异。然后机器人可以建立自己的程序来识别新的作为面包的像素群（图像）。

![](bread.png)

我们现在需要的是数据和设计用来学习的计算机，而不是指令。

### 机器学习中的大爆炸

- **数据:** 在大数据时代，我们每天创造出大约2.5兆字节数据。免费的数据可从(https://www.kaggle.com/datasets)  和 [UCI](https://archive.ics.uci.edu/ml/datasets.html) 等处获得。众多的数据集是通过创造性的方法，例如Facebook要求用户在照片中为朋友们打上“标签”，以创建标记面部识别的数据集。更复杂的数据集是由专家手工生成的，例如要求放射科专家给心脏的特定部位打上标签。
- **设计用于学习的计算机-软件:** 人工神经网络是由人脑的构造启发的。与生物逻辑门一样，他们能帮助理解（或者表达）复杂概念，其最大的优势是能够从数据和反馈中学习。“深度”在深度学习中指的是具有多层次的人工神经元，每一层都有助于提升网络模型的性能。
- **设计用于学习的计算机-硬件:** 用于深度学习的计算是密集型的，并不是复杂的。可以依靠并行计算来实现深度神经网络处理庞大的数据集的任务，这部分可以通过GPU处理。

那么我们如何将人工神经网络应用到数据上呢？

本节实验课程结束后，您将知道如何将加载数据，来创建一个经过训练的深度神经网络模型，该模型具有能够通过学习来解决问题的能力，而不是程序员来告诉它该怎么做。

## 训练网络识别手写数字

由于计算机将图像看作是像素值的集合，所以除非它学到像素代表什么，否则它不能对视觉数据做任何事情。

如果我们能很容易地将手写数字转换成它们表示的数字：

1. 我们可以通过邮政编码帮助邮局整理成堆的信件。这个问题激发了[Yann LeCun](http://yann.lecun.com/)。他和他的团队把我们今天要用到的数据集和神经网络整合在一起，并精心地开创了我们现在所知道的关于深度学习的许多东西。
2. 我们可以通过自动给出数学家庭作业评分的方法来帮助老师。这个问题激发了[answer.ky](http://answer.ky/)团队，他们用Yann的方法轻松解实际的问题，所采用的工作流与我们将要做的工作流程一样。
3. 我们可以解决无数其他挑战性问题。您将创造什么？

我们要训练一个深层神经网络识别手写体数字0-9。这个挑战性问题被称为“图像分类”，我们的网络将能够决定哪一个图像属于哪个类或群体。 

例如: 
下面的图片应该属于“4”这一类：

<img src="test_images/image-4-1.jpg" width="64px" /> <div style="text-align:center;"></div>

下一副图像将属于“2”这一类：

<img src="test_images/image-2-1.jpg" width="64px" /> <div style="text-align:center;"></div>

请注意，这个工作流对于大多数的图像分类任务是很常见的，并且是学习如何用深度学习解决问题的一个很好的切入点。

我们开始吧

### 加载和整理数据

在这个实验中，首先引入我们的数据 - 成千上万的图像导入到我们的学习环境。我们将使用一个称为DIGITS的工具，其能够可视化和管理数据。 

首先，点击以下链接‘DIGITS’在新选项卡中打开DIGITS 。

### <a href="/digits/" target=\"_blank\">Open DIGITS</a>.

#### 加载第一个数据集

当您开始使用DIGITS时，您可以在主屏幕创建新的数据集或新的模型。

首先选择左边的  **Datasets** 选项卡。

![](DIGITSdatasetHome.PNG)

因为我们希望网络告诉我们每一个图像属于哪个“类”, 因此需要DIGITS从右边的“Images”菜单中选择“Classification”来加载一个“Classification”图像数据集。

此时，您需要输入用户名，用户名需要全部由小写字母组成。

#### 加载和整理数据

您将看到在加载数据集的页面，有很多选项。在本次第一轮实验中，我们将其简单化，只填写两个域。

1. 复制并粘贴以下文件路径到"Training Images"域:  <code>/data/train_small</code>
2. 给数据集命名以便您能找到它。我们选择: <code>Default Options Small Digits Dataset</code>

您没有看到 "Training Images?" 单击左上角的 "DIGITS", 然后选择"Datasets", 接着再选 "Images" -> "Classification."

请注意此时数据集已经下载到正在运行 DIGITS 的计算机。 您可以通过我们的实验平台展开工作，您将在实验中有机会快速地探索它，并将学到访问数据的方法。

![](FirstDataSetSettings.png)

然后点击 "Create"

此时DIGITS 正在从目录中创建您的数据集， 在 <code>train_small</code> 目录中有10个子目录,(0, 1, 2, 3, ..., 9)各一个目录. 在所有手写的训练图片中,'0'放在 '0' 目录, '1'放在 '1' 目录,等等。 

通过选择"Explore the db"来查看加载的数据。

#### 您的数据?

虽然我们对数据做了大量的分析，但至少要注意以下几点：
1. 数据是有标签的。在数据中每个图像配一个标签，告诉计算机，图片所代表的数字，即0-9。我们基本上提供了问题的答案，或者，正如我们的网络将看到的，每个输入都有所期望的输出。这些是我们的网络将从中学习的“示例”。
2. 每个图像只不过是白背景上的一个数字。图像分类是一个识别图像中主要物体的任务。对于第一次尝试，我们使用只包含一个对象的图像。在后续的试验中我们将建立应对混乱的数据的能力。 

此处所用数据来自 [MNIST](http://yann.lecun.com/exdb/mnist/) 创立的MNIST数据集。 其在很大程度上被认为是深入学习领域的“Hello World”或入门。

### 从数据中学习 - 训练神经网络

接下来, 将使用我们的数据来训练一个人工神经网络。 就像生物的灵感一样，人脑、人工神经网络就是学习机器。和大脑一样，这些“网络”只能够解决有经验的问题，在这种情况下，可以与数据交互。在整个实验中，我们将把“网络”作为未经训练的人工神经网络，把“模型”作为经过训练的网络（通过接触数据）。

![](networktomodel.PNG)

对于图像分类（以及其他一些任务），DIGITS预装了已在大赛中夺冠的网络模型。当我们在以后的实验中遇到不同的挑战时，我们将更多地了解如何选择网络甚至建立自己的网络。然而，一开始就要权衡不同网络的优劣，就好比在开车前争论不同的汽车性能。从零开始建立一个网络就像建造您自己的车一样。让我们先开车，才将会到达目的地的。

回到仍然打开的 DIGITS 页面,并通过点击屏幕左上角的 "DIGITS" 返回主屏幕。

在DIGITS中创建一个新的模型很像创建一个新的数据集。 从主屏幕上， "Models" 选项卡需要预先选定。 在“New Model”下点击“Images”， 选择“Classification”, 我们正在创建一个图像分类模型来匹配我们的图像分类数据集和图像分类任务。

![](newmodelselect.PNG)

第一轮的训练要保持简单。以下是您可以设置出一个成功的训练网络的最少设置。 

1. 我们需要选择我们刚刚创建的数据集。 选择 **Default Options Small Digits Dataset** 数据集。
2. 我们需要告诉网络我们需要多长时间训练它。一个 **epoch** 是整个培训数据集的一次训练。 将 **Training Epochs** 设置为5，让我们的网络有足够的时间去学习一些东西，但不要花一整天的时间。这是一个非常好的实验设置。
3. 我们需要定义哪一个网络将从我们的数据中进行学习。因为我们在创建我们的数据集时采用缺省设置，我们的数据库是全彩色256x256图像。如果只期待256x256的彩色图像分类，那么选择网络为 **AlexNet**。
4. 我们需要给模型命名，由于我们可能会做很多这样的工作，因此我们选择 **My first model**来命名。

![](1stmodeltrain.png)

当您设置了所有这些选项时，按“Create”按钮。

您此时正在训练您的模型！对于这种配置，模型训练应该在不到5分钟内完成。您既可以看训练，也可以继续读书，或者喝杯咖啡。

完成后，右边的工作状态会说 "Done", 而您的训练图表应该是类似下图：

![](graphfromfirsttraining.png)

我们将把这个图作为改进的工具，但是最重要的一点是经过5分钟的训练，我们已经建立了一个模型，它可以将手写数字的图像映射到它们所代表的数字，准确率大约为87%！

让我们来测试模型识别**新**图像的能力。 

### 推理

既然我们的神经网络已经学会了一些东西，那么推理（inference）就是基于所学知识做出决定的过程。训练得到的模型的能力在于它现在可以对未标签图像进行分类。

![](trainingwithinferencevisualization.PNG)

我们将用DIGITS来测试训练得到的模型。在模型窗口的底部，您可以测试单个图像或一组图像。在左边，在 Image Path文本框中键入路径 <code>/data/test_small/2/img_4415.png</code>。 选择 **Classify One** 按钮。  几秒钟后，将显示一个新窗口，显示其试图对图像进行分类的图像和信息。

![](classifyoneunlabeled.png)

恭喜您，您现在可以为图像分类训练出深度神经网络！您可以通过下面的方法自己证明。

## 自我测试

我们将用一个新的数据集来重复这个过程。但首先，回顾一下我们都做了些什么：

1. 将一个加了标签的图像文件夹加载到DIGITS中。
2. 选择一个能够从这些图像中学习的深层神经网络。
3. 让DIGITS 使用有标签的图像训练模型。

这个实验的目的是教您用DIGITS训练一个图像分类网络。如果您做到了这一点，您就已经达到了目标。注意两件很重要的事情：

1. 您可以在实验室外面做这个。DIGITS 是免费的在 [这里](https://developer.nvidia.com/digits). (注意，如果您安装了DIGITS并试图在没有GPU的情况下训练模型，那么您的训练时间将会大大增加。)
2. 您所遵循的流程并不限于手写数字。

让我们证明它：

使用刚刚学习的工作流创建一个模型，将一组完全不同的图像分类。加州理工学院101数据集包含101目标分类的图片。您只需要沿用相同的过程，加载数据集到DIGITS并训练Alexnet模型。

首先，我们通过在线搜索 "classification datasets". 我们在加州理工学院 [此处网站](http://www.vision.caltech.edu/Image_Datasets/Caltech101). 找到一个数据集并下载到文件夹: <code>/data/101_ObjectCategories</code>中。

参考实验介绍，您只需按照以下：
- 探究了数据库 - 这将是您在进行分类过程中能找到分类图像的极好地方。
- 训练模型
- 测试您的模型 - 使用测试图像 <code>/notebooks/Dolphin2.jpg</code> 或者在其中的一类中找到一副图像下载。

如果您成功地训练了新模型，并且没有错误，那么您已经了解了这个实验想让您学到的东西。很可能您的新模型的准确性非常低，而我们的模型需要区分属于多于十倍的类的更多复杂图像。无论如何，只要准确度超过1%，就意味着您的模型已经学到了一些*东西*！

在下一节中，我们将开始着手以提高性能。在本节中，您已经学会了训练一个深度神经网络。

希望您有两种感受： 
1. 您开始对用深度学习解决问题感到兴奋。
2. 您对目前的模型的性能和您的技能不满意。

## 接下来的步骤

在下一节中，您将学到哪些工具可以改进性能，并使用更丰富的数据进行工作。 [点击这里继续前进！](Image%20Classification%20with%20DIGITS%20-%20Improving%20Performance.ipynb)

<a href="https://www.nvidia.com/en-us/deep-learning-ai/education/"> <img src="files/DLI Header.png" alt="Header" style="width: 400px;"/> </a>