# Train an Image Classifier with TensorFlow for Poets

本节内容参考自Google Codelab[Tensorflow for Poets](http://clmirror.storage.googleapis.com/codelabs/tensorflow-for-poets-cn/index.html#0)

## 简介

TensorFlow是一个用于数字计算的开放源代码内容库，专门应用于机器学习领域。在此 Codelab 中，您将学习如何在一台机器上安装和运行 TensorFlow，并训练一个简单的分类器对花卉图像进行分类。

在此实验室中，我们将使用迁移学习，这意味着我们将从一个已针对其他问题接受过训练的模型开始。然后，我们针对一个相似问题重新训练该模型。从头开始进行深度学习需要数天的时间，但迁移学习很短时间内就可以完成。

我们将使用一个在ImageNet大型视觉识别挑战数据集上受过训练的模型。此模型可以区分 1,000 种不同分类，如斑点狗或洗碗机。您可以选择模型架构，以便能够针对问题在速度、大小和准确性之间做出正确取舍。

我们还将使用同一模型进行重新训练，使它可以基于我们自己的示例区分少量分类。

## 设置

- 安装 TensorFlow

    ```
    sudo /Users/apple/anaconda3/bin/pip install https://storage.googleapis.com/tensorflow/mac/tensorflow-0.8.0-py3-none-any.whl
    ```
    
    *由于skflow包在tensorflow0.10.0中无法使用，故安装tensorflow0.8.0*
    
- 克隆 git 代码库

    git 代码库中包含了此 Codelab 中使用的所有代码。克隆此代码库并使用 cd 命令进入该代码库。
    
    ```
    git clone https://github.com/googlecodelabs/tensorflow-for-poets-2

    cd tensorflow-for-poets-2
    ```
    
## 下载训练图像

在开始任何训练之前，您需要一组图像来教模型您要识别的新分类。我们首先创建了一个归档，其中包含要使用的花卉照片，这些照片已获得知识共享许可。通过调用以下两个命令下载照片 (218MB)：

```
curl http://download.tensorflow.org/example_images/flower_photos.tgz \
    | tar xz -C tf_files
```

现在，您的工作目录中应该会有这些花卉照片的副本。通过发起以下命令确认您的工作目录的内容：

```
ls tf_files/flower_photos
```

前一个命令应显示以下对象：

```
daisy/
dandelion/
roses/
sunflowers/
tulip/
LICENSE.txt
```

## 使用经过重新训练的模型

重新训练脚本向以下两个文件写入数据：


- `tf_files/retrained_graph.pb`，该文件包含所选网络的一个版本，其带有针对您的类别进行重新训练的网络最后一层。

- `tf_files/retrained_labels.txt`，该文件是包含标签的文本文件。

### 图像分类

此 Codelab 代码库还包含一个 tensorflow 的label_image.py示例副本，您可用来测试网络。请花一分钟时间阅读此脚本的帮助：
```
python -m  scripts.label_image -h
```
如您所见，此 Python 程序带有不少参数。对于此项目，所有参数均为默认设置，但如果您使用了不同图像大小的 MobileNet 架构，您需要使用您之前创建的变量来设置`--input_size`参数：`--input_size=${IMAGE_SIZE}`。

现在，我们对此雏菊图像运行该脚本: `flower_photos/daisy/21652746_cc379e0eea_m.jpg`

```
python -m scripts.label_image \
    --graph=tf_files/retrained_graph.pb  \
    --image=tf_files/flower_photos/daisy/21652746_cc379e0eea_m.jpg
```

每次执行都会打印一份花卉标签列表，在大多数情况下，标注正确的花卉位于顶端（尽管每个经过重新训练的模型可能会略有不同）。

对于雏菊照片，您可能会获得下面这样的结果：
```
daisy (score = 0.99071)
sunflowers (score = 0.00595)
dandelion (score = 0.00252)
roses (score = 0.00049)
tulips (score = 0.00032)
```
这表示该图像是雏菊的置信度很高 (~99%)，而对于任何其他标签则置信度很低。

您可以使用`label_image.py`对您选择的任何图片文件（无论是您下载的图集还是新拍的照片）进行分类。您只需更改此脚本中的`--image`文件名参数。





## 目标
区分图片之间的差异

## 工具
TensorFlow for Poets

- 高度封装
- 效果奇佳
- 只需要目录中的图片和目录名字作为label，不需要预设feature


## 数据
- 找出图片中五种花的差异
- 下载地址：http://download.tensorflow.org/example_images/flower_photos.tgz
- 如果你想要用其他的图片类型，你只需要创建一个新的文件夹，放入对应类型的100张以上的图片
- 不需要像Iris数据集那样有预设的feature


## 分类器
- TensorFlow

 - TensorFlow擅长于Deep learning
 
 - 由于提取特征很困难，因为世界上的变数太多了，所以深度学习自动提取特征的功能变得很重要

 - TFLearn：高阶的机器学习库
 
- Image Classifier

 - 直接从像素级数据提取特征

- 神经网络

 - 可以学习更复杂的函数


## 实现
由于官方视频教程中的语法格式使用的是nightly版本tensorflow的格式，因此对代码稍作修改
参考(Github·TensorFlow·Issue)[https://github.com/tensorflow/tensorflow/issues/2421]
参考(Github·TensorFlow·Skflow·Example)[https://github.com/tensorflow/tensorflow/tree/r0.8/tensorflow/examples/skflow]
(TensorFlow处理Iris问题)[https://github.com/ahangchen/GoogleML/blob/master/src/tflearn_iris.py]
(TensorFlow直接识别文件夹图片)[https://codelabs.developers.google.com/codelabs/tensorflow-for-poets/index.html?index=..%2F..%2Findex#4]
- 耗时大概20分钟
- 基于Inception训练分类器retrain
- Transfer Learning：重用Inception的一些参数


## 后话

- 图像识别关键在于：Diversity and quantity
- Diversity：样本多样性越多，对新事物的预测能力越强
- Quantity：样本数量越多，分类器越强大