# Tensorflow API 框架

如下图所示，TensorFlow提供了包含多个API层的编程堆栈：


![image.png](attachment:image.png)


开始编写Tensorflow程序时，强烈建议关注一下两个高级API：
- Estimators
- Datasets

# Tensorflow程序编写流程

- 加载并解析数据集
- 定义特征及标签
- 选择模型算法
- 训练模型
- 评估模型
- 通过模型进行预测

## 加载并解析数据集
Iris 需要下面两个 .csv 文件：
- http://download.tensorflow.org/data/iris_training.csv, 训练集
- http://download.tensorflow.org/data/iris_test.csv, 测试集

In [29]:
import tensorflow as tf
import pandas as pd
import numpy as np

pd.options.display.max_rows = 10

TRAIN_URL        = "http://download.tensorflow.org/data/iris_training.csv"
TEST_URL         = "http://download.tensorflow.org/data/iris_test.csv"
CSV_COLUMN_NAMES = ['SepalLength', 'SepalWidth',
                    'PetalLength', 'PetalWidth', 'Species']

def load_data(label_name="Species"):
    """解析CSV文件"""
    
    # 下载训练集
    train_path = tf.keras.utils.get_file(fname=TRAIN_URL.split('/')[-1],
                                         origin=TRAIN_URL)
    # train_path: ~/.keras/datasets/iris_training.csv
    
    # 解析训练集
    train = pd.read_csv(filepath_or_buffer=train_path,
                       names=CSV_COLUMN_NAMES, # 定义列名 
                       header=0) # 忽略第一行
    # 训练集现在已经被加载到DataFrame中
                        
    # 定义训练集特征列和标签列（最后一列 "Species"）
    train_features, train_label = train, train.pop(label_name)
    
    # 同样方式构造测试集
    test_path = tf.keras.utils.get_file(fname=TEST_URL.split('/')[-1],
                                        origin=TEST_URL)
    test = pd.read_csv(filepath_or_buffer=test_path,
                       names=CSV_COLUMN_NAMES,
                       header=0)
    test_features, test_label = test, test.pop(label_name)
    
    return (train_features, train_label), (test_features, test_label)

Keras是开源的机器学习库，tf.keras是Tensorflow基于Keras的实现。**tf.keras.utils.get_file**方法用于下载文件。

In [20]:
# 调用load_data方法
(train_feature, train_label), (test_feature, test_label) = load_data()

查看训练集特征集

In [23]:
train_feature

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth
0,6.4,2.8,5.6,2.2
1,5.0,2.3,3.3,1.0
2,4.9,2.5,4.5,1.7
3,4.9,3.1,1.5,0.1
4,5.7,3.8,1.7,0.3
...,...,...,...,...
115,5.5,2.6,4.4,1.2
116,5.7,3.0,4.2,1.2
117,4.4,2.9,1.4,0.2
118,4.8,3.0,1.4,0.1


查看训练集标签集
标签集包含3个分类，代表Iris的三个物种
- 0：represents setosa
- 1：represents versicolor
- 2：represents virginica

In [24]:
train_label

0      2
1      1
2      2
3      0
4      0
      ..
115    1
116    1
117    0
118    0
119    1
Name: Species, Length: 120, dtype: int64

## 数据描述
特性列是一个数据结构，它告诉您的模型如何解释每个特性中的数据。在Iris的问题中，我们希望模型将每个特性中的数据解释为其字面量的浮点值;也就是说，我们想让模型解释一个输入值，比如4。4。然而，在其他机器学习问题中，通常需要更少地解释数据。  
  
从代码上来说，可以使用**tf.feature_column**来构建特征列。每一个对象被描述为模型的输入。为了让模型将数据解释为浮点型，需要调用**tf.feature_column.numeric_column**

In [26]:
def construct_feature_columns(input_features):
    """构建特征列"""
    return set([tf.feature_column.numeric_column(my_feature)
              for my_feature in input_features])

## 选择模型算法
我们需要选择一个算法来对模型进行训练。有许多的算法可供选择，选择理想的算法需要一定的经验。这里选择神经网络算法来解决Iris问题。神经网络可以在特征和标签之间找到复杂的关系。神经网络是一个高度结构化的图形，被组织成一个或多个隐藏层。每个隐藏层由一个或多个神经元组成。神经网络有几种分类。这里使用全连接神经网络，这意味着一层的神经元接受来自上一层的每个神经元的输入。例如，下图演示了一个全连接神经网络，它由三个隐藏层组成：
- 第一个隐藏层包含4个神经元
- 第二个隐藏层包含3个神经元
- 第三个隐藏层包含2个神经元
![image.png](attachment:image.png)

要制定算法模型，需要实例化一个**Estimator**类。Tensorflow 提供了两类Estimator：
- 预制的Estimator，已经封装好的算法
- 自定义的Estimator，自己写算法实现
  
为了实现神经网络，这里使用预制的Estimator，tf.estimator.DNNClassfier

In [28]:
classifier = tf.estimator.DNNClassifier(
    feature_columns=construct_feature_columns(train_feature),
    hidden_units=[10, 10], # 2个隐藏层，每个隐藏层包含10个神经元
    n_classes=3 # 3个分类
)

INFO:tensorflow:Using default config.
INFO:tensorflow:Using config: {'_evaluation_master': '', '_keep_checkpoint_max': 5, '_service': None, '_session_config': None, '_save_checkpoints_secs': 600, '_is_chief': True, '_log_step_count_steps': 100, '_task_type': 'worker', '_num_worker_replicas': 1, '_save_summary_steps': 100, '_task_id': 0, '_save_checkpoints_steps': None, '_master': '', '_cluster_spec': <tensorflow.python.training.server_lib.ClusterSpec object at 0x000001B06F133E80>, '_keep_checkpoint_every_n_hours': 10000, '_global_id_in_cluster': 0, '_model_dir': 'C:\\Users\\ADMINI~1\\AppData\\Local\\Temp\\tmp0kulxzpl', '_num_ps_replicas': 0, '_tf_random_seed': None}


tf.estimator.DNNClassifier的构造函数中还有一个配置参数叫**optimizer**，用来控制如何训练模型。

## 训练模型

实例化**tf.estimator.DNNClassfier**创建了一个学习模型的框架。基本上我们已经拥有了一个神经网络，但是还没有数据进行训练。为了训练神经网络，调用模型的**train**方法

In [41]:
classifier.train(
    input_fn=lambda: train_input_fn(train_feature, train_label, 1),
    steps=1000 # 指定迭代训练次数后停止
)

INFO:tensorflow:Calling model_fn.
INFO:tensorflow:Done calling model_fn.
INFO:tensorflow:Create CheckpointSaverHook.
INFO:tensorflow:Graph was finalized.
INFO:tensorflow:Restoring parameters from C:\Users\ADMINI~1\AppData\Local\Temp\tmp0kulxzpl\model.ckpt-4100
INFO:tensorflow:Running local_init_op.
INFO:tensorflow:Done running local_init_op.
INFO:tensorflow:Saving checkpoints for 4101 into C:\Users\ADMINI~1\AppData\Local\Temp\tmp0kulxzpl\model.ckpt.
INFO:tensorflow:loss = 8.70224e-06, step = 4101
INFO:tensorflow:global_step/sec: 997.278
INFO:tensorflow:loss = 0.0, step = 4201 (0.101 sec)
INFO:tensorflow:global_step/sec: 1488.68
INFO:tensorflow:loss = 0.04366326, step = 4301 (0.067 sec)
INFO:tensorflow:global_step/sec: 1813.38
INFO:tensorflow:loss = 6.3180723e-06, step = 4401 (0.054 sec)
INFO:tensorflow:global_step/sec: 1690.41
INFO:tensorflow:loss = 6.079655e-06, step = 4501 (0.060 sec)
INFO:tensorflow:global_step/sec: 1749.73
INFO:tensorflow:loss = 5.960463e-07, step = 4601 (0.057 sec

<tensorflow.python.estimator.canned.dnn.DNNClassifier at 0x1b06f133c50>

**steps**是一个可以进行调优的超参数。与直觉相反，训练一个模型的时间越长，就越不能保证模型更优。  
**input_fn**是输入参数，用来定义如何提供数据。

In [38]:
def train_input_fn(features, labels, batch_size):
    """
    训练输入函数
    paramters
    features: 特征向量
    labels: 标签向量
    batch_size: 训练规模，一个批次样本数量
    """
    ds = tf.data.Dataset.from_tensor_slices((dict(features), labels))
    ds = ds.batch(batch_size).repeat().shuffle(10000)
    
    return ds

train_input_fn依赖**Dataset API**，它用于读取数据并转换为train方法所需要的形式。
**tf.data.Dataset.shuffle**：