# Estimators  tutorial

## 建立Estimator的步骤
1. pipline\
    功能：将数据以bitch的方式导入veriable中，只有把数据变成tf.data的格式，数据才可以在网络里流通\
    定义：input_fn（features, label, training, batch_size)。\
    函数: tf.data.Dataset.from_tensor_slices(feature, label)\
    
    
    
2. feature column\
    功能：在该步骤中，我们主要是把真实世界的描述性feature（长宽高）变成计算机能理解的label（数字，向量，矩阵等），而变换后的features将作为estimator的输入\
    定义：my_feature_columns.append(tf.feature_column.numeric_column(key=key_discribe))
        说明：key_discribe是原来数据的label，key接收到以后，会转换成数字，并记住数字和原来的label之间的关系
    函数：tf.feature_column


3. estimator
    功能：建立神经网络的结构（输入，输出，优化器，层数，节点个数）
    定义：tf.estimator.DNNClassifier（feature_columns，n_classes）
    说明：在这里feature_columns是通过tf.feature_column产生的feature,表示数据有多少个属性。 n_classes决定了输出的种类）
   

4. train\
    功能：让estimator跑起来！！\
    函数：classifier.train(
          input_fn=lambda:input_fn(train,train_label,training=True),#pipline给输入
          steps = 5000)
    说明：数据流：原始数据从input_fn成批（batch）的进入到estimator中， 在estimator中，数据的原始features被一对一的自动对照着你新给的feature list，换成了数字化的features。而后参与计算
    
    
5. evaluation & predition\
    这里需要重新定义一个input_fn_pred，去掉label参数，但evaluation的pipline可以用原来的input_fn。


tips:\
        input_fn在train，evaluation中，输入的是feature数据+label，因此estimator收到的也是这两个。\
        对于prediction而言，estimator收到是一个，即只有feature数据。

In [1]:
from __future__ import absolute_import, division, print_function, unicode_literals

try:
  # Colab only
  %tensorflow_version 2.x
except Exception:
    pass

import tensorflow as tf

import pandas as pd

## 定义一些属性
该属性包括 长度，宽度，品种

In [2]:
CSV_COLUMN_NAMES = ['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth', 'Species']
SPECIES = ['Setosa', 'Versicolor', 'Virginica']

## 设置下载目录

In [54]:
import os
#path = os.path.abspath("flower datasate")#如果直接在abspath后面写，（不要以/开头），则是当前文件夹绝对目录的子目录
abs_path = os.path.abspath("")#当前运行文件的文件夹，
path = os.path.dirname(abs_path)#文件夹的文件夹——父层文件夹
print(abs_path)
print(path)

dataset_path = path+"/database/flower"
print(dataset_path)

/Users/allen/Desktop/tensorflow/TensorFlow session
/Users/allen/Desktop/tensorflow
/Users/allen/Desktop/tensorflow/database/flower


In [28]:
if os.path.exists(dataset_path):
    pass
else:
    os.mkdir(dataset_path)


## 下载数据

In [56]:
train_path = tf.keras.utils.get_file(
    "iris_training.csv", "https://storage.googleapis.com/download.tensorflow.org/data/iris_training.csv",
    cache_dir = dataset_path)
test_path = tf.keras.utils.get_file(
    "iris_test.csv", "https://storage.googleapis.com/download.tensorflow.org/data/iris_test.csv",
    cache_dir = dataset_path)

train = pd.read_csv(train_path, names=CSV_COLUMN_NAMES, header=0)
test = pd.read_csv(test_path, names=CSV_COLUMN_NAMES, header=0)

In [57]:
train.head()

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Species
0,6.4,2.8,5.6,2.2,2
1,5.0,2.3,3.3,1.0,1
2,4.9,2.5,4.5,1.7,2
3,4.9,3.1,1.5,0.1,0
4,5.7,3.8,1.7,0.3,0


In [58]:
train_label = train.pop('Species')#把species这一栏数据全剔除掉，并将剔除掉的放在test_label中
test_label = test.pop('Species')

# 标签列现已从数据中删除
train.head()


Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth
0,6.4,2.8,5.6,2.2
1,5.0,2.3,3.3,1.0
2,4.9,2.5,4.5,1.7
3,4.9,3.1,1.5,0.1
4,5.7,3.8,1.7,0.3


这个表格是pandas，当然也可以看成dict类型的数据。  
其中sepalLength是key，而对应该列的数都是value

## 加载数据的方法
利用from_tensor_slices 的方法， 把数据获取，并拆分第一维度，放在变量中。  
利用dataset把数据变成dataset type的variable，可以让数据在python中流通，不然数据不加载为dataset class，那么数据无法被处理和加工。

### 利用input_fn函数将数据分批的导入到train里面

In [82]:
def input_fn(features, labels, training=True, batch_size=256):
    """An input function for training or evaluating"""

    # 将输入转换为数据集。
    dataset = tf.data.Dataset.from_tensor_slices((dict(features), labels))

    # 如果在训练模式下混淆并重复数据。
    if training:
        dataset = dataset.shuffle(1000).repeat()
                                    #如果training状态下，需要对dataset进行shuffle
                                    #如果不是的话，不需要shuffle。
                                    #repeat等于把数据*count次，数据库会通过重复的方式被扩大，没有参数的时候是一直重复
    
    return dataset.batch(batch_size)#返回的是1个batch的数据，batch的数目决定了slices的个数。



这个函数的主要功能在于：  
1. 数据变成dataset
2. 数据被shuffle和repeat
3. 不管是不是train，返回的都是a batch of slices的数据

## feature column
按feature的顺序建立一个新的数字list。\
tf.feature column()起到的作用是，把原始数据中的feature，比如 长度，宽度，高度等，变成适合model去理解的数据形态，比如我们可以让“1”表示长度，“2”表示宽度，“3”表示高度等，此时我们的数据形式就从：  
高度：4  ==>  3:4\
这里可以看懂 3:4，很明显，计算机就很好理解了。\
当然，转换feature的方式并不只是一种，即名称变成数字，还有例如one-hot等，但其目的都是一样的，就是把文字数字化，成为计算机好立即的方式。

### feature_column.numeric_column()
这个函数的目的是把feature变成数字化的特征。例如把“高度”变成1，或者 vector（0，1，3，4），甚至是矩阵。

In [40]:
# 特征列描述了如何使用输入。
my_feature_columns = []
for key in train.keys():
    my_feature_columns.append(tf.feature_column.numeric_column(key=key))


In [41]:
print(train.keys())
print(my_feature_columns)

Index(['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth'], dtype='object')
[NumericColumn(key='SepalLength', shape=(1,), default_value=None, dtype=tf.float32, normalizer_fn=None), NumericColumn(key='SepalWidth', shape=(1,), default_value=None, dtype=tf.float32, normalizer_fn=None), NumericColumn(key='PetalLength', shape=(1,), default_value=None, dtype=tf.float32, normalizer_fn=None), NumericColumn(key='PetalWidth', shape=(1,), default_value=None, dtype=tf.float32, normalizer_fn=None)]


可以看到，我们已经把所有key都加载到了Numeric Column中了，这个时候，所有feature在这里面都是一个数字了

## 实例化Estimator
Tensorflow 已经预先给出了一些典型的estimator   
1. tf.estimator.DNNClassifier 用于多类别分类的深度模型   
2. tf.estimator.DNNLinearCombinedClassifier 用于广度与深度模型   
3. tf.estimator.LinearClassifier 用于基于线性模型的分类器   

In [50]:
classifier = tf.estimator.DNNClassifier(
                feature_columns=my_feature_columns,
                hidden_units=[30,10],
                            #说明层数的hidden_layer，第一层是30，第二层是10个
                n_classes=3)

W0824 21:47:47.995589 4585059776 estimator.py:1811] Using temporary folder as model directory: /var/folders/l4/g9rjy7n51jb1sm54js4hpjdc0000gn/T/tmptczfs9d3


# 训练模型
在estimator中，其主要借鉴了sklearn的train功能，即只要用train一句话，既可完成模型的训练

### train and  evaluate tutorial 

In [60]:
classifier.train(
    input_fn=lambda:input_fn(train,train_label,training=True),
    steps = 5000)

W0824 22:20:25.021616 4585059776 deprecation.py:323] From /Users/allen/anaconda3/lib/python3.7/site-packages/tensorflow_estimator/python/estimator/head/base_head.py:574: to_float (from tensorflow.python.ops.math_ops) is deprecated and will be removed in a future version.
Instructions for updating:
Use `tf.cast` instead.
W0824 22:20:25.193869 4585059776 deprecation.py:506] From /Users/allen/anaconda3/lib/python3.7/site-packages/tensorflow/python/keras/optimizer_v2/adagrad.py:105: calling Constant.__init__ (from tensorflow.python.ops.init_ops) with dtype is deprecated and will be removed in a future version.
Instructions for updating:
Call initializer instance with the dtype argument instead of passing it to the constructor
W0824 22:20:25.608551 4585059776 deprecation.py:323] From /Users/allen/anaconda3/lib/python3.7/site-packages/tensorflow/python/ops/array_ops.py:1340: add_dispatch_support.<locals>.wrapper (from tensorflow.python.ops.array_ops) is deprecated and will be removed in a fu

<tensorflow_estimator.python.estimator.canned.dnn.DNNClassifierV2 at 0x630ac50b8>

## Evaluate
.evalute 是train的一个method  

In [64]:
eval_result = classifier.evaluate(
        input_fn =  lambda:input_fn(test,test_y,training=False))

print('\nTest set accuracy: {accuracy:0.3f}\n'.format(**eval_result))


Test set accuracy: 0.700



这里，没有设置step，只要我们把training = false，而后就不shuffle，也不repeat了，当一个epech（全部的都遍历一遍）结束的时候，就结束evaluate了

## prediction（without label）

## 建立一个input

1. 必须要输入是 dict type的 { feature1 : [val1,val2,val3], feature2 : ... }
2. input_fn_pred 与input_fn_eval 和 input_fn_train最大的不同是： 函数的输入没有label了！！！！ 因为predict本身也是没有label的，因此我们需要重新定义自己的input_fn来满足prediction的数据输入。

In [80]:
# 由模型生成预测
expected = ['Setosa', 'Versicolor', 'Virginica']
predict_x = {
    'SepalLength': [5.1, 5.9, 6.9],
    'SepalWidth': [3.3, 3.0, 3.1],
    'PetalLength': [1.7, 4.2, 5.4],
    'PetalWidth': [0.5, 1.5, 2.1],
}

def input_fn_pred(features, batch_size=256):
    """An input function for prediction."""
    # 将输入转换为无标签数据集。
    return tf.data.Dataset.from_tensor_slices(dict(features)).batch(batch_size)

predictions = classifier.predict(
    input_fn=lambda: input_fn_pred(predict_x))


predict和train和evaluate完全相同，都是从input_fn中拿一个batch的数据（多少片数据），而后放到网络中，得到数据。   

In [81]:
for pred_dict, expec in zip(predictions, expected):
    class_id = pred_dict['class_ids'][0]
    probability = pred_dict['probabilities'][class_id]

    print('Prediction is "{}" ({:.1f}%), expected "{}"'.format(
        SPECIES[class_id], 100 * probability, expec))

Prediction is "Setosa" (60.4%), expected "Setosa"
Prediction is "Versicolor" (43.1%), expected "Versicolor"
Prediction is "Virginica" (59.1%), expected "Virginica"
