# Preprocessing With TF

<b>Topics:</b>
<ol>
    <li>Reading in datasets</li>
    <li>Iterators (iterate over datasets using TF)</li><ul>
        <li>one-shot</li>
        <li>initializable</li>
        <li>reinitializable</li>
        <li>feedable</li></ul>
    <li>Preprocessing functions</li><ul>
        <li>load and apply transforms</li></ul>
    <li>Batching data</li>
</ol>


# 1 Reading in datasets

In [1]:
import numpy as np
import tensorflow as tf
import os

  from ._conv import register_converters as _register_converters


In [2]:
## 從output_data_path讀取 .npy 檔
output_data_path  = "./output_data"
Xtr = np.load(os.path.join(output_data_path, "Xtr.npy"))
Ytr = np.load(os.path.join(output_data_path, "Ytr.npy"))

<h3>參考資料：</h3>
<p><a href="https://www.hksilicon.com/articles/1471783" target="_blank" rel="noopener">TensorFlow全新的數據讀取方式：Dataset API入門教程</a></p>
<p><a href="http://libowei.net/TensorFlow%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%9AImporting-Data.html" target="_blank" rel="noopener">TensorFlow学习笔记：Importing Data</a></p>
<p><a href="https://www.jianshu.com/p/78467f297ab5" target="_blank" rel="noopener">tensorflow读取数据-tfrecord格式</a></p>
<p><a href="https://zhuanlan.zhihu.com/p/31992460" target="_blank" rel="noopener">tensorflow TFRecords文件的生成和读取方法</a></p>

In [3]:
## 元組型態
training = tf.data.Dataset.from_tensor_slices((Xtr, Ytr))

print(training.output_types)
print(training.output_shapes)

(tf.float64, tf.float64)
(TensorShape([Dimension(3)]), TensorShape([]))


In [4]:
## 字典型態

training2 = tf.data.Dataset.from_tensor_slices({"Xtr" : Xtr, "Ytr" : Ytr})

print(training2.output_types)
print(training2.output_shapes)

{'Xtr': tf.float64, 'Ytr': tf.float64}
{'Xtr': TensorShape([Dimension(3)]), 'Ytr': TensorShape([])}


<h3>Other options</h3><ul>
    <li>TFRecordDataset</li>
    <li>TextLineDataset</li>
</ul>

# Iterators

In [5]:
len(Xtr)

131

In [6]:
iterator = training2.make_one_shot_iterator()  ## 把資料集當成一整個迭代器
next_element = iterator.get_next()
sess = tf.Session()

for  i in range(131):
    value = sess.run(next_element)    ##  每一次我們取 next_element 時，就會從迭代器(iterator)取資料
    print("第 %d 個元素； "%(i+1), end="")
    print(value["Ytr"])

第 1 個元素； 23.0
第 2 個元素； 25.0
第 3 個元素； 33.0
第 4 個元素； 36.0
第 5 個元素； 31.0
第 6 個元素； 35.0
第 7 個元素； 24.0
第 8 個元素； 31.0
第 9 個元素； 30.0
第 10 個元素； 29.0
第 11 個元素； 34.0
第 12 個元素； 30.0
第 13 個元素； 28.0
第 14 個元素； 35.0
第 15 個元素； 32.0
第 16 個元素； 35.0
第 17 個元素； 25.0
第 18 個元素； 31.0
第 19 個元素； 35.0
第 20 個元素； 30.0
第 21 個元素； 29.0
第 22 個元素； 33.0
第 23 個元素； 29.0
第 24 個元素； 34.0
第 25 個元素； 31.0
第 26 個元素； 28.0
第 27 個元素； 33.0
第 28 個元素； 33.0
第 29 個元素； 23.0
第 30 個元素； 31.0
第 31 個元素； 29.0
第 32 個元素； 32.0
第 33 個元素； 28.0
第 34 個元素； 30.0
第 35 個元素； 32.0
第 36 個元素； 38.0
第 37 個元素； 41.0
第 38 個元素； 32.0
第 39 個元素； 30.0
第 40 個元素； 35.0
第 41 個元素； 34.0
第 42 個元素； 31.0
第 43 個元素； 33.0
第 44 個元素； 28.0
第 45 個元素； 39.0
第 46 個元素； 33.0
第 47 個元素； 30.0
第 48 個元素； 39.0
第 49 個元素； 31.0
第 50 個元素； 31.0
第 51 個元素； 29.0
第 52 個元素； 24.0
第 53 個元素； 26.0
第 54 個元素； 36.0
第 55 個元素； 31.0
第 56 個元素； 34.0
第 57 個元素； 30.0
第 58 個元素； 36.0
第 59 個元素； 42.0
第 60 個元素； 40.0
第 61 個元素； 34.0
第 62 個元素； 32.0
第 63 個元素； 30.0
第 64 個元素； 26.0
第 65 個元素； 28.0
第 66 個元素； 38.0
第 67 個元素； 26.0
第 68

<h3>如果取太多

In [7]:
iterator = training2.make_one_shot_iterator()
next_element = iterator.get_next()
sess = tf.Session()

for  i in range(132):
    value = sess.run(next_element)
    print("第 %d 個元素； "%(i+1), end="")
    print(value["Ytr"])
    
## => 會有 OutOfRangeError

第 1 個元素； 23.0
第 2 個元素； 25.0
第 3 個元素； 33.0
第 4 個元素； 36.0
第 5 個元素； 31.0
第 6 個元素； 35.0
第 7 個元素； 24.0
第 8 個元素； 31.0
第 9 個元素； 30.0
第 10 個元素； 29.0
第 11 個元素； 34.0
第 12 個元素； 30.0
第 13 個元素； 28.0
第 14 個元素； 35.0
第 15 個元素； 32.0
第 16 個元素； 35.0
第 17 個元素； 25.0
第 18 個元素； 31.0
第 19 個元素； 35.0
第 20 個元素； 30.0
第 21 個元素； 29.0
第 22 個元素； 33.0
第 23 個元素； 29.0
第 24 個元素； 34.0
第 25 個元素； 31.0
第 26 個元素； 28.0
第 27 個元素； 33.0
第 28 個元素； 33.0
第 29 個元素； 23.0
第 30 個元素； 31.0
第 31 個元素； 29.0
第 32 個元素； 32.0
第 33 個元素； 28.0
第 34 個元素； 30.0
第 35 個元素； 32.0
第 36 個元素； 38.0
第 37 個元素； 41.0
第 38 個元素； 32.0
第 39 個元素； 30.0
第 40 個元素； 35.0
第 41 個元素； 34.0
第 42 個元素； 31.0
第 43 個元素； 33.0
第 44 個元素； 28.0
第 45 個元素； 39.0
第 46 個元素； 33.0
第 47 個元素； 30.0
第 48 個元素； 39.0
第 49 個元素； 31.0
第 50 個元素； 31.0
第 51 個元素； 29.0
第 52 個元素； 24.0
第 53 個元素； 26.0
第 54 個元素； 36.0
第 55 個元素； 31.0
第 56 個元素； 34.0
第 57 個元素； 30.0
第 58 個元素； 36.0
第 59 個元素； 42.0
第 60 個元素； 40.0
第 61 個元素； 34.0
第 62 個元素； 32.0
第 63 個元素； 30.0
第 64 個元素； 26.0
第 65 個元素； 28.0
第 66 個元素； 38.0
第 67 個元素； 26.0
第 68



<h3>解決方法


In [10]:
iterator = training2.make_one_shot_iterator()
next_element = iterator.get_next()
sess = tf.Session()

for  i in range(132):
    print("第 %d 個元素； "%(i+1), end="")
    try:
        value = sess.run(next_element)
        print(value["Ytr"])
    except tf.errors.OutOfRangeError as e :
        print("No More Data!")

第 1 個元素； 23.0
第 2 個元素； 25.0
第 3 個元素； 33.0
第 4 個元素； 36.0
第 5 個元素； 31.0
第 6 個元素； 35.0
第 7 個元素； 24.0
第 8 個元素； 31.0
第 9 個元素； 30.0
第 10 個元素； 29.0
第 11 個元素； 34.0
第 12 個元素； 30.0
第 13 個元素； 28.0
第 14 個元素； 35.0
第 15 個元素； 32.0
第 16 個元素； 35.0
第 17 個元素； 25.0
第 18 個元素； 31.0
第 19 個元素； 35.0
第 20 個元素； 30.0
第 21 個元素； 29.0
第 22 個元素； 33.0
第 23 個元素； 29.0
第 24 個元素； 34.0
第 25 個元素； 31.0
第 26 個元素； 28.0
第 27 個元素； 33.0
第 28 個元素； 33.0
第 29 個元素； 23.0
第 30 個元素； 31.0
第 31 個元素； 29.0
第 32 個元素； 32.0
第 33 個元素； 28.0
第 34 個元素； 30.0
第 35 個元素； 32.0
第 36 個元素； 38.0
第 37 個元素； 41.0
第 38 個元素； 32.0
第 39 個元素； 30.0
第 40 個元素； 35.0
第 41 個元素； 34.0
第 42 個元素； 31.0
第 43 個元素； 33.0
第 44 個元素； 28.0
第 45 個元素； 39.0
第 46 個元素； 33.0
第 47 個元素； 30.0
第 48 個元素； 39.0
第 49 個元素； 31.0
第 50 個元素； 31.0
第 51 個元素； 29.0
第 52 個元素； 24.0
第 53 個元素； 26.0
第 54 個元素； 36.0
第 55 個元素； 31.0
第 56 個元素； 34.0
第 57 個元素； 30.0
第 58 個元素； 36.0
第 59 個元素； 42.0
第 60 個元素； 40.0
第 61 個元素； 34.0
第 62 個元素； 32.0
第 63 個元素； 30.0
第 64 個元素； 26.0
第 65 個元素； 28.0
第 66 個元素； 38.0
第 67 個元素； 26.0
第 68

<h1>Preprocessing</h1>
<h3>Steps:</h3><ol>
    <li>Define your transformations</li>
    <li>Use Data.map(f) where f is a transformation</li>
</ol>

In [11]:
import pandas as pd

<b>Tensorflow ops

In [12]:
## define a transformation
## we will add noise to x

def input_fn(csv_file, feature_names= ["x1", "x2", "x3"] , noise=True):
    def decode_csv_add_noise(line, noise=noise):
        parsed_line = tf.decode_csv(line,  [[0.], [0.], [0.], [0.]])
        label = tf.stack(parsed_line[-1:])  # 最後一個元素是 label  # ADDED tf.stack 
        del parsed_line[-1]  ## 刪除最後一個元素
        features = tf.stack(parsed_line)   # 剩下的元素都是特徵     # ADDED tf.stack


        # 加入 noise
        if noise:
            features = tf.add(features, tf.random_normal(shape=  [len(parsed_line)] ,  ## 改
                                                        mean = 0,
                                                        stddev = 0.1))
        # print(len(features))
        # d = dict(zip(feature_names, features)), label
        return features, label

    dataset = (tf.data.TextLineDataset(csv_file)  # 讀取 text file
                .skip(1)   # 跳過攔頭
                .map(decode_csv_add_noise))  ## 使用我們自訂的 decode_csv_add_noise 來轉換每一格元素 

    iterator = dataset.make_one_shot_iterator()
    features, label = iterator.get_next()
    return features, label

In [17]:
next_ = input_fn(os.path.join(output_data_path,"data.csv"), noise=False)

with tf.Session() as s:
    X, y = s.run(next_)
    print(X, y)

[102.         3.134666  58.665855] [23.]


# Batching Date

We can easily batch data using

In [18]:
## define a transformation
## we will add noise to x

def input_fn(csv_file, feature_names= ["x1", "x2", "x3"] , batch_size=16, noise=True):
    def decode_csv_add_noise(line, noise=noise):
        parsed_line = tf.decode_csv(line,  [[0.], [0.], [0.], [0.]])
        label = tf.stack(parsed_line[-1:])  # 最後一個元素是 label  # ADDED tf.stack 
        del parsed_line[-1]  ## 刪除最後一個元素
        features = tf.stack(parsed_line)   # 剩下的元素都是特徵     # ADDED tf.stack

        # 加入 noise
        if noise:
            features = tf.add(features, tf.random_normal(shape=  [len(parsed_line)] ,  ## 改
                                                        mean = 0,
                                                        stddev = 0.1))
        # print(len(features))
        # d = dict(zip(feature_names, features)), label
        return features, label

    dataset = (tf.data.TextLineDataset(csv_file)  # 讀取 text file
                .skip(1)   # 跳過攔頭
                .map(decode_csv_add_noise))  ## 使用我們自訂的 decode_csv_add_noise 來轉換每一格元素 

    ##  差別 !!  多了 dataset.batch(batch_size)
    dataset = dataset.batch(batch_size)

    iterator = dataset.make_one_shot_iterator()
    batch_features, batch_labels = iterator.get_next()
    return batch_features, batch_labels

In [20]:
next_ = input_fn("data.csv", batch_size=10, noise=False)

with tf.Session() as s:
    batch = s.run(next_)
    print(batch[0])  # print X from batch
    print()
    print(batch[1])  # print Y from batch

[[102.          3.134666   58.665855 ]
 [105.         15.245371   78.98982  ]
 [ 83.          2.3910835  57.56431  ]
 [103.          9.606721   75.78387  ]
 [ 97.         11.134619   82.5471   ]
 [106.          8.270241   71.7693   ]
 [ 87.          7.2367363  69.221176 ]
 [132.         13.0684185  84.567604 ]
 [105.          3.2844145  68.50526  ]
 [ 94.         11.781596   67.92781  ]
 [108.          6.3509374  75.06494  ]
 [130.          8.885957   82.67174  ]
 [ 99.         10.429445   73.4739   ]
 [ 91.         12.433542   82.98668  ]
 [ 99.          8.214799   74.4258   ]
 [114.          5.810075   72.84722  ]]

[[23.]
 [25.]
 [29.]
 [33.]
 [36.]
 [31.]
 [35.]
 [24.]
 [31.]
 [21.]
 [34.]
 [30.]
 [29.]
 [39.]
 [34.]
 [30.]]
