In [1]:
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import sklearn
import pandas as pd
import os
import sys
import time
import tensorflow as tf

from tensorflow import keras

print(tf.__version__)
print(sys.version_info)
for module in mpl, np, pd, sklearn, tf, keras:
    print(module.__name__, module.__version__)

2.0.0-alpha0
sys.version_info(major=3, minor=7, micro=3, releaselevel='final', serial=0)
matplotlib 3.0.3
numpy 1.16.2
pandas 0.24.2
sklearn 0.20.3
tensorflow 2.0.0-alpha0
tensorflow.python.keras.api._v2.keras 2.2.4-tf


In [2]:
# 用内存中的数据构建 Dataset

dataset = tf.data.Dataset.from_tensor_slices(np.arange(10))   # 可以接受一个数列、np 数组、字典
print(dataset)   # <类型 shapes: (大小), types: 存储数据的类型>   --- 得到一个可迭代对象

<TensorSliceDataset shapes: (), types: tf.int64>


In [3]:
for item in dataset:   # 每一个元素都是一个 tensor
    print(item)

tf.Tensor(0, shape=(), dtype=int64)
tf.Tensor(1, shape=(), dtype=int64)
tf.Tensor(2, shape=(), dtype=int64)
tf.Tensor(3, shape=(), dtype=int64)
tf.Tensor(4, shape=(), dtype=int64)
tf.Tensor(5, shape=(), dtype=int64)
tf.Tensor(6, shape=(), dtype=int64)
tf.Tensor(7, shape=(), dtype=int64)
tf.Tensor(8, shape=(), dtype=int64)
tf.Tensor(9, shape=(), dtype=int64)


In [4]:
# 对数据集的常用操作

# 1. repeat（重复读取） epoch（遍历数据集的次数--迭代次数）  --- 返回还是一个 Dataset 对象
# 2. get batch（每次取一部分进行迭代）   --- 返回还是一个 Dataset 对象
dataset = dataset.repeat(3).batch(7)   # 遍历三次数据集，每次取 7 个数据
for item in dataset:
    print(item)

tf.Tensor([0 1 2 3 4 5 6], shape=(7,), dtype=int64)
tf.Tensor([7 8 9 0 1 2 3], shape=(7,), dtype=int64)
tf.Tensor([4 5 6 7 8 9 0], shape=(7,), dtype=int64)
tf.Tensor([1 2 3 4 5 6 7], shape=(7,), dtype=int64)
tf.Tensor([8 9], shape=(2,), dtype=int64)


In [5]:
# 对每一个数据元素进行同一处理（map & reduce！！！） 
# 例如，一个文件里存的是文件名、、、、、把文件名对应的文件读取出来形成一个新的 Dataset、、、、再用 interleave把这些数据集合并起来

# interleave: 其他应用例子
# case: 文件dataset -> 具体数据集

dataset2 = dataset.interleave(
    lambda v: tf.data.Dataset.from_tensor_slices(v), # map_fn  --- 要做什么处理（定义函数）
    cycle_length = 5, # cycle_length  --- 并行程度
    block_length = 5, # block_length  --- 从以上处理中取多少元素返回（有均匀样本的功能）
)
for item in dataset2:
    print(item)

tf.Tensor(0, shape=(), dtype=int64)
tf.Tensor(1, shape=(), dtype=int64)
tf.Tensor(2, shape=(), dtype=int64)
tf.Tensor(3, shape=(), dtype=int64)
tf.Tensor(4, shape=(), dtype=int64)
tf.Tensor(7, shape=(), dtype=int64)
tf.Tensor(8, shape=(), dtype=int64)
tf.Tensor(9, shape=(), dtype=int64)
tf.Tensor(0, shape=(), dtype=int64)
tf.Tensor(1, shape=(), dtype=int64)
tf.Tensor(4, shape=(), dtype=int64)
tf.Tensor(5, shape=(), dtype=int64)
tf.Tensor(6, shape=(), dtype=int64)
tf.Tensor(7, shape=(), dtype=int64)
tf.Tensor(8, shape=(), dtype=int64)
tf.Tensor(1, shape=(), dtype=int64)
tf.Tensor(2, shape=(), dtype=int64)
tf.Tensor(3, shape=(), dtype=int64)
tf.Tensor(4, shape=(), dtype=int64)
tf.Tensor(5, shape=(), dtype=int64)
tf.Tensor(8, shape=(), dtype=int64)
tf.Tensor(9, shape=(), dtype=int64)
tf.Tensor(5, shape=(), dtype=int64)
tf.Tensor(6, shape=(), dtype=int64)
tf.Tensor(2, shape=(), dtype=int64)
tf.Tensor(3, shape=(), dtype=int64)
tf.Tensor(9, shape=(), dtype=int64)
tf.Tensor(0, shape=(), dtype

In [6]:
x = np.array([[1, 2], [3, 4], [5, 6]])   # 接收一个元组输入
y = np.array(['cat', 'dog', 'fox'])     # 接收一个列表输入
dataset3 = tf.data.Dataset.from_tensor_slices((x, y))   # 接受同样长度 np array的输入
print(dataset3)

for item_x, item_y in dataset3:
    print(item_x.numpy(), item_y.numpy())    # .numpy() 取得tf.Tensor里具体的值

<TensorSliceDataset shapes: ((2,), ()), types: (tf.int64, tf.string)>
[1 2] b'cat'
[3 4] b'dog'
[5 6] b'fox'


In [7]:
dataset4 = tf.data.Dataset.from_tensor_slices({"feature": x,   
                                               "label": y})    # 接受一个字典输入
for item in dataset4:
    print(item["feature"].numpy(), item["label"].numpy())   # 结果相同

[1 2] b'cat'
[3 4] b'dog'
[5 6] b'fox'
