In [1]:
import tensorflow as tf

# 说明：

tf.data模块，和tf.keras模块一样，都是TF2.0的核心模块之一！

tf.data模块主要负责将极其方便的数据形式（list、dict、ndarray等）转为TF能使用的样本数据类型Dataset！并且TF2.0可以直接对转成的Dataset进行迭代！
把输入数据的每一个元素，变成Dataset中的一个**组件**。—— 要求：每个组件，形状和属性必须是一致的！

所用的函数：
- tf.data.Dataset.from_tensor_slices()  —— 里面的参数可以numpy和list，直接被转为对应的tensor（tf.data.Dataset对象类型）
- Dataset.zip()  —— 可以把多个tf.data.Dataset类型合并为一个！

### 使用一维list：

In [2]:
# 使用list：
dataset = tf.data.Dataset.from_tensor_slices( [1,2,3,4,5,6] )

In [3]:
# 可直接迭代：每一个元素都已转为了Tenor类型，是TF的数据类型（很好理解）；每个元素就是一个数字，0维的，故shape就是()
for ele in dataset:
    print(ele)

tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(5, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)


In [7]:
# 也可以转再把tensor转为它的numpy数据类型：tf2.0的新方法！
for ele in dataset:
    print( ele.numpy() )

1
2
3
4
5
6


### 使用二维list：

In [5]:
list2d = [ [1,2,3], [4,5,6], [7,8,9] ]  # 每个元素必须长度相等！
dataset_list2d = tf.data.Dataset.from_tensor_slices(list2d)

In [6]:
# shape是(3,)，意思就是：一维的，长度是3
for ele in dataset_list2d:
    print(ele)

tf.Tensor([1 2 3], shape=(3,), dtype=int32)
tf.Tensor([4 5 6], shape=(3,), dtype=int32)
tf.Tensor([7 8 9], shape=(3,), dtype=int32)


### 使用字典：

In [7]:
dic = { 'a':[1,2,3,4], 'b':[6,7,8,9], 'c':[12,13,14,15] }
dataset_dic = tf.data.Dataset.from_tensor_slices(dic)

In [8]:
# 把字典按“键”拆开了：一个4个组件！每个组件是从“所有键”中提取对应位置的元素！
for ele in dataset_dic:
    print(ele)

{'a': <tf.Tensor: id=33, shape=(), dtype=int32, numpy=1>, 'b': <tf.Tensor: id=34, shape=(), dtype=int32, numpy=6>, 'c': <tf.Tensor: id=35, shape=(), dtype=int32, numpy=12>}
{'a': <tf.Tensor: id=36, shape=(), dtype=int32, numpy=2>, 'b': <tf.Tensor: id=37, shape=(), dtype=int32, numpy=7>, 'c': <tf.Tensor: id=38, shape=(), dtype=int32, numpy=13>}
{'a': <tf.Tensor: id=39, shape=(), dtype=int32, numpy=3>, 'b': <tf.Tensor: id=40, shape=(), dtype=int32, numpy=8>, 'c': <tf.Tensor: id=41, shape=(), dtype=int32, numpy=14>}
{'a': <tf.Tensor: id=42, shape=(), dtype=int32, numpy=4>, 'b': <tf.Tensor: id=43, shape=(), dtype=int32, numpy=9>, 'c': <tf.Tensor: id=44, shape=(), dtype=int32, numpy=15>}


In [16]:
dataset_dic

<TensorSliceDataset shapes: {a: (), b: (), c: ()}, types: {a: tf.int32, b: tf.int32, c: tf.int32}>

### 使用一维ndarray：和一维list一样

In [13]:
import numpy as np

In [14]:
data_1darray = np.array( [1,2,3,4,5,6] )
dataset_1dnarray = tf.data.Dataset.from_tensor_slices(data_1darray)

In [15]:
for ele in dataset_1dnarray:
    print(ele)

tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)
tf.Tensor(4, shape=(), dtype=int32)
tf.Tensor(5, shape=(), dtype=int32)
tf.Tensor(6, shape=(), dtype=int32)


In [17]:
for ele in dataset_1dnarray:
    print( ele.numpy() )

1
2
3
4
5
6


**补充：取出其中的前几个：dataset.take()**

In [18]:
for ele in dataset_1dnarray.take(3):  # 取前3个
    print(ele)

tf.Tensor(1, shape=(), dtype=int32)
tf.Tensor(2, shape=(), dtype=int32)
tf.Tensor(3, shape=(), dtype=int32)


### 使用二维数组：和二维list一样

In [16]:
data_2darray = np.array( [ [1,2,3], [4,5,6],[7,8,9] ] ) # 二维数组
dataset_2darray = tf.data.Dataset.from_tensor_slices( data_2darray )

In [18]:
for ele in dataset_2darray:
    print(ele)

tf.Tensor([1 2 3], shape=(3,), dtype=int32)
tf.Tensor([4 5 6], shape=(3,), dtype=int32)
tf.Tensor([7 8 9], shape=(3,), dtype=int32)


### 使用三维数组：每个张量组件是2维的（好理解）！

In [19]:
data_3darray = np.zeros( (4,3,3) ) + 2.1
dataset_3darray = tf.data.Dataset.from_tensor_slices( data_3darray )

In [20]:
for ele in dataset_3darray:
    print(ele)

tf.Tensor(
[[2.1 2.1 2.1]
 [2.1 2.1 2.1]
 [2.1 2.1 2.1]], shape=(3, 3), dtype=float64)
tf.Tensor(
[[2.1 2.1 2.1]
 [2.1 2.1 2.1]
 [2.1 2.1 2.1]], shape=(3, 3), dtype=float64)
tf.Tensor(
[[2.1 2.1 2.1]
 [2.1 2.1 2.1]
 [2.1 2.1 2.1]], shape=(3, 3), dtype=float64)
tf.Tensor(
[[2.1 2.1 2.1]
 [2.1 2.1 2.1]
 [2.1 2.1 2.1]], shape=(3, 3), dtype=float64)


### 使用四维数组：每个张量组件是3维的（好理解）！

In [22]:
data_4darray = np.zeros( (4,3,4,4) ) + 2.1
dataset_4darray = tf.data.Dataset.from_tensor_slices( data_4darray )

In [23]:
for ele in dataset_4darray:
    print(ele)

tf.Tensor(
[[[2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]]

 [[2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]]

 [[2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]]], shape=(3, 4, 4), dtype=float64)
tf.Tensor(
[[[2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]]

 [[2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]]

 [[2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]]], shape=(3, 4, 4), dtype=float64)
tf.Tensor(
[[[2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]]

 [[2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]]

 [[2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]]], shape=(3, 4, 4), dtype=float64)
tf.Tensor(
[[[2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.1]]

 [[2.1 2.1 2.1 2.1]
  [2.1 2.1 2.1 2.

### 使用字典：

In [24]:
data_dict = { 'a':[1,2,3,4], 'b':[5,6,7,8], 'c':[9,10,11,12]  }
dataset_dict = tf.data.Dataset.from_tensor_slices( data_dict )

In [30]:
# 实际就是“把字典按键”切开了：每个键中相同位置的值，组成一个新键值对。
for ele in dataset_dict:
    print(ele, '\n')

{'a': <tf.Tensor: id=136, shape=(), dtype=int32, numpy=1>, 'b': <tf.Tensor: id=137, shape=(), dtype=int32, numpy=5>, 'c': <tf.Tensor: id=138, shape=(), dtype=int32, numpy=9>} 

{'a': <tf.Tensor: id=139, shape=(), dtype=int32, numpy=2>, 'b': <tf.Tensor: id=140, shape=(), dtype=int32, numpy=6>, 'c': <tf.Tensor: id=141, shape=(), dtype=int32, numpy=10>} 

{'a': <tf.Tensor: id=142, shape=(), dtype=int32, numpy=3>, 'b': <tf.Tensor: id=143, shape=(), dtype=int32, numpy=7>, 'c': <tf.Tensor: id=144, shape=(), dtype=int32, numpy=11>} 

{'a': <tf.Tensor: id=145, shape=(), dtype=int32, numpy=4>, 'b': <tf.Tensor: id=146, shape=(), dtype=int32, numpy=8>, 'c': <tf.Tensor: id=147, shape=(), dtype=int32, numpy=12>} 



In [32]:
type(ele), ele.keys(), len(ele)

(dict, dict_keys(['a', 'b', 'c']), 3)