# Data Container

![TensorFlow 数据类型](./images/data_struct.png)

**why: 为什么 TensorFlow 使用 Tensor 这种数据类型？**
A:
- 从python的list可以存储多种数据类型，但是它不利于进行数学运算
- 接着有了numpy，numpy是支持各种数学运算的科学计算库，但是它无法满足深度学习技术的一些基本需求，比如说：不支持GPU运算，不支持自动求导
- Tensor的出现就就弥补了numpy在深度学习上的不足，既能用于科学计算，也能支持GPU运算、自动求导。Tensor可以与numpy进行互相转换，或者说TensorFlow用类似于numpy的使用方式让程序员更加容易上手。

**what: Tensor具体是怎么样的数据类型？**

A:

|  dim   | type       | example |
|  ----  | ----       | ---     |
| dim=0  | scalar 标量 | 1.1     |  
| dim=1  | vector 向量 | [1.1]   |
| dim=2  | matrix 矩阵 | [[1.1,2.2], [3.3,4.4]] |
| dim>2  | tensor 张量 | |

从数学上来讲，dim大于2的是张量，但是在TensorFlow中可以认为所有的数据都是张量，即使dim为0的标量，也可以将它看成是一个tensor(张量)

**Q: Tensor 的类型？**

A: 
- int, float, double
- bool
- string
Tensor主要用于科学计算，想来主要用int,float,double这些类型就好了呀，为什么会用到bool和string呢？
其实也不必纠结，bool类型经常会作为函数的返回值返回，如果有需要可以将其转换为0,1，pyTroch中就没有bool而是用0,1表示
至于string类型用到很少，了解到TensorFlow中有这样一种数据类型即可

# Create tf.constant()

我们已经知道了tensor是一种数据结构，接下来我们来看一下各种类型的tensor。

我们可以使用 `tf.constant()` 来创建tensor，constant给人的感觉是一个不变的常量，但它任然是一个tensor，所以`tf.constant()`具有tensor的各种数据类型：int,float,double,bool,string。

In [1]:
import tensorflow as tf
tf.__version__

  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])


'2.0.0-alpha0'

In [2]:
# 1默认 dtype=int32，此外还有int64
tf.constant(1)

<tf.Tensor: id=0, shape=(), dtype=int32, numpy=1>

In [3]:
# 1. 则是一个 float32 类型的 tensor
tf.constant(1.)

<tf.Tensor: id=2, shape=(), dtype=float32, numpy=1.0>

In [4]:
# tf.constant() 也可以指定 dtype，但是当默认类型与dtype冲突就会报错
tf.constant(2.2, dtype=int32)

NameError: name 'int32' is not defined

In [None]:
# double类型其实是 float64 类型，double相当于是一个别名
tf.constant(2., dtype=tf.double)

In [None]:
# tensor 中的 bool 类型
tf.constant([True, False])

In [None]:
# tensor 中的 string 类型
tf.constant('hello word.')

# Tensor property

接着来看一些 tensor 的常用属性

1. a.device - 用于cpu还是gpu，cpu和GPU上运算的方式是不同的。比如说有些tensor的运算我们希望它运行在cpu上，像是input的输入之类的，这时就要指定tensor的device


In [5]:
# 指定 tensor 运行在 GPU 还是 CPU
with tf.device("cpu"):
    a=tf.constant([1])
    
with tf.device("gpu"):
    b=tf.range(4)

InvalidArgumentError: /job:localhost/replica:0/task:0/device:GPU:0 unknown device. name: range/

In [6]:
# 查看 tensor 运行在 CPU 还是 GPU，并显示编号
a.device

'/job:localhost/replica:0/task:0/device:CPU:0'

In [7]:
b.device

NameError: name 'b' is not defined

In [10]:
# 我们可以改变 tensor 的 device
aa=a.gpu()
aa.device

RuntimeError: Error copying tensor to device: GPU:0. GPU:0 unknown device.

In [11]:
bb=b.cpu()
bb.device

NameError: name 'b' is not defined

# Create Tensor

- from numpy, list
- zeros, ones
- fill
- random
- constant
- Application

In [17]:
import tensorflow as tf
import numpy as np

In [29]:
# tf.convert_to_tensor()可以将numpy array转为tensor
# 这里会将其转换为float64类型，但用的更多的是float32类型，可以再转换类型
tf.convert_to_tensor(np.ones([2, 3]))

<tf.Tensor: id=39, shape=(1, 3), dtype=float64, numpy=array([[1., 1., 1.]])>

In [19]:
# 也可以使用全零的矩阵
tf.convert_to_tensor(np.zeros([2, 3]))

<tf.Tensor: id=12, shape=(2, 3), dtype=float64, numpy=
array([[0., 0., 0.],
       [0., 0., 0.]])>

In [20]:
# 将一个list转化为tensor
# [1, 2]是一维的，长度为2的 list
tf.convert_to_tensor([1, 2])

<tf.Tensor: id=14, shape=(2,), dtype=int32, numpy=array([1, 2], dtype=int32)>

In [21]:
# list中类型不同，会用大一点类型
tf.convert_to_tensor([1, 2.0])

<tf.Tensor: id=16, shape=(2,), dtype=float32, numpy=array([1., 2.], dtype=float32)>

In [23]:
tf.convert_to_tensor([[1], [2.0]])

<tf.Tensor: id=19, shape=(2, 1), dtype=float32, numpy=
array([[1.],
       [2.]], dtype=float32)>

In [32]:
tf.convert_to_tensor([2, 3])

<tf.Tensor: id=45, shape=(2,), dtype=int32, numpy=array([2, 3], dtype=int32)>

**辨析这三者的区别**

```python
# 将2行3列的全1矩阵转换为tensor
tf.convert_to_tensor(np.ones([2, 3]))
# 1维长度为2的tensor，这里的[2, 3]是data
tf.convert_to_tensor([2, 3])
# 将2行3列的全1矩阵转换为tensor，这里的[2,3]是shape
tf.zeros([2,3])
```

Q: `tf.convert_to_tensor([2, 3])`的shape为什么是shape=(2,)?


In [24]:
# tf.zeros

tf.zeros([])

<tf.Tensor: id=21, shape=(), dtype=float32, numpy=0.0>

In [25]:
tf.zeros([1])

<tf.Tensor: id=25, shape=(1,), dtype=float32, numpy=array([0.], dtype=float32)>

In [28]:
tf.zeros([1,2])

<tf.Tensor: id=37, shape=(1, 2), dtype=float32, numpy=array([[0., 0.]], dtype=float32)>

In [27]:
tf.zeros([2,3,3])

<tf.Tensor: id=33, shape=(2, 3, 3), dtype=float32, numpy=
array([[[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]]], dtype=float32)>

In [33]:
tf.zeros([2,3])

<tf.Tensor: id=49, shape=(2, 3), dtype=float32, numpy=
array([[0., 0., 0.],
       [0., 0., 0.]], dtype=float32)>

In [34]:
# tf.zeros_like

a = tf.zeros([2, 3, 3])
tf.zeros_like(a)

<tf.Tensor: id=54, shape=(2, 3, 3), dtype=float32, numpy=
array([[[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]]], dtype=float32)>

In [35]:
tf.zeros(a.shape)

<tf.Tensor: id=59, shape=(2, 3, 3), dtype=float32, numpy=
array([[[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]]], dtype=float32)>

In [36]:
# tf.ones
# w*x+b 中 w 可以全部初始化为 0 或者 1，b 一般初始化为 0

tf.ones(1)

<tf.Tensor: id=63, shape=(1,), dtype=float32, numpy=array([1.], dtype=float32)>

In [37]:
tf.ones([])

<tf.Tensor: id=65, shape=(), dtype=float32, numpy=1.0>

In [38]:
tf.ones([2])

<tf.Tensor: id=69, shape=(2,), dtype=float32, numpy=array([1., 1.], dtype=float32)>

In [39]:
tf.ones([2, 3])

<tf.Tensor: id=73, shape=(2, 3), dtype=float32, numpy=
array([[1., 1., 1.],
       [1., 1., 1.]], dtype=float32)>

In [40]:
tf.ones_like([a])

<tf.Tensor: id=78, shape=(1, 2, 3, 3), dtype=float32, numpy=
array([[[[1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.]],

        [[1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.]]]], dtype=float32)>

In [41]:
# fill 表示给指定形状的矩阵填充相同的值

tf.fill([2, 2], 0)

<tf.Tensor: id=82, shape=(2, 2), dtype=int32, numpy=
array([[0, 0],
       [0, 0]], dtype=int32)>

In [42]:
tf.fill([2, 2], 1)

<tf.Tensor: id=86, shape=(2, 2), dtype=int32, numpy=
array([[1, 1],
       [1, 1]], dtype=int32)>

In [43]:
tf.fill([2, 2], 7)

<tf.Tensor: id=90, shape=(2, 2), dtype=int32, numpy=
array([[7, 7],
       [7, 7]], dtype=int32)>

In [44]:
# Normal 随机初始化，使用正态分布

# tf.random.normal() 正太分布，随机初始化，默认为0-1分布
# mean 均值，默认为 0
# stddev 方差，默认为 1
tf.random.normal([2, 2], mean=1, stddev=1)

<tf.Tensor: id=97, shape=(2, 2), dtype=float32, numpy=
array([[-1.332181 ,  1.1284069],
       [ 3.39596  ,  1.6964053]], dtype=float32)>

In [45]:
tf.random.normal([2, 2])

<tf.Tensor: id=104, shape=(2, 2), dtype=float32, numpy=
array([[ 0.14083558, -0.74544346],
       [ 1.7519042 ,  0.53969043]], dtype=float32)>

In [47]:
# Truncated Normal 截断初始化，有利于解决梯度弥散问题，效果比一般 normal 的好
tf.random.truncated_normal([2, 2], mean=0, stddev=1)

<tf.Tensor: id=118, shape=(2, 2), dtype=float32, numpy=
array([[ 0.6326577 , -0.42291552],
       [-0.00333866,  1.4088895 ]], dtype=float32)>

In [48]:
# Uniform 均匀分布

tf.random.uniform([2,2], minval=0, maxval=1)

<tf.Tensor: id=126, shape=(2, 2), dtype=float32, numpy=
array([[0.25976062, 0.7100129 ],
       [0.23439598, 0.9509026 ]], dtype=float32)>

In [49]:
tf.random.uniform([2,2], minval=0, maxval=100)

<tf.Tensor: id=134, shape=(2, 2), dtype=float32, numpy=
array([[11.714327, 36.474037],
       [30.303085,  6.698835]], dtype=float32)>

**Random Permutation 随机打乱**

图片 [64, 28, 28, 3]    标签 [64]

图片与标签是一一对应的关系，现在要将图片打乱，则必须保证标签与图片保持对应关系

就可以用`tf.random.shuffle()`将索引idx打乱，图片和标签都通过idx来取

In [55]:
idx = tf.range(10)
idx = tf.random.shuffle(idx)
print(id)

<built-in function id>


In [58]:
a = tf.random.normal([10, 784])
b = tf.random.uniform([10], maxval=10, dtype=tf.int32)
a
b

<tf.Tensor: id=199, shape=(10,), dtype=int32, numpy=array([7, 0, 7, 5, 1, 4, 6, 0, 0, 2], dtype=int32)>

In [59]:
a = tf.gather(a, idx)
b = tf.gather(b, idx)
a
b

<tf.Tensor: id=204, shape=(10,), dtype=int32, numpy=array([0, 4, 6, 1, 7, 0, 0, 5, 7, 2], dtype=int32)>

In [None]:
# tf.constant 作用于 tf.convert_to_tensor() 一样

