# Tensorflow基本操作

1. 使用的tensorflow版本是2.8.0 
2. 参考视频<https://www.bilibili.com/video/BV1Ub4y1e7P3?p=4>
3. **重点-tensorflow几个最基本的操作参考**<https://zhuanlan.zhihu.com/p/377280469>
4. **重点-tensorflow关于导数和线性代数的参考**<https://zh-v2.d2l.ai/>中第2章的内容。而且这部分内容非常简单易学。

In [1]:
import tensorflow as tf
import numpy as np

# 6 * 5矩阵
R = np.array([[4,0,1,0,5],
     [1,2,1,3,5],
     [4,5,3,1,0],
     [2,3,0,2,5],
     [5,1,4,0,0],
     [0,3,2,4,1]])

# 方阵
R_Square = np.array([[4,0,1,0,5],
     [1,2,1,3,5],
     [4,5,3,1,0],
     [2,3,0,2,5],
     [5,1,4,0,0]])

## 创建指定大小的矩阵

推荐使用第二种和第三种方法。

1. 创建全零的tensor矩阵

In [2]:
m =5
K = 4
n = 7
# 方法一
P = tf.zeros([m, K], dtype=float)
Q = tf.zeros([K, n], dtype=float)

2. 创建指定大小的tensor矩阵。**推荐**

In [3]:
# 方法二
P = tf.Variable(np.random.rand(m, K), dtype=float)
Q = tf.Variable(np.random.rand(K, n), dtype=float)
print(P)

<tf.Variable 'Variable:0' shape=(5, 4) dtype=float32, numpy=
array([[0.01349655, 0.58297825, 0.01978612, 0.66976625],
       [0.39606136, 0.31068736, 0.08329462, 0.53200436],
       [0.8634768 , 0.67366105, 0.55502975, 0.45528156],
       [0.1360803 , 0.98812103, 0.78562754, 0.8057012 ],
       [0.6441219 , 0.94557893, 0.77365655, 0.83368546]], dtype=float32)>


3. **推荐**。使用tensorflow自己的函数创建随机产生的矩阵。而且矩阵中数值的分布满足每个元素都从均值为0、标准差为1的标准高斯分布。

In [4]:
P = tf.random.normal(shape=[3, 4])
print(P)

tf.Tensor(
[[ 0.56630117  0.5605701   2.0584826   0.35033432]
 [-0.11664142  0.27289727 -0.60019696 -1.2242912 ]
 [ 0.20981804  0.80932397  3.0300972   0.30548906]], shape=(3, 4), dtype=float32)


4. 创建全1矩阵

In [5]:
AE = tf.ones(shape=[3,4])
AE

<tf.Tensor: shape=(3, 4), dtype=float32, numpy=
array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]], dtype=float32)>

5. 创建单位矩阵

对角矩阵是方阵，一般记为$diag(a_1,a_2,\cdots,a_n)$。\
单位矩阵是对角矩阵的特例，所有对角线上的元素全为1。\
tf可以创建不是方阵的在$i=j$的位置上的类似对角矩阵的矩阵。

In [6]:
E = tf.eye(3)
E

<tf.Tensor: shape=(3, 3), dtype=float32, numpy=
array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]], dtype=float32)>

In [7]:
E_other = tf.eye(3,5)
E_other

<tf.Tensor: shape=(3, 5), dtype=float32, numpy=
array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.]], dtype=float32)>

## 将np.array转换为tensor

In [8]:
R_tf = tf.convert_to_tensor(R, dtype=float)
R_Square_tf = tf.convert_to_tensor(R_Square, dtype=float)

## 获取tensor的形状

In [9]:
R_tf.shape

TensorShape([6, 5])

## 获取tensor的长度

通过os.len()实际上获取的是矩阵或者向量第一个维度的值。\
\
对于向量获取的是元素个数。\
对于2维矩阵获取的是行数。\
对于3维矩阵获取的也是行数。

In [10]:
print(R_tf)
print(len(R_tf))

tf.Tensor(
[[4. 0. 1. 0. 5.]
 [1. 2. 1. 3. 5.]
 [4. 5. 3. 1. 0.]
 [2. 3. 0. 2. 5.]
 [5. 1. 4. 0. 0.]
 [0. 3. 2. 4. 1.]], shape=(6, 5), dtype=float32)
6


In [11]:
T = tf.ones([2,3,4])
print(T)
print(len(T))

tf.Tensor(
[[[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]

 [[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]], shape=(2, 3, 4), dtype=float32)
2


## 获取tensor中元素的个数

In [12]:
tf.size(R_tf)

<tf.Tensor: shape=(), dtype=int32, numpy=30>

## 读取tensor矩阵指定位置的值

In [13]:
R_tf[1][3]

<tf.Tensor: shape=(), dtype=float32, numpy=3.0>

In [14]:
R_tf[1, 3]

<tf.Tensor: shape=(), dtype=float32, numpy=3.0>

## 读取指定行

In [15]:
R_tf[1, :]

<tf.Tensor: shape=(5,), dtype=float32, numpy=array([1., 2., 1., 3., 5.], dtype=float32)>

## 读取指定列

In [16]:
R_tf[:,2]

<tf.Tensor: shape=(6,), dtype=float32, numpy=array([1., 1., 3., 0., 4., 2.], dtype=float32)>

## 修改tensor的形状

1. 若有一个维度为-1，那么tensorflow会自动推导。
2. tf.reshape(tensor, shape, name=None)
    1. tensor：要改变维度（形状）的张量；
    2. shape：希望变成什么维度；
    3. name：操作的名称。

In [17]:
P = tf.reshape(R_tf[1, :], [1, -1])
print(P.shape)

(1, 5)


In [18]:

Q = tf.reshape(R_tf[:,2], [-1, 1])
print(Q.shape)

(6, 1)


In [19]:
O = tf.reshape([2, -3.4], (-1, 1))
O

<tf.Tensor: shape=(2, 1), dtype=float32, numpy=
array([[ 2. ],
       [-3.4]], dtype=float32)>

## tensor之间的运算有两种
1. 按元素的运算
2. 按线性代数之间的预算

In [20]:
P = tf.ones([3, 4], dtype=float)
Q = tf.random.normal(shape=[3, 4])
print(P,Q)

tf.Tensor(
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]], shape=(3, 4), dtype=float32) tf.Tensor(
[[ 1.1369019  -0.22495075  0.15675488 -1.7778722 ]
 [-0.10768849  0.2974442   1.5016825   0.21784396]
 [-1.9667642   1.2029815  -1.8759325  -1.5181731 ]], shape=(3, 4), dtype=float32)


### 按元素加

In [21]:
P + Q

<tf.Tensor: shape=(3, 4), dtype=float32, numpy=
array([[ 2.1369019 ,  0.77504927,  1.1567549 , -0.7778722 ],
       [ 0.8923115 ,  1.2974442 ,  2.5016825 ,  1.217844  ],
       [-0.9667642 ,  2.2029815 , -0.87593246, -0.5181731 ]],
      dtype=float32)>

### 按元素减

In [22]:
P - Q

<tf.Tensor: shape=(3, 4), dtype=float32, numpy=
array([[-0.13690186,  1.2249508 ,  0.84324515,  2.777872  ],
       [ 1.1076884 ,  0.7025558 , -0.5016825 ,  0.78215605],
       [ 2.9667642 , -0.20298147,  2.8759325 ,  2.5181732 ]],
      dtype=float32)>

### 按元素乘法

In [23]:
P * Q

<tf.Tensor: shape=(3, 4), dtype=float32, numpy=
array([[ 1.1369019 , -0.22495075,  0.15675488, -1.7778722 ],
       [-0.10768849,  0.2974442 ,  1.5016825 ,  0.21784396],
       [-1.9667642 ,  1.2029815 , -1.8759325 , -1.5181731 ]],
      dtype=float32)>

### 按元素除法

In [24]:
P / Q

<tf.Tensor: shape=(3, 4), dtype=float32, numpy=
array([[ 0.8795834 , -4.4454174 ,  6.379387  , -0.56247014],
       [-9.286044  ,  3.3619752 ,  0.6659197 ,  4.5904417 ],
       [-0.5084494 ,  0.831268  , -0.53306824, -0.6586864 ]],
      dtype=float32)>

### 按元素求幂

In [25]:
tf.exp(Q)

<tf.Tensor: shape=(3, 4), dtype=float32, numpy=
array([[3.1170962 , 0.79855555, 1.1697088 , 0.16899736],
       [0.89790726, 1.3464133 , 4.489236  , 1.2433931 ],
       [0.13990884, 3.3300304 , 0.15321204, 0.21911182]], dtype=float32)>

### 按元素判断tensor比较大小、判断是否相等，返回的是每个位置的boolen型值。

In [26]:
P == Q

<tf.Tensor: shape=(3, 4), dtype=bool, numpy=
array([[False, False, False, False],
       [False, False, False, False],
       [False, False, False, False]])>

In [27]:
P < Q

<tf.Tensor: shape=(3, 4), dtype=bool, numpy=
array([[ True, False, False, False],
       [False, False,  True, False],
       [False,  True, False, False]])>

In [28]:
P > Q

<tf.Tensor: shape=(3, 4), dtype=bool, numpy=
array([[False,  True,  True,  True],
       [ True,  True, False,  True],
       [ True, False,  True,  True]])>

### 按元素对tensor所有元素求和

In [29]:
tf.reduce_sum(P)

<tf.Tensor: shape=(), dtype=float32, numpy=12.0>

## 矩阵之间乘法

In [30]:
eui = tf.matmul(tf.reshape(R_Square_tf[2, :], [1, -1]),tf.reshape(R_Square_tf[:, 3], [-1, 1])) - R_Square_tf[2,3]
print(eui)

tf.Tensor([[19.]], shape=(1, 1), dtype=float32)


## 矩阵之间数乘

1. 计算的是矩阵每个对应位置元素相乘。
2. 需要两个矩阵形状一样。

In [31]:
tf.multiply(R_Square_tf[2, :], R_Square_tf[3, :])

<tf.Tensor: shape=(5,), dtype=float32, numpy=array([ 8., 15.,  0.,  2.,  0.], dtype=float32)>

## 数乘以矩阵

In [32]:
a = 3
print(a * R_Square_tf)

tf.Tensor(
[[12.  0.  3.  0. 15.]
 [ 3.  6.  3.  9. 15.]
 [12. 15.  9.  3.  0.]
 [ 6.  9.  0.  6. 15.]
 [15.  3. 12.  0.  0.]], shape=(5, 5), dtype=float32)


## tensor类型判断

In [33]:
isinstance(eui, tf.Tensor)

True

In [34]:
tf.is_tensor(eui)

True

In [35]:
tf.is_tensor(R)

False

In [36]:
eui.dtype == tf.int16

False

In [37]:
eui.dtype == tf.float32

True

## tensor的类型转换

1. 参考网页<https://wenku.baidu.com/view/9a3b8439fc00bed5b9f3f90f76c66137ef064f55.html>

In [38]:
# 这些都是错误的，在tf 2.0之后都不支持了。

# 将字符串转化为tf.float32（默认）和tf.int32
# tf.string_to_number(string_tensor, out_type=None, name=None)

# 转化为tf.float64
# tf.to_double(eui, name='ToDouble')

# 转化为tf.float32
# tf.to_float(eui, name='ToFloat')

# 转化为tf.int32
# tf.to_int32(eui, name='ToInt32')

# 转化为tf.int64
# tf.to_int64(eui, name='ToInt64')

# 转化为dtype指定的类型
# tf.cast(x, dtype, name=None)

In [39]:
x_0 = np.arange(5)
print(x_0)
x_1 = tf.convert_to_tensor(x_0, dtype=tf.int32)
print(x_1)
x_2 = tf.cast(x_1, dtype=tf.float32)
print(x_2)
x_3 = tf.cast(x_2, dtype=tf.int32)
print(x_3)

[0 1 2 3 4]
tf.Tensor([0 1 2 3 4], shape=(5,), dtype=int32)
tf.Tensor([0. 1. 2. 3. 4.], shape=(5,), dtype=float32)
tf.Tensor([0 1 2 3 4], shape=(5,), dtype=int32)


## 矩阵计算平方

1. 计算的是每个元素的平方值
2. tf.math还有这个类，下面应该有很多数学方法。

In [40]:
eui_square = tf.square(eui)
print(eui_square)

tf.Tensor([[361.]], shape=(1, 1), dtype=float32)


In [41]:
R_tf_square = tf.square(R_tf)
print(R_tf_square)

tf.Tensor(
[[16.  0.  1.  0. 25.]
 [ 1.  4.  1.  9. 25.]
 [16. 25.  9.  1.  0.]
 [ 4.  9.  0.  4. 25.]
 [25.  1. 16.  0.  0.]
 [ 0.  9.  4. 16.  1.]], shape=(6, 5), dtype=float32)


## 计算tensor所有行或者所有列的和

1. 使用tf.reduce_sum来完成
2. 建议都需要填写keepdims=True参数，用于保证tensor的形状。

In [42]:
R_tf

<tf.Tensor: shape=(6, 5), dtype=float32, numpy=
array([[4., 0., 1., 0., 5.],
       [1., 2., 1., 3., 5.],
       [4., 5., 3., 1., 0.],
       [2., 3., 0., 2., 5.],
       [5., 1., 4., 0., 0.],
       [0., 3., 2., 4., 1.]], dtype=float32)>

In [43]:
tf.reduce_sum(R_tf)

<tf.Tensor: shape=(), dtype=float32, numpy=67.0>

In [44]:
help(tf.reduce_sum)

Help on function reduce_sum in module tensorflow.python.ops.math_ops:

reduce_sum(input_tensor, axis=None, keepdims=False, name=None)
    Computes the sum of elements across dimensions of a tensor.
    
    This is the reduction operation for the elementwise `tf.math.add` op.
    
    Reduces `input_tensor` along the dimensions given in `axis`.
    Unless `keepdims` is true, the rank of the tensor is reduced by 1 for each
    of the entries in `axis`, which must be unique. If `keepdims` is true, the
    reduced dimensions are retained with length 1.
    
    If `axis` is None, all dimensions are reduced, and a
    tensor with a single element is returned.
    
    For example:
    
      >>> # x has a shape of (2, 3) (two rows and three columns):
      >>> x = tf.constant([[1, 1, 1], [1, 1, 1]])
      >>> x.numpy()
      array([[1, 1, 1],
             [1, 1, 1]], dtype=int32)
      >>> # sum all the elements
      >>> # 1 + 1 + 1 + 1 + 1+ 1 = 6
      >>> tf.reduce_sum(x).numpy()
      

In [45]:
# 按行求和
row_sum = tf.reduce_sum(R_tf, 1, keepdims=True)
print(row_sum)

tf.Tensor(
[[10.]
 [12.]
 [13.]
 [12.]
 [10.]
 [10.]], shape=(6, 1), dtype=float32)


In [46]:
# 按列求和
column_sum = tf.reduce_sum(R_tf, 0, keepdims=True)
print(column_sum)

tf.Tensor([[16. 14. 11. 10. 16.]], shape=(1, 5), dtype=float32)


In [47]:
# 对所有元素求总和

total_sum = tf.reduce_sum(tf.reduce_sum(R_tf, 0))
print(total_sum)

tf.Tensor(67.0, shape=(), dtype=float32)


## 修改tensor指定位置的值

1. 重点-参考网址<https://blog.csdn.net/qq_34418352/article/details/106399327>
2. tensor本身不能直接修改指定位置的值，需要转化为Variable之后，配合assign（动词，分配的意思）一起来完成这个操作。
3. 使用的是tf.Variable.assign和tf.Variable.assign_add来进行修改。也就是说支队tensorflow variable类型才能使用。<https://www.jianshu.com/p/efcb86940896>

### 修改指定位置的值第一种方法

In [48]:
R_tf_square_variable = tf.Variable(R_tf_square)
R_tf_square_variable[1, 1].assign(99)
print(R_tf_square_variable) 

<tf.Variable 'Variable:0' shape=(6, 5) dtype=float32, numpy=
array([[16.,  0.,  1.,  0., 25.],
       [ 1., 99.,  1.,  9., 25.],
       [16., 25.,  9.,  1.,  0.],
       [ 4.,  9.,  0.,  4., 25.],
       [25.,  1., 16.,  0.,  0.],
       [ 0.,  9.,  4., 16.,  1.]], dtype=float32)>


### 修改指定位置的值第二种方法

1. 这种方法也太不直接了。不建议使用。

In [49]:
def ModifyTensor(input_tensor, position=None, value=None):
    input_tensor = input_tensor.numpy()
    input_tensor[tuple(position)] = value
    return input_tensor
# new_tensor
R_tf_square_variable = tf.py_function(ModifyTensor, inp=[R_tf_square_variable, [2,2], 44], 
                            Tout=R_tf_square_variable.dtype)
print(type(R_tf_square_variable))
print(R_tf_square_variable)

<class 'tensorflow.python.framework.ops.EagerTensor'>
tf.Tensor(
[[16.  0.  1.  0. 25.]
 [ 1. 99.  1.  9. 25.]
 [16. 25. 44.  1.  0.]
 [ 4.  9.  0.  4. 25.]
 [25.  1. 16.  0.  0.]
 [ 0.  9.  4. 16.  1.]], shape=(6, 5), dtype=float32)


## tensor变量的定义及使用

1. 定义标量

In [50]:
a = tf.Variable(1.0)
b = (a + 2) * 3
print(b)

tf.Tensor(9.0, shape=(), dtype=float32)


2. 定义矩阵变量
3. 修改特定位置的值
4. 修改一行值

In [51]:
a = tf.Variable(np.random.rand(3, 5), dtype=float)
print(a)
a[1, 1].assign(5)
print(a)
a[2, :].assign(tf.constant([1.0, 2.0, 3.0, 4.0, 5.0]))
print(a)

<tf.Variable 'Variable:0' shape=(3, 5) dtype=float32, numpy=
array([[0.21978787, 0.23595503, 0.25877693, 0.77385706, 0.18389128],
       [0.50294673, 0.5100356 , 0.6401777 , 0.95943785, 0.68273026],
       [0.46769127, 0.15093099, 0.15645316, 0.15426117, 0.6435276 ]],
      dtype=float32)>
<tf.Variable 'Variable:0' shape=(3, 5) dtype=float32, numpy=
array([[0.21978787, 0.23595503, 0.25877693, 0.77385706, 0.18389128],
       [0.50294673, 5.        , 0.6401777 , 0.95943785, 0.68273026],
       [0.46769127, 0.15093099, 0.15645316, 0.15426117, 0.6435276 ]],
      dtype=float32)>
<tf.Variable 'Variable:0' shape=(3, 5) dtype=float32, numpy=
array([[0.21978787, 0.23595503, 0.25877693, 0.77385706, 0.18389128],
       [0.50294673, 5.        , 0.6401777 , 0.95943785, 0.68273026],
       [1.        , 2.        , 3.        , 4.        , 5.        ]],
      dtype=float32)>


5. tf.Variable.assign_add的使用。

In [52]:
a = tf.Variable(1.0)
b = (a.assign_add(2)) * 3
print(b)

tf.Tensor(9.0, shape=(), dtype=float32)


6. 循环访问tensor变量中的值

In [53]:
m = 3
K = 5
P = tf.Variable(np.random.rand(m, K), dtype=float)

for i in range(m):
    print("Display P[i, :].shape={} and P[i, :]={}".format(P[i, :].shape, P[i, :]))

for j in range(K):
    print("Display P[:, j].shape={} and P[:, j]={}".format(P[i, :].shape, P[:, j]))

Display P[i, :].shape=(5,) and P[i, :]=[0.27632573 0.5896827  0.5645084  0.550275   0.3080767 ]
Display P[i, :].shape=(5,) and P[i, :]=[0.5184518  0.526369   0.6338102  0.954697   0.05905344]
Display P[i, :].shape=(5,) and P[i, :]=[0.12789334 0.56777567 0.83133197 0.6412353  0.62076956]
Display P[:, j].shape=(5,) and P[:, j]=[0.27632573 0.5184518  0.12789334]
Display P[:, j].shape=(5,) and P[:, j]=[0.5896827  0.526369   0.56777567]
Display P[:, j].shape=(5,) and P[:, j]=[0.5645084  0.6338102  0.83133197]
Display P[:, j].shape=(5,) and P[:, j]=[0.550275  0.954697  0.6412353]
Display P[:, j].shape=(5,) and P[:, j]=[0.3080767  0.05905344 0.62076956]


7. 修改指定行，不能用=来进行赋值。必须用assign来赋值。

In [54]:
P[1,:].assign(P[1,:] + P[0,:])
# P[1,:] = P[1,:] + P[0,:]
# print(P[1,:])
# print(P)

<tf.Variable 'UnreadVariable' shape=(3, 5) dtype=float32, numpy=
array([[0.27632573, 0.5896827 , 0.5645084 , 0.550275  , 0.3080767 ],
       [0.7947775 , 1.1160517 , 1.1983186 , 1.504972  , 0.36713016],
       [0.12789334, 0.56777567, 0.83133197, 0.6412353 , 0.62076956]],
      dtype=float32)>

8. 修改指定列
这个地方要与第9点进行比较，并没有出现将列拿出来单独计算时的问题！！！

In [55]:
print(P)

P[:, 0].assign(P[:, 0] + P[:, 1])
print(P)

<tf.Variable 'Variable:0' shape=(3, 5) dtype=float32, numpy=
array([[0.27632573, 0.5896827 , 0.5645084 , 0.550275  , 0.3080767 ],
       [0.7947775 , 1.1160517 , 1.1983186 , 1.504972  , 0.36713016],
       [0.12789334, 0.56777567, 0.83133197, 0.6412353 , 0.62076956]],
      dtype=float32)>
<tf.Variable 'Variable:0' shape=(3, 5) dtype=float32, numpy=
array([[0.8660084 , 0.5896827 , 0.5645084 , 0.550275  , 0.3080767 ],
       [1.9108292 , 1.1160517 , 1.1983186 , 1.504972  , 0.36713016],
       [0.695669  , 0.56777567, 0.83133197, 0.6412353 , 0.62076956]],
      dtype=float32)>


9. **读取tensor矩阵中的一列时，直接读取出来的维度不对！需要使用reshape来调整维度**。

在读取一个维度的时候，读取出来的是3个标量，而不是1*3的向量！！！在做乘法的时候表现出来了。

In [56]:
m = 3
n = 5
P = tf.Variable(np.random.rand(m, n), dtype=float)

# 注意两者的维度不同！！！
print(P[:,1])
print(tf.reshape(P[:,1], [3,1]))

tf.Tensor([0.28730702 0.8811223  0.63508797], shape=(3,), dtype=float32)
tf.Tensor(
[[0.28730702]
 [0.8811223 ]
 [0.63508797]], shape=(3, 1), dtype=float32)


注意！！ c是一个2维的矩阵，只不过维度是[1,1]。这个和直接P[1,1]有区别！！！而且这两个值不能直接进行计算！

In [57]:
c = tf.matmul(tf.reshape(P[:,1], [1,m]), tf.reshape(P[:,1], [m,1]))
print(c)

d = c - tf.Variable(1.0)
print(d)

tf.Tensor([[1.2622585]], shape=(1, 1), dtype=float32)
tf.Tensor([[0.26225853]], shape=(1, 1), dtype=float32)


注意这个报错！就不能将一个二维矩阵赋值给一个标量。
但是按一般的理解P[1,1]取出来的值也应该是一个二维矩阵，但tensorflow做了严格的区分。
只能通过c[0,0]来转换一下再进行赋值。

In [58]:
print(P, c)
print(P[1,1])
# P[1,1].assign(c)
# print(P, c)

<tf.Variable 'Variable:0' shape=(3, 5) dtype=float32, numpy=
array([[0.9784996 , 0.28730702, 0.3683818 , 0.5162962 , 0.29625553],
       [0.83347034, 0.8811223 , 0.8406531 , 0.74810976, 0.8145793 ],
       [0.8865295 , 0.63508797, 0.73778003, 0.5122837 , 0.546354  ]],
      dtype=float32)> tf.Tensor([[1.2622585]], shape=(1, 1), dtype=float32)
tf.Tensor(0.8811223, shape=(), dtype=float32)


可以将一个值赋值给矩阵中指定的位置的值。

In [59]:
d = 1.4
print(P, d)
P[1,1].assign(d)
print(P, d)

<tf.Variable 'Variable:0' shape=(3, 5) dtype=float32, numpy=
array([[0.9784996 , 0.28730702, 0.3683818 , 0.5162962 , 0.29625553],
       [0.83347034, 0.8811223 , 0.8406531 , 0.74810976, 0.8145793 ],
       [0.8865295 , 0.63508797, 0.73778003, 0.5122837 , 0.546354  ]],
      dtype=float32)> 1.4
<tf.Variable 'Variable:0' shape=(3, 5) dtype=float32, numpy=
array([[0.9784996 , 0.28730702, 0.3683818 , 0.5162962 , 0.29625553],
       [0.83347034, 1.4       , 0.8406531 , 0.74810976, 0.8145793 ],
       [0.8865295 , 0.63508797, 0.73778003, 0.5122837 , 0.546354  ]],
      dtype=float32)> 1.4


In [60]:
P[1,1].assign(c[0,0])

<tf.Variable 'UnreadVariable' shape=(3, 5) dtype=float32, numpy=
array([[0.9784996 , 0.28730702, 0.3683818 , 0.5162962 , 0.29625553],
       [0.83347034, 1.2622585 , 0.8406531 , 0.74810976, 0.8145793 ],
       [0.8865295 , 0.63508797, 0.73778003, 0.5122837 , 0.546354  ]],
      dtype=float32)>

10. tensor之间比较大小

In [61]:
a = tf.Variable(2.0)
b = tf.Variable(1.0)

if a > b:
    print("a > b")

a > b


11. tensor与数值之间比较大小

In [62]:
a = tf.Variable(2.0)
b = 1.0

print(type(a))
print(type(b))

if a > b:
    print("a > b")

<class 'tensorflow.python.ops.resource_variable_ops.ResourceVariable'>
<class 'float'>
a > b


12. tf.slice的使用

In [63]:
a = tf.Variable(np.random.rand(3, 5), dtype=float)

In [64]:
sr = tf.slice(a, [0,0], [1,5])
print(sr)
print(type(sr))
print(sr.shape)

tf.Tensor([[0.726005   0.63669276 0.8521151  0.6914843  0.65082204]], shape=(1, 5), dtype=float32)
<class 'tensorflow.python.framework.ops.EagerTensor'>
(1, 5)


In [65]:
sc = tf.slice(a, [0,0], [3,1])
print(sc)
print(type(sc))
print(sc.shape)

tf.Tensor(
[[0.726005  ]
 [0.38516757]
 [0.01539873]], shape=(3, 1), dtype=float32)
<class 'tensorflow.python.framework.ops.EagerTensor'>
(3, 1)


切片了之后无法赋值！！！！！！！！

In [66]:
so = tf.slice(a, [0,0], [1,1])
print(so)
print(type(so))
print(so.shape)

so = 44
print(a)

tf.Tensor([[0.726005]], shape=(1, 1), dtype=float32)
<class 'tensorflow.python.framework.ops.EagerTensor'>
(1, 1)
<tf.Variable 'Variable:0' shape=(3, 5) dtype=float32, numpy=
array([[0.726005  , 0.63669276, 0.8521151 , 0.6914843 , 0.65082204],
       [0.38516757, 0.53012574, 0.8761317 , 0.15448685, 0.6265644 ],
       [0.01539873, 0.90016234, 0.80248106, 0.87793916, 0.44606802]],
      dtype=float32)>


## 切片和索引

tensorflow对tensor的处理可以向numpy一样。

In [67]:
P = tf.random.normal(shape=[3, 5])
print(P)

tf.Tensor(
[[ 1.4972901  -1.6616298   0.70684797 -1.8260847   2.0507994 ]
 [-1.1673863  -1.5195048   1.2709242  -0.04335115  0.6397501 ]
 [-0.80664235  0.2813131  -0.8387753  -0.49146476  0.08622979]], shape=(3, 5), dtype=float32)


In [68]:
P[-1], P[1:3]

(<tf.Tensor: shape=(5,), dtype=float32, numpy=
 array([-0.80664235,  0.2813131 , -0.8387753 , -0.49146476,  0.08622979],
       dtype=float32)>,
 <tf.Tensor: shape=(2, 5), dtype=float32, numpy=
 array([[-1.1673863 , -1.5195048 ,  1.2709242 , -0.04335115,  0.6397501 ],
        [-0.80664235,  0.2813131 , -0.8387753 , -0.49146476,  0.08622979]],
       dtype=float32)>)

对矩阵中的多个元素进行赋值。

In [69]:
X_var = tf.Variable(P)
X_var[0:2, :].assign(tf.ones(X_var[0:2,:].shape, dtype = tf.float32) * 12)
X_var

<tf.Variable 'Variable:0' shape=(3, 5) dtype=float32, numpy=
array([[12.        , 12.        , 12.        , 12.        , 12.        ],
       [12.        , 12.        , 12.        , 12.        , 12.        ],
       [-0.80664235,  0.2813131 , -0.8387753 , -0.49146476,  0.08622979]],
      dtype=float32)>

## tensor可以与数值比较大小

In [70]:
if 1999 > eui_square:
    print("OK")
else:
    print("Fail")

OK


## 查看tensor矩阵的值

In [71]:
print(P.eval)

<bound method _EagerTensorBase.eval of <tf.Tensor: shape=(3, 5), dtype=float32, numpy=
array([[ 1.4972901 , -1.6616298 ,  0.70684797, -1.8260847 ,  2.0507994 ],
       [-1.1673863 , -1.5195048 ,  1.2709242 , -0.04335115,  0.6397501 ],
       [-0.80664235,  0.2813131 , -0.8387753 , -0.49146476,  0.08622979]],
      dtype=float32)>>


## 求向量的范数

In [72]:
help(tf.norm)

Help on function norm_v2 in module tensorflow.python.ops.linalg_ops:

norm_v2(tensor, ord='euclidean', axis=None, keepdims=None, name=None)
    Computes the norm of vectors, matrices, and tensors.
    
    This function can compute several different vector norms (the 1-norm, the
    Euclidean or 2-norm, the inf-norm, and in general the p-norm for p > 0) and
    matrix norms (Frobenius, 1-norm, 2-norm and inf-norm).
    
    Args:
      tensor: `Tensor` of types `float32`, `float64`, `complex64`, `complex128`
      ord: Order of the norm. Supported values are `'fro'`, `'euclidean'`,
        `1`, `2`, `np.inf` and any positive real number yielding the corresponding
        p-norm. Default is `'euclidean'` which is equivalent to Frobenius norm if
        `tensor` is a matrix and equivalent to 2-norm for vectors.
        Some restrictions apply:
          a) The Frobenius norm `'fro'` is not defined for vectors,
          b) If axis is a 2-tuple (matrix norm), only `'euclidean'`, '`fro'`, 

In [73]:
R_tf

<tf.Tensor: shape=(6, 5), dtype=float32, numpy=
array([[4., 0., 1., 0., 5.],
       [1., 2., 1., 3., 5.],
       [4., 5., 3., 1., 0.],
       [2., 3., 0., 2., 5.],
       [5., 1., 4., 0., 0.],
       [0., 3., 2., 4., 1.]], dtype=float32)>

In [74]:
# 计算的是向量的。
row_vector = tf.reshape(R_tf[0, :], [1, -1])
print(row_vector)

L1 = tf.norm(row_vector, ord=1)
print(L1)

L2 = tf.norm(row_vector, ord=2)
print(L2)

tf.Tensor([[4. 0. 1. 0. 5.]], shape=(1, 5), dtype=float32)
tf.Tensor(10.0, shape=(), dtype=float32)
tf.Tensor(6.4807405, shape=(), dtype=float32)


In [75]:
# 计算矩阵所有行或者所有列的范数。

# 按列求L1范数
L1_matrix = tf.norm(R_tf, ord=1, axis=0)
print(L1_matrix)

# 按行求L2范数
L2_matrix = tf.norm(R_tf, ord=2, axis=1)
print(L2_matrix)

tf.Tensor([16. 14. 11. 10. 16.], shape=(5,), dtype=float32)
tf.Tensor([6.4807405 6.3245554 7.141428  6.4807405 6.4807405 5.477226 ], shape=(6,), dtype=float32)


## 求矩阵的逆

In [76]:
help(tf.linalg.inv)

Help on function matrix_inverse in module tensorflow.python.ops.gen_linalg_ops:

matrix_inverse(input, adjoint=False, name=None)
    Computes the inverse of one or more square invertible matrices or their adjoints (conjugate transposes).
    
    
    The input is a tensor of shape `[..., M, M]` whose inner-most 2 dimensions
    form square matrices. The output is a tensor of the same shape as the input
    containing the inverse for all input submatrices `[..., :, :]`.
    
    The op uses LU decomposition with partial pivoting to compute the inverses.
    
    If a matrix is not invertible there is no guarantee what the op does. It
    may detect the condition and raise an exception or it may simply return a
    garbage result.
    
    Args:
      input: A `Tensor`. Must be one of the following types: `float64`, `float32`, `half`, `complex64`, `complex128`.
        Shape is `[..., M, M]`.
      adjoint: An optional `bool`. Defaults to `False`.
      name: A name for the operation (o

In [77]:
print(tf.linalg.inv(R_Square_tf))

tf.Tensor(
[[-0.8799998  -0.8399998  -0.92        1.7199999   1.12      ]
 [ 0.39999998  0.19999999  0.6000001  -0.6        -0.6       ]
 [ 0.99999976  0.99999976  0.99999994 -1.9999998  -0.99999994]
 [-1.4799998  -0.6399999  -1.3200002   2.12        1.5200001 ]
 [ 0.7039999   0.47199994  0.536      -0.9759999  -0.696     ]], shape=(5, 5), dtype=float32)


## 求矩阵的转置

In [78]:
help(tf.transpose)

Help on function transpose_v2 in module tensorflow.python.ops.array_ops:

transpose_v2(a, perm=None, conjugate=False, name='transpose')
    Transposes `a`, where `a` is a Tensor.
    
    Permutes the dimensions according to the value of `perm`.
    
    The returned tensor's dimension `i` will correspond to the input dimension
    `perm[i]`. If `perm` is not given, it is set to (n-1...0), where n is the rank
    of the input tensor. Hence by default, this operation performs a regular
    matrix transpose on 2-D input Tensors.
    
    If conjugate is `True` and `a.dtype` is either `complex64` or `complex128`
    then the values of `a` are conjugated and transposed.
    
    @compatibility(numpy)
    In `numpy` transposes are memory-efficient constant time operations as they
    simply return a new view of the same data with adjusted `strides`.
    
    TensorFlow does not support strides, so `transpose` returns a new tensor with
    the items permuted.
    @end_compatibility
    
    

In [79]:
print(tf.transpose(R_tf))

tf.Tensor(
[[4. 1. 4. 2. 5. 0.]
 [0. 2. 5. 3. 1. 3.]
 [1. 1. 3. 0. 4. 2.]
 [0. 3. 1. 2. 0. 4.]
 [5. 5. 0. 5. 0. 1.]], shape=(5, 6), dtype=float32)


## 生成单位矩阵

In [80]:
tf.eye(3,3)

<tf.Tensor: shape=(3, 3), dtype=float32, numpy=
array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]], dtype=float32)>

## 对矩阵求导和求偏导

1. 在对标量求梯度时就相当于在求导了。
2. 在对向量求梯度时就相当于在求偏导了。对多元函数求偏导，这个部分还没有理解如何通过向量或者矩阵来表示多元函数。**或者说向量中每一个元素就时多元函数中的多元**。
3. 但是对于矩阵求导还没有理解。

1. 对一元方程求导。参考<https://blog.csdn.net/AwesomeP/article/details/123787448>

在这里定义了一个变量x，使用tf.variable()声明，与普通张量一样，该变量拥有形状、类型和值这3种属性。变量与普通张量的一个重要区别是，它默认能够被Tensorflow的自动求导机制求导，因此常用于定义机器模型的参数。

补充知识:tf.Variable () 将变量标记为“可训练”，**被标记的变量会在反向传播中记录梯度信息。神经网络训练中，常用该函数标记待训练参数**。

In [81]:
import tensorflow as tf  # tf为2.*版本
x = tf.Variable(initial_value = 3.0) # 定义变量x，初始化为3
with tf.GradientTape() as tape: # 在tf.GradientTape()的上下文中，所有的计算步骤都会被记录，用以求导
    y = tf.square(x) # y = x的平方
y_grad = tape.gradient(y,x) # 计算y关于x的导数
print(y)      # 输出3的平方  tf.Tensor(9.0, shape=(), dtype=float32)
print(y_grad)


tf.Tensor(9.0, shape=(), dtype=float32)
tf.Tensor(6.0, shape=(), dtype=float32)


上面的例子中使用了tf.Variable()定义x，下面我们展示使用tf.constant()定义x，注意两者之间求导时的不同，需要tape.watch(x)

默认情况下GradientTape的资源在调用gradient函数后就被释放，再次调用就无法计算了。**所以如果需要多次计算梯度**，需要开启persistent=True属性

In [82]:
import tensorflow as tf  
x = tf.constant(3.0)
# 注意使用persistent=True。需要多次计算梯度的时候就需要使用这个参数。
with tf.GradientTape(persistent=True) as tape:
    tape.watch(x) 
    y = tf.square(x)    # y = x的平方
    z = tf.pow(x,4)     # z = x的4次方
y_grad = tape.gradient(y,x) 
Z_grad = tape.gradient(z,x)
print(y.numpy())       # 9.0， 我们将tensor类型转换为numpy类型
print(y_grad.numpy())  # 6.0

print(z.numpy())       # 81.0
print(Z_grad.numpy())  # 108.0

9.0
6.0
81.0
108.0


In [83]:
import tensorflow as tf  
x = tf.Variable(3.0)
# 注意使用persistent=True。需要多次计算梯度的时候就需要使用这个参数。
with tf.GradientTape(persistent=True) as tape:
    y = tf.square(x)    # y = x的平方
    z = tf.pow(x,4)     # z = x的4次方
y_grad = tape.gradient(y,x) 
Z_grad = tape.gradient(z,x)
print(y.numpy())       # 9.0， 我们将tensor类型转换为numpy类型
print(y_grad.numpy())  # 6.0

print(z.numpy())       # 81.0
print(Z_grad.numpy())  # 108.0

9.0
6.0
81.0
108.0


2. 求偏导

按照教程里面的例子手动来一遍。\
给定两个向量$\boldsymbol{x}, \boldsymbol{y} \in \mathbb{R}^{1 \times n}$，它们的点积（dot product）表示为$\boldsymbol{x} \boldsymbol{y}^T \in \mathbb{R}^{1 \times 1}$。

也就是$\boldsymbol{x} = \{x_1,x_2,\cdots, x_n\}, \boldsymbol{y}= \{y_1,y_2,\cdots, y_n\}, x\cdot y \coloneqq x_1y_1 + x_2y_2 + \cdots + x_ny_n$

tf.GradientTape().gradient()计算的是梯度。

In [84]:
import tensorflow as tf

x = tf.range(4, dtype=tf.float32)
print(x)
x = tf.Variable(x)
with tf.GradientTape() as t:
    y = 2 * tf.tensordot(x, x, axes=1)
y

tf.Tensor([0. 1. 2. 3.], shape=(4,), dtype=float32)


<tf.Tensor: shape=(), dtype=float32, numpy=28.0>

x是一个长度为4的向量，计算x和x的点积，得到了我们赋值给y的标量输出。接下来，**我们通过调用反向传播函数来自动计算y关于x每个分量的梯度**。

所以下面计算出来的不是一个值，而是一个向量。梯度是对向量上每个元素求偏导数。\
也就是说完成了偏导和求梯度两个步骤。

In [85]:
x_grad = t.gradient(y, x)
x_grad

<tf.Tensor: shape=(4,), dtype=float32, numpy=array([ 0.,  4.,  8., 12.], dtype=float32)>

In [86]:
x_grad == 4 * x

<tf.Tensor: shape=(4,), dtype=bool, numpy=array([ True,  True,  True,  True])>

In [87]:
with tf.GradientTape() as t:
    y = tf.reduce_sum(x)
t.gradient(y, x)  

<tf.Tensor: shape=(4,), dtype=float32, numpy=array([1., 1., 1., 1.], dtype=float32)>

下面这段代码说明了对矩阵求偏导和函数求偏导差别很大。

矩阵求导还不在线性代数最常用的10个公式里面。

In [88]:
matrix_will_grad = tf.Variable(np.random.rand(3, 3), dtype=float)
print(matrix_will_grad)
with tf.GradientTape() as t:
    # y = 2 * tf.matmul(matrix_will_grad, matrix_will_grad)
    y = 2 * tf.tensordot(matrix_will_grad, matrix_will_grad, axes=1)
x_grad = t.gradient(y, matrix_will_grad)
print(x_grad)

<tf.Variable 'Variable:0' shape=(3, 3) dtype=float32, numpy=
array([[0.71304387, 0.6407354 , 0.37049818],
       [0.5417524 , 0.6280546 , 0.17211482],
       [0.65342075, 0.40862086, 0.29642776]], dtype=float32)>
tf.Tensor(
[[7.264989  6.5002775 6.533373 ]
 [6.8033767 6.0386653 6.07176  ]
 [5.1266365 4.361925  4.3950205]], shape=(3, 3), dtype=float32)


In [89]:
x_grad == 4 * matrix_will_grad

<tf.Tensor: shape=(3, 3), dtype=bool, numpy=
array([[False, False, False],
       [False, False, False],
       [False, False, False]])>

3. 实现链式法则

Dive into deep learning 2.5.3中文字描述如下：
“有时，我们希望将某些计算移动到记录的计算图之外。 例如，假设y是作为x的函数计算的，而z则是作为y和x的函数计算的。 想象一下，我们想计算z关于x的梯度，但由于某种原因，我们希望将y视为一个常数， 并且只考虑到x在y被计算后发挥的作用。
在这里，我们可以分离y来返回一个新变量u，该变量与y具有相同的值， 但丢弃计算图中如何计算y的任何信息。 换句话说，梯度不会向后流经u到x。 因此，下面的反向传播函数计算z=u*x关于x的偏导数，同时将u作为常数处理， 而不是z=x*x*x关于x的偏导数。”

In [133]:
x = tf.Variable(3.0)
with tf.GradientTape(persistent=True) as t:
    y = x * x
    u = tf.stop_gradient(y)
    z = u * x

x_grad = t.gradient(z, x)
x_grad == u

<tf.Tensor: shape=(), dtype=bool, numpy=True>

In [134]:
t.gradient(y, x) == 2 * x

<tf.Tensor: shape=(), dtype=bool, numpy=True>

4. 对两个参数分别求导

In [139]:
a = tf.Variable(3.0)
b = tf.Variable(5.0)

with tf.GradientTape(persistent=True) as tape:
    c = a * a * b * b

da, db = tape.gradient(c, [a,b])
print(da)
print(db)
# print(c_grad.numpy())

tf.Tensor(150.0, shape=(), dtype=float32)
tf.Tensor(90.0, shape=(), dtype=float32)


5. 求二阶导数

## 基于python流的梯度计算

好处：**可以计算分段函数的导数或者梯度**。

In [92]:
def f(a):
    b = a * 2
    print("1 b", b)
    # 计算的是向量的L1范数，也就是求向量元素绝对值之和。
    # 注意tf.norm只是求了b的L1范数，但是没有改变b的值。b的值是在b = b * 2中改变的。
    while tf.norm(b) < 1000:
        b = b * 2
    print("2 b", b)
    if tf.reduce_sum(b) > 0:
        c = b
    else:
        c = 100 * b
    print("3 c", c)
    return c

In [93]:
# a的这种定义形式还是第一次看到。shape=()表示的含义还不清楚。
# a = tf.Variable(tf.random.normal(shape=()))
a = tf.Variable(tf.random.normal(shape=(3,3)))
# a = tf.Variable(1)
# a = tf.range(4, dtype=tf.float32)
print(a)
print(a.shape)
print(type(a))


with tf.GradientTape() as t:
    d = f(a)
d_grad = t.gradient(d, a)
print(d_grad)

<tf.Variable 'Variable:0' shape=(3, 3) dtype=float32, numpy=
array([[ 0.30392563, -0.03773735, -1.0085843 ],
       [ 0.1575343 ,  0.9578781 , -1.9102858 ],
       [-0.02082451,  0.96601367, -1.08276   ]], dtype=float32)>
(3, 3)
<class 'tensorflow.python.ops.resource_variable_ops.ResourceVariable'>
1 b tf.Tensor(
[[ 0.60785127 -0.07547469 -2.0171685 ]
 [ 0.3150686   1.9157562  -3.8205717 ]
 [-0.04164901  1.9320273  -2.16552   ]], shape=(3, 3), dtype=float32)
2 b tf.Tensor(
[[ 155.60992    -19.321522  -516.39514  ]
 [  80.65756    490.4336    -978.06635  ]
 [ -10.6621475  494.599     -554.3731   ]], shape=(3, 3), dtype=float32)
3 c tf.Tensor(
[[ 15560.992   -1932.1522 -51639.516 ]
 [  8065.7563  49043.36   -97806.63  ]
 [ -1066.2147  49459.9    -55437.312 ]], shape=(3, 3), dtype=float32)
tf.Tensor(
[[51200. 51200. 51200.]
 [51200. 51200. 51200.]
 [51200. 51200. 51200.]], shape=(3, 3), dtype=float32)


In [94]:
print(d/a)

tf.Tensor(
[[51200. 51200. 51200.]
 [51200. 51200. 51200.]
 [51200. 51200. 51200.]], shape=(3, 3), dtype=float32)


In [95]:
# 这里d/a表示的就是由a到d所乘以的常数C的值。
d_grad == d / a

<tf.Tensor: shape=(3, 3), dtype=bool, numpy=
array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])>

## 广播机制

理解：当两个向量的形状不符合向量（矩阵的试验不成功）计算的规则时
1. 将两个向量分别按照二元计算的两个向量的形状进行扩展，变成为相同的形状。
2. 然后将两个向量再进行二元计算。

如下面的例子所示，将A只有一列，B只有一行。A按照B的行数进行复制，B按照A的列数进行复制，然后都形成$3 \times 2$的矩阵在进行加法计算。

<https://zh-v2.d2l.ai/chapter_preliminaries/ndarray.html>中的说明如下：我们看到了如何在相同形状的两个张量上执行按元素操作。 在某些情况下，即使形状不同，我们仍然可以通过调用 广播机制（broadcasting mechanism）来执行按元素操作。 这种机制的工作方式如下：首先，通过适当复制元素来扩展一个或两个数组， 以便在转换之后，两个张量具有相同的形状。 其次，对生成的数组执行按元素操作。

In [96]:
A = tf.reshape(tf.range(3), (3, 1))
B = tf.reshape(tf.range(2), (1, 2))
A, B

(<tf.Tensor: shape=(3, 1), dtype=int32, numpy=
 array([[0],
        [1],
        [2]])>,
 <tf.Tensor: shape=(1, 2), dtype=int32, numpy=array([[0, 1]])>)

In [97]:
A + B

<tf.Tensor: shape=(3, 2), dtype=int32, numpy=
array([[0, 1],
       [1, 2],
       [2, 3]])>

In [98]:
C = tf.ones([2,2])
D = tf.ones([3,3])
C, D

# 这个时候C和D不能使用广播机制来进行计算。
# C + D

(<tf.Tensor: shape=(2, 2), dtype=float32, numpy=
 array([[1., 1.],
        [1., 1.]], dtype=float32)>,
 <tf.Tensor: shape=(3, 3), dtype=float32, numpy=
 array([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=float32)>)

## 节省内存

这部分看到了代码但是还不理解作用。
现在的理解是：定义一个变量，python给它分配了一块内存。经过一个运算之后，再次给这个变量赋值时，变量指向了另外一块地址。而原来定义变量时分配的内容没有释放。而tensorflow直接解决了这个问题。

In [99]:
X = tf.random.normal(shape=[3,5])
Y = tf.ones([3,5])

1. python的例子。

<https://zh-v2.d2l.ai/chapter_preliminaries/ndarray.html>说明如下：在下面的例子中，我们用Python的id()函数演示了这一点， 它给我们提供了内存中引用对象的确切地址。 运行Y = Y + X后，我们会发现id(Y)指向另一个位置。**这是因为Python首先计算Y + X，为结果分配新的内存，然后使Y指向内存中的这个新位置**。

In [100]:
before = id(Y)
Y = Y + X
id(Y) == before

False

2. tensorflow的例子。

这可能是不可取的，原因有两个：首先，我们不想总是不必要地分配内存。 在机器学习中，我们可能有数百兆的参数，并且在一秒内多次更新所有参数。 通常情况下，我们希望原地执行这些更新。 其次，如果我们不原地更新，其他引用仍然会指向旧的内存位置， 这样我们的某些代码可能会无意中引用旧的参数。

这可能是不可取的，原因有两个：首先，我们不想总是不必要地分配内存。 在机器学习中，我们可能有数百兆的参数，并且在一秒内多次更新所有参数。 通常情况下，我们希望原地执行这些更新。 其次，如果我们不原地更新，其他引用仍然会指向旧的内存位置， 这样我们的某些代码可能会无意中引用旧的参数。

Variables是TensorFlow中的可变容器，它们提供了一种存储模型参数的方法。 我们可以通过assign将一个操作的结果分配给一个Variable。 为了说明这一点，我们创建了一个与另一个张量Y相同的形状的Z， 使用zeros_like来分配一个全0的块。

In [101]:
Z = tf.Variable(tf.zeros_like(Y))
print('id(Z):', id(Z))
Z.assign(X + Y)
print('id(Z):', id(Z))

id(Z): 809336392
id(Z): 809336392


即使你将状态持久存储在Variable中， 你也可能希望避免为不是模型参数的张量过度分配内存，从而进一步减少内存使用量。

由于TensorFlow的Tensors是不可变的，而且梯度不会通过Variable流动， 因此TensorFlow没有提供一种明确的方式来原地运行单个操作。

但是，TensorFlow提供了tf.function修饰符， 将计算封装在TensorFlow图中，该图在运行前经过编译和优化。 这允许TensorFlow删除未使用的值，并复用先前分配的且不再需要的值。 这样可以最大限度地减少TensorFlow计算的内存开销。

In [102]:
@tf.function
def computation(X, Y):
    Z = tf.zeros_like(Y)  # 这个未使用的值将被删除
    A = X + Y  # 当不再需要时，分配将被复用
    B = A + Y
    C = B + Y
    return C + Y

computation(X, Y)

<tf.Tensor: shape=(3, 5), dtype=float32, numpy=
array([[10.902623  ,  5.584292  ,  8.424958  ,  5.02748   ,  9.17971   ],
       [ 3.289022  ,  8.806149  ,  0.42324775,  7.458191  ,  1.2676685 ],
       [ 6.4035788 ,  7.8937836 ,  6.2977185 ,  3.3101096 , -0.9947074 ]],
      dtype=float32)>

## tensor变为其他类型

In [103]:
A = tf.ones([3,5])
O = A.numpy()
print(type(O), O)
C = tf.constant(A)
print(type(C))


<class 'numpy.ndarray'> [[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]
<class 'tensorflow.python.framework.ops.EagerTensor'>


**重要**：要将大小为1的张量转换为Python标量，我们可以调用item函数或Python的内置函数。
对constant和variable都需要先转为numpy在进行提取标量的计算。

In [104]:
B = tf.constant([4.6]).numpy()
B, B.item(), float(B), int(B)


(array([4.6], dtype=float32), 4.599999904632568, 4.599999904632568, 4)

In [105]:
V = tf.Variable([4.4]).numpy()
V, V.item(), float(V), int(V)

(array([4.4], dtype=float32), 4.400000095367432, 4.400000095367432, 4)

## 降维

降维是通过按行或者按列进行求和/平均值等方式来实现。

In [106]:
import tensorflow as tf

X = tf.random.normal(shape=[3,5])
Y = tf.ones([3,5])
X, Y

(<tf.Tensor: shape=(3, 5), dtype=float32, numpy=
 array([[-0.07129372,  0.8245831 ,  1.361083  ,  1.7577128 ,  0.04817514],
        [ 0.4768322 , -0.8659228 ,  0.9600666 , -0.5569902 ,  0.8157658 ],
        [ 0.16324878,  0.46411008, -1.562415  , -0.48711687, -0.41980916]],
       dtype=float32)>,
 <tf.Tensor: shape=(3, 5), dtype=float32, numpy=
 array([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]], dtype=float32)>)

axis=0表示按照列来进行求和。
axis=1按照行来进行求和。

In [107]:
A_sum_axis0 = tf.reduce_sum(Y, axis=0)
A_sum_axis0, A_sum_axis0.shape

(<tf.Tensor: shape=(5,), dtype=float32, numpy=array([3., 3., 3., 3., 3.], dtype=float32)>,
 TensorShape([5]))

In [108]:
A_sum_axis1 = tf.reduce_sum(Y, axis=1)
A_sum_axis1, A_sum_axis1.shape

(<tf.Tensor: shape=(3,), dtype=float32, numpy=array([5., 5., 5.], dtype=float32)>,
 TensorShape([3]))

注意，可以指定降维的坐标轴。这里是二维的所以轴只有0和1。对于更高维的可以指定更多的坐标轴。

In [109]:
tf.reduce_sum(Y, axis=[0, 1])

<tf.Tensor: shape=(), dtype=float32, numpy=15.0>

## 非降维求和

使用的参数是keepdims=True。

In [110]:
sum_A = tf.reduce_sum(Y, axis=1, keepdims=True)
sum_A

<tf.Tensor: shape=(3, 1), dtype=float32, numpy=
array([[5.],
       [5.],
       [5.]], dtype=float32)>

## 按指定轴进行累积求和

这种操作的详细说明：第一行的值是自己。第二行是第一行的值加上第二行的值。第三行是更新后第二行的值再加上第三行的值。以此类推。

In [111]:
tf.cumsum(Y, axis=0)

<tf.Tensor: shape=(3, 5), dtype=float32, numpy=
array([[1., 1., 1., 1., 1.],
       [2., 2., 2., 2., 2.],
       [3., 3., 3., 3., 3.]], dtype=float32)>

## 矩阵与向量之间的乘法

要求$\boldsymbol{A} \in \mathbb{R}^{m \times n}$和$\boldsymbol{x} \in \mathbb{R}^n$。注意A的列数和x的元素个数相同。得到的结果$\boldsymbol{Ax} \in \mathbb{R}^{m \times 1}$。

In [112]:

A = tf.constant([[1,2,3],[4,5,6],[7,8,9]])
# B = tf.constant([[1],[2],[3]])
B = tf.constant([[1,2,3]])
A.shape, B.shape

(TensorShape([3, 3]), TensorShape([1, 3]))

In [113]:
tf.linalg.matvec(A, B)

<tf.Tensor: shape=(1, 3), dtype=int32, numpy=array([[14, 32, 50]])>

## 范数

[相关的数学定义和说明详见](../../mathematics/LinearAlgebra.md)

在深度学习中，我们经常试图解决优化问题： 最大化分配给观测数据的概率; 最小化预测和真实观测之间的距离。 用向量表示物品（如单词、产品或新闻文章），以便最小化相似项目之间的距离，最大化不同项目之间的距离。 目标，或许是深度学习算法最重要的组成部分（除了数据），通常被表达为范数。

In [114]:
# 定义计算所需要的向量和矩阵
import tensorflow as tf
x = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0])
A = tf.random.normal([3,4])

1. 对向量计算$L_1$范数，$L_1$为$||x||_1 = \sum\limits_{i=1}^n |x_i|$。也就是向量元素绝对值之和。

In [115]:
tf.reduce_sum(tf.abs(x))

<tf.Tensor: shape=(), dtype=float32, numpy=15.0>

2. 对向量计算$L_2$范数，$L_2$为$||x||_2 = \sqrt{\sum\limits_{i=1}^n x_i^2}$。也就是向量元素平方之和再开根号。

必须要求向量中元素不是int类型，也就是必须是float类型。

In [116]:
tf.norm(x)

<tf.Tensor: shape=(), dtype=float32, numpy=7.4161983>

3. 对矩阵计算$L_F$范数

In [117]:
tf.norm(A)

<tf.Tensor: shape=(), dtype=float32, numpy=4.869356>

## 向量之间点积（Dot Product）

给定两个向量$\boldsymbol{x}, \boldsymbol{y} \in \mathbb{R}^d$，它们的点积（dot product）$\boldsymbol{x}^T \boldsymbol{y}$（或$<\boldsymbol{x}, \boldsymbol{y}>$）是相同位置的按元素乘积的和：$\sum\limits_{i=1}^dx_iy_i$。

感觉这个地方是不是这样表述更准确一些。$\boldsymbol{x}^T \in \mathbb{R}^{n \times 1}$，所以$\boldsymbol{x}^T \boldsymbol{y} \in \mathbb{R}^{n \times n}$。它们的点积是不是应该表示为$\boldsymbol{x} \boldsymbol{y}^T \in \mathbb{R}^{1 \times 1}$。这样是不是符合直觉一点呢？

tf.tensordot有点特别，使用x_1和y_1计算时，与tf.reduce_sum(x_1 * y_1)的计算结果不一样。应该是和tf.tensordot的定义有关。而且特别的和axes这个参数有关。

In [118]:
x_1 = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0])
y_1 = tf.random.normal([5,1])
tf.tensordot(x_1, y_1, axes=1)

<tf.Tensor: shape=(1,), dtype=float32, numpy=array([11.65424], dtype=float32)>

In [119]:
tf.reduce_sum(x_1 * y_1)

<tf.Tensor: shape=(), dtype=float32, numpy=40.03689>

In [120]:
x_2 = tf.constant([0, 1.0, 2.0, 3.0])
y_2 = tf.constant([1.0, 1.0, 1.0, 1.0])
tf.tensordot(x_2, y_2, axes=1)

<tf.Tensor: shape=(), dtype=float32, numpy=6.0>

In [121]:
y_2.shape

TensorShape([4])

In [122]:
x_2 = tf.constant([0, 1.0, 2.0, 3.0])
y_2 = tf.constant([[1.0], [1.0], [1.0], [1.0]])
tf.tensordot(x_2, y_2, axes=1)

<tf.Tensor: shape=(1,), dtype=float32, numpy=array([6.], dtype=float32)>

In [123]:
y_2.shape

TensorShape([4, 1])

In [124]:
# help(tf.tensordot)

In [125]:
tf.reduce_sum(x_2 * y_2)

<tf.Tensor: shape=(), dtype=float32, numpy=24.0>

## tf.gather用法

```python
tf.gather
(
    params,
    indices,
    validate_indices=None,
    name=None,
    axis=0
)
```

这个函数的作用就是为了分批量提取样本的。具体而言：

params是样本空间（也就是所有样本数据）。

indices是想要提取的样本编号（index），可以是一个列表类似的数据类型。默认是按照第一个维度提取。二维数据就是按行提取。

axis=0 已经有默认值了。默认值就是第一个维度，二维数据默认值就是取行上的数据。

还有两个参数用得非常少。

In [126]:
print(R)
print(R.shape[0])

[[4 0 1 0 5]
 [1 2 1 3 5]
 [4 5 3 1 0]
 [2 3 0 2 5]
 [5 1 4 0 0]
 [0 3 2 4 1]]
6


In [127]:
# 在dive into deep learning中使用了这种用法。
# 为什么这样用，不知道。
ii =tf.constant([0,1,2])

In [128]:
tf.gather(R, ii)

<tf.Tensor: shape=(3, 5), dtype=int32, numpy=
array([[4, 0, 1, 0, 5],
       [1, 2, 1, 3, 5],
       [4, 5, 3, 1, 0]])>

In [129]:
tf.gather(R, [0,1,2])

<tf.Tensor: shape=(3, 5), dtype=int32, numpy=
array([[4, 0, 1, 0, 5],
       [1, 2, 1, 3, 5],
       [4, 5, 3, 1, 0]])>

In [130]:
tf.gather(R, [0,1,2], axis=1)

<tf.Tensor: shape=(6, 3), dtype=int32, numpy=
array([[4, 0, 1],
       [1, 2, 1],
       [4, 5, 3],
       [2, 3, 0],
       [5, 1, 4],
       [0, 3, 2]])>

## tensorflow中assign_sub()函数的使用

In [145]:
x = tf.Variable([3.0, 4.0])
y = tf.Variable([2.0, 7.0])
z = x.assign_sub(y)
z

<tf.Variable 'UnreadVariable' shape=(2,) dtype=float32, numpy=array([ 1., -3.], dtype=float32)>

In [141]:
help(x.assign_sub)

Help on method assign_sub in module tensorflow.python.ops.resource_variable_ops:

assign_sub(delta, use_locking=None, name=None, read_value=True) method of tensorflow.python.ops.resource_variable_ops.ResourceVariable instance
    Subtracts a value from this variable.
    
    Args:
      delta: A `Tensor`. The value to subtract from this variable.
      use_locking: If `True`, use locking during the operation.
      name: The name to use for the operation.
      read_value: A `bool`. Whether to read and return the new value of the
        variable or not.
    
    Returns:
      If `read_value` is `True`, this method will return the new value of the
      variable after the assignment has completed. Otherwise, when in graph mode
      it will return the `Operation` that does the assignment, and when in eager
      mode it will return `None`.



## 数据预处理

1. 参考
   1. <https://zhuanlan.zhihu.com/p/380141130> 
   2. <https://blog.csdn.net/weixin_44493841/article/details/121147868>
2. 重点：
   一般我们常使用tf.data.Dataset.from_tensor_slices方法加载数据。同时，Dataset提供了repeat()和batch()方法方便我们建立循环的数据，repeat参数给定一个整型值就可以使数据重复几份，而batch则是将数据以多少条进行批处理，也就是按照batch参数大小切割数据。
   
   注意，repeat和batch的先后顺序不一样 ，结果是不同的，先repeat再batch会把数据先复制N份变成一个大数据，然后batch是根据这个大的数据来做的。例如，上面我们构造了10个数据，先repeat10份就有100个，再假设batch设置为6，那么最终数据是100/6+1=17份，那么也就是循环17次，如果先batch设置为6，那么数据先变成了10/6+1=2份，再repeat10次就有了20份数据了，循环要20次。这个一定要注意。
3. 步骤
   
   Step0: 准备要加载的numpy数据

   Step1: 使用 tf.data.Dataset.from_tensor_slices() 函数进行加载

   Step2: 使用 shuffle() 打乱数据

   Step3: 使用 map() 函数进行预处理

   Step4: 使用 batch() 函数设置 batch size 值

   Step5: 根据需要 使用 repeat() 设置是否循环迭代数据集


In [1]:
import tensorflow as tf
import numpy as np

In [7]:
A = np.array([[4,0,1],
     [1,2,1],
     [4,5,3]])

B = np.array([[1],
     [1],
     [0]])

C = np.array([[2,3,6],
     [7,1,2],
     [1,2,0]])

D = np.array([[0],
     [0],
     [1]])

x_train = tf.convert_to_tensor(A, dtype=float)
y_train = tf.convert_to_tensor(B, dtype=float)

x_test = tf.convert_to_tensor(C, dtype=float)
y_test = tf.convert_to_tensor(D, dtype=float)


In [3]:
# # 先人工生成一组数据
# m = 10
# n = 5

# m_test = 15

# x_train = tf.zeros([m, n], dtype=float)
# y_train = tf.ones([m, 1], dtype=float)

# x_test = tf.ones([m_test, n], dtype=float)
# y_test = tf.ones([m_test, 1], dtype=float)

In [8]:
tf.print(x_train)
tf.print(y_train)

print(x_train.shape)

tf.print(x_test)
tf.print(y_test)

[[4 0 1]
 [1 2 1]
 [4 5 3]]
[[1]
 [1]
 [0]]
(3, 3)
[[2 3 6]
 [7 1 2]
 [1 2 0]]
[[0]
 [0]
 [1]]


In [9]:
db_train = tf.data.Dataset.from_tensor_slices((x_train, y_train))
db_test = tf.data.Dataset.from_tensor_slices((x_test, y_test))

In [11]:
db_train

<TensorSliceDataset element_spec=(TensorSpec(shape=(3,), dtype=tf.float32, name=None), TensorSpec(shape=(1,), dtype=tf.float32, name=None))>

In [10]:
for data in db_train:
    print(data)

(<tf.Tensor: shape=(3,), dtype=float32, numpy=array([4., 0., 1.], dtype=float32)>, <tf.Tensor: shape=(1,), dtype=float32, numpy=array([1.], dtype=float32)>)
(<tf.Tensor: shape=(3,), dtype=float32, numpy=array([1., 2., 1.], dtype=float32)>, <tf.Tensor: shape=(1,), dtype=float32, numpy=array([1.], dtype=float32)>)
(<tf.Tensor: shape=(3,), dtype=float32, numpy=array([4., 5., 3.], dtype=float32)>, <tf.Tensor: shape=(1,), dtype=float32, numpy=array([0.], dtype=float32)>)


In [12]:
dataset = db_train.repeat(2) # 把dataset重复2次
dataset

<RepeatDataset element_spec=(TensorSpec(shape=(3,), dtype=tf.float32, name=None), TensorSpec(shape=(1,), dtype=tf.float32, name=None))>