# Tensorflow基本操作

1. 使用的tensorflow版本是2.8.0 
2. 参考视频<https://www.bilibili.com/video/BV1Ub4y1e7P3?p=4>
3. **重点-tensorflow几个最基本的操作参考**<https://zhuanlan.zhihu.com/p/377280469>
4. **重点-tensorflow关于导数和线性代数的参考**<https://zh-v2.d2l.ai/>中第2章的内容。而且这部分内容非常简单易学。

In [1]:
import tensorflow as tf
import numpy as np

# 6 * 5矩阵
R = np.array([[4,0,1,0,5],
     [1,2,1,3,5],
     [4,5,3,1,0],
     [2,3,0,2,5],
     [5,1,4,0,0],
     [0,3,2,4,1]])

# 方阵
R_Square = np.array([[4,0,1,0,5],
     [1,2,1,3,5],
     [4,5,3,1,0],
     [2,3,0,2,5],
     [5,1,4,0,0]])

## 创建指定大小的矩阵

推荐使用第二种和第三种方法。

1. 创建全零的tensor矩阵

In [2]:
m =5
K = 4
n = 7
# 方法一
P = tf.zeros([m, K], dtype=float)
Q = tf.zeros([K, n], dtype=float)

2. 创建指定大小的tensor矩阵。**推荐**

In [3]:
# 方法二
P = tf.Variable(np.random.rand(m, K), dtype=float)
Q = tf.Variable(np.random.rand(K, n), dtype=float)
print(P)

<tf.Variable 'Variable:0' shape=(5, 4) dtype=float32, numpy=
array([[0.49916318, 0.7969988 , 0.17459068, 0.78337413],
       [0.61681736, 0.75326604, 0.15732774, 0.85706615],
       [0.37963682, 0.38678092, 0.11590412, 0.37901422],
       [0.09480467, 0.5647535 , 0.87270737, 0.96465135],
       [0.4027385 , 0.89151186, 0.40022704, 0.96593887]], dtype=float32)>


3. **推荐**。使用tensorflow自己的函数创建随机产生的矩阵。而且矩阵中数值的分布满足每个元素都从均值为0、标准差为1的标准高斯分布。

In [4]:
P = tf.random.normal(shape=[3, 4])
print(P)

tf.Tensor(
[[ 0.04316835 -0.16610618 -1.1671634  -0.7541653 ]
 [ 1.2491441   0.20424995  0.7165843  -0.20915909]
 [-1.0940877   2.14482     0.31099    -0.40084326]], shape=(3, 4), dtype=float32)


4. 创建全1矩阵

In [5]:
AE = tf.ones(shape=[3,4])
AE

<tf.Tensor: shape=(3, 4), dtype=float32, numpy=
array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]], dtype=float32)>

5. 创建单位矩阵

对角矩阵是方阵，一般记为$diag(a_1,a_2,\cdots,a_n)$。\
单位矩阵是对角矩阵的特例，所有对角线上的元素全为1。\
tf可以创建不是方阵的在$i=j$的位置上的类似对角矩阵的矩阵。

In [6]:
E = tf.eye(3)
E

<tf.Tensor: shape=(3, 3), dtype=float32, numpy=
array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]], dtype=float32)>

In [7]:
E_other = tf.eye(3,5)
E_other

<tf.Tensor: shape=(3, 5), dtype=float32, numpy=
array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.]], dtype=float32)>

## 将np.array转换为tensor

In [8]:
R_tf = tf.convert_to_tensor(R, dtype=float)
R_Square_tf = tf.convert_to_tensor(R_Square, dtype=float)

## 获取tensor的形状

In [9]:
R_tf.shape

TensorShape([6, 5])

## 获取tensor的长度

通过os.len()实际上获取的是矩阵或者向量第一个维度的值。\
\
对于向量获取的是元素个数。\
对于2维矩阵获取的是行数。\
对于3维矩阵获取的也是行数。

In [10]:
print(R_tf)
print(len(R_tf))

tf.Tensor(
[[4. 0. 1. 0. 5.]
 [1. 2. 1. 3. 5.]
 [4. 5. 3. 1. 0.]
 [2. 3. 0. 2. 5.]
 [5. 1. 4. 0. 0.]
 [0. 3. 2. 4. 1.]], shape=(6, 5), dtype=float32)
6


In [11]:
T = tf.ones([2,3,4])
print(T)
print(len(T))

tf.Tensor(
[[[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]

 [[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]], shape=(2, 3, 4), dtype=float32)
2


## 获取tensor中元素的个数

In [12]:
tf.size(R_tf)

<tf.Tensor: shape=(), dtype=int32, numpy=30>

## 读取tensor矩阵指定位置的值

In [13]:
R_tf[1][3]

<tf.Tensor: shape=(), dtype=float32, numpy=3.0>

In [14]:
R_tf[1, 3]

<tf.Tensor: shape=(), dtype=float32, numpy=3.0>

## 读取指定行

In [15]:
R_tf[1, :]

<tf.Tensor: shape=(5,), dtype=float32, numpy=array([1., 2., 1., 3., 5.], dtype=float32)>

## 读取指定列

In [16]:
R_tf[:,2]

<tf.Tensor: shape=(6,), dtype=float32, numpy=array([1., 1., 3., 0., 4., 2.], dtype=float32)>

## 修改tensor的形状

1. 若有一个维度为-1，那么tensorflow会自动推导。
2. tf.reshape(tensor, shape, name=None)
    1. tensor：要改变维度（形状）的张量；
    2. shape：希望变成什么维度；
    3. name：操作的名称。

In [17]:
P = tf.reshape(R_tf[1, :], [1, -1])
print(P.shape)

(1, 5)


In [18]:

Q = tf.reshape(R_tf[:,2], [-1, 1])
print(Q.shape)

(6, 1)


## tensor之间的运算有两种
1. 按元素的运算
2. 按线性代数之间的预算

In [19]:
P = tf.ones([3, 4], dtype=float)
Q = tf.random.normal(shape=[3, 4])
print(P,Q)

tf.Tensor(
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]], shape=(3, 4), dtype=float32) tf.Tensor(
[[-1.1426829   0.7680505   0.8110923  -0.575984  ]
 [-0.46203265 -0.16829708  0.029613   -0.12245481]
 [ 1.1846809  -1.3347958  -1.8159322   0.32614648]], shape=(3, 4), dtype=float32)


### 按元素加

In [20]:
P + Q

<tf.Tensor: shape=(3, 4), dtype=float32, numpy=
array([[-0.14268291,  1.7680504 ,  1.8110924 ,  0.424016  ],
       [ 0.5379673 ,  0.83170295,  1.029613  ,  0.8775452 ],
       [ 2.184681  , -0.33479583, -0.81593215,  1.3261465 ]],
      dtype=float32)>

### 按元素减

In [21]:
P - Q

<tf.Tensor: shape=(3, 4), dtype=float32, numpy=
array([[ 2.142683  ,  0.23194951,  0.18890768,  1.575984  ],
       [ 1.4620327 ,  1.168297  ,  0.970387  ,  1.1224548 ],
       [-0.18468094,  2.334796  ,  2.8159323 ,  0.6738535 ]],
      dtype=float32)>

### 按元素乘法

In [22]:
P * Q

<tf.Tensor: shape=(3, 4), dtype=float32, numpy=
array([[-1.1426829 ,  0.7680505 ,  0.8110923 , -0.575984  ],
       [-0.46203265, -0.16829708,  0.029613  , -0.12245481],
       [ 1.1846809 , -1.3347958 , -1.8159322 ,  0.32614648]],
      dtype=float32)>

### 按元素除法

In [23]:
P / Q

<tf.Tensor: shape=(3, 4), dtype=float32, numpy=
array([[-0.8751334 ,  1.3019978 ,  1.2329053 , -1.7361593 ],
       [-2.1643493 , -5.9418736 , 33.76896   , -8.166278  ],
       [ 0.8441091 , -0.74917823, -0.55068135,  3.066107  ]],
      dtype=float32)>

### 按元素求幂

In [24]:
tf.exp(Q)

<tf.Tensor: shape=(3, 4), dtype=float32, numpy=
array([[0.31896213, 2.1555598 , 2.2503648 , 0.56215143],
       [0.6300018 , 0.8451028 , 1.0300559 , 0.8847459 ],
       [3.2696433 , 0.2632119 , 0.16268618, 1.3856183 ]], dtype=float32)>

### 按元素判断tensor比较大小、判断是否相等，返回的是每个位置的boolen型值。

In [25]:
P == Q

<tf.Tensor: shape=(3, 4), dtype=bool, numpy=
array([[False, False, False, False],
       [False, False, False, False],
       [False, False, False, False]])>

In [26]:
P < Q

<tf.Tensor: shape=(3, 4), dtype=bool, numpy=
array([[False, False, False, False],
       [False, False, False, False],
       [ True, False, False, False]])>

In [27]:
P > Q

<tf.Tensor: shape=(3, 4), dtype=bool, numpy=
array([[ True,  True,  True,  True],
       [ True,  True,  True,  True],
       [False,  True,  True,  True]])>

### 按元素对tensor所有元素求和

In [28]:
tf.reduce_sum(P)

<tf.Tensor: shape=(), dtype=float32, numpy=12.0>

## 矩阵之间乘法

In [29]:
eui = tf.matmul(tf.reshape(R_Square_tf[2, :], [1, -1]),tf.reshape(R_Square_tf[:, 3], [-1, 1])) - R_Square_tf[2,3]
print(eui)

tf.Tensor([[19.]], shape=(1, 1), dtype=float32)


## 矩阵之间数乘

1. 计算的是矩阵每个对应位置元素相乘。
2. 需要两个矩阵形状一样。

In [30]:
tf.multiply(R_Square_tf[2, :], R_Square_tf[3, :])

<tf.Tensor: shape=(5,), dtype=float32, numpy=array([ 8., 15.,  0.,  2.,  0.], dtype=float32)>

## 数乘以矩阵

In [31]:
a = 3
print(a * R_Square_tf)

tf.Tensor(
[[12.  0.  3.  0. 15.]
 [ 3.  6.  3.  9. 15.]
 [12. 15.  9.  3.  0.]
 [ 6.  9.  0.  6. 15.]
 [15.  3. 12.  0.  0.]], shape=(5, 5), dtype=float32)


## tensor类型判断

In [32]:
isinstance(eui, tf.Tensor)

True

In [33]:
tf.is_tensor(eui)

True

In [34]:
tf.is_tensor(R)

False

In [35]:
eui.dtype == tf.int16

False

In [36]:
eui.dtype == tf.float32

True

## tensor的类型转换

1. 参考网页<https://wenku.baidu.com/view/9a3b8439fc00bed5b9f3f90f76c66137ef064f55.html>

In [37]:
# 这些都是错误的，在tf 2.0之后都不支持了。

# 将字符串转化为tf.float32（默认）和tf.int32
# tf.string_to_number(string_tensor, out_type=None, name=None)

# 转化为tf.float64
# tf.to_double(eui, name='ToDouble')

# 转化为tf.float32
# tf.to_float(eui, name='ToFloat')

# 转化为tf.int32
# tf.to_int32(eui, name='ToInt32')

# 转化为tf.int64
# tf.to_int64(eui, name='ToInt64')

# 转化为dtype指定的类型
# tf.cast(x, dtype, name=None)

In [38]:
x_0 = np.arange(5)
print(x_0)
x_1 = tf.convert_to_tensor(x_0, dtype=tf.int32)
print(x_1)
x_2 = tf.cast(x_1, dtype=tf.float32)
print(x_2)
x_3 = tf.cast(x_2, dtype=tf.int32)
print(x_3)

[0 1 2 3 4]
tf.Tensor([0 1 2 3 4], shape=(5,), dtype=int32)
tf.Tensor([0. 1. 2. 3. 4.], shape=(5,), dtype=float32)
tf.Tensor([0 1 2 3 4], shape=(5,), dtype=int32)


## 矩阵计算平方

1. 计算的是每个元素的平方值
2. tf.math还有这个类，下面应该有很多数学方法。

In [39]:
eui_square = tf.square(eui)
print(eui_square)

tf.Tensor([[361.]], shape=(1, 1), dtype=float32)


In [40]:
R_tf_square = tf.square(R_tf)
print(R_tf_square)

tf.Tensor(
[[16.  0.  1.  0. 25.]
 [ 1.  4.  1.  9. 25.]
 [16. 25.  9.  1.  0.]
 [ 4.  9.  0.  4. 25.]
 [25.  1. 16.  0.  0.]
 [ 0.  9.  4. 16.  1.]], shape=(6, 5), dtype=float32)


## 计算tensor所有行或者所有列的和

1. 使用tf.reduce_sum来完成
2. 建议都需要填写keepdims=True参数，用于保证tensor的形状。

In [41]:
R_tf

<tf.Tensor: shape=(6, 5), dtype=float32, numpy=
array([[4., 0., 1., 0., 5.],
       [1., 2., 1., 3., 5.],
       [4., 5., 3., 1., 0.],
       [2., 3., 0., 2., 5.],
       [5., 1., 4., 0., 0.],
       [0., 3., 2., 4., 1.]], dtype=float32)>

In [42]:
tf.reduce_sum(R_tf)

<tf.Tensor: shape=(), dtype=float32, numpy=67.0>

In [43]:
help(tf.reduce_sum)

Help on function reduce_sum in module tensorflow.python.ops.math_ops:

reduce_sum(input_tensor, axis=None, keepdims=False, name=None)
    Computes the sum of elements across dimensions of a tensor.
    
    This is the reduction operation for the elementwise `tf.math.add` op.
    
    Reduces `input_tensor` along the dimensions given in `axis`.
    Unless `keepdims` is true, the rank of the tensor is reduced by 1 for each
    of the entries in `axis`, which must be unique. If `keepdims` is true, the
    reduced dimensions are retained with length 1.
    
    If `axis` is None, all dimensions are reduced, and a
    tensor with a single element is returned.
    
    For example:
    
      >>> # x has a shape of (2, 3) (two rows and three columns):
      >>> x = tf.constant([[1, 1, 1], [1, 1, 1]])
      >>> x.numpy()
      array([[1, 1, 1],
             [1, 1, 1]], dtype=int32)
      >>> # sum all the elements
      >>> # 1 + 1 + 1 + 1 + 1+ 1 = 6
      >>> tf.reduce_sum(x).numpy()
      

In [44]:
# 按行求和
row_sum = tf.reduce_sum(R_tf, 1, keepdims=True)
print(row_sum)

tf.Tensor(
[[10.]
 [12.]
 [13.]
 [12.]
 [10.]
 [10.]], shape=(6, 1), dtype=float32)


In [45]:
# 按列求和
column_sum = tf.reduce_sum(R_tf, 0, keepdims=True)
print(column_sum)

tf.Tensor([[16. 14. 11. 10. 16.]], shape=(1, 5), dtype=float32)


In [46]:
# 对所有元素求总和

total_sum = tf.reduce_sum(tf.reduce_sum(R_tf, 0))
print(total_sum)

tf.Tensor(67.0, shape=(), dtype=float32)


## 修改tensor指定位置的值

1. 重点-参考网址<https://blog.csdn.net/qq_34418352/article/details/106399327>
2. tensor本身不能直接修改指定位置的值，需要转化为Variable之后，配合assign（动词，分配的意思）一起来完成这个操作。
3. 使用的是tf.Variable.assign和tf.Variable.assign_add来进行修改。也就是说支队tensorflow variable类型才能使用。<https://www.jianshu.com/p/efcb86940896>

### 修改指定位置的值第一种方法

In [47]:
R_tf_square_variable = tf.Variable(R_tf_square)
R_tf_square_variable[1, 1].assign(99)
print(R_tf_square_variable) 

<tf.Variable 'Variable:0' shape=(6, 5) dtype=float32, numpy=
array([[16.,  0.,  1.,  0., 25.],
       [ 1., 99.,  1.,  9., 25.],
       [16., 25.,  9.,  1.,  0.],
       [ 4.,  9.,  0.,  4., 25.],
       [25.,  1., 16.,  0.,  0.],
       [ 0.,  9.,  4., 16.,  1.]], dtype=float32)>


### 修改指定位置的值第二种方法

1. 这种方法也太不直接了。不建议使用。

In [48]:
def ModifyTensor(input_tensor, position=None, value=None):
    input_tensor = input_tensor.numpy()
    input_tensor[tuple(position)] = value
    return input_tensor
# new_tensor
R_tf_square_variable = tf.py_function(ModifyTensor, inp=[R_tf_square_variable, [2,2], 44], 
                            Tout=R_tf_square_variable.dtype)
print(type(R_tf_square_variable))
print(R_tf_square_variable)

<class 'tensorflow.python.framework.ops.EagerTensor'>
tf.Tensor(
[[16.  0.  1.  0. 25.]
 [ 1. 99.  1.  9. 25.]
 [16. 25. 44.  1.  0.]
 [ 4.  9.  0.  4. 25.]
 [25.  1. 16.  0.  0.]
 [ 0.  9.  4. 16.  1.]], shape=(6, 5), dtype=float32)


## tensor变量的定义及使用

1. 定义标量

In [49]:
a = tf.Variable(1.0)
b = (a + 2) * 3
print(b)

tf.Tensor(9.0, shape=(), dtype=float32)


2. 定义矩阵变量
3. 修改特定位置的值
4. 修改一行值

In [50]:
a = tf.Variable(np.random.rand(3, 5), dtype=float)
print(a)
a[1, 1].assign(5)
print(a)
a[2, :].assign(tf.constant([1.0, 2.0, 3.0, 4.0, 5.0]))
print(a)

<tf.Variable 'Variable:0' shape=(3, 5) dtype=float32, numpy=
array([[0.9208133 , 0.6979436 , 0.97693753, 0.34720075, 0.6390737 ],
       [0.95835626, 0.09005744, 0.9184809 , 0.938954  , 0.88379335],
       [0.14109929, 0.73994035, 0.85653913, 0.39300245, 0.02206565]],
      dtype=float32)>
<tf.Variable 'Variable:0' shape=(3, 5) dtype=float32, numpy=
array([[0.9208133 , 0.6979436 , 0.97693753, 0.34720075, 0.6390737 ],
       [0.95835626, 5.        , 0.9184809 , 0.938954  , 0.88379335],
       [0.14109929, 0.73994035, 0.85653913, 0.39300245, 0.02206565]],
      dtype=float32)>
<tf.Variable 'Variable:0' shape=(3, 5) dtype=float32, numpy=
array([[0.9208133 , 0.6979436 , 0.97693753, 0.34720075, 0.6390737 ],
       [0.95835626, 5.        , 0.9184809 , 0.938954  , 0.88379335],
       [1.        , 2.        , 3.        , 4.        , 5.        ]],
      dtype=float32)>


5. tf.Variable.assign_add的使用。

In [51]:
a = tf.Variable(1.0)
b = (a.assign_add(2)) * 3
print(b)

tf.Tensor(9.0, shape=(), dtype=float32)


6. 循环访问tensor变量中的值

In [52]:
m = 3
K = 5
P = tf.Variable(np.random.rand(m, K), dtype=float)

for i in range(m):
    print("Display P[i, :].shape={} and P[i, :]={}".format(P[i, :].shape, P[i, :]))

for j in range(K):
    print("Display P[:, j].shape={} and P[:, j]={}".format(P[i, :].shape, P[:, j]))

Display P[i, :].shape=(5,) and P[i, :]=[0.8330593  0.5363534  0.35161617 0.9450023  0.8986846 ]
Display P[i, :].shape=(5,) and P[i, :]=[0.34658846 0.12806404 0.75541556 0.28657988 0.46947244]
Display P[i, :].shape=(5,) and P[i, :]=[0.39482537 0.7493379  0.04562725 0.20900919 0.9103988 ]
Display P[:, j].shape=(5,) and P[:, j]=[0.8330593  0.34658846 0.39482537]
Display P[:, j].shape=(5,) and P[:, j]=[0.5363534  0.12806404 0.7493379 ]
Display P[:, j].shape=(5,) and P[:, j]=[0.35161617 0.75541556 0.04562725]
Display P[:, j].shape=(5,) and P[:, j]=[0.9450023  0.28657988 0.20900919]
Display P[:, j].shape=(5,) and P[:, j]=[0.8986846  0.46947244 0.9103988 ]


7. 修改指定行，不能用=来进行赋值。必须用assign来赋值。

In [53]:
P[1,:].assign(P[1,:] + P[0,:])
# P[1,:] = P[1,:] + P[0,:]
# print(P[1,:])
# print(P)

<tf.Variable 'UnreadVariable' shape=(3, 5) dtype=float32, numpy=
array([[0.8330593 , 0.5363534 , 0.35161617, 0.9450023 , 0.8986846 ],
       [1.1796478 , 0.66441745, 1.1070317 , 1.2315822 , 1.368157  ],
       [0.39482537, 0.7493379 , 0.04562725, 0.20900919, 0.9103988 ]],
      dtype=float32)>

8. 修改指定列
这个地方要与第9点进行比较，并没有出现将列拿出来单独计算时的问题！！！

In [54]:
print(P)

P[:, 0].assign(P[:, 0] + P[:, 1])
print(P)

<tf.Variable 'Variable:0' shape=(3, 5) dtype=float32, numpy=
array([[0.8330593 , 0.5363534 , 0.35161617, 0.9450023 , 0.8986846 ],
       [1.1796478 , 0.66441745, 1.1070317 , 1.2315822 , 1.368157  ],
       [0.39482537, 0.7493379 , 0.04562725, 0.20900919, 0.9103988 ]],
      dtype=float32)>
<tf.Variable 'Variable:0' shape=(3, 5) dtype=float32, numpy=
array([[1.3694127 , 0.5363534 , 0.35161617, 0.9450023 , 0.8986846 ],
       [1.8440652 , 0.66441745, 1.1070317 , 1.2315822 , 1.368157  ],
       [1.1441633 , 0.7493379 , 0.04562725, 0.20900919, 0.9103988 ]],
      dtype=float32)>


9. **读取tensor矩阵中的一列时，直接读取出来的维度不对！需要使用reshape来调整维度**。

在读取一个维度的时候，读取出来的是3个标量，而不是1*3的向量！！！在做乘法的时候表现出来了。

In [55]:
m = 3
n = 5
P = tf.Variable(np.random.rand(m, n), dtype=float)

# 注意两者的维度不同！！！
print(P[:,1])
print(tf.reshape(P[:,1], [3,1]))

tf.Tensor([0.9396742 0.9872342 0.3744547], shape=(3,), dtype=float32)
tf.Tensor(
[[0.9396742]
 [0.9872342]
 [0.3744547]], shape=(3, 1), dtype=float32)


注意！！ c是一个2维的矩阵，只不过维度是[1,1]。这个和直接P[1,1]有区别！！！而且这两个值不能直接进行计算！

In [56]:
c = tf.matmul(tf.reshape(P[:,1], [1,m]), tf.reshape(P[:,1], [m,1]))
print(c)

d = c - tf.Variable(1.0)
print(d)

tf.Tensor([[1.9978353]], shape=(1, 1), dtype=float32)
tf.Tensor([[0.9978353]], shape=(1, 1), dtype=float32)


注意这个报错！就不能将一个二维矩阵赋值给一个标量。
但是按一般的理解P[1,1]取出来的值也应该是一个二维矩阵，但tensorflow做了严格的区分。
只能通过c[0,0]来转换一下再进行赋值。

In [57]:
print(P, c)
print(P[1,1])
# P[1,1].assign(c)
# print(P, c)

<tf.Variable 'Variable:0' shape=(3, 5) dtype=float32, numpy=
array([[0.9454814 , 0.9396742 , 0.8047441 , 0.95595646, 0.05356204],
       [0.9076742 , 0.9872342 , 0.06128765, 0.2918757 , 0.51428944],
       [0.45993954, 0.3744547 , 0.22579852, 0.4914325 , 0.2983626 ]],
      dtype=float32)> tf.Tensor([[1.9978353]], shape=(1, 1), dtype=float32)
tf.Tensor(0.9872342, shape=(), dtype=float32)


可以将一个值赋值给矩阵中指定的位置的值。

In [58]:
d = 1.4
print(P, d)
P[1,1].assign(d)
print(P, d)

<tf.Variable 'Variable:0' shape=(3, 5) dtype=float32, numpy=
array([[0.9454814 , 0.9396742 , 0.8047441 , 0.95595646, 0.05356204],
       [0.9076742 , 0.9872342 , 0.06128765, 0.2918757 , 0.51428944],
       [0.45993954, 0.3744547 , 0.22579852, 0.4914325 , 0.2983626 ]],
      dtype=float32)> 1.4
<tf.Variable 'Variable:0' shape=(3, 5) dtype=float32, numpy=
array([[0.9454814 , 0.9396742 , 0.8047441 , 0.95595646, 0.05356204],
       [0.9076742 , 1.4       , 0.06128765, 0.2918757 , 0.51428944],
       [0.45993954, 0.3744547 , 0.22579852, 0.4914325 , 0.2983626 ]],
      dtype=float32)> 1.4


In [59]:
P[1,1].assign(c[0,0])

<tf.Variable 'UnreadVariable' shape=(3, 5) dtype=float32, numpy=
array([[0.9454814 , 0.9396742 , 0.8047441 , 0.95595646, 0.05356204],
       [0.9076742 , 1.9978353 , 0.06128765, 0.2918757 , 0.51428944],
       [0.45993954, 0.3744547 , 0.22579852, 0.4914325 , 0.2983626 ]],
      dtype=float32)>

10. tensor之间比较大小

In [60]:
a = tf.Variable(2.0)
b = tf.Variable(1.0)

if a > b:
    print("a > b")

a > b


11. tensor与数值之间比较大小

In [61]:
a = tf.Variable(2.0)
b = 1.0

print(type(a))
print(type(b))

if a > b:
    print("a > b")

<class 'tensorflow.python.ops.resource_variable_ops.ResourceVariable'>
<class 'float'>
a > b


12. tf.slice的使用

In [62]:
a = tf.Variable(np.random.rand(3, 5), dtype=float)

In [63]:
sr = tf.slice(a, [0,0], [1,5])
print(sr)
print(type(sr))
print(sr.shape)

tf.Tensor([[0.2024943  0.73880816 0.8060177  0.73968226 0.5556808 ]], shape=(1, 5), dtype=float32)
<class 'tensorflow.python.framework.ops.EagerTensor'>
(1, 5)


In [64]:
sc = tf.slice(a, [0,0], [3,1])
print(sc)
print(type(sc))
print(sc.shape)

tf.Tensor(
[[0.2024943 ]
 [0.47977898]
 [0.38519588]], shape=(3, 1), dtype=float32)
<class 'tensorflow.python.framework.ops.EagerTensor'>
(3, 1)


切片了之后无法赋值！！！！！！！！

In [65]:
so = tf.slice(a, [0,0], [1,1])
print(so)
print(type(so))
print(so.shape)

so = 44
print(a)

tf.Tensor([[0.2024943]], shape=(1, 1), dtype=float32)
<class 'tensorflow.python.framework.ops.EagerTensor'>
(1, 1)
<tf.Variable 'Variable:0' shape=(3, 5) dtype=float32, numpy=
array([[0.2024943 , 0.73880816, 0.8060177 , 0.73968226, 0.5556808 ],
       [0.47977898, 0.92517334, 0.8731453 , 0.85707146, 0.45367923],
       [0.38519588, 0.10640299, 0.6395433 , 0.8140577 , 0.68500656]],
      dtype=float32)>


## 切片和索引

tensorflow对tensor的处理可以向numpy一样。

In [66]:
P = tf.random.normal(shape=[3, 5])
print(P)

tf.Tensor(
[[ 2.1364086   0.35504657 -1.355262   -1.1461542   0.01607939]
 [-0.9848871  -1.6975371  -0.0937865   1.4891666   0.7412058 ]
 [-0.09960404 -1.5323157  -0.07304938 -1.6892858  -0.06962445]], shape=(3, 5), dtype=float32)


In [67]:
P[-1], P[1:3]

(<tf.Tensor: shape=(5,), dtype=float32, numpy=
 array([-0.09960404, -1.5323157 , -0.07304938, -1.6892858 , -0.06962445],
       dtype=float32)>,
 <tf.Tensor: shape=(2, 5), dtype=float32, numpy=
 array([[-0.9848871 , -1.6975371 , -0.0937865 ,  1.4891666 ,  0.7412058 ],
        [-0.09960404, -1.5323157 , -0.07304938, -1.6892858 , -0.06962445]],
       dtype=float32)>)

对矩阵中的多个元素进行赋值。

In [68]:
X_var = tf.Variable(P)
X_var[0:2, :].assign(tf.ones(X_var[0:2,:].shape, dtype = tf.float32) * 12)
X_var

<tf.Variable 'Variable:0' shape=(3, 5) dtype=float32, numpy=
array([[12.        , 12.        , 12.        , 12.        , 12.        ],
       [12.        , 12.        , 12.        , 12.        , 12.        ],
       [-0.09960404, -1.5323157 , -0.07304938, -1.6892858 , -0.06962445]],
      dtype=float32)>

## tensor可以与数值比较大小

In [69]:
if 1999 > eui_square:
    print("OK")
else:
    print("Fail")

OK


## 查看tensor矩阵的值

In [70]:
print(P.eval)

<bound method _EagerTensorBase.eval of <tf.Tensor: shape=(3, 5), dtype=float32, numpy=
array([[ 2.1364086 ,  0.35504657, -1.355262  , -1.1461542 ,  0.01607939],
       [-0.9848871 , -1.6975371 , -0.0937865 ,  1.4891666 ,  0.7412058 ],
       [-0.09960404, -1.5323157 , -0.07304938, -1.6892858 , -0.06962445]],
      dtype=float32)>>


## 求向量的范数

In [71]:
help(tf.norm)

Help on function norm_v2 in module tensorflow.python.ops.linalg_ops:

norm_v2(tensor, ord='euclidean', axis=None, keepdims=None, name=None)
    Computes the norm of vectors, matrices, and tensors.
    
    This function can compute several different vector norms (the 1-norm, the
    Euclidean or 2-norm, the inf-norm, and in general the p-norm for p > 0) and
    matrix norms (Frobenius, 1-norm, 2-norm and inf-norm).
    
    Args:
      tensor: `Tensor` of types `float32`, `float64`, `complex64`, `complex128`
      ord: Order of the norm. Supported values are `'fro'`, `'euclidean'`,
        `1`, `2`, `np.inf` and any positive real number yielding the corresponding
        p-norm. Default is `'euclidean'` which is equivalent to Frobenius norm if
        `tensor` is a matrix and equivalent to 2-norm for vectors.
        Some restrictions apply:
          a) The Frobenius norm `'fro'` is not defined for vectors,
          b) If axis is a 2-tuple (matrix norm), only `'euclidean'`, '`fro'`, 

In [72]:
R_tf

<tf.Tensor: shape=(6, 5), dtype=float32, numpy=
array([[4., 0., 1., 0., 5.],
       [1., 2., 1., 3., 5.],
       [4., 5., 3., 1., 0.],
       [2., 3., 0., 2., 5.],
       [5., 1., 4., 0., 0.],
       [0., 3., 2., 4., 1.]], dtype=float32)>

In [73]:
# 计算的是向量的。
row_vector = tf.reshape(R_tf[0, :], [1, -1])
print(row_vector)

L1 = tf.norm(row_vector, ord=1)
print(L1)

L2 = tf.norm(row_vector, ord=2)
print(L2)

tf.Tensor([[4. 0. 1. 0. 5.]], shape=(1, 5), dtype=float32)
tf.Tensor(10.0, shape=(), dtype=float32)
tf.Tensor(6.4807405, shape=(), dtype=float32)


In [74]:
# 计算矩阵所有行或者所有列的范数。

# 按列求L1范数
L1_matrix = tf.norm(R_tf, ord=1, axis=0)
print(L1_matrix)

# 按行求L2范数
L2_matrix = tf.norm(R_tf, ord=2, axis=1)
print(L2_matrix)

tf.Tensor([16. 14. 11. 10. 16.], shape=(5,), dtype=float32)
tf.Tensor([6.4807405 6.3245554 7.141428  6.4807405 6.4807405 5.477226 ], shape=(6,), dtype=float32)


## 求矩阵的逆

In [75]:
help(tf.linalg.inv)

Help on function matrix_inverse in module tensorflow.python.ops.gen_linalg_ops:

matrix_inverse(input, adjoint=False, name=None)
    Computes the inverse of one or more square invertible matrices or their adjoints (conjugate transposes).
    
    
    The input is a tensor of shape `[..., M, M]` whose inner-most 2 dimensions
    form square matrices. The output is a tensor of the same shape as the input
    containing the inverse for all input submatrices `[..., :, :]`.
    
    The op uses LU decomposition with partial pivoting to compute the inverses.
    
    If a matrix is not invertible there is no guarantee what the op does. It
    may detect the condition and raise an exception or it may simply return a
    garbage result.
    
    Args:
      input: A `Tensor`. Must be one of the following types: `float64`, `float32`, `half`, `complex64`, `complex128`.
        Shape is `[..., M, M]`.
      adjoint: An optional `bool`. Defaults to `False`.
      name: A name for the operation (o

In [76]:
print(tf.linalg.inv(R_Square_tf))

tf.Tensor(
[[-0.8799998  -0.8399998  -0.92        1.7199999   1.12      ]
 [ 0.39999998  0.19999999  0.6000001  -0.6        -0.6       ]
 [ 0.99999976  0.99999976  0.99999994 -1.9999998  -0.99999994]
 [-1.4799998  -0.6399999  -1.3200002   2.12        1.5200001 ]
 [ 0.7039999   0.47199994  0.536      -0.9759999  -0.696     ]], shape=(5, 5), dtype=float32)


## 求矩阵的转置

In [77]:
help(tf.transpose)

Help on function transpose_v2 in module tensorflow.python.ops.array_ops:

transpose_v2(a, perm=None, conjugate=False, name='transpose')
    Transposes `a`, where `a` is a Tensor.
    
    Permutes the dimensions according to the value of `perm`.
    
    The returned tensor's dimension `i` will correspond to the input dimension
    `perm[i]`. If `perm` is not given, it is set to (n-1...0), where n is the rank
    of the input tensor. Hence by default, this operation performs a regular
    matrix transpose on 2-D input Tensors.
    
    If conjugate is `True` and `a.dtype` is either `complex64` or `complex128`
    then the values of `a` are conjugated and transposed.
    
    @compatibility(numpy)
    In `numpy` transposes are memory-efficient constant time operations as they
    simply return a new view of the same data with adjusted `strides`.
    
    TensorFlow does not support strides, so `transpose` returns a new tensor with
    the items permuted.
    @end_compatibility
    
    

In [78]:
print(tf.transpose(R_tf))

tf.Tensor(
[[4. 1. 4. 2. 5. 0.]
 [0. 2. 5. 3. 1. 3.]
 [1. 1. 3. 0. 4. 2.]
 [0. 3. 1. 2. 0. 4.]
 [5. 5. 0. 5. 0. 1.]], shape=(5, 6), dtype=float32)


## 生成单位矩阵

In [79]:
tf.eye(3,3)

<tf.Tensor: shape=(3, 3), dtype=float32, numpy=
array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]], dtype=float32)>

## 对矩阵求导和求偏导

1. 在对标量求梯度时就相当于在求导了。
2. 在对向量求梯度时就相当于在求偏导了。对多元函数求偏导，这个部分还没有理解如何通过向量或者矩阵来表示多元函数。**或者说向量中每一个元素就时多元函数中的多元**。
3. 但是对于矩阵求导还没有理解。

1. 对一元方程求导。参考<https://blog.csdn.net/AwesomeP/article/details/123787448>

在这里定义了一个变量x，使用tf.variable()声明，与普通张量一样，该变量拥有形状、类型和值这3种属性。变量与普通张量的一个重要区别是，它默认能够被Tensorflow的自动求导机制求导，因此常用于定义机器模型的参数。

补充知识:tf.Variable () 将变量标记为“可训练”，**被标记的变量会在反向传播中记录梯度信息。神经网络训练中，常用该函数标记待训练参数**。

In [80]:
import tensorflow as tf  # tf为2.*版本
x = tf.Variable(initial_value = 3.0) # 定义变量x，初始化为3
with tf.GradientTape() as tape: # 在tf.GradientTape()的上下文中，所有的计算步骤都会被记录，用以求导
    y = tf.square(x) # y = x的平方
y_grad = tape.gradient(y,x) # 计算y关于x的导数
print(y)      # 输出3的平方  tf.Tensor(9.0, shape=(), dtype=float32)
print(y_grad)


tf.Tensor(9.0, shape=(), dtype=float32)
tf.Tensor(6.0, shape=(), dtype=float32)


上面的例子中使用了tf.Variable()定义x，下面我们展示使用tf.constant()定义x，注意两者之间求导时的不同，需要tape.watch(x)

In [81]:
import tensorflow as tf  
x = tf.constant(3.0) 
with tf.GradientTape(persistent=True) as tape:  # 注意使用persistent=True
    tape.watch(x) 
    y = tf.square(x)    # y = x的平方
    z = tf.pow(x,4)     # z = x的4次方
y_grad = tape.gradient(y,x) 
Z_grad = tape.gradient(z,x)
print(y.numpy())       # 9.0， 我们将tensor类型转换为numpy类型
print(y_grad.numpy())  # 6.0

print(z.numpy())       # 81.0
print(Z_grad.numpy())  # 108.0

9.0
6.0
81.0
108.0


In [82]:
import tensorflow as tf  
x = tf.Variable(3.0) 
with tf.GradientTape(persistent=True) as tape:  # 注意使用persistent=True
    y = tf.square(x)    # y = x的平方
    z = tf.pow(x,4)     # z = x的4次方
y_grad = tape.gradient(y,x) 
Z_grad = tape.gradient(z,x)
print(y.numpy())       # 9.0， 我们将tensor类型转换为numpy类型
print(y_grad.numpy())  # 6.0

print(z.numpy())       # 81.0
print(Z_grad.numpy())  # 108.0

9.0
6.0
81.0
108.0


2. 求偏导

按照教程里面的例子手动来一遍。\
给定两个向量$\boldsymbol{x}, \boldsymbol{y} \in \mathbb{R}^{1 \times n}$，它们的点积（dot product）表示为$\boldsymbol{x} \boldsymbol{y}^T \in \mathbb{R}^{1 \times 1}$。\
tf.GradientTape().gradient()计算的是梯度。

In [131]:
import tensorflow as tf

x = tf.range(4, dtype=tf.float32)
print(x)
x = tf.Variable(x)
with tf.GradientTape() as t:
    y = 2 * tf.tensordot(x, x, axes=1)
y

tf.Tensor([0. 1. 2. 3.], shape=(4,), dtype=float32)


<tf.Tensor: shape=(), dtype=float32, numpy=28.0>

x是一个长度为4的向量，计算x和x的点积，得到了我们赋值给y的标量输出。接下来，**我们通过调用反向传播函数来自动计算y关于x每个分量的梯度**。

所以下面计算出来的不是一个值，而是一个向量。梯度是对向量上每个元素求偏导数。\
也就是说完成了偏导和求梯度两个步骤。

In [84]:
x_grad = t.gradient(y, x)
x_grad

<tf.Tensor: shape=(4,), dtype=float32, numpy=array([ 0.,  4.,  8., 12.], dtype=float32)>

In [85]:
x_grad == 4 * x

<tf.Tensor: shape=(4,), dtype=bool, numpy=array([ True,  True,  True,  True])>

In [86]:
with tf.GradientTape() as t:
    y = tf.reduce_sum(x)
t.gradient(y, x)  

<tf.Tensor: shape=(4,), dtype=float32, numpy=array([1., 1., 1., 1.], dtype=float32)>

下面这段代码说明了对矩阵求偏导和函数求偏导差别很大。\
矩阵求导还不在线性代数最常用的10个公式里面。

In [127]:
matrix_will_grad = tf.Variable(np.random.rand(3, 3), dtype=float)
print(matrix_will_grad)
with tf.GradientTape() as t:
    # y = 2 * tf.matmul(matrix_will_grad, matrix_will_grad)
    y = 2 * tf.tensordot(matrix_will_grad, matrix_will_grad, axes=1)
x_grad = t.gradient(y, matrix_will_grad)
print(x_grad)

<tf.Variable 'Variable:0' shape=(3, 3) dtype=float32, numpy=
array([[0.14131767, 0.6090764 , 0.5801397 ],
       [0.8204821 , 0.3736083 , 0.7771608 ],
       [0.5528199 , 0.34281173, 0.94885653]], dtype=float32)>
tf.Tensor(
[[5.6903067 6.9717417 6.7182155]
 [5.3120604 6.5934954 6.339969 ]
 [7.2733817 8.554817  8.3012905]], shape=(3, 3), dtype=float32)


In [128]:
x_grad == 4 * matrix_will_grad

<tf.Tensor: shape=(3, 3), dtype=bool, numpy=
array([[False, False, False],
       [False, False, False],
       [False, False, False]])>

3. 实现链式法则

Dive into deep learning 2.5.3中文字描述如下：
“有时，我们希望将某些计算移动到记录的计算图之外。 例如，假设y是作为x的函数计算的，而z则是作为y和x的函数计算的。 想象一下，我们想计算z关于x的梯度，但由于某种原因，我们希望将y视为一个常数， 并且只考虑到x在y被计算后发挥的作用。
在这里，我们可以分离y来返回一个新变量u，该变量与y具有相同的值， 但丢弃计算图中如何计算y的任何信息。 换句话说，梯度不会向后流经u到x。 因此，下面的反向传播函数计算z=u*x关于x的偏导数，同时将u作为常数处理， 而不是z=x*x*x关于x的偏导数。”

In [164]:
with tf.GradientTape(persistent=True) as t:
    y = x * x
    u = tf.stop_gradient(y)
    z = u * x

x_grad = t.gradient(z, x)
x_grad == u

<tf.Tensor: shape=(4,), dtype=bool, numpy=array([ True,  True,  True,  True])>

In [133]:
t.gradient(y, x) == 2 * x

<tf.Tensor: shape=(4,), dtype=bool, numpy=array([ True,  True,  True,  True])>

4. 求二阶导数

## 基于python流的梯度计算

好处：**可以计算分段函数的导数或者梯度**。

In [139]:
def f(a):
    b = a * 2
    print("1 b", b)
    # 计算的是向量的L1范数，也就是求向量元素绝对值之和。
    # 注意tf.norm只是求了b的L1范数，但是没有改变b的值。b的值是在b = b * 2中改变的。
    while tf.norm(b) < 1000:
        b = b * 2
    print("2 b", b)
    if tf.reduce_sum(b) > 0:
        c = b
    else:
        c = 100 * b
    print("3 c", c)
    return c

In [160]:
# a的这种定义形式还是第一次看到。shape=()表示的含义还不清楚。
# a = tf.Variable(tf.random.normal(shape=()))
a = tf.Variable(tf.random.normal(shape=(3,3)))
# a = tf.Variable(1)
# a = tf.range(4, dtype=tf.float32)
print(a)
print(a.shape)
print(type(a))


with tf.GradientTape() as t:
    d = f(a)
d_grad = t.gradient(d, a)
print(d_grad)

<tf.Variable 'Variable:0' shape=(3, 3) dtype=float32, numpy=
array([[ 1.5448906 ,  0.96358085,  0.14866216],
       [ 0.5324363 ,  2.7335956 , -0.17174071],
       [-0.64002603, -1.462468  ,  0.68632823]], dtype=float32)>
(3, 3)
<class 'tensorflow.python.ops.resource_variable_ops.ResourceVariable'>
1 b tf.Tensor(
[[ 3.0897813   1.9271617   0.29732433]
 [ 1.0648726   5.467191   -0.34348142]
 [-1.2800521  -2.924936    1.3726565 ]], shape=(3, 3), dtype=float32)
2 b tf.Tensor(
[[ 790.984     493.3534     76.11503 ]
 [ 272.6074   1399.601     -87.931244]
 [-327.69333  -748.7836    351.40005 ]], shape=(3, 3), dtype=float32)
3 c tf.Tensor(
[[ 790.984     493.3534     76.11503 ]
 [ 272.6074   1399.601     -87.931244]
 [-327.69333  -748.7836    351.40005 ]], shape=(3, 3), dtype=float32)
tf.Tensor(
[[512. 512. 512.]
 [512. 512. 512.]
 [512. 512. 512.]], shape=(3, 3), dtype=float32)


In [161]:
print(d/a)

tf.Tensor(
[[512. 512. 512.]
 [512. 512. 512.]
 [512. 512. 512.]], shape=(3, 3), dtype=float32)


In [162]:
# 这里d/a表示的就是由a到d所乘以的常数C的值。
d_grad == d / a

<tf.Tensor: shape=(3, 3), dtype=bool, numpy=
array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])>

## 广播机制

理解：当两个向量的形状不符合向量（矩阵的试验不成功）计算的规则时
1. 将两个向量分别按照二元计算的两个向量的形状进行扩展，变成为相同的形状。
2. 然后将两个向量再进行二元计算。

如下面的例子所示，将A只有一列，B只有一行。A按照B的行数进行复制，B按照A的列数进行复制，然后都形成$3 \times 2$的矩阵在进行加法计算。

<https://zh-v2.d2l.ai/chapter_preliminaries/ndarray.html>中的说明如下：我们看到了如何在相同形状的两个张量上执行按元素操作。 在某些情况下，即使形状不同，我们仍然可以通过调用 广播机制（broadcasting mechanism）来执行按元素操作。 这种机制的工作方式如下：首先，通过适当复制元素来扩展一个或两个数组， 以便在转换之后，两个张量具有相同的形状。 其次，对生成的数组执行按元素操作。

In [88]:
A = tf.reshape(tf.range(3), (3, 1))
B = tf.reshape(tf.range(2), (1, 2))
A, B

(<tf.Tensor: shape=(3, 1), dtype=int32, numpy=
 array([[0],
        [1],
        [2]])>,
 <tf.Tensor: shape=(1, 2), dtype=int32, numpy=array([[0, 1]])>)

In [89]:
A + B

<tf.Tensor: shape=(3, 2), dtype=int32, numpy=
array([[0, 1],
       [1, 2],
       [2, 3]])>

In [90]:
C = tf.ones([2,2])
D = tf.ones([3,3])
C, D

# 这个时候C和D不能使用广播机制来进行计算。
# C + D

(<tf.Tensor: shape=(2, 2), dtype=float32, numpy=
 array([[1., 1.],
        [1., 1.]], dtype=float32)>,
 <tf.Tensor: shape=(3, 3), dtype=float32, numpy=
 array([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=float32)>)

## 节省内存

这部分看到了代码但是还不理解作用。
现在的理解是：定义一个变量，python给它分配了一块内存。经过一个运算之后，再次给这个变量赋值时，变量指向了另外一块地址。而原来定义变量时分配的内容没有释放。而tensorflow直接解决了这个问题。

In [91]:
X = tf.random.normal(shape=[3,5])
Y = tf.ones([3,5])

1. python的例子。

<https://zh-v2.d2l.ai/chapter_preliminaries/ndarray.html>说明如下：在下面的例子中，我们用Python的id()函数演示了这一点， 它给我们提供了内存中引用对象的确切地址。 运行Y = Y + X后，我们会发现id(Y)指向另一个位置。**这是因为Python首先计算Y + X，为结果分配新的内存，然后使Y指向内存中的这个新位置**。

In [92]:
before = id(Y)
Y = Y + X
id(Y) == before

False

2. tensorflow的例子。

这可能是不可取的，原因有两个：首先，我们不想总是不必要地分配内存。 在机器学习中，我们可能有数百兆的参数，并且在一秒内多次更新所有参数。 通常情况下，我们希望原地执行这些更新。 其次，如果我们不原地更新，其他引用仍然会指向旧的内存位置， 这样我们的某些代码可能会无意中引用旧的参数。

这可能是不可取的，原因有两个：首先，我们不想总是不必要地分配内存。 在机器学习中，我们可能有数百兆的参数，并且在一秒内多次更新所有参数。 通常情况下，我们希望原地执行这些更新。 其次，如果我们不原地更新，其他引用仍然会指向旧的内存位置， 这样我们的某些代码可能会无意中引用旧的参数。

Variables是TensorFlow中的可变容器，它们提供了一种存储模型参数的方法。 我们可以通过assign将一个操作的结果分配给一个Variable。 为了说明这一点，我们创建了一个与另一个张量Y相同的形状的Z， 使用zeros_like来分配一个全0的块。

In [93]:
Z = tf.Variable(tf.zeros_like(Y))
print('id(Z):', id(Z))
Z.assign(X + Y)
print('id(Z):', id(Z))

id(Z): 1469066056
id(Z): 1469066056


即使你将状态持久存储在Variable中， 你也可能希望避免为不是模型参数的张量过度分配内存，从而进一步减少内存使用量。

由于TensorFlow的Tensors是不可变的，而且梯度不会通过Variable流动， 因此TensorFlow没有提供一种明确的方式来原地运行单个操作。

但是，TensorFlow提供了tf.function修饰符， 将计算封装在TensorFlow图中，该图在运行前经过编译和优化。 这允许TensorFlow删除未使用的值，并复用先前分配的且不再需要的值。 这样可以最大限度地减少TensorFlow计算的内存开销。

In [94]:
@tf.function
def computation(X, Y):
    Z = tf.zeros_like(Y)  # 这个未使用的值将被删除
    A = X + Y  # 当不再需要时，分配将被复用
    B = A + Y
    C = B + Y
    return C + Y

computation(X, Y)

<tf.Tensor: shape=(3, 5), dtype=float32, numpy=
array([[-3.9564424 , -2.9073195 ,  1.201944  ,  4.5663815 , -0.6437767 ],
       [-3.6116128 , 12.968735  ,  3.3742406 ,  7.800539  ,  0.6106877 ],
       [ 9.814019  ,  1.5240061 ,  2.2290041 ,  0.62262857,  5.092563  ]],
      dtype=float32)>

## tensor变为其他类型

In [95]:
A = tf.ones([3,5])
O = A.numpy()
print(type(O), O)
C = tf.constant(A)
print(type(C))


<class 'numpy.ndarray'> [[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]
<class 'tensorflow.python.framework.ops.EagerTensor'>


**重要**：要将大小为1的张量转换为Python标量，我们可以调用item函数或Python的内置函数。
对constant和variable都需要先转为numpy在进行提取标量的计算。

In [96]:
B = tf.constant([4.6]).numpy()
B, B.item(), float(B), int(B)


(array([4.6], dtype=float32), 4.599999904632568, 4.599999904632568, 4)

In [97]:
V = tf.Variable([4.4]).numpy()
V, V.item(), float(V), int(V)

(array([4.4], dtype=float32), 4.400000095367432, 4.400000095367432, 4)

## 降维

降维是通过按行或者按列进行求和/平均值等方式来实现。

In [98]:
import tensorflow as tf

X = tf.random.normal(shape=[3,5])
Y = tf.ones([3,5])
X, Y

(<tf.Tensor: shape=(3, 5), dtype=float32, numpy=
 array([[-0.55764234, -1.3727949 , -0.12950353, -0.85175216,  0.6165435 ],
        [ 0.62362367,  0.39802516,  0.27504653,  0.5750814 ,  1.9288772 ],
        [ 0.370116  ,  0.0739801 , -0.8985078 , -0.44087556,  0.7204611 ]],
       dtype=float32)>,
 <tf.Tensor: shape=(3, 5), dtype=float32, numpy=
 array([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]], dtype=float32)>)

axis=0表示按照列来进行求和。
axis=1按照行来进行求和。

In [99]:
A_sum_axis0 = tf.reduce_sum(Y, axis=0)
A_sum_axis0, A_sum_axis0.shape

(<tf.Tensor: shape=(5,), dtype=float32, numpy=array([3., 3., 3., 3., 3.], dtype=float32)>,
 TensorShape([5]))

In [100]:
A_sum_axis1 = tf.reduce_sum(Y, axis=1)
A_sum_axis1, A_sum_axis1.shape

(<tf.Tensor: shape=(3,), dtype=float32, numpy=array([5., 5., 5.], dtype=float32)>,
 TensorShape([3]))

注意，可以指定降维的坐标轴。这里是二维的所以轴只有0和1。对于更高维的可以指定更多的坐标轴。

In [101]:
tf.reduce_sum(Y, axis=[0, 1])

<tf.Tensor: shape=(), dtype=float32, numpy=15.0>

## 非降维求和

使用的参数是keepdims=True。

In [102]:
sum_A = tf.reduce_sum(Y, axis=1, keepdims=True)
sum_A

<tf.Tensor: shape=(3, 1), dtype=float32, numpy=
array([[5.],
       [5.],
       [5.]], dtype=float32)>

## 按指定轴进行累积求和

这种操作的详细说明：第一行的值是自己。第二行是第一行的值加上第二行的值。第三行是更新后第二行的值再加上第三行的值。以此类推。

In [103]:
tf.cumsum(Y, axis=0)

<tf.Tensor: shape=(3, 5), dtype=float32, numpy=
array([[1., 1., 1., 1., 1.],
       [2., 2., 2., 2., 2.],
       [3., 3., 3., 3., 3.]], dtype=float32)>

## 矩阵与向量之间的乘法

要求$\boldsymbol{A} \in \mathbb{R}^{m \times n}$和$\boldsymbol{x} \in \mathbb{R}^n$。注意A的列数和x的元素个数相同。得到的结果$\boldsymbol{Ax} \in \mathbb{R}^{m \times 1}$。

In [104]:

A = tf.constant([[1,2,3],[4,5,6],[7,8,9]])
# B = tf.constant([[1],[2],[3]])
B = tf.constant([[1,2,3]])
A.shape, B.shape

(TensorShape([3, 3]), TensorShape([1, 3]))

In [105]:
tf.linalg.matvec(A, B)

<tf.Tensor: shape=(1, 3), dtype=int32, numpy=array([[14, 32, 50]])>

## 范数

[相关的数学定义和说明详见](../../mathematics/LinearAlgebra.md)

在深度学习中，我们经常试图解决优化问题： 最大化分配给观测数据的概率; 最小化预测和真实观测之间的距离。 用向量表示物品（如单词、产品或新闻文章），以便最小化相似项目之间的距离，最大化不同项目之间的距离。 目标，或许是深度学习算法最重要的组成部分（除了数据），通常被表达为范数。

In [106]:
# 定义计算所需要的向量和矩阵
import tensorflow as tf
x = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0])
A = tf.random.normal([3,4])

1. 对向量计算$L_1$范数，$L_1$为$||x||_1 = \sum\limits_{i=1}^n |x_i|$。也就是向量元素绝对值之和。

In [107]:
tf.reduce_sum(tf.abs(x))

<tf.Tensor: shape=(), dtype=float32, numpy=15.0>

2. 对向量计算$L_2$范数，$L_2$为$||x||_2 = \sqrt{\sum\limits_{i=1}^n x_i^2}$。也就是向量元素平方之和再开根号。

必须要求向量中元素不是int类型，也就是必须是float类型。

In [108]:
tf.norm(x)

<tf.Tensor: shape=(), dtype=float32, numpy=7.4161983>

3. 对矩阵计算$L_F$范数

In [109]:
tf.norm(A)

<tf.Tensor: shape=(), dtype=float32, numpy=2.703996>

## 向量之间点积（Dot Product）

给定两个向量$\boldsymbol{x}, \boldsymbol{y} \in \mathbb{R}^d$，它们的点积（dot product）$\boldsymbol{x}^T \boldsymbol{y}$（或$<\boldsymbol{x}, \boldsymbol{y}>$）是相同位置的按元素乘积的和：$\sum\limits_{i=1}^dx_iy_i$。

感觉这个地方是不是这样表述更准确一些。$\boldsymbol{x}^T \in \mathbb{R}^{n \times 1}$，所以$\boldsymbol{x}^T \boldsymbol{y} \in \mathbb{R}^{n \times n}$。它们的点积是不是应该表示为$\boldsymbol{x} \boldsymbol{y}^T \in \mathbb{R}^{1 \times 1}$。这样是不是符合直觉一点呢？

tf.tensordot有点特别，使用x_1和y_1计算时，与tf.reduce_sum(x_1 * y_1)的计算结果不一样。应该是和tf.tensordot的定义有关。而且特别的和axes这个参数有关。

In [110]:
x_1 = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0])
y_1 = tf.random.normal([5,1])
tf.tensordot(x_1, y_1, axes=1)

<tf.Tensor: shape=(1,), dtype=float32, numpy=array([-1.3468587], dtype=float32)>

In [111]:
tf.reduce_sum(x_1 * y_1)

<tf.Tensor: shape=(), dtype=float32, numpy=1.6711707>

In [112]:
x_2 = tf.constant([0, 1.0, 2.0, 3.0])
y_2 = tf.constant([1.0, 1.0, 1.0, 1.0])
tf.tensordot(x_2, y_2, axes=1)

<tf.Tensor: shape=(), dtype=float32, numpy=6.0>

In [113]:
y_2.shape

TensorShape([4])

In [114]:
x_2 = tf.constant([0, 1.0, 2.0, 3.0])
y_2 = tf.constant([[1.0], [1.0], [1.0], [1.0]])
tf.tensordot(x_2, y_2, axes=1)

<tf.Tensor: shape=(1,), dtype=float32, numpy=array([6.], dtype=float32)>

In [115]:
y_2.shape

TensorShape([4, 1])

In [116]:
# help(tf.tensordot)

In [117]:
tf.reduce_sum(x_2 * y_2)

<tf.Tensor: shape=(), dtype=float32, numpy=24.0>