# 1.1 标量、向量、矩阵和张量
标量、向量、矩阵和张量是线性代数中的基本概念，它们在深度学习框架如TensorFlow和PyTorch中广泛使用。

1. **标量（Scalar）**:
   - 解释：标量是一个单独的数值，没有方向。在数学中，它通常表示为一个实数或复数。

2. **向量（Vector）**:
   - 解释：向量是一组有序的数值，可以表示空间中的点或方向。在数学中，它通常表示为一个一维数组。

3. **矩阵（Matrix）**:
   - 解释：矩阵是一个二维数组，可以表示线性变换、方程组的系数等。在数学中，它由行和列组成。

4. **张量（Tensor）**:
   - 解释：张量是一个多维数组，可以看作是标量、向量和矩阵的推广。在深度学习中，张量用于表示数据和参数，如图像、权重等。

在TensorFlow和PyTorch中，张量是最基本的数据结构，用于表示各种维度的数据。这两个框架提供了丰富的操作来处理张量，如加法、乘法、转置等。

## Tensorflow版本

在TensorFlow中，`tf.matmul` 和 `tf.multiply` 是两个不同的操作，它们分别用于执行矩阵乘法和逐元素乘法。

1. **`tf.matmul`**:
   - 用于执行两个矩阵的乘法，也称为点积或矩阵乘法。
   - 结果矩阵的每个元素是第一个矩阵的行与第二个矩阵的列对应元素相乘后相加的结果。
   - 用法示例：`c = tf.matmul(a, b)`，其中 `a` 和 `b` 是两个矩阵。

2. **`tf.multiply`**:
   - 用于执行两个张量的逐元素乘法，也称为哈达玛积或元素乘法。
   - 结果张量的每个元素是输入张量对应位置元素的乘积。
   - 用法示例：`c = tf.multiply(a, b)`，其中 `a` 和 `b` 是两个相同形状的张量。

总结来说，`tf.matmul` 用于矩阵乘法，而 `tf.multiply` 用于逐元素乘法。两者在数学运算上有本质的区别。

In [5]:
# example 1
import tensorflow as tf

# create a tensor
a = tf.constant([[1,2],[3,4]])

# tensor addition
b = tf.add(a,a)

# tensor multiplication
c = tf.matmul(a,b)

# tensor element-by-element multiplication
d = tf.multiply(a,b)

print("a:",a)
print("b:",b)
print("c:",c)
print("d:",d)

a: tf.Tensor(
[[1 2]
 [3 4]], shape=(2, 2), dtype=int32)
b: tf.Tensor(
[[2 4]
 [6 8]], shape=(2, 2), dtype=int32)
c: tf.Tensor(
[[14 20]
 [30 44]], shape=(2, 2), dtype=int32)
d: tf.Tensor(
[[ 2  8]
 [18 32]], shape=(2, 2), dtype=int32)


在TensorFlow中，`tf.constant` 和 `tf.Variable` 是创建张量的两种不同方式，它们有不同的用途和特性：

1. **`tf.constant`**:
   - 用于创建一个不可变的常量张量。一旦创建，这个张量的值就不能被改变。
   - 常用于定义不需要在训练过程中改变的值，如模型的超参数、固定的数据等。
   - 示例用法：
     ```python
     import tensorflow as tf

     # 创建一个常量张量
     a = tf.constant([[1, 2], [3, 4]])
     print(a)
     ```

2. **`tf.Variable`**:
   - 用于创建一个可变的变量张量。这个张量的值可以在训练过程中被更新和改变。
   - 常用于定义模型的参数，如权重和偏置，这些参数需要在训练过程中通过反向传播算法进行更新。
   - 示例用法：
     ```python
     # 创建一个变量张量
     b = tf.Variable([[5, 6], [7, 8]])
     print(b)

     # 更新变量的值
     b.assign([[9, 10], [11, 12]])
     print(b)
     ```

总结来说，`tf.constant` 用于创建不可变的常量张量，而 `tf.Variable` 用于创建可变的变量张量，后者通常用于定义和更新模型的参数。在实际的深度学习模型中，两者都是非常重要和常用的。

网址学习：https://blog.csdn.net/Forrest97/article/details/105913952?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522170882916816800211534826%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=170882916816800211534826&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-105913952-null-null.142^v99^pc_search_result_base5&utm_term=with%20tf.GradientTape%28%29%20as%20tape%3A&spm=1018.2226.3001.4187

在TensorFlow中，`tape.watch()` 是一个用于显式监视张量的方法。当你使用 `tf.GradientTape()` 时，默认情况下，它会自动监视所有的 `tf.Variable` 类型的张量，并记录它们的操作以便计算梯度。但是，对于非 `tf.Variable` 类型的张量（如使用 `tf.constant` 创建的张量），`GradientTape` 不会自动监视它们。

如果你想要计算非 `tf.Variable` 类型的张量的梯度，你可以使用 `tape.watch()` 方法来显式地告诉 `GradientTape` 监视这个张量。这样，当你在 `GradientTape` 的上下文中对这个张量进行操作时，这些操作就会被记录下来，以便后续计算梯度。

In [9]:
# example 2
# Create a variable
x = tf.Variable(3.0)

# Use GradientTape to record the computation
with tf.GradientTape() as tape:
    y = x ** 2

# Compute the gradient of y with respect to x
dy_dx = tape.gradient(y, x)
print("dy/dx:", dy_dx)

dy/dx: tf.Tensor(6.0, shape=(), dtype=float32)


In [20]:
# example3
import tensorflow as tf

x =tf.constant(3.0)

# 当你将 persistent=True 设置给 GradientTape 时，它变成了持久的，
# 这意味着你可以多次调用 tape.gradient() 方法来计算多个梯度，而不会导致资源的释放。
with tf.GradientTape(persistent=True) as tape:
    tape.watch(x)
    y = x**2
    z = y**2

dy_dx = tape.gradient(y,x)
dz_dx = tape.gradient(z,x)

print("dy_dx:{}\ndz_dx:{}".format(dy_dx,dz_dx))
#print(dz_dx) # 仅仅计算一个梯度的时候，无需persistent=True

# 释放资源
del tape

dy_dx:6.0
dz_dx:108.0


## Pytorch版本

In [21]:
# example 1
import torch

a = torch.tensor([[1,2],[3,4]])

b = a+a

c = torch.matmul(a,b)

print("a:{}\nb:{}\nc:{}\n".format(a,b,c))

a:tensor([[1, 2],
        [3, 4]])
b:tensor([[2, 4],
        [6, 8]])
c:tensor([[14, 20],
        [30, 44]])



In [41]:
# example 2
# Using Autograd to Compute Gradients
# create a tensor
x =torch.tensor(3.0,requires_grad=True)
# function
y = x**2
# Backpropagation to compute the gradient
y.backward()

print("dy/dx:",x.grad)

dy/dx: tensor(6.)


In [31]:
# example 3
# 多元函数的梯度
# requires_grad=True，这意味着PyTorch将会跟踪对 x 的操作以计算梯度。
x = torch.tensor(2.0,requires_grad=True)
y = torch.tensor(3.0,requires_grad=True)

z = x**2+3*y**3

z.backward()

print("dz/dx:",x.grad)
print("dz/dy:",y.grad)

dz/dx: tensor(4.)
dz/dy: tensor(81.)


In [32]:
# example 4
# 向量函数的梯度
x =torch.tensor([1.0,2.0,3.0],requires_grad = True)
y = torch.sum(x**2+2*x+1) # 结果是一个标量
print("y:",y)
y.backward()
print("dy/dx:",x.grad)

y: tensor(29., grad_fn=<SumBackward0>)
dy/dx: tensor([4., 6., 8.])


In [39]:
# example 5
# 矩阵函数的梯度
import torch

# 在PyTorch中，只有浮点数和复数类型的张量可以要求梯度.整数类型的张量 A 会导致运行时错误。上面tensorflow同样如此

# A = torch.tensor([[1,2],[3,4]],requires_grad=True)
A = torch.tensor([[1.0,2.0],[3.0,4.0]],requires_grad=True)
B =torch.det(A)

B.backward()
print("dB/dA:",A.grad)

dB/dA: tensor([[ 4., -3.],
        [-2.,  1.]])
