# TensorFlow张量与基本操作

本notebook详细介绍TensorFlow中张量(Tensor)的核心概念与基本操作。张量是TensorFlow的基础数据结构，理解张量操作对于后续的模型构建和自定义训练至关重要。

## 学习目标
1. 掌握tf.constant创建张量的方法
2. 理解张量的shape、dtype等核心属性
3. 熟练使用张量索引与切片操作
4. 掌握常用的张量数学运算
5. 了解张量的广播机制

## 1. 环境设置与版本检查

In [None]:
import tensorflow as tf
import numpy as np

# 设置随机种子以保证结果可复现
RANDOM_SEED = 42
tf.random.set_seed(RANDOM_SEED)
np.random.seed(RANDOM_SEED)

print(f"TensorFlow版本: {tf.__version__}")
print(f"NumPy版本: {np.__version__}")

# 检查GPU可用性
gpus = tf.config.list_physical_devices('GPU')
if gpus:
    print(f"可用GPU数量: {len(gpus)}")
    for gpu in gpus:
        print(f"  - {gpu.name}")
else:
    print("未检测到GPU，将使用CPU进行计算")

## 2. 使用tf.constant创建张量

tf.constant是创建不可变张量的主要方法。一旦创建，张量的值不可修改。

**核心参数:**
- `value`: 张量的值，可以是Python标量、列表或NumPy数组
- `dtype`: 数据类型，如tf.float32、tf.int32等
- `shape`: 张量形状（可选，用于reshape）

In [None]:
# 创建一个2x3的整型矩阵
matrix = tf.constant([[1, 2, 3], [4, 5, 6]])
print("矩阵内容:")
print(matrix)

In [None]:
# 创建不同维度的张量

# 标量(0维张量)
scalar = tf.constant(3.14)
print(f"标量: {scalar}, 维度: {scalar.ndim}")

# 向量(1维张量)
vector = tf.constant([1, 2, 3, 4, 5])
print(f"向量: {vector}, 维度: {vector.ndim}")

# 矩阵(2维张量)
matrix = tf.constant([[1, 2], [3, 4], [5, 6]])
print(f"矩阵:\n{matrix}, 维度: {matrix.ndim}")

# 3维张量(常用于批量图像数据: batch x height x width)
tensor_3d = tf.constant([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
print(f"3维张量:\n{tensor_3d}, 维度: {tensor_3d.ndim}")

In [None]:
# 指定数据类型创建张量
# TensorFlow默认整数为int32，浮点数为float32

float32_tensor = tf.constant([1.0, 2.0, 3.0])  # 默认float32
float64_tensor = tf.constant([1.0, 2.0, 3.0], dtype=tf.float64)
int64_tensor = tf.constant([1, 2, 3], dtype=tf.int64)
bool_tensor = tf.constant([True, False, True])
string_tensor = tf.constant(["hello", "tensorflow"])

print(f"float32张量: dtype={float32_tensor.dtype}")
print(f"float64张量: dtype={float64_tensor.dtype}")
print(f"int64张量: dtype={int64_tensor.dtype}")
print(f"布尔张量: dtype={bool_tensor.dtype}")
print(f"字符串张量: dtype={string_tensor.dtype}")

## 3. 张量的核心属性

每个张量都有以下重要属性:
- `shape`: 张量的形状，表示每个维度的大小
- `dtype`: 数据类型
- `ndim`: 维度数量（秩/rank）
- `device`: 张量所在的设备（CPU/GPU）

In [None]:
# 查看张量的核心属性
sample_tensor = tf.constant([[1, 2, 3], [4, 5, 6]])

print(f"形状(shape): {sample_tensor.shape}")
print(f"数据类型(dtype): {sample_tensor.dtype}")
print(f"维度数(ndim/rank): {sample_tensor.ndim}")
print(f"总元素数: {tf.size(sample_tensor).numpy()}")
print(f"所在设备: {sample_tensor.device}")

## 4. 张量索引与切片

TensorFlow的索引语法与NumPy完全一致，支持:
- 基本索引: `tensor[i]`
- 切片: `tensor[start:end:step]`
- 多维索引: `tensor[i, j]`
- 负索引: `tensor[-1]`表示最后一个元素

In [None]:
# 创建示例矩阵
matrix = tf.constant([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(f"原始矩阵:\n{matrix}\n")

# 基本索引
print(f"第一行: {matrix[0]}")
print(f"最后一行: {matrix[-1]}")
print(f"元素[1,2]: {matrix[1, 2]}\n")

# 切片操作
print(f"所有行，第2列之后:\n{matrix[:, 1:]}\n")
print(f"前两行，前两列:\n{matrix[:2, :2]}\n")
print(f"隔行取数:\n{matrix[::2, :]}")

## 5. 张量数学运算

TensorFlow支持丰富的数学运算，可通过运算符或函数调用实现。

In [None]:
# 基本算术运算
a = tf.constant([[1, 2], [3, 4]], dtype=tf.float32)
b = tf.constant([[5, 6], [7, 8]], dtype=tf.float32)

print(f"张量a:\n{a}")
print(f"张量b:\n{b}\n")

# 加减乘除
print(f"a + b:\n{a + b}\n")
print(f"a - b:\n{a - b}\n")
print(f"a * b (逐元素乘法):\n{a * b}\n")
print(f"a / b (逐元素除法):\n{a / b}")

In [None]:
# 数学函数
x = tf.constant([1.0, 4.0, 9.0, 16.0])

print(f"原始张量: {x}")
print(f"平方 tf.square: {tf.square(x)}")
print(f"平方根 tf.sqrt: {tf.sqrt(x)}")
print(f"指数 tf.exp: {tf.exp(tf.constant([0.0, 1.0, 2.0]))}")
print(f"对数 tf.math.log: {tf.math.log(tf.constant([1.0, 2.718, 7.389]))}")
print(f"绝对值 tf.abs: {tf.abs(tf.constant([-1.0, 2.0, -3.0]))}")

In [None]:
# 矩阵运算
m1 = tf.constant([[1, 2, 3], [4, 5, 6]])
m2 = tf.constant([[7, 8], [9, 10], [11, 12]])

print(f"矩阵m1 (2x3):\n{m1}\n")
print(f"矩阵m2 (3x2):\n{m2}\n")

# 矩阵乘法 - 使用@运算符（推荐）或tf.matmul
product = m1 @ m2  # 等价于 tf.matmul(m1, m2)
print(f"矩阵乘法 m1 @ m2 (2x2):\n{product}\n")

# 矩阵转置
print(f"m1的转置:\n{tf.transpose(m1)}\n")

# 矩阵与自身转置的乘积
m = tf.constant([[1, 2, 3], [4, 5, 6]], dtype=tf.float32)
print(f"m @ m^T:\n{m @ tf.transpose(m)}")

## 6. 聚合运算

聚合运算用于沿指定轴计算统计量，在神经网络的损失计算、特征归一化等场景中广泛使用。

In [None]:
# 聚合运算示例
tensor = tf.constant([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0]])
print(f"原始张量:\n{tensor}\n")

# 全局聚合
print(f"总和: {tf.reduce_sum(tensor).numpy()}")
print(f"均值: {tf.reduce_mean(tensor).numpy()}")
print(f"最大值: {tf.reduce_max(tensor).numpy()}")
print(f"最小值: {tf.reduce_min(tensor).numpy()}")
print(f"标准差: {tf.math.reduce_std(tensor).numpy():.4f}\n")

# 沿指定轴聚合
print(f"沿axis=0求和(按列): {tf.reduce_sum(tensor, axis=0)}")
print(f"沿axis=1求和(按行): {tf.reduce_sum(tensor, axis=1)}")
print(f"沿axis=1求均值: {tf.reduce_mean(tensor, axis=1)}")

## 7. 广播机制

广播(Broadcasting)是一种自动扩展张量形状以匹配运算需求的机制。当两个张量形状不同但兼容时，TensorFlow会自动广播较小的张量。

**广播规则:**
1. 从右向左比较维度
2. 如果维度相等或其中一个为1，则兼容
3. 较小的维度会被扩展以匹配较大的维度

In [None]:
# 广播示例

# 标量与矩阵
matrix = tf.constant([[1, 2, 3], [4, 5, 6]])
scalar = tf.constant(10)
print(f"矩阵 + 标量:\n{matrix + scalar}\n")

# 向量与矩阵
row_vector = tf.constant([[1, 2, 3]])  # shape: (1, 3)
print(f"矩阵 shape: {matrix.shape}")
print(f"行向量 shape: {row_vector.shape}")
print(f"矩阵 + 行向量 (广播):\n{matrix + row_vector}\n")

col_vector = tf.constant([[10], [20]])  # shape: (2, 1)
print(f"列向量 shape: {col_vector.shape}")
print(f"矩阵 + 列向量 (广播):\n{matrix + col_vector}")

## 8. 张量形状变换

形状变换是深度学习中的常见操作，用于调整数据以适配网络层的输入要求。

In [None]:
# 形状变换操作
tensor = tf.constant([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])
print(f"原始张量: {tensor}")
print(f"原始形状: {tensor.shape}\n")

# reshape: 改变形状但保持元素总数不变
reshaped_2x6 = tf.reshape(tensor, (2, 6))
reshaped_3x4 = tf.reshape(tensor, (3, 4))
reshaped_2x2x3 = tf.reshape(tensor, (2, 2, 3))

print(f"reshape为(2,6):\n{reshaped_2x6}\n")
print(f"reshape为(3,4):\n{reshaped_3x4}\n")
print(f"reshape为(2,2,3):\n{reshaped_2x2x3}\n")

# 使用-1自动推断维度
auto_reshape = tf.reshape(tensor, (3, -1))  # -1表示自动计算
print(f"reshape为(3,-1)，自动推断为{auto_reshape.shape}:\n{auto_reshape}")

In [None]:
# 增加和删除维度
tensor = tf.constant([[1, 2, 3], [4, 5, 6]])
print(f"原始形状: {tensor.shape}")

# expand_dims: 增加维度
expanded_0 = tf.expand_dims(tensor, axis=0)
expanded_1 = tf.expand_dims(tensor, axis=1)
expanded_2 = tf.expand_dims(tensor, axis=2)

print(f"axis=0增加维度后: {expanded_0.shape}")
print(f"axis=1增加维度后: {expanded_1.shape}")
print(f"axis=2增加维度后: {expanded_2.shape}\n")

# squeeze: 删除大小为1的维度
tensor_with_1 = tf.constant([[[1, 2, 3]]])  # shape: (1, 1, 3)
squeezed = tf.squeeze(tensor_with_1)
print(f"squeeze前: {tensor_with_1.shape}")
print(f"squeeze后: {squeezed.shape}")

## 9. 特殊张量的创建

TensorFlow提供了多种创建特殊张量的方法，常用于权重初始化、掩码创建等场景。

In [None]:
# 全零张量
zeros = tf.zeros((3, 4))
print(f"全零张量:\n{zeros}\n")

# 全一张量
ones = tf.ones((2, 3))
print(f"全一张量:\n{ones}\n")

# 填充特定值
filled = tf.fill((2, 3), 7.0)
print(f"填充7.0的张量:\n{filled}\n")

# 单位矩阵
identity = tf.eye(4)
print(f"4x4单位矩阵:\n{identity}\n")

# 随机张量
normal_random = tf.random.normal((3, 3), mean=0.0, stddev=1.0)
uniform_random = tf.random.uniform((3, 3), minval=0, maxval=10)
print(f"正态分布随机张量:\n{normal_random}\n")
print(f"均匀分布随机张量:\n{uniform_random}")

## 10. 张量拼接与分割

In [None]:
# 张量拼接
t1 = tf.constant([[1, 2], [3, 4]])
t2 = tf.constant([[5, 6], [7, 8]])

# concat: 沿现有维度拼接
concat_axis0 = tf.concat([t1, t2], axis=0)
concat_axis1 = tf.concat([t1, t2], axis=1)

print(f"t1:\n{t1}")
print(f"t2:\n{t2}\n")
print(f"沿axis=0拼接:\n{concat_axis0}\n")
print(f"沿axis=1拼接:\n{concat_axis1}\n")

# stack: 创建新维度进行堆叠
stacked = tf.stack([t1, t2], axis=0)
print(f"stack堆叠 (创建新维度):\n形状: {stacked.shape}\n{stacked}")

In [None]:
# 张量分割
tensor = tf.constant([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(f"原始张量:\n{tensor}\n")

# split: 均匀分割
splits = tf.split(tensor, num_or_size_splits=2, axis=1)
print(f"沿axis=1均分为2份:")
for i, s in enumerate(splits):
    print(f"  第{i+1}份:\n{s}")

## 知识点总结

| 操作类型 | 常用函数 | 说明 |
|---------|---------|------|
| 创建张量 | `tf.constant`, `tf.zeros`, `tf.ones`, `tf.fill` | 创建不可变张量 |
| 属性查看 | `shape`, `dtype`, `ndim` | 获取张量元信息 |
| 数学运算 | `+`, `-`, `*`, `/`, `@`, `tf.matmul` | 基本算术与矩阵运算 |
| 聚合运算 | `tf.reduce_sum`, `tf.reduce_mean`, `tf.reduce_max` | 沿轴计算统计量 |
| 形状变换 | `tf.reshape`, `tf.expand_dims`, `tf.squeeze` | 改变张量形状 |
| 拼接分割 | `tf.concat`, `tf.stack`, `tf.split` | 组合或分解张量 |

**关键要点:**
1. TensorFlow张量操作语法与NumPy高度一致，降低学习成本
2. 张量是不可变的，所有操作都会返回新张量
3. 广播机制自动处理形状不匹配的运算
4. TensorFlow默认使用float32以优化GPU性能