# 2-1,张量数据结构

Pytorch的基本数据结构是张量Tensor。张量即多维数组。Pytorch的张量和numpy中的array很类似。

本节我们主要介绍张量的数据类型、张量的维度、张量的尺寸、张量和numpy数组等基本概念。


In [None]:
import torch

print("torch.__version__=" + torch.__version__)


### 一，张量的数据类型

张量的数据类型和numpy.array基本一一对应，但是不支持str类型。

包括:

torch.float64(torch.double), 

**torch.float32(torch.float)**, 

torch.float16, 

torch.int64(torch.long), 

torch.int32(torch.int), 

torch.int16, 

torch.int8, 

torch.uint8, 

torch.bool

一般神经网络建模使用的都是torch.float32类型。 

In [None]:
# 导入必要的库
import numpy as np
import torch

# 创建张量（tensor）并自动推断数据类型

# 创建一个整数类型的张量 i，值为 1
i = torch.tensor(1)
# 打印张量 i 的值和数据类型
print(i, i.dtype)

# 创建一个浮点数类型的张量 x，值为 2.0
x = torch.tensor(2.0)
# 打印张量 x 的值和数据类型
print(x, x.dtype)

# 创建一个布尔类型的张量 b，值为 True（布尔值在PyTorch中被解释为1）
b = torch.tensor(True)
# 打印张量 b 的值和数据类型
print(b, b.dtype)


In [None]:
# 指定数据类型创建张量

# 创建一个整数类型的张量 i，值为 1，数据类型为 torch.int32
i = torch.tensor(1, dtype=torch.int32)
# 打印张量 i 的值和数据类型
print(i, i.dtype)

# 创建一个浮点数类型的张量 x，值为 2.0，数据类型为 torch.double
x = torch.tensor(2.0, dtype=torch.double)
# 打印张量 x 的值和数据类型
print(x, x.dtype)


In [None]:
# 使用特定类型的构造函数创建张量

# 使用 torch.IntTensor 构造函数创建整数类型的张量 i，值为 1
i = torch.IntTensor(1)
# 打印张量 i 的值和数据类型
print(i, i.dtype)

# 使用 torch.Tensor 构造函数创建张量 x，从 NumPy 数组中创建，值为 2.0，默认数据类型为 torch.float32
x = torch.Tensor(np.array(2.0))
# 打印张量 x 的值和数据类型（等价于 torch.FloatTensor）
print(x, x.dtype)

# 使用 torch.BoolTensor 构造函数创建布尔类型的张量 b，从 NumPy 数组中创建
# 注意：torch.BoolTensor 不再建议使用，可以使用 torch.tensor 或 torch.BoolTensor 来创建布尔张量
b = torch.BoolTensor(np.array([1, 0, 2, 0]))
# 打印张量 b 的值和数据类型
print(b, b.dtype)


In [None]:
# 不同类型之间的张量转换

# 创建一个整数类型的张量 i，值为 1
i = torch.tensor(1)
# 打印张量 i 的值和数据类型
print(i, i.dtype)

# 使用 float 方法将整数张量 i 转换为浮点数类型
x = i.float()
# 打印转换后的张量 x 的值和数据类型
print(x, x.dtype)
# 注意：原始张量 i 不受影响，仍然是整数类型
print(i, i.dtype)

# 使用 type 函数将整数张量 i 转换为浮点数类型
y = i.type(torch.float)
# 打印转换后的张量 y 的值和数据类型
print(y, y.dtype)

# 使用 type_as 方法将整数张量 i 转换为与张量 x 相同的数据类型
z = i.type_as(x)
# 打印转换后的张量 z 的值和数据类型
print(z, z.dtype)
# 注意：原始张量 i 不受影响，仍然是整数类型
print(i, i.dtype)


### 二，张量的维度

不同类型的数据可以用不同维度(dimension)的张量来表示。

标量为0维张量，向量为1维张量，矩阵为2维张量。

彩色图像有rgb三个通道，可以表示为3维张量。

视频还有时间维，可以表示为4维张量。

可以简单地总结为：有几层中括号，就是多少维的张量。

In [None]:
# 创建一个标量张量，值为 True
scalar = torch.tensor(True)
# 打印标量张量的值和数据类型
print(scalar, scalar.dtype)
# 打印标量张量的维度，应该为 0
print(scalar.dim())


In [None]:
# 创建一个向量张量，包含四个浮点数值
vector = torch.tensor([1.0, 2.0, 3.0, 4.0])
# 打印向量张量的值和数据类型
print(vector, vector.dtype)
# 打印向量张量的维度，应该为 1，因为它是一个一维张量
print(vector.dim())  # 向量，1维张量


In [None]:
# 创建一个矩阵张量，包含两行两列的浮点数值
matrix = torch.tensor([[1.0, 2.0], [3.0, 4.0]])
# 打印矩阵张量的值和数据类型
print(matrix)
# 打印矩阵张量的维度，应该为 2，因为它是一个二维张量
print(matrix.dim())  # 矩阵，2维张量


In [None]:
# 创建一个三维张量，包含两个二维矩阵
tensor3 = torch.tensor([[[1.0, 2.0], [3.0, 4.0]], [[5.0, 6.0], [7.0, 8.0]]])
# 打印三维张量的值
print(tensor3)
# 打印三维张量的维度，应该为 3，因为它是一个三维张量
print(tensor3.dim())


In [None]:
# 创建一个四维张量，包含两个三维张量
tensor4 = torch.tensor([[[[1.0, 1.0], [2.0, 2.0]], [[3.0, 3.0], [4.0, 4.0]]],
                        [[[5.0, 5.0], [6.0, 6.0]], [[7.0, 7.0], [8.0, 8.0]]]])
# 打印四维张量的值
print(tensor4)
# 打印四维张量的维度，应该为 4，因为它是一个四维张量
print(tensor4.dim())  # 四维张量


### 三，张量的尺寸

可以使用 shape属性或者 size()方法查看张量在每一维的长度.

可以使用view方法改变张量的尺寸。

如果view方法改变尺寸失败，可以使用reshape方法.

In [None]:
# 创建一个标量（scalar）张量，这个标量的值为True
scalar = torch.tensor(True)

# 打印标量的大小（size），标量的大小是0维的
print(scalar.size())

# 打印标量的形状（shape），标量的形状是一个空元组 ()
print(scalar.shape)


In [None]:
# 创建一个包含四个元素的向量张量
vector = torch.tensor([1.0, 2.0, 3.0, 4.0])

# 打印向量的大小（size），向量的大小是1维，包含4个元素
print(vector.size())

# 打印向量的形状（shape），向量的形状是一个包含一个整数的元组 (4,)
print(vector.shape)

In [None]:
# 创建一个包含两行两列的矩阵张量
matrix = torch.tensor([[1.0, 2.0], [3.0, 4.0]])

# 打印矩阵的大小（size），矩阵的大小是2维，第一个维度有2个元素，第二个维度也有2个元素
print(matrix.size())

# 打印矩阵的形状（shape），形状是一个包含两个整数的元组 (2, 2)
print(matrix.shape)


In [None]:
# 创建一个包含0到11的连续整数的向量张量
vector = torch.arange(0, 12)
print(vector)
print(vector.shape)

# 使用view方法将向量张量变形为3x4的矩阵
matrix34 = vector.view(3, 4)
print(matrix34)
print(matrix34.shape)

# 使用view方法将向量张量变形为4x3的矩阵，-1表示该位置的长度由程序自动推断
matrix43 = vector.view(4, -1)
print(matrix43)
print(matrix43.shape)


In [None]:
# 创建一个包含0到11的连续整数的2x6矩阵
matrix26 = torch.arange(0, 12).view(2, 6)
print(matrix26)
print(matrix26.shape)

# 转置操作会扭曲张量的存储结构
matrix62 = matrix26.t()
print(matrix62.is_contiguous())  # 检查是否连续存储

# 直接使用view方法会失败，因为存储结构扭曲
# matrix34 = matrix62.view(3, 4)  # 这一行会报错

# 使用reshape方法或contiguous()方法可以解决问题
matrix34 = matrix62.reshape(3, 4)  # 使用reshape方法
# 或者
# matrix34 = matrix62.contiguous().view(3, 4)  # 使用contiguous()方法和view方法
print(matrix34)


### 四，张量和numpy数组

可以用numpy方法从Tensor得到numpy数组，也可以用torch.from_numpy从numpy数组得到Tensor。

这两种方法关联的Tensor和numpy数组是共享数据内存的。

如果改变其中一个，另外一个的值也会发生改变。

如果有需要，可以用张量的clone方法拷贝张量，中断这种关联。

此外，还可以使用item方法从标量张量得到对应的Python数值。

使用tolist方法从张量得到对应的Python数值列表。


In [None]:
import numpy as np
import torch

In [None]:
# 创建一个包含三个零元素的NumPy数组
arr = np.zeros(3)

# 使用torch.from_numpy()函数将NumPy数组转换为PyTorch张量
tensor = torch.from_numpy(arr)

# 打印转换前的NumPy数组和相应的PyTorch张量
print("before add 1:")
print(arr)  # 打印NumPy数组
print(tensor)  # 打印PyTorch张量

# 在NumPy数组上执行加1的操作，注意tensor也会随之改变
print("\nafter add 1:")
np.add(arr, 1, out=arr)  # 给NumPy数组增加1，tensor也会随之改变
'''
np.add(arr, 1, out=arr) 是一个NumPy的数组运算，它的作用是将数组 arr 中的每个元素都加上1，并将结果存储在原始数组 arr 中
'''
print(arr)  # 打印修改后的NumPy数组
print(tensor)  # 打印相应的PyTorch张量


In [None]:
# 创建一个包含三个零元素的PyTorch张量
tensor = torch.zeros(3)

# 使用.numpy()方法将PyTorch张量转换为NumPy数组
arr = tensor.numpy()

# 打印转换前的PyTorch张量和相应的NumPy数组
print("before add 1:")
print(tensor)  # 打印PyTorch张量
print(arr)  # 打印NumPy数组

# 在PyTorch张量上执行加1的操作，注意arr也会随之改变
print("\nafter add 1:")
tensor.add_(1)  # 给PyTorch张量增加1，arr也会随之改变
# 或者可以使用 torch.add(tensor, 1, out=tensor)
print(tensor)  # 打印修改后的PyTorch张量
print(arr)  # 打印相应的NumPy数组


In [None]:
# 创建一个包含三个零元素的PyTorch张量
tensor = torch.zeros(3)

# 使用clone()方法创建一个与原始张量内存独立的拷贝，并将其转换为NumPy数组
arr = tensor.clone().numpy()  # 也可以使用tensor.data.numpy()

# 打印拷贝前的PyTorch张量和相应的NumPy数组
print("before add 1:")
print(tensor)  # 打印原始PyTorch张量
print(arr)  # 打印NumPy数组

# 在原始PyTorch张量上执行加1的操作，但拷贝的NumPy数组不会受到影响
print("\nafter add 1:")
tensor.add_(1)  # 给原始PyTorch张量增加1
print(tensor)  # 打印修改后的原始PyTorch张量
print(arr)  # 打印拷贝的NumPy数组，不受影响


In [None]:
# 创建一个标量张量
scalar = torch.tensor(1.0)

# 使用item()方法将标量张量转换为Python标量（单个数值）
s = scalar.item()

# 打印转换后的Python标量和其类型
print(s)  # 打印Python标量
print(type(s))  # 打印Python标量的类型

# 创建一个2x2的随机张量
tensor = torch.rand(2, 2)

# 使用tolist()方法将张量转换为Python列表
t = tensor.tolist()

# 打印转换后的Python列表和其类型
print(t)  # 打印Python列表
print(type(t))  # 打印Python列表的类型
