In [5]:
import torch
import numpy as np

# Tensor Initialization #

## Directly from data ##

它将Python列表data转换为张量x_data<br/>这段代码的功能是创建了一个2x2的张量x_data，其中包含了[[1, 2], [3, 4]]这个数据

In [6]:
data = [[1, 2], [3, 4]]
x_data = torch.tensor(data)

## From a NumPy array ##

这段代码的功能是将Python列表data转换为NumPy数组np_array，然后将NumPy数组转换为PyTorch张量x_np

In [7]:
np_array = np.array(data)
x_np = torch.from_numpy(np_array)

## From another tensor ##

x_ones = torch.ones_like(x_data)：这行代码创建了一个与x_data张量具有相同形状的张量x_ones，其中所有元素的值都设为1。

x_rand = torch.rand_like(x_data, dtype=torch.float)：这行代码创建了一个与x_data张量具有相同形状的张量x_rand，但其中的值是在0到1之间的随机数。

In [8]:
x_ones = torch.ones_like(x_data) # retains the properties of x_data
print(f"Ones Tensor: \n {x_ones} \n")

x_rand = torch.rand_like(x_data, dtype=torch.float) # overrides the datatype of x_data
print(f"Random Tensor: \n {x_rand} \n")

Ones Tensor: 
 tensor([[1, 1],
        [1, 1]]) 

Random Tensor: 
 tensor([[0.0260, 0.4000],
        [0.8003, 0.7129]]) 



## With random or constant values ##

shape = (2, 3,)：这行代码定义了一个元组shape，其中包含了张量的形状信息。在这个例子中，形状为2行3列

In [9]:
shape = (2, 3,)
rand_tensor = torch.rand(shape)
ones_tensor = torch.ones(shape)
zeros_tensor = torch.zeros(shape)

print(f"Random Tensor: \n {rand_tensor} \n")
print(f"Ones Tensor: \n {ones_tensor} \n")
print(f"Zeros Tensor: \n {zeros_tensor}")

Random Tensor: 
 tensor([[0.5138, 0.0988, 0.1405],
        [0.6131, 0.9829, 0.8852]]) 

Ones Tensor: 
 tensor([[1., 1., 1.],
        [1., 1., 1.]]) 

Zeros Tensor: 
 tensor([[0., 0., 0.],
        [0., 0., 0.]])


# Tensor Attributes #

这行代码创建了一个形状为(3, 4)的随机张量tensor。torch.rand()函数用于创建指定形状的张量，并用0到1之间的随机数填充。

In [10]:
tensor = torch.rand(3, 4)

print(f"Shape of tensor: {tensor.shape}")
print(f"Datatype of tensor: {tensor.dtype}")
print(f"Device tensor is stored on: {tensor.device}")

Shape of tensor: torch.Size([3, 4])
Datatype of tensor: torch.float32
Device tensor is stored on: cpu


# Tensor Operations #

这行代码将张量tensor移动到GPU上进行计算。

In [12]:
torch.cuda.is_available()

False

In [11]:
# We move our tensor to the GPU if available
if torch.cuda.is_available():
  tensor = tensor.to('cuda')
  print(f"Device tensor is stored on: {tensor.device}")

## Standard numpy-like indexing and slicing ##

这段代码使用了PyTorch库创建了一个4x4的张量（tensor），并将其所有元素初始化为1。然后，通过索引操作，将张量的第二列（索引为1的列，Python中索引从0开始）的所有元素设置为0。最后，打印输出了修改后的张量

In [18]:
tensor = torch.ones(4, 4)
tensor[:,1] = 0
print(tensor)

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])


这段代码使用了PyTorch库中的torch.cat()函数，该函数用于沿指定维度拼接张量。给定的张量列表是[tensor, tensor, tensor]，即将tensor张量在水平方向（dim=1，即列的方向）上连接三次。假设初始的tensor是一个4x4的张量，那么沿着列的方向连接三次就会得到一个4x12的张量。

In [22]:
t1 = torch.cat([tensor, tensor, tensor], dim=1)
print(t1)

tensor([[1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.]])


In [23]:
t1 = torch.cat([tensor, tensor, tensor], dim=0)
print(t1)

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])


## Multiplying tensors ##

两种写法都会得到一个新的张量，其中每个元素是对应位置上两个原始张量对应位置上元素的乘积。

In [25]:
# This computes the element-wise product
print(f"tensor.mul(tensor) \n {tensor.mul(tensor)} \n")
# Alternative syntax:
print(f"tensor * tensor \n {tensor * tensor}")

tensor.mul(tensor) 
 tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]]) 

tensor * tensor 
 tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])


这段代码使用了PyTorch库中的矩阵乘法操作，计算了一个张量与其转置矩阵的矩阵乘积。

In [27]:
print(f"tensor.matmul(tensor.T) \n {tensor.matmul(tensor.T)} \n")
# Alternative syntax:
print(f"tensor @ tensor.T \n {tensor @ tensor.T}")

tensor.matmul(tensor.T) 
 tensor([[3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.]]) 

tensor @ tensor.T 
 tensor([[3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.]])


In [32]:
print(tensor, "\n")
tensor.add_(5) #函数名以_结尾的操作通常表示这是一个原地操作，也就是说，该操作会直接修改原始张量的数值而不返回新的张量。在这里，add_()函数执行了原地加法操作。
print(tensor)

tensor([[16., 15., 16., 16.],
        [16., 15., 16., 16.],
        [16., 15., 16., 16.],
        [16., 15., 16., 16.]]) 

tensor([[21., 20., 21., 21.],
        [21., 20., 21., 21.],
        [21., 20., 21., 21.],
        [21., 20., 21., 21.]])


# Bridge with NumPy #

Tensors on the CPU and NumPy arrays can share their underlying memory locations, and changing one will change the other.

# Tensor to NumPy array #

In [35]:
t = torch.ones(5)
print(f"t: {t}")
n = t.numpy()
print(f"n: {n}")

t: tensor([1., 1., 1., 1., 1.])
n: [1. 1. 1. 1. 1.]


In [37]:
t.add_(1)
print(f"t: {t}")
print(f"n: {n}")

t: tensor([3., 3., 3., 3., 3.])
n: [3. 3. 3. 3. 3.]


# NumPy array to Tensor #

In [39]:
n = np.ones(5)
t = torch.from_numpy(n)

In [40]:
np.add(n, 1, out=n)
print(f"t: {t}")
print(f"n: {n}")

t: tensor([2., 2., 2., 2., 2.], dtype=torch.float64)
n: [2. 2. 2. 2. 2.]


# A Gentle Introduction to torch.autograd #

In [47]:
import torch
from torchvision.models import resnet18, ResNet18_Weights

# 创建了一个ResNet-18模型的实例，并指定了使用默认的预训练权重。
model = resnet18(weights=ResNet18_Weights.DEFAULT)

# data = torch.rand(1, 3, 64, 64): 创建了一个形状为(1, 3, 64, 64)的随机张量，表示输入数据。
# 这个张量的形状是(batch_size, channels, height, width)，对应于一批大小为1的RGB图像，每个图像的尺寸为64x64。
data = torch.rand(1, 3, 64, 64) 

# 创建了一个形状为(1, 1000)的随机张量，表示模型的输出标签。这个张量的形状是(batch_size, num_classes)，对应于模型输出的概率分布，其中包含了1000个类别的预测概率。
labels = torch.rand(1, 1000)


接下来，我们将输入数据通过模型的每一层进行预测。这就是前向传递。

In [48]:
prediction = model(data) # forward pass

我们使用模型的预测结果和相应的标签来计算误差（损失）。下一步是通过网络反向传播误差。当我们在误差张量上调用 .backward() 时，反向传播就开始了。
然后，Autograd 会计算每个模型参数的梯度，并存储在参数的 .grad 属性中。

In [49]:
loss = (prediction - labels).sum()
loss.backward() # backward pass

接下来，我们加载一个优化器，在本例中，SGD 的学习率为 0.01，动量为 0.9。我们在优化器中注册模型的所有参数。

In [50]:
optim = torch.optim.SGD(model.parameters(), lr=1e-2, momentum=0.9)

最后，我们调用 .step() 启动梯度下降。优化器会根据 .grad 中存储的梯度调整每个参数。

In [51]:
optim.step() #gradient descent

# Neural Networks #

A typical training procedure for a neural network is as follows:

Define the neural network that has some learnable parameters (or weights)

Iterate over a dataset of inputs

Process input through the network

Compute the loss (how far is the output from being correct)

Propagate gradients back into the network’s parameters

Update the weights of the network, typically using a simple update rule: weight = weight - learning_rate * gradient

神经网络的典型训练过程如下：

定义具有某些可学习参数（或权重）的神经网络

对输入数据集进行迭代

通过网络处理输入

计算损失（输出离正确还有多远）

将梯度传回网络参数中

更新网络权重，通常使用简单的更新规则：权重 = 权重 - 学习率 * 梯度

## Define the network ##

In [None]:
https://pytorch.org/tutorials/beginner/blitz/neural_networks_tutorial.html#define-the-network