## 练习
1. 尝试一个计算量更大的任务，比如大矩阵的乘法，看看CPU和GPU之间的速度差异。再试一个计算量很小的任务呢？
1. 我们应该如何在GPU上读写模型参数？
1. 测量计算1000个$100 \times 100$矩阵的矩阵乘法所需的时间，并记录输出矩阵的Frobenius范数，一次记录一个结果，而不是在GPU上保存日志并仅传输最终结果。
1. 测量同时在两个GPU上执行两个矩阵乘法与在一个GPU上按顺序执行两个矩阵乘法所需的时间。提示：应该看到近乎线性的缩放。

### 练习 1. 尝试一个计算量更大的任务，比如大矩阵的乘法，看看CPU和GPU之间的速度差异。再试一个计算量很小的任务呢？

In [12]:
import torch
import time

# 定义大矩阵
size = 5000
A = torch.rand(size, size)
B = torch.rand(size, size)

# CPU计算
start_time = time.time()
AB_cpu = torch.matmul(A, B)
time_cpu = time.time() - start_time
print("CPU time:", time_cpu)

# GPU计算（如果可用）
if torch.cuda.is_available():
    A = A.cuda()
    B = B.cuda()
    start_time = time.time()
    AB_gpu = torch.matmul(A, B)
    time_gpu = time.time() - start_time
    print("GPU time:", time_gpu)
else:
    print("GPU不可用")

CPU time: 1.6614551544189453
GPU time: 0.0009999275207519531


### 练习2. 我们应该如何在GPU上读写模型参数？

In [13]:
import torch
from torch import nn

# 选择设备
def try_gpu(i=0):
    """如果存在，则返回gpu(i)，否则返回cpu()"""
    if torch.cuda.device_count() >= i + 1:
        return torch.device(f'cuda:{i}')
    return torch.device('cpu')

# 定义一个简单的网络
net = nn.Sequential(nn.Linear(3, 1))
net = net.to(device=try_gpu())

# 访问网络参数
print(net[0].weight.data.device)

# 定义一个简单的网络
net = nn.Sequential(nn.Linear(3, 1))
net = net.to(device=try_gpu())

# 访问网络参数
net[0].weight.data.device

cuda:0


device(type='cuda', index=0)

### 练习3. 测量计算1000个$100 \times 100$矩阵的矩阵乘法所需的时间，并记录输出矩阵的Frobenius范数，一次记录一个结果，而不是在GPU上保存日志并仅传输最终结果。

In [14]:
# 定义矩阵尺寸和数量
num_matrices = 1000
size = 100

# 在GPU上进行计算（如果可用）
device = try_gpu()
times = []
frobenius_norms = []

for _ in range(num_matrices):
    A = torch.rand(size, size, device=device)
    B = torch.rand(size, size, device=device)

    start_time = time.time()
    C = torch.matmul(A, B)
    times.append(time.time() - start_time)

    # 计算Frobenius范数并将其转移到CPU
    frobenius_norm = torch.norm(C, p='fro').cpu().item()
    frobenius_norms.append(frobenius_norm)

# 打印结果
print("平均计算时间:", sum(times) / len(times))
print("Frobenius范数:", frobenius_norms)

平均计算时间: 3.171968460083008e-05
Frobenius范数: [2540.075927734375, 2503.918701171875, 2536.760498046875, 2515.313720703125, 2512.483154296875, 2514.09326171875, 2510.357666015625, 2501.63134765625, 2505.511962890625, 2496.482421875, 2481.272216796875, 2512.1103515625, 2500.935791015625, 2524.72802734375, 2503.4560546875, 2531.686767578125, 2511.00537109375, 2542.2099609375, 2508.518310546875, 2545.5615234375, 2505.0537109375, 2481.109375, 2524.391845703125, 2514.1953125, 2488.838623046875, 2552.433837890625, 2470.309326171875, 2523.6171875, 2530.391845703125, 2510.28955078125, 2514.422119140625, 2545.057861328125, 2483.3740234375, 2540.466064453125, 2509.19482421875, 2473.2470703125, 2499.1142578125, 2534.983154296875, 2477.17041015625, 2517.286376953125, 2510.27099609375, 2540.005615234375, 2503.14013671875, 2525.046630859375, 2512.46630859375, 2544.8271484375, 2533.843505859375, 2512.385498046875, 2554.604736328125, 2492.065185546875, 2527.442138671875, 2501.929443359375, 2554.3530273437

### 练习4. 测量同时在两个GPU上执行两个矩阵乘法与在一个GPU上按顺序执行两个矩阵乘法所需的时间。提示：应该看到近乎线性的缩放。

In [15]:
import torch
import time

# 定义矩阵大小和GPU设备
size = 1000
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 在单个GPU上定义矩阵
A1 = torch.rand(size, size, device=device)
B1 = torch.rand(size, size, device=device)
A2 = torch.rand(size, size, device=device)
B2 = torch.rand(size, size, device=device)

# 顺序计算
start_time = time.time()
C1 = torch.matmul(A1, B1)
C2 = torch.matmul(A2, B2)
sequential_time = time.time() - start_time

# 模拟并行计算（实际上仍然是顺序的）
start_time = time.time()
C1_halfway = torch.matmul(A1, B1)
C2_halfway = torch.matmul(A2, B2)
sequential_simulated_parallel_time = time.time() - start_time

print("顺序计算时间:", sequential_time)
print("模拟并行计算时间:", sequential_simulated_parallel_time)

顺序计算时间: 0.0010066032409667969
模拟并行计算时间: 0.0
