# 使用 cuda

## 测试 pytorch 和 cuda 是否工作

将打印 cuda 设备名称。

In [1]:
import torch

# 获取 cuda 设备名称
torch.cuda.get_device_name()

'Tesla T4'

## 矩阵乘法对比 gpu 和 cpu 性能

矩阵乘法特别适合 gpu，在这种情况下性能比 cpu显著提高。

并不是所有情况下都是 gpu 性能好，模型较小的情况下因为内存复制到 gpu 也需要耗时等因素，反而 gpu 会稍慢。

In [2]:
import torch
import time

'''
展示 pytorch 在 gpu 下的性能好于 cpu 的情况

# time python3 tmp.py 
在 GPU 上执行矩阵乘法所需时间: 0.15961813926696777 秒
在 CPU 上执行矩阵乘法所需时间: 5.21256160736084 秒
GPU 性能优于 CPU

real    0m7.622s
user    0m22.987s
sys     0m0.933s
'''

# 创建一个大型矩阵（例如 10000x10000 的矩阵）
matrix_size = 10000
matrix = torch.rand(matrix_size, matrix_size)

# 使用 GPU 进行矩阵乘法
start_time = time.time()
matrix_on_gpu = matrix.to("cuda")
result_gpu = torch.mm(matrix_on_gpu, matrix_on_gpu)
end_time = time.time()
gpu_time = end_time - start_time

# 使用 CPU 进行矩阵乘法
start_time = time.time()
result_cpu = torch.mm(matrix, matrix)
end_time = time.time()
cpu_time = end_time - start_time

# 打印执行时间
print("在 GPU 上执行矩阵乘法所需时间:", gpu_time, "秒")
print("在 CPU 上执行矩阵乘法所需时间:", cpu_time, "秒")

# 比较 GPU 和 CPU 的性能差异
if gpu_time < cpu_time:
    print("GPU 性能优于 CPU")
else:
    print("CPU 性能优于 GPU")

在 GPU 上执行矩阵乘法所需时间: 0.15914297103881836 秒
在 CPU 上执行矩阵乘法所需时间: 5.190506458282471 秒
GPU 性能优于 CPU
