In [1]:
import torch
import time

# Проверка доступности CUDA
device_cpu = torch.device("cpu")
device_cuda = torch.device("cuda") if torch.cuda.is_available() else None

if device_cuda is None:
    raise RuntimeError("CUDA недоступна. Запусти код на машине с GPU.")

# Размер матриц (можно увеличить для более заметной разницы)
N = 12096

# Создание данных
A_cpu = torch.randn(N, N, device=device_cpu)
B_cpu = torch.randn(N, N, device=device_cpu)

A_cuda = A_cpu.to(device_cuda)
B_cuda = B_cpu.to(device_cuda)

# Прогрев GPU (важно для честного бенчмарка)
for _ in range(5):
    torch.matmul(A_cuda, B_cuda)
torch.cuda.synchronize()

# --- CPU benchmark ---
start = time.time()
C_cpu = torch.matmul(A_cpu, B_cpu)
cpu_time = time.time() - start

# --- CUDA benchmark ---
start = time.time()
C_cuda = torch.matmul(A_cuda, B_cuda)
torch.cuda.synchronize()  # обязательно!
cuda_time = time.time() - start

print(f"CPU time:  {cpu_time:.4f} seconds")
print(f"CUDA time: {cuda_time:.4f} seconds")
print(f"Speedup:   {cpu_time / cuda_time:.2f}x")


CPU time:  12.0393 seconds
CUDA time: 5.6372 seconds
Speedup:   2.14x


In [3]:
torch.cuda.empty_cache()

In [5]:
del A_cuda