In [None]:
import numpy as np
from numba import cuda
from time import time
import math
import matplotlib.pyplot as plt
%matplotlib inline

def create_matrix(n):
  a = np.random.randint(0, 10, (n, n)).astype(np.float64)
  b = np.random.randint(0, 10, (n, n)).astype(np.float64)
  c = np.zeros((n, n)).astype(np.float64)
  return a, b, c

def mul_cpu_element(a, b):
  n=len(a)
  c = np.zeros((n,n))
  start = time()
  for i in range(n):
    for j in range(n):
      for k in range(n):
        c[i, j] += a[i,k] * b[k,j]
  return c, time()-start
    
def mul_cpu_vector(a, b):
  n=len(a)
  c = np.zeros((n,n))
  start = time()
  for i in range(n):
    for j in range(n):
      c[i, j] = np.dot(a[i,:], b[:,j])
  return c, time()-start

def mul_cpu_matrix(a, b):
  start = time()
  c = np.dot(a, b)
  return c, time() - start

@cuda.jit
def gpu_mul_operation(a, b, c):
    i, j = cuda.grid(2)
    if i < c.shape[0] and j < c.shape[1]:
      tmp = 0
      for k in range(a.shape[1]):
        tmp += a[i, k] * b[k, j]
      c[i, j] = tmp

@cuda.jit
def gpu_mul_operation(a, b, c):
    i, j = cuda.grid(2)
    if i < c.shape[0] and j < c.shape[1]:
      tmp = 0
      for k in range(a.shape[1]):
        tmp += a[i, k] * b[k, j]
      c[i, j] = tmp

@cuda.jit
def gpu_mul_element(a, b, c):
    i, j = cuda.grid(2)
    if i < c.shape[0] and j < c.shape[1]:
      tmp = 0
      for k in range(a.shape[1]):
        tmp += a[i, k] * b[k, j]
      c[i, j] = tmp

@cuda.jit
def gpu_mul_vector(a, b, c):
    i, j = cuda.grid(2)
    tmp = 0
    for k in range(a.shape[1]):
      tmp += a[i, k] * b[k, j]
    c[i, j] = tmp

def prepare_and_exec_gpu_mul(a, b, c, n, gpu_func):
  tread_number_block = 32

  a_global = cuda.to_device(a)
  b_global = cuda.to_device(b)
  c_global = cuda.device_array((n, n))
    
  threadsperblock = (tread_number_block, tread_number_block)
  blockspergrid_x = int(math.ceil(a.shape[0] / threadsperblock[1]))
  blockspergrid_y = int(math.ceil(b.shape[1] / threadsperblock[0]))
  blockspergrid = (blockspergrid_x, blockspergrid_y)

  start = time()
  gpu_func[blockspergrid, threadsperblock](a_global, b_global, c_global)
  gpu_time = time() - start
  c_gpu = c_global.copy_to_host() 
  return c_gpu, gpu_time

def expiriens(n, count, cpu_func, gpu_func, message):  
  gpu_time_sum = 0
  cpu_time_sum = 0
  for _ in range(count):
    a, b, c = create_matrix(n)
    c_gpu, gpu_time = prepare_and_exec_gpu_mul(a, b, c, n, gpu_func)
    gpu_time_sum+=gpu_time
    c_cpu, cpu_time = cpu_func(a, b)
    cpu_time_sum+=cpu_time

  print('Размерность матрицы', n)
  print('Усредненное время умножения на CPU (', message, '):', cpu_time/count)
  print('Усредненное время умножения на GPU (', message, '):', gpu_time/count)
  print('Ускорение',cpu_time/gpu_time )
  return cpu_time/gpu_time

def functions_are_correct(n, cpu_func, gpu_func, message):
  a, b, c = create_matrix(n)
  c_numpy = mul_cpu_matrix(a,b)[0]
  c_cpu = cpu_func(a,b)[0]
  c_gpu = prepare_and_exec_gpu_mul(a, b, c, n, gpu_func)[0]
  if np.array_equal(c_numpy, c_cpu):
    print('CPU считает корректно (', message, ')')
  if np.array_equal(c_numpy, c_gpu):
    print('GPU считает корректно (', message, ')')

def lab(cpu_func, gpu_func, message):
  print(message)
  a, b, c = get_matrix(128)
  functions_are_correct(128, cpu_func, gpu_func, message)
  count = 1
  n_array = [128, 256, 512, 1024, 2048]
  time_array = [expiriens(n_array_i, count, cpu_func, gpu_func, 'поэлементное умножение') for n_array_i in n_array]

  plt.plot(np.array(n_array), np.array(time_array)) 
  plt.xlabel('Размерность')
  plt.ylabel('Ускорение')
  plt.title(message)
  plt.show()

lab(mul_cpu_element, gpu_mul_element, 'поэлементное умножение')
lab(mul_cpu_element, gpu_mul_element, 'векторное умножение')


поэлементное умножение
CPU считает корректно ( поэлементное умножение )
GPU считает корректно ( поэлементное умножение )
Размерность матрицы 128
Усредненное время умножения на CPU ( поэлементное умножение ): 1.4245102405548096
Усредненное время умножения на GPU ( поэлементное умножение ): 0.00031876564025878906
Ускорение 4468.832460732984
Размерность матрицы 256
Усредненное время умножения на CPU ( поэлементное умножение ): 11.336852312088013
Усредненное время умножения на GPU ( поэлементное умножение ): 0.0003833770751953125
Ускорение 29571.023009950248
Размерность матрицы 512
Усредненное время умножения на CPU ( поэлементное умножение ): 88.15948557853699
Усредненное время умножения на GPU ( поэлементное умножение ): 0.00048041343688964844
Ускорение 183507.53498759304
