In [2]:
# установка pycuda в GoogleColab
!pip install pycuda

Collecting pycuda
[?25l  Downloading https://files.pythonhosted.org/packages/46/61/47d3235a4c13eec5a5f03594ddb268f4858734e02980afbcd806e6242fa5/pycuda-2020.1.tar.gz (1.6MB)
[K     |████████████████████████████████| 1.6MB 13.2MB/s 
[?25hCollecting pytools>=2011.2
[?25l  Downloading https://files.pythonhosted.org/packages/b7/30/c9362a282ef89106768cba9d884f4b2e4f5dc6881d0c19b478d2a710b82b/pytools-2020.4.3.tar.gz (62kB)
[K     |████████████████████████████████| 71kB 11.2MB/s 
Collecting appdirs>=1.4.0
  Downloading https://files.pythonhosted.org/packages/3b/00/2344469e2084fb287c2e0b57b72910309874c3245463acd6cf5e3db69324/appdirs-1.4.4-py2.py3-none-any.whl
Collecting mako
[?25l  Downloading https://files.pythonhosted.org/packages/a6/37/0e706200d22172eb8fa17d68a7ae22dec7631a0a92266634fb518a88a5b2/Mako-1.1.3-py2.py3-none-any.whl (75kB)
[K     |████████████████████████████████| 81kB 13.1MB/s 
Building wheels for collected packages: pycuda, pytools
  Building wheel for pycuda (setup.py) .

In [27]:
# импорт библиотек, необходимых для работы

import numpy as np
import time

import pycuda.gpuarray as gpuarray
import pycuda.autoinit
from pycuda.tools import make_default_context
from  pycuda import  driver
from pycuda.compiler import SourceModule

In [28]:
make_default_context().get_device().name()

'Tesla T4'

In [29]:
# перенос GPU алгоритма с плюсов в питон с помощью 'SourceModule'

calc_gpu = SourceModule("""
                __global__ void Calc(double *x, double *y, double *count) {
        int idx = blockIdx.x * blockDim.x + threadIdx.x; 
        int threadCount = gridDim.x * blockDim.x;
        int N = 65536*16;
        int count_gpu = 0;
        for (int i = idx; i < N; i += threadCount) {
                if (x[i] * x[i] + y[i] * y[i] < 1) {
                        count_gpu++;
                }
        }
        atomicAdd(count , count_gpu);
}
""")

In [33]:
# CPU алгоритм

def calc_cpu(N):
    count_cpu = 0
    for i in range(N):
        if x[i] ** 2 + y[i] ** 2 < 1:
            count_cpu += 1
    return count_cpu*4/N

In [34]:
N = 65536*16
x, y = np.random.random(N), np.random.random(N)
block_size = (256, 1, 1)
grid_size = (int(N / (128 * block_size[0])), 1)
count = np.zeros(1)
calc = calc_gpu.get_function("Calc")

In [35]:
start_cpu = time.time()
pi_cpu = calc_cpu(N)
end_cpu = time.time()

In [36]:
start = time.time()
calc(driver.In(x), driver.In(y),driver.Out(count), block = block_size, grid = grid_size)
driver.Context.synchronize()
end = time.time()

In [38]:
print('Время на GPU {}'.format(end - start), '\nВремя на  CPU {}'.format(end_cpu - start_cpu))
print('Число pi на GPU для сравнения ', float(count*4/N), '\nЧисло pi на CPU для сравнения ', pi_cpu)
print('Множитель ускорения {}'.format((end_cpu - start_cpu)/ (end - start)))
print('Сравнение с числом pi: ')
print('GPU:', abs(np.pi -  float(count*4/N)) )
print('CPU:', abs(np.pi -  pi_cpu) )

Время на GPU 0.012803792953491211 
Время на  CPU 1.2068207263946533
Число pi на GPU для сравнения  3.1400413513183594 
Число pi на CPU для сравнения  3.1400413513183594
Множитель ускорения 94.25493920265163
Сравнение с числом pi: 
GPU: 0.001551302271433741
CPU: 0.001551302271433741
