Скачиваем компилятор

In [None]:
!nvcc --version
!pip install git+https://github.com/andreinechaev/nvcc4jupyter.git
%load_ext nvcc_plugin

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Sep_21_10:33:58_PDT_2022
Cuda compilation tools, release 11.8, V11.8.89
Build cuda_11.8.r11.8/compiler.31833905_0
Collecting git+https://github.com/andreinechaev/nvcc4jupyter.git
  Cloning https://github.com/andreinechaev/nvcc4jupyter.git to /tmp/pip-req-build-yviyj1ah
  Running command git clone --filter=blob:none --quiet https://github.com/andreinechaev/nvcc4jupyter.git /tmp/pip-req-build-yviyj1ah
  Resolved https://github.com/andreinechaev/nvcc4jupyter.git to commit 0a71d56e5dce3ff1f0dd2c47c29367629262f527
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: NVCCPlugin
  Building wheel for NVCCPlugin (setup.py) ... [?25l[?25hdone
  Created wheel for NVCCPlugin: filename=NVCCPlugin-0.0.2-py3-none-any.whl size=4295 sha256=6847d53faf858c0df8dc800a0f085ad9fb82ff0e26213d5acde3bdf41d2e3179
  Stored in directory: /tmp/pip-ephem-wheel-cache-s13ytta8/wheels/

Непосредственно программа

In [None]:
%%cu
#include <cublas_v2.h>
#include <malloc.h>
#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <stdexcept>
using namespace std;
/*
 Редукция сложением массива inArray
 Ответ будет лежать в outArray[0]
*/
__global__ void kernel(double* inArray, double* outArray, int n) {
    int grid_tid = blockIdx.x*blockDim.x+threadIdx.x;
    int grid_stride = blockDim.x * gridDim.x;

    //индекс суммирования
    int i = grid_tid;
    //первая сумма
    double firstSum = 0;
    extern __shared__ double sharedArray[];

    //сложим все элементы массива через кол-во потоков и сложим к себе
    while(i < n) {
        firstSum += inArray[i];
        i += grid_stride;
    }

    int block_tid = threadIdx.x;
    sharedArray[block_tid] = firstSum;

     __syncthreads();
    //теперь в sharedArray всплошную лежат промежуточные суммы

    int block_n = blockDim.x;
    int block_stride = blockDim.x>>1;

    //теперь вы работаем тольков пределах своего блока с внутренней памятью
    while (block_stride > 0 && block_tid + block_stride < block_n) {

        sharedArray[block_tid] += sharedArray[block_tid + block_stride];

        // уменьшаем текущую рабочу поверхность в два раза, тк там лежат промежуточные суммы
        block_n = block_stride;
        //и уменьшаем шаг на 2
        block_stride = block_stride >> 1;

         __syncthreads();
    }
    outArray[blockIdx.x] = sharedArray[0];
}

void count_cuda_dims(int& blocksPerGrid, int& threadsPerBlock, int n) {
    const int MAX_THREADS_PER_BLOCK = 1024;

    //сколько операций нужно выполнить в первую итерацию
    double numOperations = (float)n / 2;

    //степень двойки, при возведении в которую получим наибольшее число меньшее numOperations
    double nearestPowLower = log2(numOperations);
    int intPower = floor(nearestPowLower);
    //получим опитмальное кол-во потоков (ближайшая меньшая степень двойки к кол-ву элементов/2)
    int numThreads = 1 << intPower;

    //максимум потоков в блоке - 1024
    threadsPerBlock = numThreads < MAX_THREADS_PER_BLOCK ? numThreads : MAX_THREADS_PER_BLOCK;
    //тут ничего округлять не надо - точно делится нацело (numThreads у нас ведь степень двойки)
    blocksPerGrid = numThreads < MAX_THREADS_PER_BLOCK ? 1 : numThreads / threadsPerBlock;
}

void handle_cuda_result(cudaError_t cuerr, char msg[]) {
    if (cuerr != cudaSuccess) {
        fprintf(stderr, cudaGetErrorString(cuerr));
        fprintf(stderr, "\n");
        throw runtime_error(msg);
    }
}

/*
 Загрузка данных на GPU
 @ resultGpuPointer - перезаписывается, указатель на указатель на память GPU (чтобы значение указателя сохранялось)
 @ a - указатель на массив
 @ size - размер массива
*/
void upload_to_device(double** resultGpuPointer, double* a, int size) {
    int sizeInBytes = size * sizeof(double);
    //выделяем память
    cudaError_t cuerr = cudaMalloc((void**)resultGpuPointer, sizeInBytes);
    handle_cuda_result(cuerr, "Cannot allocate device array");

    // копируем массив
    //*resultGpuPointer - разыменовываем указатель на указатель, чтобы передать указатель
    cuerr = cudaMemcpy(*resultGpuPointer, a, sizeInBytes, cudaMemcpyHostToDevice);
    handle_cuda_result(cuerr, "Cannot copy a array from host to device");
}

/*
 Выделение памяти на GPU
 @ resultGpuPointer - перезаписывается, указатель на указатель на память GPU (чтобы значение указателя сохранялось)
 @ size - размер массива
*/
void allocate_memory(double** resultGpuPointer,  int size) {
    int sizeInBytes = size * sizeof(double);
    //выделяем память
    cudaError_t cuerr = cudaMalloc((void**)resultGpuPointer, sizeInBytes);
    handle_cuda_result(cuerr, "Cannot allocate device array");

}

/*
Загрузка данных на хост-машину с GPU
 @ gpuPointer - указатель на память GPU
 @ resultA - указатель на результирующий массив (память должная быть выделена)
 @ size - размер массива
*/
void download_from_device(double* gpuPointer, double* resultA, int size) {
    int sizeInBytes = size * sizeof(double);
    // копируем массив
    cudaError_t cuerr = cudaMemcpy(resultA, gpuPointer, sizeInBytes, cudaMemcpyDeviceToHost);
    handle_cuda_result(cuerr, "Cannot copy a array from device to host");
}

void reallocate(double** inArray, double** outArray, int nAfterReduction) {
    cudaFree(*inArray);
    *inArray = *outArray;
    *outArray = NULL;
    allocate_memory(outArray, nAfterReduction);
}

/*
  Редукция сложением
*/
double reduce_gpu(double* inArray, double* outArray, int n, int blocksPerGrid, int threadsPerBlock){
    cudaError_t cuerr;

    // Выделение памяти на устройстве
    double* inGpuPointer = NULL;
    //передаем указатель на указатель, чтобы работать со значением указателя                                                                                                                ///
    upload_to_device(&inGpuPointer, inArray, n);

    double* outGpuPointer = NULL;
    //нужно выделить память только под количество потоков, тк там будут лежать промежуточные суммы
    allocate_memory(&outGpuPointer, blocksPerGrid*threadsPerBlock);

    // Создание обработчиков событий
    cudaEvent_t start, stop;
    float gpuTime = 0.0f;
    cuerr = cudaEventCreate(&start);
    handle_cuda_result(cuerr, "Cannot create CUDA start event");

    cuerr = cudaEventCreate(&stop);
    handle_cuda_result(cuerr, "Cannot create CUDA stop event");

    cuerr = cudaEventRecord(start, 0);
    handle_cuda_result(cuerr, "Cannot record CUDA start event");

    //Запуск ядра
    while(n > 1) {
        kernel <<< blocksPerGrid, threadsPerBlock, threadsPerBlock * sizeof(double) >>> (inGpuPointer, outGpuPointer, n);
        n = blocksPerGrid;
        count_cuda_dims(blocksPerGrid, threadsPerBlock, n);
        reallocate(&inGpuPointer, &outGpuPointer, n);
    }

    handle_cuda_result(cudaGetLastError(), "Cannot launch CUDA kernel");

    // Синхронизация устройств
    cuerr = cudaDeviceSynchronize();
    handle_cuda_result(cudaGetLastError(), "Cannot synchronize CUDA kernel");

    // Установка точки окончания
    cuerr = cudaEventRecord(stop, 0);
    handle_cuda_result(cuerr, "Cannot record CUDA stop event");

    // Копирование результата на хост, интересует только 1 элемент, где есть результат
    download_from_device(inGpuPointer, outArray, 1);

    cuerr = cudaEventElapsedTime(&gpuTime, start, stop);
    handle_cuda_result(cuerr, "Cannot get elapsed time");
    double time = gpuTime/ 1000;

    cudaEventDestroy(start);
    cudaEventDestroy(stop);
    cudaFree(inGpuPointer);
    cudaFree(outGpuPointer);
    return time;
}




double reduce_cpu(double* inArray, double* outArray,  int n){
    double sum = 0;
    double time = clock();

    for(int i = 0; i < n; ++i) {
        sum += inArray[i];
    }

    time = clock() - time;
    time/=CLOCKS_PER_SEC;

    outArray[0] = sum;
    return time;
}

void fill_array(double* a, int n) {
    srand (time(NULL));
    for(int i = 0; i < n; ++i) {
        //a[i] = 1;
        a[i] = rand()/1000000000.0;
    }

}

void check(double* cpu, double* gpu,  double precision) {
    if (fabs(cpu[0] - gpu[0]) > precision) {
        fprintf(stderr, "Ответы не равны: cpu=%f; gpu=%f\n", cpu[0], gpu[0]);
        throw runtime_error("Ответы не равны");
    }
}

int main(int argc, char* argv[]) {
    int n = 1000000;
    double* a = (double*) malloc(n*sizeof(double));
    double* result_gpu = (double*) malloc(sizeof(double));
    double* result_cpu = (double*) malloc(sizeof(double));

    fill_array(a, n);

    int threadsPerBlock;
    int blocksPerGrid;

    count_cuda_dims(blocksPerGrid, threadsPerBlock, n);

    double time_gpu = reduce_gpu(a,result_gpu, n, blocksPerGrid, threadsPerBlock);
    printf("result gpu: %f, time gpu: %f\n",result_gpu[0], time_gpu);

    double time_cpu = reduce_cpu(a, result_cpu, n);
    printf("result cpu: %f, time cpu: %f\n", result_cpu[0], time_cpu);

    check(result_cpu, result_gpu, 0.000001);

    return 0;

}

result gpu: 1073952.759061, time gpu: 0.000662
result cpu: 1073952.759061, time cpu: 0.003112

