In [2]:
!pip install git+https://github.com/andreinechaev/nvcc4jupyter.git

Collecting git+https://github.com/andreinechaev/nvcc4jupyter.git
  Cloning https://github.com/andreinechaev/nvcc4jupyter.git to /tmp/pip-req-build-4knn1qwb
  Running command git clone --filter=blob:none --quiet https://github.com/andreinechaev/nvcc4jupyter.git /tmp/pip-req-build-4knn1qwb
  Resolved https://github.com/andreinechaev/nvcc4jupyter.git to commit 0a71d56e5dce3ff1f0dd2c47c29367629262f527
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: NVCCPlugin
  Building wheel for NVCCPlugin (setup.py) ... [?25l[?25hdone
  Created wheel for NVCCPlugin: filename=NVCCPlugin-0.0.2-py3-none-any.whl size=4295 sha256=61cadb7bb41b5ce480254d5b1c468629916145b987557bbdfa234d46338a831d
  Stored in directory: /tmp/pip-ephem-wheel-cache-d3vt9iqi/wheels/a8/b9/18/23f8ef71ceb0f63297dd1903aedd067e6243a68ea756d6feea
Successfully built NVCCPlugin
Installing collected packages: NVCCPlugin
Successfully installed NVCCPlugin-0.0.2


In [3]:
%load_ext nvcc_plugin

created output directory at /content/src
Out bin /content/result.out


In [22]:
%%cu

#include <cuda.h>
#include <iostream>
#include <cstdlib>
#include <ctime>

__global__ void matrix_multiply(const int *matrix_a, const int *matrix_b, int *result, int N) {
    int row = blockIdx.y * blockDim.y + threadIdx.y;
    int col = blockIdx.x * blockDim.x + threadIdx.x;

    if (row < N && col < N) {
        int dot_product = 0;
        for (int i = 0; i < N; i++) {
            dot_product += matrix_a[row * N + i] * matrix_b[i * N + col];
        }
        result[row * N + col] = dot_product;
    }
}

bool verify_result(const int *matrix_a, const int *matrix_b, const int *result, int N) {
    for (int i = 0; i < N; i++) {
        for (int j = 0; j < N; j++) {
            int temp = 0;
            for (int k = 0; k < N; k++) {
                temp += matrix_a[i * N + k] * matrix_b[k * N + j];
            }
            if (result[i * N + j] != temp) {
                return false;
            }
        }
    }
    return true;
}

void multiplyMatrixCPU(const int *matrix_a, const int *matrix_b, int *result, int N) {
    for (int i = 0; i < N; i++) {
        for (int j = 0; j < N; j++) {
            result[i * N + j] = 0;
            for (int k = 0; k < N; k++) {
                result[i * N + j] += matrix_a[i * N + k] * matrix_b[k * N + j];
            }
        }
    }
}

int main() {
    const int N = 5;
    const int block_size = 16;
    const int grid_size = (N + block_size - 1) / block_size;

    int *matrix_a, *matrix_b, *result;
    int *d_matrix_a, *d_matrix_b, *d_result;

    // Выделение памяти на хосте (CPU)
    matrix_a = new int[N * N];
    matrix_b = new int[N * N];
    result = new int[N * N];

    // Инициализация матриц случайными значениями
    srand(time(nullptr));
    for (int i = 0; i < N * N; i++) {
        matrix_a[i] = rand() % 10;
        matrix_b[i] = rand() % 10;
    }

    // Выделение памяти на устройстве (GPU)
    cudaMalloc((void**)&d_matrix_a, N * N * sizeof(int));
    cudaMalloc((void**)&d_matrix_b, N * N * sizeof(int));
    cudaMalloc((void**)&d_result, N * N * sizeof(int));

    // Копирование данных с хоста на устройство
    cudaMemcpy(d_matrix_a, matrix_a, N * N * sizeof(int), cudaMemcpyHostToDevice);
    cudaMemcpy(d_matrix_b, matrix_b, N * N * sizeof(int), cudaMemcpyHostToDevice);

    // Запуск ядра CUDA
    dim3 blocks(grid_size, grid_size);
    dim3 threads(block_size, block_size);
    matrix_multiply<<<blocks, threads>>>(d_matrix_a, d_matrix_b, d_result, N);

    // Копирование данных с устройства на хост
    cudaMemcpy(result, d_result, N * N * sizeof(int), cudaMemcpyDeviceToHost);

    // Проверка правильности вычисления на GPU
    bool is_correct_gpu = verify_result(matrix_a, matrix_b, result, N);
    if (is_correct_gpu) {
        std::cout << "Вычисления на GPU выполнены правильно." << std::endl;
    } else {
        std::cout << "Ошибка в вычислениях на GPU." << std::endl;
    }

    // Умножение матриц на ЦП
    int *result_cpu = new int[N * N];
    clock_t cpu_start_time = clock();
    multiplyMatrixCPU(matrix_a, matrix_b, result_cpu, N);
    double cpu_execution_time = (double)(clock() - cpu_start_time) / CLOCKS_PER_SEC;

    // Проверка правильности вычисления на CPU
    bool is_correct_cpu = verify_result(matrix_a, matrix_b, result_cpu, N);
    if (is_correct_cpu) {
        std::cout << "Вычисления на CPU выполнены правильно." << std::endl;
    } else {
        std::cout << "Ошибка в вычислениях на CPU." << std::endl;
    }

    // Вывод времени выполнения на GPU и CPU
    cudaEvent_t start, stop;
    cudaEventCreate(&start);
    cudaEventCreate(&stop);
    cudaEventRecord(start);
    cudaEventSynchronize(start);

    // Запуск ядра CUDA
    matrix_multiply<<<blocks, threads>>>(d_matrix_a, d_matrix_b, d_result, N);

    // Копирование данных с устройства на хост
    cudaMemcpy(result, d_result, N * N * sizeof(int), cudaMemcpyDeviceToHost);

    cudaEventRecord(stop);
    cudaEventSynchronize(stop);
    float gpu_execution_time = 0;
    cudaEventElapsedTime(&gpu_execution_time, start, stop);
    std::cout << "Время выполнения на GPU: " << gpu_execution_time << " мс" << std::endl;

    std::cout << "Время выполнения на CPU: " << cpu_execution_time*1000 << " мс" << std::endl;

    // Освобождение памяти на устройстве
    cudaFree(d_matrix_a);
    cudaFree(d_matrix_b);
    cudaFree(d_result);

    // Освобождение памяти на хосте
    delete[] matrix_a;
    delete[] matrix_b;
    delete[] result;
    delete[] result_cpu;

    return 0;
}

Вычисления на GPU выполнены правильно.
Вычисления на CPU выполнены правильно.
Время выполнения на GPU: 0.044704 мс
Время выполнения на CPU: 0.002 мс

