<a href="https://colab.research.google.com/github/JManuelin/JManuelin.github.io/blob/master/Untitled0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [32]:
# @title Texto de título predeterminado
%%writefile matrix_mul.cu
#include <stdio.h>
#include <stdlib.h>
#include <cuda.h>
#include <time.h>

#define N 1000 // Tamaño de la matriz NxN

// Función de multiplicación de matrices en la CPU
void matrixMulCPU(float *A, float *B, float *C, int n) {
    for (int i = 0; i < n; i++) {
        for (int j = 0; j < n; j++) {
            float sum = 0;
            for (int k = 0; k < n; k++) {
                sum += A[i * n + k] * B[k * n + j];
            }
            C[i * n + j] = sum;
        }
    }
}

// Kernel de multiplicación de matrices en la GPU
__global__ void matrixMulGPU(float *A, float *B, float *C, int n) {
    int row = blockIdx.y * blockDim.y + threadIdx.y;
    int col = blockIdx.x * blockDim.x + threadIdx.x;
    float sum = 0;

    if (row < n && col < n) {
        for (int k = 0; k < n; k++) {
            sum += A[row * n + k] * B[k * n + col];
        }
        C[row * n + col] = sum;
    }
}

// Función para inicializar matrices con valores aleatorios
void initializeMatrix(float *matrix, int n) {
    for (int i = 0; i < n * n; i++) {
        matrix[i] = rand() % 100;
    }
}

// Función para verificar que dos matrices sean iguales
bool verifyResult(float *A, float *B, int n) {
    for (int i = 0; i < n * n; i++) {
        if (fabs(A[i] - B[i]) > 1e-5) {
            return false;
        }
    }
    return true;
}

int main() {
    int size = N * N * sizeof(float);

    // Asignar memoria en el host (CPU)
    float *h_A = (float *)malloc(size);
    float *h_B = (float *)malloc(size);
    float *h_C = (float *)malloc(size);
    float *h_C_GPU = (float *)malloc(size);

    // Inicializar matrices A y B
    initializeMatrix(h_A, N);
    initializeMatrix(h_B, N);

    // Asignar memoria en el dispositivo (GPU)
    float *d_A, *d_B, *d_C;
    cudaMalloc((void **)&d_A, size);
    cudaMalloc((void **)&d_B, size);
    cudaMalloc((void **)&d_C, size);

    // Copiar matrices del host al dispositivo
    cudaMemcpy(d_A, h_A, size, cudaMemcpyHostToDevice);
    cudaMemcpy(d_B, h_B, size, cudaMemcpyHostToDevice);

    // Ejecutar la multiplicación de matrices en la CPU
    clock_t startCPU = clock();
    matrixMulCPU(h_A, h_B, h_C, N);
    clock_t endCPU = clock();

    // Definir el tamaño de los bloques y la rejilla para la GPU
    dim3 threadsPerBlock(16, 16);
    dim3 blocksPerGrid((N + threadsPerBlock.x - 1) / threadsPerBlock.x,
                       (N + threadsPerBlock.y - 1) / threadsPerBlock.y);

    // Ejecutar la multiplicación de matrices en la GPU
    clock_t startGPU = clock();
    matrixMulGPU<<<blocksPerGrid, threadsPerBlock>>>(d_A, d_B, d_C, N);
    cudaDeviceSynchronize();
    clock_t endGPU = clock();

    // Copiar el resultado de la GPU al host
    cudaMemcpy(h_C_GPU, d_C, size, cudaMemcpyDeviceToHost);

    // Verificar resultados
    bool correct = verifyResult(h_C, h_C_GPU, N);

    // Calcular y mostrar el tiempo de ejecución
    double cpuTime = ((double)(endCPU - startCPU)) / CLOCKS_PER_SEC;
    double gpuTime = ((double)(endGPU - startGPU)) / CLOCKS_PER_SEC;

    // Presentación de resultados
    printf("\n==================== RESULTADOS ====================\n");
    printf("Tamaño de la matriz: %d x %d\n", N, N);
    printf("Tiempo de ejecución en la CPU: %f segundos.\n", cpuTime);
    printf("Tiempo de ejecución en la GPU: %f segundos.\n", gpuTime);
    printf("La multiplicación de matrices en la GPU es %s.\n", correct ? "correcta" : "incorrecta");
    printf("====================================================\n");

    // Liberar memoria
    free(h_A);
    free(h_B);
    free(h_C);
    free(h_C_GPU);
    cudaFree(d_A);
    cudaFree(d_B);
    cudaFree(d_C);

    return 0;
}



Overwriting matrix_mul.cu


In [33]:
!nvcc -arch=sm_70 -o hello-gpu matrix_mul.cu -run


Tamaño de la matriz: 1000 x 1000
Tiempo de ejecución en la CPU: 4.217490 segundos.
Tiempo de ejecución en la GPU: 0.016315 segundos.
La multiplicación de matrices en la GPU es correcta.
