GitHub - Rohith-Rongali/GEMM

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
GEMM.cu		GEMM.cu
Makefile		Makefile
README.md		README.md
gemm_optimized.cuh		gemm_optimized.cuh

Repository files navigation

GEMM

Hand-written CUDA SGEMM kernel achieving ~90% of cuBLAS FP32 performance on NVIDIA L40S.

Usage

make && ./gemm

Files

gemm_optimized.cuh — kernel implementation
GEMM.cu — benchmark harness
Makefile — build system (targets: all, run, clean)

About

No description, website, or topics provided.

Report repository

Releases

No releases published

Packages

No packages published

Languages