#

gemm

Here are 18 public repositories matching this topic...

KarhouTam / cuda-kernels

Some common CUDA kernel implementations (Not the fastest).

cuda-kernels gemm softmax relu cuda-programming layernorm cuda-learning

Updated Oct 27, 2024
Cuda

jhson989 / fast-conv

Fast Convoluion Implementation via CUDA

cuda convolution gemm

Updated Apr 26, 2022
Cuda

enp1s0 / cuMpSGEMM

Fast SGEMM emulation on Tensor Cores

gpu cuda gemm half-precision mixed-precision tensorcore tensorcores fp32

Updated Aug 19, 2024
Cuda

JoeruCodes / CUDA-GEMM-kernel

My attempt of making a GEMM kernel...

parallel-computing cuda cuda-kernels gemm gemm-optimization cuda-programming gemms

Updated Jun 16, 2023
Cuda

fsword73 / HPC-Course-2021

HPC course for Grad 3/4th 2021

Updated Nov 4, 2021
Cuda

XiaoSong9905 / cuda-v100-kernels

CUDA Kernels on V100

hpc gpu cuda scan reduce gemm transpose sgemm

Updated Aug 4, 2022
Cuda

foreverrookie / cuda-opt-samples

CUDA optimization samples including sgemm, reduce... To be continued.

gpu cuda reduce gemm

Updated Sep 26, 2022
Cuda

enp1s0 / ozIMMU

FP64 equivalent GEMM via Int8 Tensor Cores using the Ozaki scheme

cuda gemm mixed-precision tensorcore tensorcores

Updated Sep 7, 2024
Cuda

yester31 / CUDA_EX

CUDA kernel functions

gpu cuda cublas matrix-multiplication cuda-kernels gemm cuda-programming bicubic-interpolation

Updated Nov 14, 2024
Cuda

Bruce-Lee-LY / cuda_back2back_hgemm

Use tensor core to calculate back-to-back HGEMM (half-precision general matrix multiplication) with MMA PTX instruction.

gpu cuda cublas nvidia gemm matrix-multiply tensor-core hgemm back2back-hgemm fused-hgemm back2back-gemm fused-gemm

Updated Nov 3, 2023
Cuda

aredden / torch-cublas-hgemm

PyTorch half precision gemm lib w/ fused optional bias + optional relu/gelu

cuda pytorch gemm float16

Updated Aug 26, 2024
Cuda

andylolu2 / simpleGEMM

The simplest but fast implementation of matrix multiplication in CUDA.

cuda matrix-multiplication gemm

Updated Jul 26, 2024
Cuda

Bruce-Lee-LY / cuda_hgemv

Several optimization methods of half-precision general matrix vector multiplication (HGEMV) using CUDA core.

gpu cuda cublas nvidia gemm gemv matrix-multiply tensor-core hgemm cuda-core hgemv

Updated Sep 8, 2024
Cuda

hma02 / cublasHgemm-P100

Code for testing the native float16 matrix multiplication performance on Tesla P100 and V100 GPU based on cublasHgemm

gpu cublas precision gemm half-precision float16 p100 v100

Updated Aug 20, 2019
Cuda

hma02 / cublasgemm-benchmark

code for benchmarking GPU performance based on cublasSgemm and cublasHgemm

benchmarking gpu cuda cublas gemm gpu-performance

Updated May 20, 2022
Cuda

yzhaiustc / Optimizing-SGEMM-on-NVIDIA-Turing-GPUs

Optimizing SGEMM kernel functions on NVIDIA GPUs to a close-to-cuBLAS performance.

optimization cuda nvidia gemm

Updated Nov 28, 2021
Cuda

Bruce-Lee-LY / cuda_hgemm

Several optimization methods of half-precision general matrix multiplication (HGEMM) using tensor core with WMMA API and MMA PTX instruction.

gpu cuda cublas nvidia gemm matrix-multiply tensor-core hgemm

Updated Sep 8, 2024
Cuda

DefTruth / CUDA-Learn-Notes

🎉 Modern CUDA Learn Notes with PyTorch: CUDA Cores, Tensor Cores, fp32/tf32, fp16/bf16, fp8/int8, flash_attn, rope, sgemm, hgemm, sgemv, warp/block reduce, elementwise, softmax, layernorm, rmsnorm.

cuda pytorch triton gemm softmax cuda-programming layernorm gemv elementwise rmsnorm flash-attention flash-attention-2 warp-reduce block-reduce flash-attention-3

Updated Nov 14, 2024
Cuda

Improve this page

Add a description, image, and links to the gemm topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the gemm topic, visit your repo's landing page and select "manage topics."