#

cublas

Here are 30 public repositories matching this topic...

Bruce-Lee-LY / cuda_hgemm

Several optimization methods of half-precision general matrix multiplication (HGEMM) using tensor core with WMMA API and MMA PTX instruction.

gpu cuda cublas nvidia gemm matrix-multiply tensor-core hgemm

Updated Nov 7, 2023
Cuda

rbaygildin / learn-gpgpu

Algorithms implemented in CUDA + resources about GPGPU

gpu opencl parallel-computing cuda image-processing cublas nvidia gpgpu gpu-computing pycuda curand

Updated Jan 18, 2022
Cuda

hma02 / cublasHgemm-P100

Code for testing the native float16 matrix multiplication performance on Tesla P100 and V100 GPU based on cublasHgemm

gpu cublas precision gemm half-precision float16 p100 v100

Updated Aug 20, 2019
Cuda

hma02 / cublasgemm-benchmark

code for benchmarking GPU performance based on cublasSgemm and cublasHgemm

benchmarking gpu cuda cublas gemm gpu-performance

Updated May 20, 2022
Cuda

Bruce-Lee-LY / cuda_hgemv

Several optimization methods of half-precision general matrix vector multiplication (HGEMV) using CUDA core.

gpu cuda cublas nvidia gemm gemv matrix-multiply tensor-core hgemm cuda-core hgemv

Updated Nov 30, 2023
Cuda

codingonion / cuda-beginner-course-cpp-version

bilibili视频【CUDA 12.1 并行编程入门(C++语言版)】配套代码

python rust cpp gpu cuda cublas nvidia cudnn nvcc parallel-programming gpu-programming cuda-programming

Updated Mar 24, 2024
Cuda

jagennath-hari / CUDA-Accelerated-Visual-Inertial-Odometry-Fusion

Harness the power of GPU acceleration for fusing visual odometry and IMU data with an advanced Unscented Kalman Filter (UKF) implementation. Developed in C++ and utilizing CUDA, cuBLAS, and cuSOLVER, this system offers unparalleled real-time performance in state and covariance estimation for robotics and autonomous system applications.

robotics cuda cublas unscented-kalman-filter sensor-fusion state-estimation kalman-filter visual-inertial-odometry ros2 visual-odometry cusolver imu-sensor

Updated Mar 21, 2024
Cuda

Bruce-Lee-LY / cuda_back2back_hgemm

Use tensor core to calculate back-to-back HGEMM (half-precision general matrix multiplication) with MMA PTX instruction.

gpu cuda cublas nvidia gemm matrix-multiply tensor-core hgemm back2back-hgemm fused-hgemm back2back-gemm fused-gemm

Updated Nov 3, 2023
Cuda

PanosAntoniadis / cuda-exercises-ntua

Lab exercise of Parallel Processing course in NTUA regarding CUDA programming

tiling cublas matrix-multiplication gpu-computing cuda-programming

Updated Mar 3, 2020
Cuda

enp1s0 / CULiP

Library for profiling the execution time of CUDA official library functions

cuda cublas profiling

Updated Oct 3, 2023
Cuda

tigercosmos / simple-vgg16-cu

Simple VGG16 implemented in CUDA

cuda cublas vgg16 cudnn

Updated Dec 1, 2020
Cuda

yester31 / CUDA_EX

CUDA kernel functions

gpu cuda cublas matrix-multiplication cuda-kernels gemm cuda-programming bicubic-interpolation

Updated May 24, 2022
Cuda

maximilianbehr / cuexpm

Matrix Exponential Approximation using CUDA

cpp cuda cublas matrix-functions exponential gpu-acceleration matrix-computations cusolver

Updated Mar 20, 2024
Cuda

dc-fukuoka / gpumm

gpumm - matrix-matrix multiplication by using CUDA, cublas, cublasxt and OpenACC.

openmp cuda cublas high-performance-computing openacc cublasxt

Updated Mar 13, 2024
Cuda

corenbialik / gols

Generalized Orthogonal Least-Squares in CUDA

sparsity cuda cublas feature-selection least-squares sparse-regression

Updated Apr 21, 2018
Cuda

maximilianbehr / cuNMF

Nonnegative matrix factorizations using CUDA

matrix linear-algebra cuda cublas matrix-factorization gpu-acceleration matrix-calculations nonnegative-matrix-factorization

Updated Mar 21, 2024
Cuda

MarioRuggieri / G-IDW-MV

GPGPU Inverse Distance Weighting using matrix vector multiplication

c gpu interpolation cuda cublas high-performance-computing matrix-vector-multiplication

Updated Dec 5, 2017
Cuda

maximilianbehr / cuPolar

Newton's and Halley's Method for the Matrix Polar Decomposition using CUDA

matrix cuda cublas matrix-factorization gpu-acceleration matrix-decompositions cusolver

Updated Apr 1, 2024
Cuda

rvcgeeks / rvc-mnist-cnn-gpu

A MNIST handwritten digit classifier written from scratch in Cuda - C

machine-learning deep-learning cuda cublas artificial-intelligence nvidia mnist handwritten-digit-recognition cnn-classification

Updated Nov 12, 2019
Cuda

Kostisef / cuda-matrix-multiplication

A CUDA approach for computing the multiplication of a transposed matrix with the initial one, using the cuBLAS library.

cuda cublas transpose-matrix

Updated Sep 28, 2021
Cuda

Improve this page

Add a description, image, and links to the cublas topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the cublas topic, visit your repo's landing page and select "manage topics."