#

CUDA

CUDA® is a parallel computing platform and programming model developed by NVIDIA for general computing on graphical processing units (GPUs). With CUDA, developers are able to dramatically speed up computing applications by harnessing the power of GPUs.

Here are 4,917 public repositories matching this topic...

cjmcv / PocketAI

A Portable Toolkit for deploying Edge AI and HPC (opencl, vulkan, simd, task scheduling)

hpc gpu vulkan opencl cuda heterogeneous task-scheduling

Updated Jun 1, 2024
C

shocker-0x15 / GfxExp

Sandbox for graphics paper implementation

neural-network gpu cuda raytracing ray-tracing optix path-tracing

Updated Jun 1, 2024
C++

vllm-project / vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

amd cuda inference pytorch transformer llama gpt rocm model-serving mlops llm inferentia llmops llm-serving trainium

Updated Jun 1, 2024
Python

jamjamjon / usls

A Rust library integrated with ONNXRuntime, providing a collection of Computer Vison and Vision-Language models.

rust ocr ai cuda ml yolo clip tensorrt blip onnx yolov8 dinov2 yolov9 rust-yolo yolo-rust yolo-rs

Updated Jun 1, 2024
Rust

shocker-0x15 / OptiX_Utility

OptiX 8 Lightweight Wrapper Library

visualization wrapper utilities gpu graphics rendering cuda raytracing rtx optix frameworks

Updated Jun 1, 2024
C++

b-data / jupyterlab-julia-docker-stack

(GPU accelerated) Multi-arch (linux/amd64, linux/arm64/v8) JupyterLab Julia docker images. Please submit Pull Requests to the GitLab repository. Mirror of

docker language programming-language data-science machine-learning ai gpu julia images cuda ml artificial-intelligence nvidia jupyterlab multi-arch code-server code-oss

Updated Jun 1, 2024
Dockerfile

jaredhoberock / ubu

cuda gpu-computing gpu-programming cuda-programming circlelang

Updated Jun 1, 2024
C++

catboost / catboost

A fast, scalable, high performance Gradient Boosting on Decision Trees library, used for ranking, classification, regression and other machine learning tasks for Python, R, Java, C++. Supports computation on CPU and GPU.

python data-science machine-learning data-mining tutorial r big-data gpu cuda kaggle gbdt gbm gpu-computing decision-trees gradient-boosting coreml catboost categorical-features

Updated Jun 1, 2024
Python

b-data / julia-docker-stack

(GPU accelerated) Multi-arch (linux/amd64, linux/arm64/v8) Julia docker images. Please submit Pull Requests to the GitLab repository. Mirror of

docker language programming-language data-science machine-learning ai gpu julia images cuda ml artificial-intelligence nvidia multi-arch

Updated Jun 1, 2024
Dockerfile

cupoch

neka-nat / cupoch

Robotics with GPU computing

python robotics gpu voxel cuda pathfinding point-cloud collision-detection ros registration gpgpu distance-transform odometry jetson pybind11 visual-odometry occupancy-grid-map triangle-mesh

Updated Jun 1, 2024
C++

Luminary

MilchRatchet / Luminary

CUDA based Pathtracing Offline and Realtime Renderer

c gpu graphics global-illumination cuda raytracing ray-tracing path-tracing

Updated Jun 1, 2024
Cuda

flashinfer-ai / flashinfer

FlashInfer: Kernel Library for LLM Serving

gpu cuda pytorch tvm llm-inference flash-attention large-large-models

Updated Jun 1, 2024
Cuda

shader-slang / slang

Making it easier to work with shaders

shaders vulkan glsl cuda hlsl d3d12

Updated Jun 1, 2024
C++

tedliosu / cuda_mergesort_ytl

My personal attempt at creating a relatively fast iterative mergesort that runs on CUDA GPUs

mergesort parallel-computing cuda iterative-algorithms cuda-c programming-massively-parallel-processors

Updated Jun 1, 2024
Cuda

pytorch / TensorRT

PyTorch/TorchScript/FX compiler for NVIDIA GPUs using TensorRT

machine-learning deep-learning cuda pytorch nvidia jetson tensorrt libtorch

Updated Jun 1, 2024
Python

iree-org / iree

A retargetable MLIR-based machine learning compiler and runtime toolkit.

machine-learning compiler runtime tensorflow vulkan cuda pytorch spirv jax mlir

Updated Jun 1, 2024
C++

NVIDIA / cccl

CUDA C++ Core Libraries

cpp hpc gpu modern-cpp parallel-computing cuda nvidia gpu-acceleration cuda-kernels gpu-computing parallel-algorithm parallel-programming nvidia-gpu gpu-programming cuda-library cpp-programming cuda-programming accelerated-computing cuda-cpp

Updated Jun 1, 2024
C++

tlfloat

shibatch / tlfloat

Template library for floating point operations

cplusplus math constexpr templates cuda arbitrary-precision floating-point ieee754 half-precision cpp20 quadruple-precision float128 octuple-precision

Updated Jun 1, 2024
C++

NVIDIA / TransformerEngine

A library for accelerating Transformer models on NVIDIA GPUs, including using 8-bit floating point (FP8) precision on Hopper and Ada GPUs, to provide better performance with lower memory utilization in both training and inference.

python machine-learning deep-learning gpu cuda pytorch jax fp8

Updated Jun 1, 2024
Python

deepflowio / deepflow

✨ Zero-code distributed tracing and profiling, observability via eBPF 🚀

kubernetes gpu cuda wasm apm profiling distributed-tracing service-map opentelemetry llm

Updated Jun 1, 2024
Go

Created by Nvidia

Released June 23, 2007

Followers: 201 followers
Website: developer.nvidia.com/cuda-zone
Wikipedia: Wikipedia

Related Topics

nvcc