Machine Learning

Here are the modern implementations of LLM architecture, sharding strategies and kernel optimizations.

Core

Softmax in PyTorch with autograd and in NumPy
Linear projection in PyTorch with autograd
Multi Layer Perceptron in PyTorch with autograd

Transformer Architecture

Disaggregated Serving with KV Cache in PyTorch
Multihead Attention in PyTorch with autograd
Norm RMS in PyTorch with autograd and in NumPy
Transformer in PyTorch with autograd

Positional Encoder

Positional Encoder Sinusoidal in NumPy
RoPE in NumPy
RoPE GPT-NeoX in NumPy

📊 Positional Encoding Visualizations

Sinusoidal	RoPE	RoPE GPT-NeoX

Flash Attention

Flash Attention v1 and v2 in PyTorch

📊 Flash Attention Visualizations

See image/flash_attention/README.md for details.

Performance vs Block Size	Memory: HBM vs SRAM

Tile Size vs Latency	Br × Bc Heatmap

FA1 vs FA2: Theoretical HBM Access

Sharding strategies

MLP Data Parallelism(DP) in PyTorch, in JAX
MLP Tensor Parallelism(TP) in PyTorch, in JAX
MLP Fully Sharded Data Parallelism(FSDP) in PyTorch, in JAX
MLP Pipelining in PyTorch

Scaling plots

The following are roofline analysis for different architectures. Those are non-fused operations.

MLP roofline analysis in NumyPy
Multi-Head Attention roofline analysis in NumyPy

📊 Roofline Plots

MLP	Attention

NumPy Tutorial

Masking in NumPy

JAX Tutorial

PyTorch Notes

Torch distributed API.
don't use the old primitives, instead use in-place ones like dist.all_gather_into_tensor and dist.all_reduce_tensor that aggregate along the primary dimension.
custom classes for training requires torch.autograd.Function, @staticmethod and ctx.save_for_backward

Name		Name	Last commit message	Last commit date
Latest commit History 42 Commits
core		core
image		image
.gitignore		.gitignore
README.md		README.md
pyproject.toml		pyproject.toml
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Machine Learning

Core

Transformer Architecture

Positional Encoder

Flash Attention

Sharding strategies

Scaling plots

NumPy Tutorial

JAX Tutorial

PyTorch Notes

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Machine Learning

Core

Transformer Architecture

Positional Encoder

Flash Attention

Sharding strategies

Scaling plots

NumPy Tutorial

JAX Tutorial

PyTorch Notes

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages