[WIP] Add fast cuda kernels for one mode #154

daquexian · 2023-07-17T08:23:19Z

TODO: support seq mode

Add fast gemv kernel (based on https://github.com/wangsiping97/FastGEMV and added kernel fusion. ~10% faster than pytorch gemv) and a fused wkv_forward_one kernel (much faster, ~140 us -> 5us on 2080 1.5B model).

2080, 1.5B Model:

Main branch (blue bars represent CUDA kernels):

This branch:

FFN time: 359.77us -> 231.29us
ATT time: 291.71us -> 148.45us

Whole one mode time: 0.2487s -> 0.1409s

A100, 7B model:

Whole one mode time: 0.2657s -> 0.184s

Signed-off-by: daquexian <daquexian566@gmail.com>

daquexian · 2023-07-25T09:50:51Z

closing in favor to #157

add fast cuda kernels for one mode

defffe5

Signed-off-by: daquexian <daquexian566@gmail.com>

daquexian closed this Jul 25, 2023

daquexian deleted the fast_gemv branch July 25, 2023 09:50

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[WIP] Add fast cuda kernels for one mode #154

[WIP] Add fast cuda kernels for one mode #154

daquexian commented Jul 17, 2023

daquexian commented Jul 25, 2023

[WIP] Add fast cuda kernels for one mode #154

[WIP] Add fast cuda kernels for one mode #154

Conversation

daquexian commented Jul 17, 2023

daquexian commented Jul 25, 2023