Реализация triton кернелей для квантизации весов в LLM и инференса квантизованной модели

Студенты работавшие над пректом:

Бадриев Айзат
Кирильцев Даниил

Этап I - ядра

Quantization Benchmark

Tensor Information

Range: [-5.281, 5.469]
Shape: 4096 × 4096

Groupwise Quantization Benchmark

Group Size	MAE	Compression Ratio
16	0.069818	3.20×
32	0.076317	3.56×
64	0.082923	3.76×
128	0.089438	3.88×
256	0.095812	3.94×
512	0.101973	3.97×
1024	0.107892	3.98×
2048	0.113559	3.99×
4096	0.119017	4.00×

Symmetric Quantization Benchmark

MAE	Compression Ratio
0.102292	4.00×

Asymmetric Quantization Benchmark

MAE	Compression Ratio
0.261056	3.99×

Воспроизвести результаты можно в файле quant_benchmark.ipynb

Производительность матричного умножения (ускорение относительно FP16)

n_tok	512 × 2048	2048 × 2048	8192 × 2048	2048 × 8192
128	0.14x	0.13x	0.14x	0.13x
512	0.13x	0.14x	0.13x	0.13x
2048	0.13x	0.13x	0.13x	0.13x

Воспроизвести результаты можно в файле matmul_benchmark.ipynb

Этап II - квантизация модели

Сравнение с FP моделью

Model	PPL	Time (s)
Full-Precision	13.15	50.65
Quantized	21.14	343.32

Воспроизвести результаты можно в файле edlm-wikitext-benchmark.ipynb

Этап III - выводы

Удалось добиться сжатия матрицы весов в 4 раза.
Не удалось добиться увеличения скорости из-за неоптимальности ядра
Квантизация привела к увеличению перплексии, что ожидаемо.
Неоптимальность ядра умножения привела к снижению скорости работы модели почти в 7 раз

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
README.md		README.md
asymmetric_quantization_kernel.py		asymmetric_quantization_kernel.py
edlm-wikitext-benchmark.ipynb		edlm-wikitext-benchmark.ipynb
final_quantization_kernel.py		final_quantization_kernel.py
group_quantization_kernel.py		group_quantization_kernel.py
matmul_benchmark.ipynb		matmul_benchmark.ipynb
matmul_kernel.py		matmul_kernel.py
quant_benchmark.ipynb		quant_benchmark.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Реализация triton кернелей для квантизации весов в LLM и инференса квантизованной модели

Студенты работавшие над пректом:

Этап I - ядра

Quantization Benchmark

Groupwise Quantization Benchmark

Symmetric Quantization Benchmark

Asymmetric Quantization Benchmark

Производительность матричного умножения (ускорение относительно FP16)

Этап II - квантизация модели

Сравнение с FP моделью

Этап III - выводы

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

3LayerPerceptron/EDLM-quantization

Folders and files

Latest commit

History

Repository files navigation

Реализация triton кернелей для квантизации весов в LLM и инференса квантизованной модели

Студенты работавшие над пректом:

Этап I - ядра

Quantization Benchmark

Groupwise Quantization Benchmark

Symmetric Quantization Benchmark

Asymmetric Quantization Benchmark

Производительность матричного умножения (ускорение относительно FP16)

Этап II - квантизация модели

Сравнение с FP моделью

Этап III - выводы

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages