-
Бадриев Айзат
-
Кирильцев Даниил
Tensor Information
- Range: [-5.281, 5.469]
- Shape: 4096 × 4096
| Group Size | MAE | Compression Ratio |
|---|---|---|
| 16 | 0.069818 | 3.20× |
| 32 | 0.076317 | 3.56× |
| 64 | 0.082923 | 3.76× |
| 128 | 0.089438 | 3.88× |
| 256 | 0.095812 | 3.94× |
| 512 | 0.101973 | 3.97× |
| 1024 | 0.107892 | 3.98× |
| 2048 | 0.113559 | 3.99× |
| 4096 | 0.119017 | 4.00× |
| MAE | Compression Ratio |
|---|---|
| 0.102292 | 4.00× |
| MAE | Compression Ratio |
|---|---|
| 0.261056 | 3.99× |
Воспроизвести результаты можно в файле quant_benchmark.ipynb
| n_tok | 512 × 2048 | 2048 × 2048 | 8192 × 2048 | 2048 × 8192 |
|---|---|---|---|---|
| 128 | 0.14x | 0.13x | 0.14x | 0.13x |
| 512 | 0.13x | 0.14x | 0.13x | 0.13x |
| 2048 | 0.13x | 0.13x | 0.13x | 0.13x |
Воспроизвести результаты можно в файле matmul_benchmark.ipynb
| Model | PPL | Time (s) |
|---|---|---|
| Full-Precision | 13.15 | 50.65 |
| Quantized | 21.14 | 343.32 |
Воспроизвести результаты можно в файле edlm-wikitext-benchmark.ipynb
- Удалось добиться сжатия матрицы весов в 4 раза.
- Не удалось добиться увеличения скорости из-за неоптимальности ядра
- Квантизация привела к увеличению перплексии, что ожидаемо.
- Неоптимальность ядра умножения привела к снижению скорости работы модели почти в 7 раз