# Практическое занятие 14: Умножение матриц и оптимизация математического кода

**Задача: используйте все доступные средства, чтобы ускорить умножение матриц** (AI, научные и технические статьи, профилировщики, фреймворки, всё что угодно).

Вы можете переписывать код на другие алгоритмы, использовать разные библиотеки, компилировать Python код, использовать фреймворк CUDA, другие интерпретаторы, переписывать на другие языки программирования (например C/C++), всё что угодно. Процесс конспектируйте в этот ноутбук (включая общение с AI). Если решили изменить язык программирования или ядро (Jupyter kernel) ноутбука, указывайте их в виде текста, пожалуйста.

Промежуточные результаты отправляйте в таблицу, используя метод `send_results`.

*Помните, что AI пока не очень хороши в оптимизации и ускорении кода, но вот с теорией разобраться помогут.*

Разумеется, я понимаю, что начать может быть трудно, но принцип learn by practice никто не отменял: нельзя научиться играть на пианино, изучая только ноты, нельзя разобраться в математике, заучивая формулы, не применяя их на практике, нельзя научиться оптимизировать код, не пробуя сделать это руками. 🥰Вы обязательно со всем справитесь, но нужно пробовать и быть смелее!

In [1]:
!pip install gspread



In [2]:
import datetime
import gspread
from google.auth import default
from google.colab import auth

auth.authenticate_user()
creds, _ = default()

gc = gspread.authorize(creds)

# Пожалуйста, укажите свой реальный номер ИСУ.
# Вне зависимости от полученных Вами значений, важен прогресс, на баллах за практику значения алгоритма не скажутся, но отсутствие прогресса - скажется.
# Не бойтесь чаще делиться прогрессом, давайте посмотрим, чего мы можем добиться все вместе!
my_isu_id = "409682"

spreadsheet = gc.open_by_key('1D60V_sOW3SvMiquZXmM2zFAqQq_ViAbRdmu_nNNNqKg')
# Если Вы решили пойти дальше и решение у Вас локально и на другом ЯП, напишите мне, я пришлю Вам полную ссылку для записи результатов
worksheet = spreadsheet.get_worksheet(0)


def send_results(computation_time, comment):
    if my_isu_id == "CHANGE_ME": # Да, вот такая примитивная проверка, которую Вы разумеется можете обойти, но зачем? Так ведь не интересно!
        print("Please set your ISU ID in the script.")
    else:
        # А данные я вовсе не проверяю, всё Вам на доверии.
        # В качестве тестовой матрицы давайте договоримся использовать n=1000
        # С данными о времени исполнения отправьте , пожалуйста, комментарий, что Вы делали, чтобы получить его, это может быть полезно и Вам в качестве лога.
        submission_data = [my_isu_id, computation_time, comment, datetime.datetime.now(datetime.timezone.utc).isoformat()]
        worksheet.append_row(submission_data)

Пример использования функции отправки результатов:

In [3]:
import time

a = time.time()
time.sleep(10)
b = time.time()

computation_time = b - a
send_results(computation_time, "test")

### Статьи:
- [Matrix Multiplication: 2020 Update](https://martin-thoma.com/matrix-multiplication-2020/)
- [Discovering faster matrix multiplication algorithms with reinforcement learning](https://www.nature.com/articles/s41586-022-05172-4#data-availability)
- [Ускоряем анализ данных в 170 000 раз с помощью Python](https://habr.com/ru/companies/ncloudtech/articles/790370/)
- [Книга: High Performance Python](https://disk.yandex.ru/i/GNbAQkPgbK07VQ)
- [Книга: Introduction to High Performance Computing for Scientists](https://disk.yandex.ru/i/H6pFi9ydA2pbbg)
- [Книга: Scientific Computing with Python High-performance scientific computing with NumPy, SciPy, and pandas](https://disk.yandex.ru/i/xaBdcbN5yx9gaA)
- [Книга: Matrix computations](https://disk.yandex.ru/i/RfL8Ca9Q0341vA)
- [Статья 2021: Selecting Algorithms for Black Box Matrices: Checking for
Matrix Properties That Can Simplify Computations](https://disk.yandex.ru/i/oTMSLOJd1xZBXQ)
- [Cтатья 2024 от Alman и Williams: A refined Laser Method and Faster Matrix Muliplication](https://disk.yandex.ru/i/bNxAS2M3-OoM_Q)
- [Статья: Anatomy of High-Performance Matrix Multiplication](https://disk.yandex.ru/i/bBnyORYiXFwsFw)
- [Статья 1997: Implementation of Strassen's Algorithm for Matrix Multiplication](https://disk.yandex.ru/i/nvlvKJciVuOwmw)
- [Numerical algorithms for high-performance computational science](https://disk.yandex.ru/i/9nhTq2ZbSjyCxw)
- [Статья Nature 2021: Discovering faster matrix multiplication
algorithms with reinforcement learning](https://disk.yandex.ru/i/Lu6A9BNzlV-wWg)
- [Книга: Optimisation of a modern numerical library: a bottom-up approach](https://disk.yandex.ru/i/czZCCiV7TLf68w)
- [Книга: A Primer on Scientific Programming with Python](https://disk.yandex.ru/i/2409GOx6pcLS_w)
- [Слайды: High-performance Matrix Computations](https://disk.yandex.ru/i/XqOAFw-nDskoEw)
- [Слайды: Strassen’s Algorithm for Matrix Multiplication, QuickSelect, and Median of Medians](https://disk.yandex.ru/i/cJB-2JCqr216Tg)
- [Слайды: Communication-Avoiding Algorithms for Linear Algebra, Machine Learning and Beyond](https://disk.yandex.ru/i/xuaa9LITj6SKUw) + [видео](https://www.youtube.com/watch?v=JwCWPteaih4)




### Инструменты (профилировщики):
*разумеется, нет необходимости использовать их все, выбирайте необходимый инструмент для Вашей задачи*
- [line profiler](https://kernprof.readthedocs.io/en/latest/) : line-by-line profiling of functions
- [Scalene](https://github.com/plasma-umass/scalene) : A CPU+GPU+memory sampling based profiler.
- [PyInstrument](https://github.com/joerick/pyinstrument) : A call stack profiler
- [Yappi](https://github.com/sumerc/yappi) : A tracing profiler that is multithreading, asyncio and gevent aware.
- [profile / cProfile](https://docs.python.org/3/library/profile.html) : The builtin profile module.
- [SnakeViz](https://jiffyclub.github.io/snakeviz/) : vizualise of cProfile output.
- [timeit](https://docs.python.org/3/library/timeit.html) : The builtin timeit module for profiling single statements
- [timerit](https://github.com/Erotemic/timerit) : A multi-statements alternative to the builtin timeit module.
- [torch.profiler](https://docs.pytorch.org/docs/stable/profiler.html) : tools for profiling torch code

### Интерпретаторы и компиляторы
- [Python 3.11.3](https://www.python.org/downloads/release/python-3113/)
- [PyPy](https://pypy.org/)
- [Другие трасляторы и их бенчмарки](https://pybenchmarks.org/)
- [Список ядер для Jupyter Notebook под разные ЯП](https://github.com/jupyter/jupyter/wiki/Jupyter-kernels)

Наивная ijk реализация алгоритма

In [4]:
import numpy as np
import time

n = 10000
x = np.random.randn(n,n)

def matrix_mult(A, B):
    """Multiplies two matrices A and B."""
    if len(A[0]) != len(B):
        raise ValueError("Number of columns in A must be equal to number of rows in B")

    result = []
    for i in range(len(A)):
        row = []
        for j in range(len(B[0])):
            sum = 0
            for k in range(len(B)):
                sum += A[i][k] * B[k][j]
            row.append(sum)
        result.append(row)
    return result

Установите необходимые библиотеки, профилировщики и прочее.

In [5]:
!pip install torch numpy yappi

Collecting yappi
  Downloading yappi-1.6.10-cp311-cp311-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (11 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cufft-cu12==11.2.1.3 (from torch)
  Downloading nvidia_cufft_c

### 🔄 **Low-Precision / Quantized MatMul**

#### 📌 What:

* Reduce precision to FP16, INT8, or even binary for speedup.

#### 💡 Optimization Focus:

* Saturating arithmetic
* Vectorized packing/unpacking
* Quantization-aware fusion (scaling factors, zero-points)

#### 🧪 Try This:

* Use **TensorRT**, **ONNX Runtime**, or **custom C++/Python code**

Low-Precision применяют, когда скорость и эффективность важнее идеальной точности. Сокращение битности (8/16 вместо 32/64) ускоряет вычисления через специализированные блоки процессоров (Tensor Cores для FP16), экономит память (FP16 в 2x компактнее FP32) и снижает энергопотребление, что критично для мобильных устройств и дата-центров. Нейросети часто сохраняют 95-99% точности даже с INT8, особенно в задачах вроде CV или NLP. Однако низкая точность не подходит для научных расчетов или алгоритмов, чувствительных к ошибкам, где требуется высокая численная стабильность. Это инструмент для оптимизации, а не замены точных вычислений.

In [9]:
import yappi
import torch
import numpy as np
import time
from math import log2, ceil

MATRIX_SIZE = 4096
NUM_RUNS = 100

def setup_matrices(dtype, device='cuda'):
    """Create test matrices with specified precision"""
    a = torch.randn(MATRIX_SIZE, MATRIX_SIZE, device=device)
    b = torch.randn(MATRIX_SIZE, MATRIX_SIZE, device=device)
    return a.to(dtype), b.to(dtype)

def quantize_fp8(tensor, exp_bits=4, man_bits=3):
    """Simulate FP8 quantization (E4M3 format)"""
    max_exp = 2**(exp_bits - 1) - 1
    scale = (2**max_exp) / tensor.abs().max().clamp(min=1e-8)

    scaled = tensor * scale
    exp = torch.floor(torch.log2(scaled.abs().clamp(min=2**-max_exp)))
    man = torch.round(scaled / (2**exp) * (2**man_bits)) / (2**man_bits)
    quantized = torch.sign(scaled) * man * (2**exp)

    return quantized / scale

def fp8_matmul():
    """Simulated FP8 matrix multiplication"""
    a, b = setup_matrices(torch.float32)
    a_quant = quantize_fp8(a)
    b_quant = quantize_fp8(b)
    return torch.matmul(a_quant, b_quant)

def quantize_fp4(tensor, exp_bits=2, man_bits=1):
    """Simulate FP4 quantization (E2M1 format)"""
    max_exp = 2**(exp_bits - 1) - 1
    scale = (2**max_exp) / tensor.abs().max().clamp(min=1e-8)

    scaled = tensor * scale
    exp = torch.floor(torch.log2(scaled.abs().clamp(min=2**-max_exp)))
    man = torch.round(scaled / (2**exp) * (2**man_bits)) / (2**man_bits)
    quantized = torch.sign(scaled) * man * (2**exp)

    return quantized / scale

def fp4_matmul():
    """Simulated FP4 matrix multiplication"""
    a, b = setup_matrices(torch.float32)
    a_quant = quantize_fp4(a)
    b_quant = quantize_fp4(b)
    return torch.matmul(a_quant, b_quant)

def fp16_matmul():
    """FP16 matrix multiplication using Tensor Cores"""
    a, b = setup_matrices(torch.float16)
    return torch.matmul(a, b)

def int8_matmul():
    """INT8 quantized matrix multiplication"""
    a, b = setup_matrices(torch.float32, device='cpu')
    scale = 127.0 / max(a.abs().max(), b.abs().max())
    a_quant = torch.quantize_per_tensor(a, scale, 0, torch.qint8)
    b_quant = torch.quantize_per_tensor(b, scale, 0, torch.qint8)
    return torch.ops.quantized.matmul(a_quant, b_quant, scale, 0).dequantize()

def binary_matmul():
    """Binary matrix multiplication simulation"""
    a = torch.sign(torch.randn(MATRIX_SIZE, MATRIX_SIZE))
    b = torch.sign(torch.randn(MATRIX_SIZE, MATRIX_SIZE))
    return a @ b

def profile_operation(op_fn, op_name):
    """Profile a matrix multiplication operation"""
    # Warmup
    for _ in range(3):
        _ = op_fn()

    # Profile
    yappi.start()
    start_time = time.time()
    for _ in range(NUM_RUNS):
        _ = op_fn()
    total_time = time.time() - start_time
    yappi.stop()

    # Get detailed statistics
    stats = yappi.get_func_stats()
    matmul_time = sum(s.ttot for s in stats if 'matmul' in s.name)
    setup_time = sum(s.ttot for s in stats if 'setup_matrices' in s.name)

    send_results(total_time/NUM_RUNS, f"{op_name}: Total time/run")
    send_results(matmul_time/NUM_RUNS, f"{op_name}: Pure matmul time")
    send_results(setup_time/NUM_RUNS, f"{op_name}: Setup time")

    # Memory analysis
    mem_stats = yappi.get_mem_usage()
    send_results(mem_stats/1024**2, f"{op_name}: Peak memory (MB)")

    yappi.clear_stats()

def main():
    if not torch.cuda.is_available():
        print("CUDA not available - some operations will be CPU-bound")

    yappi.set_clock_type("cpu")

    print("Profiling FP16...")
    profile_operation(fp16_matmul, "FP16")

    print("\nProfiling FP8...")
    profile_operation(fp8_matmul, "FP8")

    print("\nProfiling FP4...")
    profile_operation(fp4_matmul, "FP4")

    print("\nProfiling INT8...")
    profile_operation(int8_matmul, "INT8")

    print("\nProfiling Binary...")
    profile_operation(binary_matmul, "Binary")

if __name__ == "__main__":
    main()

Profiling FP16...

Profiling FP8...

Profiling FP4...

Profiling INT8...

Profiling Binary...


# Заключение

Расскажите, какой опыт Вы сегодня получили для себя? Как Вы оцениваете свой прогресс? Как можно было бы улучшить сегодняшнее занятие по Вашему мнению?

Понял, как снижение точности (FP16/INT8) ускоряет вычисления и экономит память. На практике увидел разницу в скорости между FP32 и FP16. Научился базовому квантованию в PyTorch, но путаюсь в подборе параметров (scale, zero_point).
**Улучшения:**
- Добавить графики скорости/памяти для наглядности.
- Мини-соревнования по оптимизации кода.
- Примеры из жизни (мобильные приложения, Raspberry Pi).

Короче: полезно, но хотелось бы больше реальных кейсов и визуалов 🚀.