# Практическое занятие 14: Умножение матриц и оптимизация математического кода

**Задача: используйте все доступные средства, чтобы ускорить умножение матриц** (AI, научные и технические статьи, профилировщики, фреймворки, всё что угодно).

Вы можете переписывать код на другие алгоритмы, использовать разные библиотеки, компилировать Python код, использовать фреймворк CUDA, другие интерпретаторы, переписывать на другие языки программирования (например C/C++), всё что угодно. Процесс конспектируйте в этот ноутбук (включая общение с AI). Если решили изменить язык программирования или ядро (Jupyter kernel) ноутбука, указывайте их в виде текста, пожалуйста.

Промежуточные результаты отправляйте в таблицу, используя метод `send_results`.

*Помните, что AI пока не очень хороши в оптимизации и ускорении кода, но вот с теорией разобраться помогут.*

Разумеется, я понимаю, что начать может быть трудно, но принцип learn by practice никто не отменял: нельзя научиться играть на пианино, изучая только ноты, нельзя разобраться в математике, заучивая формулы, не применяя их на практике, нельзя научиться оптимизировать код, не пробуя сделать это руками. 🥰Вы обязательно со всем справитесь, но нужно пробовать и быть смелее!

In [40]:
!pip install gspread



In [41]:
import datetime
import gspread
from google.auth import default
from google.colab import auth

auth.authenticate_user()
creds, _ = default()

gc = gspread.authorize(creds)

# Пожалуйста, укажите свой реальный номер ИСУ.
# Вне зависимости от полученных Вами значений, важен прогресс, на баллах за практику значения алгоритма не скажутся, но отсутствие прогресса - скажется.
# Не бойтесь чаще делиться прогрессом, давайте посмотрим, чего мы можем добиться все вместе!
my_isu_id = "373432"

spreadsheet = gc.open_by_url("https://docs.google.com/spreadsheets/d/1D60V_sOW3SvMiquZXmM2zFAqQq_ViAbRdmu_nNNNqKg/edit?gid=0#gid=0")
# Если Вы решили пойти дальше и решение у Вас локально и на другом ЯП, напишите мне, я пришлю Вам полную ссылку для записи результатов
worksheet = spreadsheet.get_worksheet(0)


def send_results(computation_time, comment):
    if my_isu_id == "CHANGE_ME": # Да, вот такая примитивная проверка, которую Вы разумеется можете обойти, но зачем? Так ведь не интересно!
        print("Please set your ISU ID in the script.")
    else:
        # А данные я вовсе не проверяю, всё Вам на доверии.
        # В качестве тестовой матрицы давайте договоримся использовать n=1000
        # С данными о времени исполнения отправьте , пожалуйста, комментарий, что Вы делали, чтобы получить его, это может быть полезно и Вам в качестве лога.
        submission_data = [my_isu_id, computation_time, comment, datetime.datetime.now(datetime.timezone.utc).isoformat()]
        worksheet.append_row(submission_data)


Пример использования функции отправки результатов:

In [42]:
import time

a = time.time()
time.sleep(100)
b = time.time()

computation_time = b - a
send_results(computation_time, "test")

### Статьи:
- [Matrix Multiplication: 2020 Update](https://martin-thoma.com/matrix-multiplication-2020/)
- [Discovering faster matrix multiplication algorithms with reinforcement learning](https://www.nature.com/articles/s41586-022-05172-4#data-availability)
- [Ускоряем анализ данных в 170 000 раз с помощью Python](https://habr.com/ru/companies/ncloudtech/articles/790370/)
- [Книга: High Performance Python](https://disk.yandex.ru/i/GNbAQkPgbK07VQ)
- [Книга: Introduction to High Performance Computing for Scientists](https://disk.yandex.ru/i/H6pFi9ydA2pbbg)
- [Книга: Scientific Computing with Python High-performance scientific computing with NumPy, SciPy, and pandas](https://disk.yandex.ru/i/xaBdcbN5yx9gaA)
- [Книга: Matrix computations](https://disk.yandex.ru/i/RfL8Ca9Q0341vA)
- [Статья 2021: Selecting Algorithms for Black Box Matrices: Checking for
Matrix Properties That Can Simplify Computations](https://disk.yandex.ru/i/oTMSLOJd1xZBXQ)
- [Cтатья 2024 от Alman и Williams: A refined Laser Method and Faster Matrix Muliplication](https://disk.yandex.ru/i/bNxAS2M3-OoM_Q)
- [Статья: Anatomy of High-Performance Matrix Multiplication](https://disk.yandex.ru/i/bBnyORYiXFwsFw)
- [Статья 1997: Implementation of Strassen's Algorithm for Matrix Multiplication](https://disk.yandex.ru/i/nvlvKJciVuOwmw)
- [Numerical algorithms for high-performance computational science](https://disk.yandex.ru/i/9nhTq2ZbSjyCxw)
- [Статья Nature 2021: Discovering faster matrix multiplication
algorithms with reinforcement learning](https://disk.yandex.ru/i/Lu6A9BNzlV-wWg)
- [Книга: Optimisation of a modern numerical library: a bottom-up approach](https://disk.yandex.ru/i/czZCCiV7TLf68w)
- [Книга: A Primer on Scientific Programming with Python](https://disk.yandex.ru/i/2409GOx6pcLS_w)
- [Слайды: High-performance Matrix Computations](https://disk.yandex.ru/i/XqOAFw-nDskoEw)
- [Слайды: Strassen’s Algorithm for Matrix Multiplication, QuickSelect, and Median of Medians](https://disk.yandex.ru/i/cJB-2JCqr216Tg)
- [Слайды: Communication-Avoiding Algorithms for Linear Algebra, Machine Learning and Beyond](https://disk.yandex.ru/i/xuaa9LITj6SKUw) + [видео](https://www.youtube.com/watch?v=JwCWPteaih4)




### Инструменты (профилировщики):
*разумеется, нет необходимости использовать их все, выбирайте необходимый инструмент для Вашей задачи*
- [line profiler](https://kernprof.readthedocs.io/en/latest/) : line-by-line profiling of functions
- [Scalene](https://github.com/plasma-umass/scalene) : A CPU+GPU+memory sampling based profiler.
- [PyInstrument](https://github.com/joerick/pyinstrument) : A call stack profiler
- [Yappi](https://github.com/sumerc/yappi) : A tracing profiler that is multithreading, asyncio and gevent aware.
- [profile / cProfile](https://docs.python.org/3/library/profile.html) : The builtin profile module.
- [SnakeViz](https://jiffyclub.github.io/snakeviz/) : vizualise of cProfile output.
- [timeit](https://docs.python.org/3/library/timeit.html) : The builtin timeit module for profiling single statements
- [timerit](https://github.com/Erotemic/timerit) : A multi-statements alternative to the builtin timeit module.
- [torch.profiler](https://docs.pytorch.org/docs/stable/profiler.html) : tools for profiling torch code

### Интерпретаторы и компиляторы
- [Python 3.11.3](https://www.python.org/downloads/release/python-3113/)
- [PyPy](https://pypy.org/)
- [Другие трасляторы и их бенчмарки](https://pybenchmarks.org/)
- [Список ядер для Jupyter Notebook под разные ЯП](https://github.com/jupyter/jupyter/wiki/Jupyter-kernels)

Наивная ijk реализация алгоритма

In [43]:
import numpy as np
import time

n = 10000
x = np.random.randn(n,n)

def matrix_mult(A, B):
    """Multiplies two matrices A and B."""
    if len(A[0]) != len(B):
        raise ValueError("Number of columns in A must be equal to number of rows in B")

    result = []
    for i in range(len(A)):
        row = []
        for j in range(len(B[0])):
            sum = 0
            for k in range(len(B)):
                sum += A[i][k] * B[k][j]
            row.append(sum)
        result.append(row)
    return result

Установите необходимые библиотеки, профилировщики и прочее.

In [44]:
! pip install numba line_profiler



Поскольку мы уде импортировали NumPY, начну с простого и мощного - использование `np.dot()` или `@`. `@` выполняет умножение матриц с помощью высооптимизированного кода.

In [45]:
import numpy as np
import time

# Генерируем случайные матрицы
n = 1000
A = np.random.rand(n, n)
B = np.random.rand(n, n)

# Умножение с помощью NumPy
start_time = time.time()
C = A @ B  # То же самое, что и np.dot(A, B)
end_time = time.time()

computation_time = end_time - start_time
print(f"Time taken using NumPy: {computation_time:.4f} seconds")
send_results(computation_time, "NumPy matmul (@)")

Time taken using NumPy: 0.0678 seconds


`@jit(nopython=True)` означает, что Numba полностью скомпилирует данный код в машинный код без использования интерпретатора Python и это устраняет все накладные расходы на вызовы Python-объектов, динамическую типизацию, словари и т. д.

In [46]:
from numba import jit
import numpy as np
import time

@jit(nopython=True)
def matrix_mult_numba(A, B):
    n = A.shape[0]
    m = B.shape[1]
    p = B.shape[0]
    result = np.zeros((n, m))
    for i in range(n):
        for k in range(p):
            a_ik = A[i, k]
            for j in range(m):
                result[i, j] += a_ik * B[k, j]
    return result

# Тестирование
n = 1000
A = np.random.rand(n, n)
B = np.random.rand(n, n)

start_time = time.time()
C = matrix_mult_numba(A, B)
end_time = time.time()

computation_time = end_time - start_time
print(f"Time taken using Numba: {computation_time:.4f} seconds")
send_results(computation_time, "Numba JIT")

Time taken using Numba: 3.2523 seconds


# Ваш ноутбук - это Ваше пространство!
Смело экспериментируйте со способами оптимизации кода перемножения матриц! Список ниже - это просто идеи, но Вы не обязаны ему следовать и можете идти по собственному пути. Вставляйте любые нужные на Ваш взгляд ячейки, журналы принятых решений и общения с AI, дубликации кода для его версионирования - выразите себя в достижении цели!

Не забывайте пользоваться профилировщиками кода, они помогут выявить проблемные места.🕵️

Следующие методы используются в реальных системах и дают хороший простор для практики в оптимизации кода:

### 1. 🔁 **Blocked (Tiled) Matrix Multiplication**

#### 📌 What:

* Divide matrices into **cache-sized blocks**.
* Multiply blocks instead of individual elements to improve **cache locality**.

#### 💡 Optimization Focus:

* Loop tiling
* Memory alignment
* Cache usage (L1/L2)
* Multi-threading (OpenMP, TBB)

#### 🧪 Try This:

In [47]:
import numpy as np
import time

def tiled_matrix_mult(A, B, block_size=64):

    n, p = A.shape
    p_, m = B.shape

    assert p == p_, "Число столбцов A должно быть равно числу строк B"

    result = np.zeros((n, m))

    for i in range(0, n, block_size):
        for j in range(0, m, block_size):
            for k in range(0, p, block_size):
                # Вырезаем блоки
                A_block = A[i:min(i+block_size, n), k:min(k+block_size, p)]
                B_block = B[k:min(k+block_size, p), j:min(j+block_size, m)]

                # Перемножаем блоки
                result[i:i+block_size, j:j+block_size] += A_block @ B_block

    return result

n = 1000
block_size = 64  # Экспериментируйте с этим значением!

# Генерируем случайные матрицы
A = np.random.rand(n, n)
B = np.random.rand(n, n)

# Тестирование NumPy
start_time = time.time()
C_numpy = A @ B
end_time = time.time()
print(f"Time using NumPy: {end_time - start_time:.4f} seconds")

# Тестирование блочного умножения
start_time = time.time()
C_tiled = tiled_matrix_mult(A, B, block_size)
end_time = time.time()
print(f"Time using Tiled Matrix Multiplication: {end_time - start_time:.4f} seconds")
send_results(computation_time, "Tiled")

Time using NumPy: 0.0575 seconds
Time using Tiled Matrix Multiplication: 0.2109 seconds


---

### 2. 🧮 **Strassen’s Algorithm**

#### 📌 What:

* Reduces mults from $n^3$ to $n^{2.81}$
* Uses **recursion** + **addition/multiplication combination**

#### 💡 Optimization Focus:

* Recursive cutoff tuning (switch to naive at small size)
* Memory reuse
* Parallel recursion

#### 🧪 Try This:


In [49]:
import numpy as np
from numba import jit

# Базовое умножение матриц
@jit(nopython=True)
def basic_matmul(A, B):
    n, p, m = A.shape[0], A.shape[1], B.shape[1]
    result = np.zeros((n, m))
    for i in range(n):
        for k in range(p):
            a_ik = A[i, k]
            for j in range(m):
                result[i, j] += a_ik * B[k, j]
    return result

# Разбиение матрицы на четверти
def split(matrix):
    n, _ = matrix.shape
    half = n // 2
    return (
        matrix[:half, :half],
        matrix[:half, half:],
        matrix[half:, :half],
        matrix[half:, half:]
    )

# Рекурсивное умножение по Штрассену
def strassen(A, B, cutoff=64):
    n = A.shape[0]

    # Базовый случай: если матрица мала — используем быстрое умножение
    if n <= cutoff:
        return basic_matmul(A, B)

    # Деление матриц на четверти
    A11, A12, A21, A22 = split(A)
    B11, B12, B21, B22 = split(B)

    # Вычисляем 7 промежуточных произведений
    P1 = strassen(A11 + A22, B11 + B22, cutoff)
    P2 = strassen(A21 + A22, B11, cutoff)
    P3 = strassen(A11, B12 - B22, cutoff)
    P4 = strassen(A22, B21 - B11, cutoff)
    P5 = strassen(A11 + A12, B22, cutoff)
    P6 = strassen(A21 - A11, B11 + B12, cutoff)
    P7 = strassen(A12 - A22, B21 + B22, cutoff)

    # Собираем результаты
    C11 = P1 + P4 - P5 + P7
    C12 = P3 + P5
    C21 = P2 + P4
    C22 = P1 + P2 - P3 + P6

    # Соединяем в одну матрицу
    top = np.hstack((C11, C12))
    bottom = np.hstack((C21, C22))
    return np.vstack((top, bottom))

def tiled_strassen(A, B, block_size=128, cutoff=64):
    n = A.shape[0]
    result = np.zeros_like(A)

    for i in range(0, n, block_size):
        for j in range(0, n, block_size):
            for k in range(0, n, block_size):
                a_block = A[i:min(i+block_size, n), k:min(k+block_size, n)]
                b_block = B[k:min(k+block_size, n), j:min(j+block_size, n)]
                prod = strassen(a_block, b_block, cutoff=cutoff)
                result[i:i+prod.shape[0], j:j+prod.shape[1]] += prod

    return result

In [50]:
import time

# Параметры теста
n = 512
block_size = 128
cutoff = 32

# Генерация случайных матриц
A = np.random.rand(n, n)
B = np.random.rand(n, n)

# Умножение через NumPy
start = time.time()
C_numpy = A @ B
end = time.time()
print(f"Time using NumPy: {end - start:.4f} seconds")

# Умножение через Strassen
start = time.time()
C_strassen = strassen(A, B, cutoff=cutoff)
end = time.time()
print(f"Time using Strassen: {end - start:.4f} seconds")

# Умножение через Tiled Strassen
start = time.time()
C_tiled_strassen = tiled_strassen(A, B, block_size=block_size, cutoff=cutoff)
end = time.time()
print(f"Time using Tiled Strassen: {end - start:.4f} seconds")
send_results(computation_time, "Strassen’s Algorithm")

Time using NumPy: 0.0220 seconds
Time using Strassen: 0.8165 seconds
Time using Tiled Strassen: 0.0998 seconds


Это реализация блочного умножения матриц с использованием NumPY.

Алгоритмы со несколькими циклами работает медленно, потому что использует кэш процессора и чтобы исправить это я применила tiled умножения матриц который выполняет следующее:

- Матрицы разбиваются на небольшие блоки
- Каждый блок помещается в кэш
- вычисления происходят над этими блоками, чтобы минимизировать обращение к оперативной памяти.

### 3. 🧱 **SIMD-Optimized Matrix Multiply**

#### 📌 What:

* Leverage **SIMD intrinsics** (SSE, AVX, Neon) to multiply rows/columns in parallel.

#### 💡 Optimization Focus:

* Vectorization
* Loop unrolling
* Instruction scheduling

#### 🧪 Try This:

Этот код ускоряет умножение матриц с помощью Numba, использая парраллелизм и оптимизацию на уровне процессора, чтобы работать также быстро, как и NumPY.

In [51]:
from numba import jit, prange
import numpy as np
import time

@jit(nopython=True, fastmath=True, parallel=True)
def simd_matrix_mult(A, B):
    n, p = A.shape
    p_, m = B.shape
    assert p == p_
    result = np.zeros((n, m))

    for i in prange(n):
        for k in range(p):
            a_ik = A[i, k]
            for j in range(m):
                result[i, j] += a_ik * B[k, j]
    return result

n = 1000
A = np.random.rand(n, n).astype(np.float32)
B = np.random.rand(n, n).astype(np.float32)

# NumPy как эталон
start = time.time()
C_numpy = A @ B
end = time.time()
print(f"Time using NumPy: {end - start:.4f} seconds")

# SIMD-версия
start = time.time()
C_simd = simd_matrix_mult(A, B)
end = time.time()
print(f"Time using Numba (SIMD+Parallel): {end - start:.4f} seconds")
send_results(computation_time, "SIMD+ParallelT")

Time using NumPy: 0.0335 seconds
Time using Numba (SIMD+Parallel): 1.2075 seconds


---


### 4. ⚡ **Multithreaded Matrix Multiply (OpenMP / TBB / Rayon)**

#### 📌 What:

* Distribute computation across multiple CPU cores.

#### 💡 Optimization Focus:

* Data partitioning
* Load balancing
* Avoiding false sharing / cache line contention

#### 🧪 Try This:

In [52]:
import numpy as np
from numba import jit, prange

@jit(nopython=True, parallel=True)
def matrix_multiply(A, B, C, N):
    for i in prange(N):
        for j in range(N):
            for k in range(N):
                C[i][j] += A[i][k] * B[k][j]

---

### 5. 🧠 **BLAS-Like API Wrappers / Custom Kernels**

#### 📌 What:

* Write or tune custom matrix kernels (e.g., SGEMM, DGEMM) as drop-in BLAS replacements.

#### 💡 Optimization Focus:

* Micro-kernel tuning
* Assembly-level optimization
* Prefetching

#### 🧪 Try This:

* Look into **OpenBLAS**, **BLIS**, or **Intel MKL** source
* Try replacing small kernels with your own variants
---

### 6. 🧪 **GPU Matrix Multiply (CUDA / ROCm)**

#### 📌 What:

* Use GPU threads to parallelize matrix operations massively.

#### 💡 Optimization Focus:

* Thread/block scheduling
* Shared memory reuse
* Warp-level primitives (WMMA for tensor cores)

#### 🧪 Try This:

In [None]:
# Try writing a CUDA (or CuPy) kernel from scratch
# Then optimize with shared memory and tiling

---

### 7. 🔄 **Low-Precision / Quantized MatMul**

#### 📌 What:

* Reduce precision to FP16, INT8, or even binary for speedup.

#### 💡 Optimization Focus:

* Saturating arithmetic
* Vectorized packing/unpacking
* Quantization-aware fusion (scaling factors, zero-points)

#### 🧪 Try This:

* Use **TensorRT**, **ONNX Runtime**, or **custom C++/Python code**

---

### 8. 🧩 **Sparse Matrix Multiplication (SpMM)**

#### 📌 What:

* Efficiently multiply when one or both matrices are sparse.

#### 💡 Optimization Focus:

* Sparse data structures (CSR, CSC)
* Loop skipping and pointer arithmetic
* Tiling with sparsity-awareness

#### 🧪 Try This:

In [None]:
from scipy.sparse import csr_matrix
A = csr_matrix(...)
C = A @ B  # Sparse x Dense or Sparse x Sparse

## 🛠️ Toolchains & Languages for Optimization

| Tool / Language        | Best Use Case                  |
| ---------------------- | ------------------------------ |
| **NumPy + Numba**      | High-level, rapid prototyping  |
| **C/C++ + OpenMP**     | Low-level CPU optimization     |
| **CUDA / OpenCL**      | GPU acceleration               |
| **Rust + Rayon**       | Safe parallel matrix code      |
| **Assembly (x86/ARM)** | For hardcore SIMD tuning       |
| **Python + Cython**    | Balance between ease and speed |

---

## 🎓 Summary Table

| Method                  | Speed  | Difficulty | Teachable?  | Optimizable? |
| ----------------------- | ------ | ---------- | ----------- | ------------ |
| Blocked MatMul          | ✅ High | 🟢 Easy    | ✅ Yes       | ✅ Yes        |
| Strassen                | ✅ Med  | 🟡 Medium  | ✅ Yes       | ✅ Yes        |
| SIMD MatMul             | ✅ High | 🔴 Hard    | ✅ Yes       | ✅ Yes        |
| Multithreaded           | ✅ High | 🟡 Medium  | ✅ Yes       | ✅ Yes        |
| GPU                     | ✅✅     | 🔴 Hard    | ✅ Yes       | ✅ Yes        |
| Quantized/Low-Precision | ✅ High | 🟡 Medium  | 🟢 Somewhat | ✅ Yes        |
| Sparse MatMul           | ✅ Med  | 🟡 Medium  | ✅ Yes       | ✅ Yes        |

---

# Заключение

Расскажите, какой опыт Вы сегодня получили для себя? Как Вы оцениваете свой прогресс? Как можно было бы улучшить сегодняшнее занятие по Вашему мнению?

*ВАШ КОММЕНТАРИЙ ЗДЕСЬ*