# Практическое занятие 14: Умножение матриц и оптимизация математического кода

**Задача: используйте все доступные средства, чтобы ускорить умножение матриц** (AI, научные и технические статьи, профилировщики, фреймворки, всё что угодно).

Вы можете переписывать код на другие алгоритмы, использовать разные библиотеки, компилировать Python код, использовать фреймворк CUDA, другие интерпретаторы, переписывать на другие языки программирования (например C/C++), всё что угодно. Процесс конспектируйте в этот ноутбук (включая общение с AI). Если решили изменить язык программирования или ядро (Jupyter kernel) ноутбука, указывайте их в виде текста, пожалуйста.

Промежуточные результаты отправляйте в таблицу, используя метод `send_results`.

*Помните, что AI пока не очень хороши в оптимизации и ускорении кода, но вот с теорией разобраться помогут.*

Разумеется, я понимаю, что начать может быть трудно, но принцип learn by practice никто не отменял: нельзя научиться играть на пианино, изучая только ноты, нельзя разобраться в математике, заучивая формулы, не применяя их на практике, нельзя научиться оптимизировать код, не пробуя сделать это руками. 🥰Вы обязательно со всем справитесь, но нужно пробовать и быть смелее!

In [3]:
!pip install gspread



In [5]:
import datetime
import gspread
from google.auth import default
from google.colab import auth

auth.authenticate_user()
creds, _ = default()

gc = gspread.authorize(creds)

# Пожалуйста, укажите свой реальный номер ИСУ.
# Вне зависимости от полученных Вами значений, важен прогресс, на баллах за практику значения алгоритма не скажутся, но отсутствие прогресса - скажется.
# Не бойтесь чаще делиться прогрессом, давайте посмотрим, чего мы можем добиться все вместе!
my_isu_id = "336423"

spreadsheet = gc.open_by_key('1D60V_sOW3SvMiquZXmM2zFAqQq_ViAbRdmu_nNNNqKg')
# Если Вы решили пойти дальше и решение у Вас локально и на другом ЯП, напишите мне, я пришлю Вам полную ссылку для записи результатов
worksheet = spreadsheet.get_worksheet(0)


def send_results(computation_time, comment):
    if my_isu_id == "CHANGE_ME": # Да, вот такая примитивная проверка, которую Вы разумеется можете обойти, но зачем? Так ведь не интересно!
        print("Please set your ISU ID in the script.")
    else:
        # А данные я вовсе не проверяю, всё Вам на доверии.
        # В качестве тестовой матрицы давайте договоримся использовать n=1000
        # С данными о времени исполнения отправьте , пожалуйста, комментарий, что Вы делали, чтобы получить его, это может быть полезно и Вам в качестве лога.
        submission_data = [my_isu_id, computation_time, comment, datetime.datetime.now(datetime.timezone.utc).isoformat()]
        worksheet.append_row(submission_data)


Пример использования функции отправки результатов:

In [3]:
import time

a = time.time()
time.sleep(100)
b = time.time()

computation_time = b - a
send_results(computation_time, "test")

### Статьи:
- [Matrix Multiplication: 2020 Update](https://martin-thoma.com/matrix-multiplication-2020/)
- [Discovering faster matrix multiplication algorithms with reinforcement learning](https://www.nature.com/articles/s41586-022-05172-4#data-availability)
- [Ускоряем анализ данных в 170 000 раз с помощью Python](https://habr.com/ru/companies/ncloudtech/articles/790370/)
- [Книга: High Performance Python](https://disk.yandex.ru/i/GNbAQkPgbK07VQ)
- [Книга: Introduction to High Performance Computing for Scientists](https://disk.yandex.ru/i/H6pFi9ydA2pbbg)
- [Книга: Scientific Computing with Python High-performance scientific computing with NumPy, SciPy, and pandas](https://disk.yandex.ru/i/xaBdcbN5yx9gaA)
- [Книга: Matrix computations](https://disk.yandex.ru/i/RfL8Ca9Q0341vA)
- [Статья 2021: Selecting Algorithms for Black Box Matrices: Checking for
Matrix Properties That Can Simplify Computations](https://disk.yandex.ru/i/oTMSLOJd1xZBXQ)
- [Cтатья 2024 от Alman и Williams: A refined Laser Method and Faster Matrix Muliplication](https://disk.yandex.ru/i/bNxAS2M3-OoM_Q)
- [Статья: Anatomy of High-Performance Matrix Multiplication](https://disk.yandex.ru/i/bBnyORYiXFwsFw)
- [Статья 1997: Implementation of Strassen's Algorithm for Matrix Multiplication](https://disk.yandex.ru/i/nvlvKJciVuOwmw)
- [Numerical algorithms for high-performance computational science](https://disk.yandex.ru/i/9nhTq2ZbSjyCxw)
- [Статья Nature 2021: Discovering faster matrix multiplication
algorithms with reinforcement learning](https://disk.yandex.ru/i/Lu6A9BNzlV-wWg)
- [Книга: Optimisation of a modern numerical library: a bottom-up approach](https://disk.yandex.ru/i/czZCCiV7TLf68w)
- [Книга: A Primer on Scientific Programming with Python](https://disk.yandex.ru/i/2409GOx6pcLS_w)
- [Слайды: High-performance Matrix Computations](https://disk.yandex.ru/i/XqOAFw-nDskoEw)
- [Слайды: Strassen’s Algorithm for Matrix Multiplication, QuickSelect, and Median of Medians](https://disk.yandex.ru/i/cJB-2JCqr216Tg)
- [Слайды: Communication-Avoiding Algorithms for Linear Algebra, Machine Learning and Beyond](https://disk.yandex.ru/i/xuaa9LITj6SKUw) + [видео](https://www.youtube.com/watch?v=JwCWPteaih4)




### Инструменты (профилировщики):
*разумеется, нет необходимости использовать их все, выбирайте необходимый инструмент для Вашей задачи*
- [line profiler](https://kernprof.readthedocs.io/en/latest/) : line-by-line profiling of functions
- [Scalene](https://github.com/plasma-umass/scalene) : A CPU+GPU+memory sampling based profiler.
- [PyInstrument](https://github.com/joerick/pyinstrument) : A call stack profiler
- [Yappi](https://github.com/sumerc/yappi) : A tracing profiler that is multithreading, asyncio and gevent aware.
- [profile / cProfile](https://docs.python.org/3/library/profile.html) : The builtin profile module.
- [SnakeViz](https://jiffyclub.github.io/snakeviz/) : vizualise of cProfile output.
- [timeit](https://docs.python.org/3/library/timeit.html) : The builtin timeit module for profiling single statements
- [timerit](https://github.com/Erotemic/timerit) : A multi-statements alternative to the builtin timeit module.
- [torch.profiler](https://docs.pytorch.org/docs/stable/profiler.html) : tools for profiling torch code

### Интерпретаторы и компиляторы
- [Python 3.11.3](https://www.python.org/downloads/release/python-3113/)
- [PyPy](https://pypy.org/)
- [Другие трасляторы и их бенчмарки](https://pybenchmarks.org/)
- [Список ядер для Jupyter Notebook под разные ЯП](https://github.com/jupyter/jupyter/wiki/Jupyter-kernels)

Наивная ijk реализация алгоритма

In [6]:
import numpy as np
import time

n = 10000
x = np.random.randn(n,n)

def matrix_mult(A, B):
    """Multiplies two matrices A and B."""
    if len(A[0]) != len(B):
        raise ValueError("Number of columns in A must be equal to number of rows in B")

    result = []
    for i in range(len(A)):
        row = []
        for j in range(len(B[0])):
            sum = 0
            for k in range(len(B)):
                sum += A[i][k] * B[k][j]
            row.append(sum)
        result.append(row)
    return result

Установите необходимые библиотеки, профилировщики и прочее.

In [5]:
! pip install numba line_profiler

Collecting line_profiler
  Downloading line_profiler-4.2.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (34 kB)
Downloading line_profiler-4.2.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (750 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m750.2/750.2 kB[0m [31m10.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: line_profiler
Successfully installed line_profiler-4.2.0


# Ваш ноутбук - это Ваше пространство!
Смело экспериментируйте со способами оптимизации кода перемножения матриц! Список ниже - это просто идеи, но Вы не обязаны ему следовать и можете идти по собственному пути. Вставляйте любые нужные на Ваш взгляд ячейки, журналы принятых решений и общения с AI, дубликации кода для его версионирования - выразите себя в достижении цели!

Не забывайте пользоваться профилировщиками кода, они помогут выявить проблемные места.🕵️

Следующие методы используются в реальных системах и дают хороший простор для практики в оптимизации кода:

### 1. 🔁 **Blocked (Tiled) Matrix Multiplication**

#### 📌 What:

* Divide matrices into **cache-sized blocks**.
* Multiply blocks instead of individual elements to improve **cache locality**.

#### 💡 Optimization Focus:

* Loop tiling
* Memory alignment
* Cache usage (L1/L2)
* Multi-threading (OpenMP, TBB)

#### 🧪 Try This:

In [26]:
# Use block sizes like 32, 64, or 128 depending on CPU cache
# Numba or Cython can help speed up nested loops

import numpy as np
import time
from numba import njit

n = 1000
BLOCK_SIZE = 64

@njit(fastmath=True, cache=True)
def blocked_matrix_mult(A, B):
    n = A.shape[0]
    C = np.zeros((n, n), dtype=A.dtype)

    for ii in range(0, n, BLOCK_SIZE):
        for jj in range(0, n, BLOCK_SIZE):
            for kk in range(0, n, BLOCK_SIZE):
                i_end = min(ii + BLOCK_SIZE, n)
                j_end = min(jj + BLOCK_SIZE, n)
                k_end = min(kk + BLOCK_SIZE, n)

                for i in range(ii, i_end):
                    for j in range(jj, j_end):
                        for k in range(kk, k_end):
                            C[i, j] += A[i, k] * B[k, j]

    return C

# Генерация данных
A = np.random.randn(n, n).astype(np.float32)
B = np.random.randn(n, n).astype(np.float32)

small_A = np.random.randn(2, 2).astype(np.float32)
small_B = np.random.randn(2, 2).astype(np.float32)
blocked_matrix_mult(small_A, small_B)

start = time.time()
result = blocked_matrix_mult(A, B)
computation_time = time.time() - start

# Проверка результата
np_result = A @ B
if np.allclose(result, np_result, rtol=1e-5, atol=1e-8):
    print("Результат корректен")
else:
    print("Ошибка в вычислениях")
    diff = np.abs(result - np_result)
    print(f"Максимальная разница: {np.max(diff)}")
    print(f"Средняя разница: {np.mean(diff)}")

# Вывод результатов
comment = f"Numba-optimized | Block={BLOCK_SIZE} | float32"
print(f"Время выполнения: {computation_time:.2f} сек")
print(comment)

send_results(computation_time, comment)

Ошибка в вычислениях
Максимальная разница: 0.00020599365234375
Средняя разница: 1.277844603464473e-05
Время выполнения: 1.92 сек
Numba-optimized | Block=64 | float32


Пыталась добавить многопоточность, но ловлю ошибку и не понимаю, что делаю не так. Сделала без нее, кажется рабоатет.

И как-то ошибка при вычислениях это не круто (хотя она и маленькая)

---

### 2. 🧮 **Strassen’s Algorithm**

#### 📌 What:

* Reduces mults from $n^3$ to $n^{2.81}$
* Uses **recursion** + **addition/multiplication combination**

#### 💡 Optimization Focus:

* Recursive cutoff tuning (switch to naive at small size)
* Memory reuse
* Parallel recursion

#### 🧪 Try This:


In [27]:
# Implement with NumPy or PyTorch, but also try with Numba
# Explore combining with blocked matmul

import numpy as np
import time
from numba import njit

n = 1024
CUTOFF = 64

@njit(fastmath=True, cache=True)
def naive_mult(A, B):
    n = A.shape[0]
    C = np.zeros((n, n), dtype=A.dtype)
    for i in range(n):
        for j in range(n):
            for k in range(n):
                C[i, j] += A[i, k] * B[k, j]
    return C

@njit(fastmath=True, cache=True)
def strassen(A, B):
    n = A.shape[0]
    if n <= CUTOFF:
        return naive_mult(A, B)

    mid = n // 2
    # Явное копирование подматриц для Numba
    A11 = A[:mid, :mid].copy()
    A12 = A[:mid, mid:].copy()
    A21 = A[mid:, :mid].copy()
    A22 = A[mid:, mid:].copy()
    B11 = B[:mid, :mid].copy()
    B12 = B[:mid, mid:].copy()
    B21 = B[mid:, :mid].copy()
    B22 = B[mid:, mid:].copy()

    # M1–M7 с явными временными массивами
    temp1 = A11 + A22
    temp2 = B11 + B22
    M1 = strassen(temp1, temp2)

    temp1 = A21 + A22
    M2 = strassen(temp1, B11)

    temp2 = B12 - B22
    M3 = strassen(A11, temp2)

    temp2 = B21 - B11
    M4 = strassen(A22, temp2)

    temp1 = A11 + A12
    M5 = strassen(temp1, B22)

    temp1 = A21 - A11
    temp2 = B11 + B12
    M6 = strassen(temp1, temp2)

    temp1 = A12 - A22
    temp2 = B21 + B22
    M7 = strassen(temp1, temp2)

    # Вычисление C
    C = np.zeros((n, n), dtype=A.dtype)
    C[:mid, :mid] = M1 + M4 - M5 + M7
    C[:mid, mid:] = M3 + M5
    C[mid:, :mid] = M2 + M4
    C[mid:, mid:] = M1 - M2 + M3 + M6

    return C

# Генерация данных
A = np.random.randn(n, n).astype(np.float64)
B = np.random.randn(n, n).astype(np.float64)

small_A = np.random.randn(2, 2).astype(np.float64)
small_B = np.random.randn(2, 2).astype(np.float64)
strassen(small_A, small_B)

start = time.time()
result = strassen(A, B)
computation_time = time.time() - start

# Проверка результата
np_result = A @ B
if np.allclose(result, np_result, rtol=1e-5, atol=1e-8):
    print("Результат корректен")
else:
    print("Ошибка в вычислениях")
    diff = np.abs(result - np_result)
    print(f"Максимальная разница: {np.max(diff)}")
    print(f"Средняя разница: {np.mean(diff)}")

# Вывод результатов
comment = f"Strassen | n={n} | float64 | Cutoff={CUTOFF}"
print(f"Время выполнения: {computation_time:.2f} сек")
print(comment)

send_results(computation_time, comment)

Результат корректен
Время выполнения: 0.74 сек
Strassen | n=1024 | float64 | Cutoff=64


Работать стало быстрее. Даже результат попал.

---

### 3. 🧱 **SIMD-Optimized Matrix Multiply**

#### 📌 What:

* Leverage **SIMD intrinsics** (SSE, AVX, Neon) to multiply rows/columns in parallel.

#### 💡 Optimization Focus:

* Vectorization
* Loop unrolling
* Instruction scheduling

#### 🧪 Try This:

In [28]:
import numpy as np
import time
from numba import njit, prange

n = 1000
UNROLL_FACTOR = 4  # Фактор размотки цикла

@njit(fastmath=True, cache=True, parallel=True)
def simd_matrix_mult(A, B):
    n = A.shape[0]
    C = np.zeros((n, n), dtype=A.dtype)

    for i in prange(n):
        for j in range(n):
            # Внутренний цикл с ручной размоткой
            sum0 = 0.0
            sum1 = 0.0
            sum2 = 0.0
            sum3 = 0.0
            for k in range(0, n, UNROLL_FACTOR):
                # Размотка на 4 итерации
                if k + 3 < n:
                    sum0 += A[i, k] * B[k, j]
                    sum1 += A[i, k + 1] * B[k + 1, j]
                    sum2 += A[i, k + 2] * B[k + 2, j]
                    sum3 += A[i, k + 3] * B[k + 3, j]
                else:
                    # Остаток цикла
                    for kk in range(k, n):
                        sum0 += A[i, kk] * B[kk, j]
                    break
            C[i, j] = sum0 + sum1 + sum2 + sum3

    return C

# Генерация данных
A = np.random.randn(n, n).astype(np.float32)
B = np.random.randn(n, n).astype(np.float32)

small_A = np.random.randn(2, 2).astype(np.float32)
small_B = np.random.randn(2, 2).astype(np.float32)
simd_matrix_mult(small_A, small_B)

start = time.time()
result = simd_matrix_mult(A, B)
computation_time = time.time() - start

# Проверка результата
np_result = A @ B
if np.allclose(result, np_result, rtol=1e-4, atol=1e-7):
    print("Результат корректен")
else:
    print("Ошибка в вычислениях")
    diff = np.abs(result - np_result)
    print(f"Максимальная разница: {np.max(diff)}")
    print(f"Средняя разница: {np.mean(diff)}")

# Вывод результатов
comment = f"SIMD-optimized | n={n} | float32 | Unroll={UNROLL_FACTOR}"
print(f"Время выполнения: {computation_time:.2f} сек")
print(comment)

send_results(computation_time, comment)

Ошибка в вычислениях
Максимальная разница: 7.62939453125e-05
Средняя разница: 7.113193532859441e-06
Время выполнения: 7.52 сек
SIMD-optimized | n=1000 | float32 | Unroll=4


Увеличилось время поиска. Не очень хорошо. Вероятно это из-за того, что я не особо использовала векторизацию. Нейронки говорят, что надо добавить Cython, но не уверена, что с ним в коллабе окей и не разобралась как его прикрутить, к сожалению.

Ошибка некритичная

---


### 4. ⚡ **Multithreaded Matrix Multiply (OpenMP / TBB / Rayon)**

#### 📌 What:

* Distribute computation across multiple CPU cores.

#### 💡 Optimization Focus:

* Data partitioning
* Load balancing
* Avoiding false sharing / cache line contention

#### 🧪 Try This:

In [20]:
import numpy as np
import time
from numba import jit, prange

n = 1000
BLOCK_SIZE = 64

@jit(nopython=True, parallel=True, fastmath=True)
def matrix_multiply(A, B, C, N):
    for ii in prange(0, N, BLOCK_SIZE):
        for jj in range(0, N, BLOCK_SIZE):
            for kk in range(0, N, BLOCK_SIZE):
                i_end = min(ii + BLOCK_SIZE, N)
                j_end = min(jj + BLOCK_SIZE, N)
                k_end = min(kk + BLOCK_SIZE, N)
                for i in range(ii, i_end):
                    for j in range(jj, j_end):
                        temp = 0.0  # Временная переменная для кэш-локальности
                        for k in range(kk, k_end):
                            temp += A[i, k] * B[k, j]
                        C[i, j] += temp

# Генерация данных
A = np.random.randn(n, n).astype(np.float32)
B = np.random.randn(n, n).astype(np.float32)
C = np.zeros((n, n), dtype=np.float32)

small_A = np.random.randn(2, 2).astype(np.float32)
small_B = np.random.randn(2, 2).astype(np.float32)
small_C = np.zeros((2, 2), dtype=np.float32)
matrix_multiply(small_A, small_B, small_C, 2)

start = time.time()
matrix_multiply(A, B, C, n)
computation_time = time.time() - start

# Проверка результата
np_result = A @ B
if np.allclose(C, np_result, rtol=1e-4, atol=1e-7):
    print("Результат корректен")
else:
    print("Ошибка в вычислениях")
    diff = np.abs(C - np_result)
    print(f"Максимальная разница: {np.max(diff)}")
    print(f"Средняя разница: {np.mean(diff)}")

# Вывод результатов
comment = f"Multithreaded | n={n} | float32 | Block={BLOCK_SIZE}"
print(f"Время выполнения: {computation_time:.2f} сек")
print(comment)

UnsupportedRewriteError: Failed in nopython mode pipeline (step: convert to parfors)
Only constant step size is supported for prange

File "<ipython-input-20-67b1e3a432d3>", line 11:
def matrix_multiply(A, B, C, N):
    for ii in prange(0, N, BLOCK_SIZE):
    ^


Вот она, та самая ошибка, которую я ловлю а многопоточке. Среда стоит правильная, фиксить я это пыталась долго, особо не помогло.

Не придумала, что делать. Возножно происходит тупейшая ошибка, но я в упор не вижу.

---

### 5. 🧠 **BLAS-Like API Wrappers / Custom Kernels**

#### 📌 What:

* Write or tune custom matrix kernels (e.g., SGEMM, DGEMM) as drop-in BLAS replacements.

#### 💡 Optimization Focus:

* Micro-kernel tuning
* Assembly-level optimization
* Prefetching

#### 🧪 Try This:

* Look into **OpenBLAS**, **BLIS**, or **Intel MKL** source
* Try replacing small kernels with your own variants
---

In [29]:
import numpy as np
import time
from numba import jit, prange

n = 1000
BLOCK_SIZE = 64

@jit(nopython=True, parallel=True, fastmath=True)
def sgemm(A, B, C, alpha=1.0, beta=0.0, N=None):
    if N is None:
        N = A.shape[0]

    # Применяем beta к C заранее
    if beta != 1.0:
        for i in prange(N):
            for j in range(N):
                C[i, j] *= beta

    # Накопление A @ B
    num_blocks = (N + BLOCK_SIZE - 1) // BLOCK_SIZE
    for ii in prange(num_blocks):
        i_start = ii * BLOCK_SIZE
        i_end = min(i_start + BLOCK_SIZE, N)
        for jj in range(0, N, BLOCK_SIZE):
            j_end = min(jj + BLOCK_SIZE, N)
            for kk in range(0, N, BLOCK_SIZE):
                k_end = min(kk + BLOCK_SIZE, N)
                for i in range(i_start, i_end):
                    for j in range(jj, j_end):
                        temp = 0.0
                        for k in range(kk, k_end):
                            temp += A[i, k] * B[k, j]
                        C[i, j] += alpha * temp  # Накопление

# Генерация данных
A = np.random.randn(n, n).astype(np.float32)
B = np.random.randn(n, n).astype(np.float32)
C = np.random.randn(n, n).astype(np.float32)
C_original = C.copy()

small_A = np.random.randn(2, 2).astype(np.float32)
small_B = np.random.randn(2, 2).astype(np.float32)
small_C = np.random.randn(2, 2).astype(np.float32)
sgemm(small_A, small_B, small_C, alpha=1.0, beta=0.0, N=2)

alpha = 1.0
beta = 0.5
start = time.time()
sgemm(A, B, C, alpha, beta, n)
computation_time = time.time() - start

# Проверка результата
np_result = alpha * (A @ B) + beta * C_original
if np.allclose(C, np_result, rtol=1e-4, atol=1e-7):
    print("Результат корректен")
else:
    print("Ошибка в вычислениях")
    diff = np.abs(C - np_result)
    print(f"Максимальная разница: {np.max(diff)}")
    print(f"Средняя разница: {np.mean(diff)}")

# Вывод результатов
comment = f"SGEMM (Numba) | n={n} | float32 | Block={BLOCK_SIZE}"
print(f"Время выполнения: {computation_time:.2f} сек")
print(comment)

send_results(computation_time, comment)

Ошибка в вычислениях
Максимальная разница: 8.255243301391602e-05
Средняя разница: 7.324625585169997e-06
Время выполнения: 1.57 сек
SGEMM (Numba) | n=1000 | float32 | Block=64


В первый заход ошибка какая-то супер большая. Да и ускорения я особо не добилась.

Во второй заход стало сильно лучше в плане ошибок.

### 6. 🧪 **GPU Matrix Multiply (CUDA / ROCm)**

#### 📌 What:

* Use GPU threads to parallelize matrix operations massively.

#### 💡 Optimization Focus:

* Thread/block scheduling
* Shared memory reuse
* Warp-level primitives (WMMA for tensor cores)

#### 🧪 Try This:

In [None]:
# Try writing a CUDA (or CuPy) kernel from scratch
# Then optimize with shared memory and tiling

---

### 7. 🔄 **Low-Precision / Quantized MatMul**

#### 📌 What:

* Reduce precision to FP16, INT8, or even binary for speedup.

#### 💡 Optimization Focus:

* Saturating arithmetic
* Vectorized packing/unpacking
* Quantization-aware fusion (scaling factors, zero-points)

#### 🧪 Try This:

* Use **TensorRT**, **ONNX Runtime**, or **custom C++/Python code**

---

### 8. 🧩 **Sparse Matrix Multiplication (SpMM)**

#### 📌 What:

* Efficiently multiply when one or both matrices are sparse.

#### 💡 Optimization Focus:

* Sparse data structures (CSR, CSC)
* Loop skipping and pointer arithmetic
* Tiling with sparsity-awareness

#### 🧪 Try This:

In [None]:
from scipy.sparse import csr_matrix
A = csr_matrix(...)
C = A @ B  # Sparse x Dense or Sparse x Sparse

## 🛠️ Toolchains & Languages for Optimization

| Tool / Language        | Best Use Case                  |
| ---------------------- | ------------------------------ |
| **NumPy + Numba**      | High-level, rapid prototyping  |
| **C/C++ + OpenMP**     | Low-level CPU optimization     |
| **CUDA / OpenCL**      | GPU acceleration               |
| **Rust + Rayon**       | Safe parallel matrix code      |
| **Assembly (x86/ARM)** | For hardcore SIMD tuning       |
| **Python + Cython**    | Balance between ease and speed |

---

## 🎓 Summary Table

| Method                  | Speed  | Difficulty | Teachable?  | Optimizable? |
| ----------------------- | ------ | ---------- | ----------- | ------------ |
| Blocked MatMul          | ✅ High | 🟢 Easy    | ✅ Yes       | ✅ Yes        |
| Strassen                | ✅ Med  | 🟡 Medium  | ✅ Yes       | ✅ Yes        |
| SIMD MatMul             | ✅ High | 🔴 Hard    | ✅ Yes       | ✅ Yes        |
| Multithreaded           | ✅ High | 🟡 Medium  | ✅ Yes       | ✅ Yes        |
| GPU                     | ✅✅     | 🔴 Hard    | ✅ Yes       | ✅ Yes        |
| Quantized/Low-Precision | ✅ High | 🟡 Medium  | 🟢 Somewhat | ✅ Yes        |
| Sparse MatMul           | ✅ Med  | 🟡 Medium  | ✅ Yes       | ✅ Yes        |

---

# Заключение

Расскажите, какой опыт Вы сегодня получили для себя? Как Вы оцениваете свой прогресс? Как можно было бы улучшить сегодняшнее занятие по Вашему мнению?

У меня с оптимизацией всегда проблемы, так что сегодняшнее занятие - 100% выход из зоны комфорта. Верните меня обратно, пожалуйста (((

Ну и как-то успела сильно не все, хотелось бы чуть больше времени. Достаточно тяжело слепить теорию и практику.