# Общие вычислительные операции

## Наивное умножение матрицы на вектор и умножение матриц.

$$
C = A * B = 
  \begin{bmatrix}
    c_{11} & c_{12} & \cdots & c_{1n} \\
    c_{21} & c_{22} & \cdots & c_{2n} \\
    \vdots & \vdots & \ddots & \vdots \\
    c_{n1} & c_{n2} & \cdots & c_{nn}
  \end{bmatrix}, \quad
  c_{ij} = \sum_{k=1}^{n} a_{ik} * b_{kj}
$$

Сложность этого алгоритма $O(n^3)$. Количество столбцов в первой матрице должно совпадать с количеством строк во второй матрицe.

## Иерархия памяти, план кеша и LRU, промахи в обращении к кешу.

### Иерархия памяти

CPU (Регистры процессора)
* Самая быстрая память.
* Очень маленький объем (несколько десятков ячеек).
* Доступ только для процессора.

CPU cache
* Делится на уровни:
  * **L1:** Очень быстрый, встроен в ядро процессора, малый объем (около 64 КБ).
  * **L2:** Быстрее RAM, больше объём (512 КБ – 2 МБ).
  * **L3:** Медленнее L1 и L2, но имеет больший объем (до нескольких десятков МБ).

Оперативная память (RAM, SD-RAM, DDR-SDRAM,..)
* Средняя скорость и объем (от 8 ГБ до сотен ГБ).
* Используется для временного хранения данных, с которыми активно работает процессор.

Внешняя память (HDD/SSD)
* Медленная, но имеет большой объем.
* Хранение данных на долгосрочной основе.

### План кэша
План кэша — это способ, с помощью которого блоки данных из оперативной памяти (RAM) размещаются в кэше.

Существует три основных метода:
* **Прямое отображение:** Каждому блоку памяти соответствует конкретное место в кэше.
* **Fully Associative Mapping:** Блок из памяти может быть размещен в любой строке кэша.
* **Set-Associative Mapping:** Кэш делится на группы (наборы). Каждый блок может быть размещен в любой строке одного набора.

### LRU (Least Recently Used)
* Принцип работы: Когда кэш заполняется и требуется освободить место для нового блока, удаляется блок, который дольше всего не использовался.

### Промах кэша (Cache Miss)

Промах кэша (Cache Miss) — это ситуация, когда процессор обращается к данным, которых нет в кэше, и требуется их загрузка из оперативной памяти.

* **Compulsory Miss:** Возникает при первом доступе к данным. Невозможно избежать, так как данные еще не были загружены в кэш.
* **Capacity Miss:** Кэш недостаточно большой, чтобы вместить все необходимые данные. Возникает, когда старые данные вытесняются из-за ограниченного размера кэша.
* **Conflict Miss:** Возникает в прямом отображении и ассоциативных кэшах, когда несколько блоков отображаются в одну и ту же строку.

## Алгоритм Штрассена.

Наивный алгоритм умножения матриц имеет алгоритмическую сложность $O(n^3)$

Рассмотрим ниже метод Штрассена - сложности $O(n^{2,8})$.
Схема алгоритма:
    1. Разбиваем матрицы $A$ и $B$ размера $n$ x $n$ на 4 блока $n/2$ x $n/2$.    
    2. Вычисляем произведения по приведенным ниже формулам рекурсивно.

Если при помощи классического наивного подхода мы можем вычислить произведение (матрицу $С$) двух матриц 2х2 используя 8 умножений и 4 сложения, то при помощи алгоритма Штрассена можно его вычислить при помощи 7 умножений и 18 сложений.


$$
\begin{align*}
c_{11} &= f_1 + f_4 - f_5 + f_7 \\
c_{12} &= f_3 + f_5 \\
c_{21} &= f_2 + f_4 \\
c_{22} &= f_1 - f_2 + f_3 + f_6
\end{align*}
$$
$$
\begin{align*}
f_1 &= (a_{11} + a_{22})(b_{11} + b_{22}) \\
f_2 &= (a_{21} + a_{22})b_{11} \\
f_3 &= a_{11}(b_{12} - b_{22}) \\
f_4 &= a_{22}(b_{21} - b_{11}) \\
f_5 &= (a_{11} + a_{12})b_{22} \\
f_6 &= (a_{21} - a_{11})(b_{11} + b_{12}) \\
f_7 &= (a_{12} - a_{22})(b_{21} + b_{22})
\end{align*}
$$

**1. Разделение: Разделим A и B на 4 подматрицы:**

$$A = \begin{bmatrix}
A_{11} & A_{12} \\
A_{21} & A_{22}
\end{bmatrix}$$

$$B = \begin{bmatrix}
B_{11} & B_{12} \\
B_{21} & B_{22}
\end{bmatrix}$$

Здесь каждая подматрица имеет размер n/2 × n/2.

**2. Решение: Вместо 8 умножений подматриц (как в обычном умножении), алгоритм Штрассена вычисляет только 7 вспомогательных матриц:**

$$M_1 = (A_{11} + A_{22})(B_{11} + B_{22})$$
$$M_2 = (A_{21} + A_{22})B_{11}$$
$$M_3 = A_{11}(B_{12} - B_{22})$$
$$M_4 = A_{22}(B_{21} - B_{11})$$
$$M_5 = (A_{11} + A_{12})B_{22}$$
$$M_6 = (A_{21} - A_{11})(B_{11} + B_{12})$$
$$M_7 = (A_{12} - A_{22})(B_{21} + B_{22})$$

**3. Объединение: Используя M<sub>1</sub>, ..., M<sub>7</sub>, вычисляются блоки результирующей матрицы C:**

$$C_{11} = M_1 + M_4 - M_5 + M_7$$
$$C_{12} = M_3 + M_5$$
$$C_{21} = M_2 + M_4$$
$$C_{22} = M_1 - M_2 + M_3 + M_6$$