### Основные понятия

$$ A A^{-1} = E $$

$ A $ - исходная матрица

$$
A = \begin{pmatrix}
a_{1, 1} & a_{1, 2} & \cdots & a_{1, j} \\
a_{2, 1} & a_{2, 2} & \cdots & a_{2, j} \\
\vdots & \vdots & \ddots & \vdots \\
a_{i, 1} & a_{i, 2} & \cdots & a_{i, j}
\end{pmatrix} 
$$

$ E $ - единичная матрица

$$
E = \begin{pmatrix}
1 & 0 & \cdots & 0 \\
0 & 1 & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & 1
\end{pmatrix} 
$$

$ A^{-1} $ - _обратная_ матрица

$$
A^{-1} = \frac{C^*}{|A|}
$$

$ |A| $ - _определитель_ матрицы $ A $

$ C^* $ - _союзная (присоединённая) матрица_

$ C^* = С^T $

$ С^T $ - _транспонированная_ матрица _алгебраических дополенний_ $ С $

$$
C = \begin{pmatrix}
A_{1, 1} & A_{1, 2} & \cdots & A_{1, j} \\
A_{2, 1} & A_{2, 2} & \cdots & A_{2, j} \\
\vdots & \vdots & \ddots & \vdots \\
A_{i, 1} & A_{i, 2} & \cdots & A_{i, j}
\end{pmatrix} 
$$

$ A_{i, j} = (-1) ^ {i + j} \cdot M_{i, j} $ - _алгебраическое дополнение_

$ M_{i, j} $ - _дополнительный минор_ элемента $ a_{i, j} $

**_Дополнительный минор_** элемента матрицы $ n $-го порядка есть определитель порядка $ n−1 $, соответствующий матрице, которая получается из исходной матрицы путём вычёркивания $ i $-й строки и $ j $-го столбца.

**_Транспонированная матрица_** — матрица $ A^T $, полученная из исходной матрицы $ A $ заменой строк на столбцы. \
Формально, транспонированная матрица для матрицы $ A $ размеров $ m \times n $ - матрица $ A^T $ размеров $ n \times m $, определённая как $ A_{ij}^T = A_{ji} $.

### Алгоритм поиска определителя

#### Метод Гаусса

Определитель треугольной матрицы равен произведению элементов её главной диагонали:

$ |A| = a_{1, 1} \cdot a_{2, 2} \cdot \ldots \cdot a_{n, n} $

Идея метода Гаусса для вычисления определителя

1. Приведение матрицы к верхнетреугольному виду

    С помощью элементарных преобразований строк (перестановка строк, прибавление к одной строке другой, умножение строки на число) приводим матрицу к виду, где все элементы под главной диагональю равны нулю.

2. Учет влияния преобразований на определитель

    - Перестановка двух строк меняет знак определителя на противоположный.
    - Прибавление к одной строке другой не меняет определитель.
    - Умножение строки на число умножает определитель на это число (обычно при вычислении определителя деление строки не делают, чтобы избежать усложнений).

3. Вычисление определителя

    После приведения к верхнетреугольному виду определитель равен произведению элементов главной диагонали с учетом знака, который меняется при перестановках строк.

4. Если в процессе обнаруживается нулевой ведущий элемент (пивот), и нельзя выполнить перестановку для ненулевого элемента, то определитель равен **0**.

#### Алгоритм

- Инициализировать переменную $ det = 1 $.

- Для каждого столбца $ j $ найти строку $ k \geq j $ с максимальным по модулю элементом в столбце $ j $ (для устойчивости).

- Если найденный элемент равен нулю — определитель равен $ 0 $.

- Если $ j \neq k $, поменять строки $ j $ и $ k $, изменить знак $ det = -det $.

- Умножить det на элемент  $ a_{jj} $.

- Использовать элемент $ a_{jj} $ для зануления элементов ниже по столбцу.

- Продолжать для всех столбцов.

Сложность - $ O(n^3). $

Реализация на _C_ :
```cpp
double det = 1;
const double eps = 1e-9;
for (size_t j = 0; j < n; j++) {
    size_t k = j;
    for (size_t i = j + 1; i < n; i++) {
        if (fabs(a[i][j]) > fabs(a[k][j])) k = i;
    }
    if (fabs(a[k][j]) < eps) return 0;
    if (j != k) {
        swap(a, j, k);
        det = -det;
    }
    det *= a[j][j];
    for (size_t i = j + 1; i < n; i++) {
        a[j][i] /= a[j][j];
    }
    for (size_t i = 0; i < n; i++) {
        if (j != i && fabs(a[i][j] > eps)) {
            for (size_t l = j + 1; l < n; l++) {
                a[i][l] -= a[j][l] * a[i][j];
            }
        }
    }
}
```

### Алгоритм поиска обратной матрицы

Обратная матрица $ A^{-1} $ существует только при условии $ |A| \neq 0 $.

1. Вычисление определителя $ |A| $, проверка условия обратимости.

2. Вычисление алгебраических дополнений $ A_{ij} $ и составление матрицы $ С $.

3. Получение союзной матрицы $ С^* $ транспонированием матрицы алгебраических дополенний $ С $.

4. Вычисление обратной матрицы $ A^{-1} $ путём умножения союзной матрицы $ С^* $ на обратный определитель $ |A|^{-1} $.

#### Справка: 

```__shared__```: разделяемая память блока

- Назначение:
    Объявляет переменную в разделяемой памяти, доступной всем потокам внутри одного блока. Эта память:

    - Расположена на чипе мультипроцессора (SM), что обеспечивает высокую скорость доступа (в 100+ раз быстрее глобальной памяти) .

    - Имеет ограниченный размер: 16–48 КБ на SM в зависимости от архитектуры GPU .

    - Разделена на 32 банка (для архитектур до Volta), что может вызывать конфликты при одновременном обращении потоков к одному банку 

```__syncthreads()```: синхронизация потоков
- Назначение:
    Обеспечивает барьерную синхронизацию всех потоков внутри блока. Потоки приостанавливаются, пока все не достигнут этой точки.

- Особенности:

    - Требуется после операций с разделяемой памятью для предотвращения **race conditions** .

    - Не синхронизирует потоки из разных блоков.

    - Может замедлить выполнение, если потоки внутри блока расходятся по времени выполнения.

- Стандартная схема работы:

    1. Загрузка данных из глобальной в разделяемую память.

    2. ```__syncthreads()``` — гарантия завершения загрузки.

    3. Вычисления с использованием разделяемой памяти.

    4. ```__syncthreads()``` — гарантия завершения вычислений.

    5. Запись результатов в глобальную память.

Представление двойного цикла одним (**flattened index**):
```cpp
for (size_t idx = 0; idx < n * n ; idx++) {
    size_t i = idx / n;
    size_t j = idx % n;
    ...
}
```

Представление двойного цикла одним с grid-stride loop:
```cpp
size_t idx = blockIdx.x * blockDim.x + threadIdx.x;
size_t stride = blockDim.x * gridDim.x;

for (size_t k = idx; idx < n * n ; k += stride) {
    size_t i = k / n;
    size_t j = k % n;
    ...
}
```

#### Refactoring steps:

1. Switching from double indexing $[i][j]$ to $[i \cdot n + j]$ and from an array of $(n)$ pointers to $(n)$ arrays to an array $(n \times n)$.

2. Refactoring a cuple of functions to CUDA style: using ```cudaMallocManaged``` in ```allocateMatrix``` instead of ```malloc```; ```cudaMemcpy``` in ```copyMatrix``` instead of ```memcpy```; ```transposed``` $ \rightarrow $ ```__global__ transpose```; ```multiplyByNum``` become  kernel.

3. Splitting ```determinantGauss``` into several CUDA kernels: ```findPivotIndex```, ```normalizePivot```, ```eliminateBelow``` (uncluding refactoring ```swap``` function); rewriting a function to search for a pivot using a reduction utilizing shared memory.

4. Writing a new ```minorsMatrix``` function for the complete calculation of the minor matrix; ```minors``` remained unchanged; ```algebraicAdditions``` became kernel, into which all minor values were immediately transferred inside the matrix obtained from ```minorsMatrix```

#### Промежуточные результаты

Итак, выбрать метод Гаусса было не самым лучшим решением в силу того, что он плохо поддаётся распараллеливанию. Помимо этого, поиск обратной матрицы через алгебраические дополнения сам по себе оказывается слишком трудоёмким, поскольку приходится рассчитывать $ 1 $ определитель матрицы $ n \times n $ и при поиске миноров $ n^2 $ определителей матриц $ (n - 1) \times (n - 1) $.

Операция в какой-то момент становится настолько сложной, что счёт идёт на минуты, когда ожидание уже не имеет смысла, причём в обоих случаях.

Кроме того, ```cudaMemPrefetchAsync()``` ломается при достаточно больших $ n $, хотя ошибка указывает на ```deviceId```, с которым при небольших $ n $ проблем не возникает.

### $ L U $-разложение

**__LU-разложение__** — это представление квадратной матрицы $ A $ в виде произведения двух треугольных матриц: $$ A = L U $$
где $ L $ — нижнетреугольная матрица с единичной диагональю, a $ U $ — верхнетреугольная матрица.

#### Алгоритм разложения

1. Инициализация: создаются две матрицы $ L $ и $ U $ размерности $ n \times n $.

2. Построение матриц: 
    - ДЛя каждого столбца $ j $ вычисляются элементы $ U $ (верхнетреугольная) и $ L $ (нижнетреугольная с единичной диагональю).

    - На каждом шаге вычитания коэффициенты сохраняются в $ L $, а результат - в $ U $.

3. Повторение: процесс повторяется для всех строк и столбцов, пока не будут заполнены обе матрицы.

Сложность - $ O(n^3) $.

Реализация на _C_ (_Doolittle_ _Algorithm_):
```cpp
for (size_t i = 0; i < n; i++) {
    // U-строка
    for (size_t j = i; j < n; j++) {
        double sum = 0.0;
        for (size_t k = 0; k < i; k++) {
            sum += l[i * n + k] * u[k * n + j];
        }
        u[i * n + j] = a[i * n + j] - sum;
    }

    // L-столбец
    for (size_t j = i; j < n; j++) {
        double sum = 0.0;
        for (size_t k = 0; k < i; k++) {
            sum += l[j * n + k] * u[k * n + i];
        }
        l[j * n + i] = (a[j * n + i] - sum) / u[i * n + i];
    }
}
```

#### Алгоритм поиска определителя

После разложения $ A = L U $ определитель исходной матрицы равен произведению диагональных элементов матрицы $ U $ (и $ L $ если она не с единичной диагональю): $$ |A| = \prod^n_{i=1} u_{i,i} $$ где $ u_{i,i} $ - диагональные элементы $ U $.

В общем виде: $$ |A| = |L| \cdot |U| = \prod^n_{i=1} u_{i,i} \cdot \prod^n_{i=1} l_{i,i} $$

#### Алгоритм поиска обратной матрицы

$$ A^{-1} = X ,\ такое\ что\  A X = E $$
Если $ A = L U $, то $$ L U X = E \rightarrow U X = Y ,\ где\  L Y = E $$

То есть нужно решить $ n $ систем:

- $ L y_j = e_j $ - прямой ход (прямозамена)
- $ U x_j = y_j $ - обратный ход (обратная замена)

где $ e_j $ - $ j $-й столбец единичной матрицы.

#### Алгоритм

1. Выполнить $ L U $-разложение матрицы $ A $.

2. Для каждого столбца $ j $ от $ 1 $ до $ n $:
    - Взять $ j $-ый столбец единичной матрицы $ e_j $ как правую часть.
    - Решить систему $ L y = e_j $:
        - Это система с нижнетреугольной матрицей, решается прямой подстановкой.
    - Решить систему $ U x_j = y $:
        - Это система с верхнетреугольной матрицей, решается обратной подстановкой.
    - Полученный столбец $ x_j $ - это $ j $-ый столбей обратной матрицы.

3. Собрыть всё столбцы $ x_j $ в итоговую матрицу $ X = A^{-1} $.

Сложность - $ O(n^2) $.

Реализация на _C_ :
```cpp
// цикл по столбцам
for (size_t j = 0; j < n; j++) {
    double *y = (double *)malloc(n * sizeof(double));

    // прямой ход L y = e_j
    for (size_t i = 0; i < n; i++) {
        y[i] = (i == j) ? 1.0 : 0.0;
        for (size_t k = 0; k < i; k++) {
            y[i] -= l[i * n + k] * y[k];
        }
    }

    // Обратный ход: U x = y
    for (size_t _i = 0; _i < n; _i++) { // for (int i = n - 1; i >= 0; i--)
        size_t i = n - 1 - _i;

        inv[i * n + j] = y[i];
        for (size_t k = i + 1; k < n; k++) {
            inv[i * n + j] -= u[i * n + k] * inv[k * n + j];
        }
        inv[i * n + j] /= u[i * n + i];
    }
    free(y);
}
```


In [None]:
# не работает при отрицательных числах хз где ошибка
!gcc matrix_2d_arrays.c -o builds/matrix_2d_arrays
!builds\matrix_2d_arrays

In [1]:
import numpy as np

In [4]:
''' Generate test input data '''

n = 1000
inp = np.random.uniform(-10, 10, n * n)

with open("input.txt", "w") as file:
    file.write(f"{n}\n")
    sinp = " ".join(map(str, inp))
    file.write(sinp)

matrix = inp.reshape((n, n))
np.linalg.det(matrix)

np.float64(-inf)

In [None]:
matrix_inv = np.linalg.inv(matrix)

print("Inverted matrix:\n")
for i in range(n):
    for j in range(n):
        print(f"{matrix_inv[i, j]:.3f}", end=' ')
    print()

In [6]:
''' C '''
!gcc -I include src\matrix.c -o builds\matrix_1d_2d_arrays matrix_1d_2d_arrays.c

In [7]:
!builds\matrix_1d_2d_arrays < input.txt

Det (LU): -1.#INF00
C time: 1284.566 ms

Inverted matrix (LU):
C time: 5211.185 ms



In [None]:
''' CUDA '''
!nvcc -arch=native -I include src\cumatrix.cu -o builds\cumatrix fastmatrix.cu

In [9]:
!builds\cumatrix < input.txt

Det (LU): -nan(ind)
CUDA time: 251.358 ms

Inverted matrix (LU):
CUDA time: 501.468 ms



### Итог:

Переход к методу поиска как определителя $ |A| $, так и обратной матрицы $ A^{-1} $ через $ LU $-разложение позволяет сравниться по скорости $ CPU $ и $ GPU $ вычислениям при:

- $ n \approx 155 $ в поиске $ |A| $
- $ n \approx 50 $ в поиске $ A^{-1} $
    - при $ n \approx 140 $ преимущество в $ \sim 2 $ раза
    - при $ n \approx 900-1000 $ преимущество на порядок

При использовании предыдущих алгоритмов данные численные отметки составляли сотни $ n $.

In [None]:
#!nsys profile --stats=true -o nsys-report\report --force-overwrite=true builds\cumatrix < input.txt

In [None]:
#!nsys profile --help