### Многопоточность. Введение в lock free

<br />

##### spinlock && гибриды

**Вопрос**: как устроен внутри `std::mutex`, что происходит при вызовах методов `lock`/`unlock`?

<br />

В некоторых случаях использование честных вызовов ОС может оказаться слишком дорогим.

Рассмотрим случай, когда защищаемый участок кода выполняется очень быстро:

```c++
std::vector<int> v;
std::mutex mtx;

void add_item(int item)
{
    std::lock_guard guard(mtx);
    v.push_back(item);
}
```

Зачастую `v.push_back` отрабатывает очень быстро, всего несколько инструкций: увеличить размер на 1 элемент и записать целое в область памяти. Время его работы значительно меньше, чем двойной уход в kernel space для `std::mutex` при вызовах `lock`/`unlock`. В такой функции всё время работы уходит на синхронизацию.

Хочется подешевле.

<br />

`spinlock` - вариант решения проблемы на атомарных операциях.

Простейшая его реализация:
* атомарный флаг занятости
* в `lock` подождать, пока флаг не станет "свободным", выставить "занято"
* в `unlock` выставить "свободно"

Вариант реализации (если понимать memory model, можно реализовать быстрее):

https://en.cppreference.com/w/cpp/atomic/atomic_flag

```c++
class spin_lock
{
    std::atomic_flag busy = ATOMIC_FLAG_INIT;
    
public:
    void lock()
    {
        // test_and_set - устанавливает флаг в true и
        // возвращает предыдущее значение
        //
        // (если вернуло false, значит, это мы изменили
        //  флаг false -> true)
        
        while (busy.test_and_set())  // acquire lock
             ; // spin
    }
    
    void unlock()
    {
        busy.clear();  // release lock
    }
};

// Вопрос: почему это работает? как два потока будут бороться за lock?
```

И потом можно сделать так:

```c++
std::vector<int> v;
spin_lock slock;

void add_item(int item)
{
    std::lock_guard guard(slock);
    v.push_back(item);
}
```

и `add_item` начнёт работать значительно быстрее.

<br />

**Вопрос**: Если бы spinlock был так хорош, то можно было бы просто все `std::mutex` позаменять на spinlock и не мучиться. В чём проблема spinlock, чем он хуже `mutex`?

<details>
<summary>ответ</summary>
<p>

* `std::mutex` усыпляет висящий на его `lock`-е поток средствами ОС. Пока поток висит на `std::mutex`, ОС закинет на физическое ядро другие потоки, выполняющие полезную работу
* `spinlock` оккупирует ядро в `lock` в цикле `while`, никому не отдавая свой фрейм выполнения. Если `spinlock` висит долго, он впустую крутит физическое ядро вместо того чтобы отдать ресурсы на полезную работу.

</p>    
</details>

<br />

**Поэтому для простых решений выработано правило:**
* если блокируемый участок кода выполняется быстро - `spinlock`
* если блокируемый участок кода выполняется медленно  или время неизвестно - `std::mutex`

<br />

Есть варианты частичного исправления проблемы `spinlock`-а - `spinlock` с засыпанием. Идея реализации метода `lock`:
* покрутиться недолго на атомике в ожидании значения "свободно"
* усыпить поток на время `x` (через `std::this_thread::yield`, например)
* покрутиться недолго на атомике в ожидании значения "свободно"
* усыпить поток на время `2 * x`
* покрутиться недолго на атомике в ожидании значения "свободно"
* усыпить поток на время `4 * x`
* покрутиться недолго на атомике в ожидании значения "свободно"
* усыпить поток на время `8 * x`
...

т.е. после некоторой оккупации физического ядра и кручения его на спинлоке всё-таки принять решение отдать ядро кому-то другому, а самому уснуть. Время засыпания увеличивать в геометрической прогрессии до некоторой верхней границы.

Тоже допустимое решение, но `std::mutex` и здесь может начать выигрывать на длительных ожиданиях:
* во время `std::this_thread::yield` поток не знает, когда проснуться, он будет спать запрошенное время, а событие разблокировки, например, произойдёт в середине сна.
* к тому же остаются расходы на оккупацию физического ядра, но они меньше
* в случае с `std::mutex` ОС знает, когда нужно разбудить ожидающий поток

<br />

В случае, когда объём вычислений под блокировкой предсказать сложно (или не хочется думать), иногда используют гибридный вариант блокировки:
* сначала покрутиться несколько раз на `atomic_flag`
* если через atomic разрулить не получилось, уйти через `std::mutex` в kernel space, и пусть ОС сама решает когда нас разбудить

Так, например, сделан [Webkit WTF::Lock](https://webkit.org/blog/6161/locking-in-webkit/) (статья объёмная, но полезная, почитайте)

<br />

##### intro to lock free programming

https://preshing.com/20120612/an-introduction-to-lock-free-programming
    
Jeff Pershing даёт следующее определение lock-free:

> lock free programming = multithreaded app + shared memory + threads do not lock each other

Под "threads do not lock each other" понимается, что при любом причудливом планировании распределения фреймов cpu по потокам работа будет продвигаться. Если даже ОС полностью усыпила какой-то один поток, остальные продолжат выполнять работу по алгоритму.

**Вопрос**: если принять такое определение, почему любой алгоритм с использованием mutex не является lock free?

<br />

**Пример:** пример без мьютексов с атомарным `х` равным 0 на входе, который НЕ lock free:
    
```c++
while (X == 0)
    X = 1 - X;
```

**Вопрос:** каким образом два апотока могут здесь друг друга залочить

**Следствие:** отсутствие `mutex`-ов и `spin_lock`-ов ещё не делает алгоритм lock free

<br />

Другое определение lock free:
    
> as long as the program is able to keep calling those lock-free operations, the number of completed calls keeps increasing, no matter what

Если по какой-то причине после сегодняшней лекции (её примеров и упрощений) вам покажется, что lock-free - простая тема, [здесь](https://preshing.com/20120913/acquire-and-release-semantics/#IDComment721195803) пример как Jeff Pershing находит ошибку в презентации про атомики и барьеры от Герба Саттера (генсека <s>КПСС</s> КСС++, второго человека в мире С++).

<br />

##### hardware memory model (simplified)

https://preshing.com/20120930/weak-vs-strong-memory-models/

memory ordering - правила упорядочивания операций с памятью можно разделить на:

* правила языка для абстрактной машины
    * и вы программу пишите с ними и только под них
 
* hardware-специфичные правила
    * применяются в зависимости от железа, на котором выполняется программа - под них программу писать не надо, но желательно понимать, чтобы понимать, каких ошибок можно ожидать от железа, когда в программе наошибались в правилах языка

Поговорим про hardware memory ordering

Варианты:
* really weak
* weak with data dependency
* usually strong
* sequentially consistent

![](weak-strong-table-4.png)

**really weak**

(Без специальных барьеров) нет никаких гарантий:

Вспомним пример:

```c++
int x = 0, y = 0;
int a = 0, b = 0;

void thread_1_worker_on_cpu_1() {
    x = 1; y = 2;

    if (b == 5)
        assert(a == 4);  // fail
}

void thread_2_worker_on_cpu_2() {
    a = 4; b = 5;

    if (y == 2)
        assert(x == 1);  // fail
}
```

Нет никаких гарантий на порядок/время записи данных в "общую память (L2 + RAM)", ровно как и на порядок/время их просачивания до "частной памяти ЦПУ (L1)".


**weak with data dependency**

Появляется гарантия (из статьи Джеффа):

> It means that if you write A->B in C/C++, you are always guaranteed to load a value of B which is at least as new as the value of A

**Замечание**: ниже написан код плюсовый, но сделаем вид, будто компилятор ничего переупорядочивать не будет, если будет - всё неверно. Мы как будто бы пишем на ассемблере в синтаксисе плюсов.

на примере:

```c++
int x = 0, y = 0;
int a = 0, b = 0;

void thread_1_worker_on_cpu_1() {
    x = 1;
    y = x;  // <---- в одну ячейку памяти пишем содержимое другой
    
    a = 1;
    b = 1;  // больше x, y, a, b никто не трогает
}

void thread_2_worker_on_cpu_2() {
    if (y == 1)
        assert(x == 1);  // ok

    if (b == 1)
        assert(a == 1);  // fail
}
```


**strong model**

> A strong hardware memory model is one in which every machine instruction comes implicitly with acquire and release semantics. As a result, when one CPU core performs a sequence of writes, every other CPU core sees those values change in the same order that they were written.

**Замечание**: Несмотря на то, что к strong model бодро отнесён x86/64, не все операции в x86/64 поддерживают strong memory model, читайте исходную статью и комментарии.

**Замечание**: ниже написан код плюсовый, но сделаем вид, будто компилятор ничего переупорядочивать не будет, если будет - всё неверно. Мы как будто бы пишем на ассемблере в синтаксисе плюсов.

```c++
int x = 0, y = 0, z = 0;

void thread_1_worker_on_cpu_1() {
    x = 1;
    y = 2;
    z = 3;
}

void thread_2_worker_on_cpu_2() {
    if (z == 3) {
        assert(y == 2);  // ok
        assert(x == 1);  // ok
    }
}
```

В strong модели разрешено переупорядочивание операций store-load (запись-чтение) (но запрещены load-store, store-store && load-load)

```c++
int x = 0, y = 0;
int a = 0, b = 0;

void thread_1_worker_on_cpu_1() {
    x = 1;  // store x
    a = y;  // load y
            // store a
}

void thread_2_worker_on_cpu_2() {
    y = 1;  // store y
    b = x;  // load x
            // store b
}
```

В результате такого "ассемблера" может получиться `a = 0 && b = 0`.

**Вопрос**: как?

<details>
<summary>ответ</summary>

* cpu1: register1 = read y ( == 0)
* cpu2: register2 = read x ( == 0)
* cpu1: x = 1
* cpu2: y = 1
* cpu1: a = register1 ( == 0)
* cpu2: b = register2 ( == 0)
    
    
</details>


**sequential consistent**

Любое переупорядочивание запрещено, из примера выше `a = 0 && b = 0` не получить.

<br />

##### C++ memory model (simplified, since C++11)

https://en.cppreference.com/w/cpp/atomic/memory_order

https://preshing.com/20120913/acquire-and-release-semantics

Теперь поговорим про memory ordering на уровне языка С++ - те, с которыми вам необходимо работать при написании программ.

В стандартной библиотеке С++ определён enum для различного рода ограничений на переупорядочивание операций с памятью.

```c++
typedef enum memory_order {
    memory_order_relaxed,
    memory_order_consume,
    memory_order_acquire,
    memory_order_release,
    memory_order_acq_rel,
    memory_order_seq_cst
} memory_order;
```

Из них рассмотрим:

```c++
memory_order_relaxed
memory_order_acquire
memory_order_release
memory_order_seq_cst
```

<br />

`memory_order_release`:

> A store operation with this memory order performs the release operation: no reads or writes in the current thread can be reordered after this store. 

```c++
a = 5;  // store a
x = 1;  // store x
y = a;  // load a  <== 5
        // store y

atomic_var.store(42, std::memory_order_release);
/*store op release barrier*/

... // операции, написанные выше с x, y и a
    // гарантировано будут выполнены до записи в atomic_var
```

`memory_order_acquire`:

> A load operation with this memory order performs the acquire operation on the affected memory location: no reads or writes in the current thread can be reordered before this load.

```c++
...  // операции, написанные ниже с x, y и a
     // не могут по времени произойти раньше чтения atomic_var
    
int z = atomic_var.load(std::memory_order_acquire);
/*load op acquire barrier*/

if (z == 42)
{
    x;  // load x  <== 1
    y;  // load y  <== 5
}
```

**Пример:** разобрать очень подробно про гарантии порядка вычислений. Вопрос: почему assert корректен?

```c++
std::atomic<bool> is_published{false};
int data = 0;

void thread_1_worker()
{
    data = 1;
    is_published.store(true, std::memory_order_release);
}

void thread_2_worker()
{
    if (is_published.load(std::memory_order_acquire))
        assert(data == 1);  // ok
}
```

Имена `release` и `acquire` подобраны по смыслу операции:
* `release` - опубликовать данные
* `acquire` - принять опубликованные данные

<br />

`memory_order_seq_cst` - операции не могут перескочить через барьер ни в какую сторону (аналог sequential consistent hardware memory model) - самый строгий и самый медленный вариант

`memory_order_seq_cst`:
* дефолтный способ упорядочивания в `atomic`-операциях (чтобы программисты меньше ошибались)
* аналог `volatile` в Java 5+



```c++
x = 1;  // store x
y = a;  // load a
        // store y

/*seq_cst barrier*/  // никакая из операций не может перескочить через барьер

z = 2;  // store x
b = c;  // load c
        // store b
```

<br />

`memory_order_relaxed`:
* возможны любые переупорядочивания операций с памятью (нет барьеров)
* гарантируется только атомарная модификация защищённого объекта

**Пример:**

```c++
std::atomic<int> atomic_var{0};

// нет гарантий на порядок операций с памятью,
// только атомарность работы с atomic_var
void thread_worker() {
    x = 1;
    atomic_var.store(2, std::memory_order_relaxed); 
    y = a;
}
```

<br />

Разница в гарантиях порядка необходима из-за различной стоимости барьеров в CPU: чем строже гарантии, тем медленнее могут выполняться команды.

* `relaxed` - самый быстрый (нет барьеров, только атомарность операции)
* `acquire/release` - медленнее или аналогично `relaxed` (барьеры в одну сторону + атомарность операции)
* `seq_cst` - медленнее или аналогично `acquire/release` (барьеры в обе стороны + атомарность операции)

<br />

##### оптимизированный DCLP

Напомню DCLP, на котором мы закончили его рассмотрение:

```c++
class Singleton
{
    static std::atomic<Singleton*> object;
    static std::mutex mtx;

public:
    static Singleton* instance()
    {
        auto* tmp = object.load();

        if (!tmp)  // check 1
        {
            std::lock_guard<std::mutex> lock(mtx);

            tmp = object.load();
            if (!tmp)  // check 2
            {
                tmp = new Singleton;
                object.store(tmp);
            }
        }
        return tmp;
    }
};
```

**Вопрос:** как, зная про memory ordering, сделать более быструю реализацию?

**Ответ:**

```c++
class Singleton
{
    static std::atomic<Singleton*> object;
    static std::mutex mtx;

public:
    static Singleton* instance()
    {
        auto* tmp = object.load(std::memory_order_acquire);  // <--- mem order on read data

        if (!tmp)  // check 1
        {
            std::lock_guard<std::mutex> lock(mtx);

            tmp = object.load(std::memory_order_acquire);  // <--- mem order on read data
            if (!tmp)  // check 2
            {
                tmp = new Singleton;
                object.store(tmp, std::memory_order_release);  // <--- mem order on publish data
            }
        }
        return tmp;
    }
};
```

**Замечание**: если верить [статье Jeff Pershing про `memory_order_consume`](https://preshing.com/20140709/the-purpose-of-memory_order_consume-in-cpp11/), в коде выше можно заменить `memory_order_acquire` на `memory_order_consume`, т.к. между load-операцией и дальнейшим кодом есть зависимость по данным, и всё станет ещё быстрее. Подробнее - читайте по ссылке.

<br />

##### оптимизированная сумма элементов в массиве

Напомню как мы считали сумму элементов в массиве:
    
```c++
int parallel_sum(const std::vector<int>& v, int threads_count)
{
    const int len = v.size() / threads_count;
    assert(len * threads_count == v.size());

    std::atomic<int> rv{0};  // <-- result

    std::vector<std::thread> threads;
    for (int i = 0; i < threads_count; ++i)
        threads.emplace_back([&, i, len](){
            for (int ix = len * i; ix < len * (i + 1); ++ix)
                 rv.fetch_add(v[ix]);  // <-- sum
        });

    for (auto& t: threads)
        t.join();

    return rv;
}
```

**Вопрос:** как, зная про memory ordering, сделать более быструю реализацию?

<details>
<summary>Ответ</summary>
<p>

```c++
// заменить это:
rv.fetch_add(v[ix]);

// на это:
rv.fetch_add(v[ix], std::memory_order_relaxed);  // <---- no barriers, just atomic update
```

</p>
</details>

<br />

##### lock free stack

На лекции мы реализуем lock free стэк с ошибками на базе списка и разберём ошибки.

Как делать правильный - начните разбирать [с этой статьи](https://habr.com/ru/post/216013/) и далее по ссыкам.

<br />

**Шаг 1:** нарисовать стэк на доске и обсудить как сделать lock-free операции `push`/`pop`

<br />

**Шаг 2:** накидаем примерную реализацию (объяснить каждую строчку)

```c++
template<typename T>
class Stack {
public:
    struct Element
    {
        T data;
        std::atomic<Element*> next{nullptr};
    };
    
private:
    std::atomic<Element*> top;

public:
    bool push(T item)
    {
        Element* val = new Element;
        val->data = std::move(item);
        
        while (true)
        {
            auto* t = top.load();
            val.next.store(t);
            if (top.compare_exchange_strong(t, val))       
               return true;
        }
    }
    
    std::optional<T> pop()
    {
       while (true)
       {
          auto* t = top.load();
          if (!t)
             return std::nullopt ;  // stack is empty

          auto* next = t->next.load();
          if (top.compare_exchange_strong(t, next))
          {
              return /* somehow free memory for element t and return value */;
          }
       }
    }
};
```

**Замечание:** если корректно заменить seq_cst операции на более слабые аналоги с relaxed && acquire/release порядком, то можно получить более быстрый код. Сейчас этим заниматься не будем

**Вопрос:** где в коде ошибка?

<details>
<summary>ответ</summary>
<p>

тут:

```c++
auto* next = t->next.load();
```

Пока выполняли `t->next`, этот элемент из списка могли уладить другим потоком. Нарисовать как её поймать.

Чтобы починить, нужно использовать специальные структуры данных, например hazard pointers. В  Java такой проблемы нет, её решает GC.

</p>
</details>

**Замечание:** ещё в коде есть ABA-ошибка в методе `pop` в `top.compare_exchange_strong(t, next)`. (Объяснить её)

Как чинить ABA-ошибки, [читайте в работе Страуструпа](http://www.stroustrup.com/isorc2010.pdf).