# Operating Systems Threads Synchronization

Me

February 28, 2016

#### План

- Конкурентное исполнение. Состояние Гонки.
- Взаимное исключение. Алгоритм Петерсона.
- Честное взаимное исключение. Алгоритм пекарни.
- Переупорядочивание. Когерентность кешей и модели памяти.
- Атомарность (CAS и LL/SC). Test-And-Set Lock.
   Queued Locks.
- Атомарный снимок (seqlock).
- Неблокирующая синхронизация.
- Проблема ABA и безопасное освобождение памяти.
- Differential Reference Counting. Hazzard Pointers. RCU.
- Per-CPU и Thread Local данные.



#### Конкуррентное исполнение



Figure: Concurrent Execution

Конкурентное исполнение - исполняющиеся участки кода нкаладываются друг на друга произвольным образом

- вы не должны делать никаких предположений о порядке наложения;
- произвольный порядок ведет к проивольному досутупу к общим ресурсам;

# Конкуррентное исполнение источники конкуррентности

- много агентов исполняющих код:
  - Hyper Threading, SMP, NUMA (shared memory);
  - cluster nodes (shared storage);

# Конкуррентное исполнение Источники конкуррентности

- много агентов исполняющих код:
  - Hyper Threading, SMP, NUMA (shared memory);
  - cluster nodes (shared storage);
- прерывания прерывают один код и запускают исполнение другого;

# Конкуррентное исполнение Источники конкуррентности

- много агентов исполняющих код:
  - Hyper Threading, SMP, NUMA (shared memory);
  - cluster nodes (shared storage);
- прерывания прерывают один код и запускают исполнение другого;
- сигналы userspace аналог прерываний.

### Конкурретное исполнение Состояние гонки

```
int cnt;

void foo(void)

{
    ++cnt;
}
```

```
extern int cnt;

void bar(void)

{
+ {
+ cnt;
}
```

### Конкурретное исполнение

```
1 .extern cnt
2
3 bar:
4 mov cnt, %rax
5 inc %rax
6 mov %rax, cnt
7 ret
```

#### Взаимное исключение

Взаимное исключение (Mutual Exclusion) - позволяет оградить критическую секцию, чтобы предотвратить конкуренции

- lock и unlock ограничивают критическую секции в начале и конце соответсвенно;
- только один поток исполнения может находиться в критической секции
  - lock не вернет управление, до тех пор, пока поток в критической секции не сделает unlock;
- если в критической секции не находитс поток, то из нескольких конкурирующих lock-ов, как миниум один будет успешным;

#### Взаимное исключение

#### Мы можем считать, что

- поток выйдет из критической секции за конечное время
  - поток не зависнет и не упадет внутри критической секции;

#### Взаимное исключение

#### Мы можем считать, что

- поток выйдет из критической секции за конечное время
  - поток не зависнет и не упадет внутри критической секции;

#### Мы не можем делать предположений о

- скорости работы потока
  - время нахождения в критической секции конечно, но ограничение сверху нам не известно;
- взаимной скорости работы потоков
  - мы не можем считать, что один поток быстрее/медленне другого или что их скорости равны



### Реализация взимного исключения Глобальный флаг

```
1   extern int claim1;
2   int claim0;
3   
4   void lock0()
5   {
6     claim0 = true;
7   while (claim1);
8   }
9   
void unlock0(void)
11   {
12     claim0 = false;
13  }
```

# Реализация взимного исключения глобальный флаг

Следующее расписание приводит к deadlock-y:

- 1 Thread 0, line 6;
- 2 Thread 1, line 6;
- Thread 0, line 7 (Thread 0 завис на этой строке);
- Thread 1, line 7 (Thread 1 завис на этой строке);

### Реализация взимного исключения глобальный порядок

```
int turn;

void lock0(void)

while (turn != 0);

while (turn != 0);

void unlock0(void)

turn = 1;

turn = 1;
```

```
1   extern int turn;
2
3   void lock1(void)
4   {
5      while (turn != 1);
6   }
7   
8   void unlock0(void)
9   {
10      turn = 0;
11   }
```

### Реализация взимного исключения Глобальный порядок

#### Расписание приводяещее к проблемам:

- Thread 1, line 5 (Thread 1 завис на этой строке);
- Thread 0 умер (решил не заходить в критическую секцию);

### Реализация взимного исключения Глобальный порядок

Расписание приводяещее к проблемам:

- Thread 1, line 5 (Thread 1 завис на этой строке);
- Thread 0 умер (решил не заходить в критическую секцию);

Да, оно довольно короткое...

#### Реализация взимного исключения Соберем все в кучу

```
extern int claim1;
    int claim0;
    int turn:
 4
5
    void lock0 (void)
6
7
       claim0 = true;
       turn = 1;
9
10
       while (claim1 && turn = 1);
11
12
13
    void unlock0 (void)
14
15
       claim0 = false;
16
```

```
extern int claim 0:
    extern int turn;
3
    int claim1:
4
5
6
7
8
    void lock1(void)
      claim1 = true;
      turn = 0;
10
       while (claim 0 && turn = 0);
11
12
13
    void unlock1(void)
14
15
       claim1 = false;
16
```

#### Доказательство взаимного исключения:

- пусть сразу два потока находятся в критической секции:
  - turn принимает одно из двух значений: 0 или 1; для определенности пусть это будет 0, т. е. последним в turn записывал поток 1;
  - claim0 и claim1 оба равны true;
- к моменту проверки условия цикла потоком 1 имеем:
  - turn равен 0;
  - claim0 равнен true;
  - но в этом случае поток 1 должен зависнуть в цикле до изменения turn или claim0 - противорчие;



Доказательство наличия прогресса: пусть поток 0 пытается войти в свободную критическую секцию:

- поток 0 в 10 строке видит claim1 == true:
  - поток 0 видит turn == 0, поток 0 входит в критическую секцию;
  - поток 0 видит turn ==1, возможны два случая:
    - поток 1 выполнил строку 8, поток 0 перезаписал turn
       поток 1 входит в критическую секцию;
    - поток 1 собирается выполнить строку 8 поток 0 войдет в критическую секцию, после того как поток 1 выполнит строку 8;

Доказательство наличия прогресса: пусть поток 0 пытается войти в свободную критическую секцию:

- поток 0 в 10 строке видит claim1 == true:
  - поток 0 видит turn == 0, поток 0 входит в критическую секцию;
  - поток 0 видит turn == 1, возможны два случая:
    - поток 1 выполнил строку 8, поток 0 перезаписал turn
       поток 1 входит в критическую секцию;
    - поток 1 собирается выполнить строку 8 поток 0 войдет в критическую секцию, после того как поток 1 выполнит строку 8;
- поток 0 видит claim1 == false поток 0 входит в критическую секцию;



#### Реализация взаимного исключения Алгоритм Петтерсона для N потоков

7

8

9 10

11

12

13 14

22 23

24

```
int flag[N];
int turn [N-1];
void lock(int i)
  for (int count = 0; count < N - 1; ++count) {
    flag[i] = count + 1;
    turn[count] = i;
    int found = true:
    while (turn[count] == i && found) {
      found = false;
      for (int k = 0; !found && k != N; ++k) {
        if (k = i) continue;
        found = flag[k] > count;
void unlock(int i)
  flag[i] = 0;
```

Рассмотрим пример на 3 потоках. Начальное состояние:

- $flag[3] = \{0, 0, 0\};$
- $turn[2] = \{0, 0\};$

Поток 0 пытается войти в критическую секцию (count = 0):

- $flag[3] = \{1, 0, 0\};$
- $turn[2] = \{0, 0\};$

Поток 1 пытается войти в критическую секцию (count = 0):

- $flag[3] = \{1, 1, 0\};$
- $turn[2] = \{1, 0\};$

Поток 2 пытается войти в критическую секцию (count = 0):

- $flag[3] = \{1, 1, 1\};$
- $turn[2] = \{2, 0\};$

Поток 1 пытается войти в критическую секцию (count = 1):

- $flag[3] = \{1, 2, 1\};$
- $turn[2] = \{2, 1\};$

Поток 1 вошел в критическую секцию... И вышел из критической секции:

- $flag[3] = \{1, 0, 1\};$
- $turn[2] = \{2, 1\};$

Поток 1 пытается войти в критическую секцию (count = 0):

- $flag[3] = \{1, 1, 1\};$
- $turn[2] = \{1, 1\};$

Поток 2 пытается войти в критическую секцию (count = 1):

- $flag[3] = \{1, 1, 2\};$
- $turn[2] = \{1, 2\};$

Поток 2 вошел в критическую секцию... И вышел из критической секции:

- $flag[3] = \{1, 1, 0\};$
- $turn[2] = \{1, 2\};$

Поток 2 пытается войти в критическую секцию (count = 0):

- $flag[3] = \{1, 1, 1\};$
- $turn[2] = \{2, 2\};$

Поток 1 пытается войти в критическую секцию (count = 1):

- $flag[3] = \{1, 2, 1\};$
- $turn[2] = \{2, 1\};$

Мы уже были в этом состоянии! А поток 0 так и не получил управление!

Как определить честность? Разделим lock на две части:

- вход (D) всегда завершается за изместное конечное количество шагов;
- ожидание (W) может потребовать неограниченное количество шагов;

Как определить честность? Разделим lock на две части:

- вход (D) всегда завершается за изместное конечное количество шагов;
- ожидание (W) может потребовать неограниченное количество шагов;

Свойство r-ограниченного ожидания для двух потоков (0 и 1):

- ullet если  $D_0^k$  (k-ый вход потока 0) предшествует  $D_1^j$  (j-ому входу потока 1);
- тогда k-ая критическая секция потока 0, предшсествует j+r-ой критической секции потока 1;



Как определить честность? Разделим lock на две части:

- вход (D) всегда завершается за изместное конечное количество шагов;
- ожидание (W) может потребовать неограниченное количество шагов;

Свойство r-ограниченного ожидания для двух потоков (0 и 1):

- ullet если  $D_0^k$  (k-ый вход потока 0) предшествует  $D_1^j$  (j-ому входу потока 1);
- ullet тогда k-ая критическая секция потока 0, предшсествует j+r-ой критической секции потока 1;

Алгоритм Петерсона не обладает свойством r-ограниченного ожидания ни для какого r.



### Реализация взаимного исключения Алгоритм Пекарни (Л. Лэмпорт)

Каждый поток при попытке входа выбирает себе число:

- число определяет место в очереди;
- новое число выбирается так, чтобы оно было больше всех чисел в очереди;

# Реализация взаимного исключения Алгоритм Пекарни (Л. Лэмпорт)

Каждый поток при попытке входа выбирает себе число:

- число определяет место в очереди;
- новое число выбирается так, чтобы оно было больше всех чисел в очереди;

Как выбирать это число?

- посмотреть на числа всех потоков и прибавить 1 к наибольшему;
- что если два потока выбирают число одновременно?

# Реализация взаимного исключения Алгоритм Пекарни (Л. Лэмпорт)

Каждый поток при попытке входа выбирает себе число:

- число определяет место в очереди;
- новое число выбирается так, чтобы оно было больше всех чисел в очереди;

Как выбирать это число?

- посмотреть на числа всех потоков и прибавить 1 к наибольшему;
- что если два потока выбирают число одновременно?

Как использовать выбранное число?

 если число наименьшее среди всех потоков выбравших число, то входим в критическую секцию;



# Реализация взаимного исключения Алгоритм Пекарни (Л. Лэмпорт)

```
int flag[N];
    int number[N];
 3
 4
    int max(void)
5
6
       int rc = 0:
7
       for (int i = 0; i != N; ++i) {
         const int n = number[i];
10
11
         if (n > rc)
12
           rc = n;
13
14
15
       return rc;
16
17
18
    int less(int id0, int n0,
19
               int id1, int n1)
20
21
       if (n0 < n1)
22
         return true;
23
       if (n0 = n1 \&\& id0 < id1)
24
         return true:
25
       return false;
26
```

```
void lock(int i)
2
3
       flag[i] = true;
      number[i] = max() + 1;
       flag[i] = false;
       for (int j = 0; j != N; ++j) {
         if (i == i)
           continue;
10
11
         while (flag[i]);
         while (number[j] &&
12
13
                less(j, number[j],
14
                      i, number[i]));
15
16
17
18
    void unlock(int i)
19
20
      number[i] = 0:
21
```

# Реализация взаимного исключения Честность алгоритм Пекарни

- вход алгоритма пекарни (D) состоит из:
  - выбора нового числа для потока;
- если  $D_0^k$  предшествует  $D_1^j$ , то число выбранное потоком 0 на входе k, будет меньше числа, выбранного потоком 1 на входе j;

# Реализация взаимного исключения Честность алгоритм Пекарни

- вход алгоритма пекарни (D) состоит из:
  - выбора нового числа для потока;
- если  $D_0^k$  предшествует  $D_1^j$ , то число выбранное потоком 0 на входе k, будет меньше числа, выбранного потоком 1 на входе j;
- т. е. поток 0 войдет в k-ую критическую секцию раньше, чем поток 1 войдет в j-ую 0-ограниченное ожидание.

## Переупорядочивание

К сожалению, описанные подходы, как есть, не будут работать...

#### Переупорядочивание

К сожалению, описанные подходы, как есть, не будут работать...

- компилятору разрешено переупорядочивать инструкции:
  - компилятор может делать с кодом все, что угодно, пока наблюдаемое поведение остается неизменным;
  - кеширование, удаление "мертвого" кода, спекулятивные записи и чтения и многое другое

#### Переупорядочивание

К сожалению, описанные подходы, как есть, не будут работать...

- компилятору разрешено переупорядочивать инструкции:
  - компилятор может делать с кодом все, что угодно, пока наблюдаемое поведение остается неизменным;
  - кеширование, удаление "мертвого" кода, спекулятивные записи и чтения и многое другое
- процессоры могут использовать оптимизации изменяющие порядок работы с памятью:
  - store buffer сохранение данных во временный буффер вместо кеша;
  - invalidate queue отложенный сброс линии кеша;



### Оптимизации компилятора

Компилятор подбирает оптимальный набор инструкций реализующий заданное наблюдаемое поведение (осторожно С и С++):

- обращения к volatile данным (чтение и запись);
- операции ввода/вывода (printf, scanf и тд).

### Оптимизации компилятора

Компилятор подбирает оптимальный набор инструкций реализующий заданное наблюдаемое поведение (осторожно С и С++):

- обращения к volatile данным (чтение и запись);
- операции ввода/вывода (printf, scanf и тд).

Если компилятору не сообщить, то он не знает:

- что переменная может модифицироваться в другом потоке;
- что переменную может читать другой поток;
- что порядок обращений к переменным важен;

- Чтобы сообщить компилятору о "побочных" эффектах работы с памятью нужно сделать эту память частью наблюдаемого поведения использовать ключевое слово volatile;
  - компилятору запрещено переупорядочивать обращения к volatile данным, если они разделены точкой следования;
  - компиялтор может переупорядочивать доступ к volatile данным с доступом к не volatile данным;

```
struct some struct {
      int a, b, c;
3
    };
4
    struct some struct * volatile

→ public;

6
7
    void foo (void)
8
       struct some struct *ptr =

→ alloc some struct();
10
11
      ptr->a = 1:
12
      ptr->b = 2:
13
      ptr->c = 3;
14
      // need something to prevent
      // reordering
15
       public = ptr;
16
17
```

```
void bar(void)
{
    while (!public);
    // and here too
    assert(public->a == 1);
    assert(public->b == 2);
    assert(public->c == 3);
}
```

Итого: volatile мало чем помогает, что делать? Смотреть в документацию компилятора! Например, gcc предлагает следующее решение:

```
#define barrier() asm volatile ("" : : "memory")
```

```
struct some struct {
      int a, b, c;
3
    };
4
    #define barrier() asm volatile
        struct some struct *public;
6
7
8
    void foo (void)
10
      struct some struct *ptr =

→ alloc some struct();
11
12
      ptr->a = 1;
13
      ptr->b = 2;
14
      ptr->c = 3;
      barrier();
15
      public = ptr:
16
17
```

```
void bar(void)

while (!public);

barrier();

assert(public->a = 1);

assert(public->b = 2);

assert(public->c = 3);

}
```



Figure: Cache Incoherency



Figure : Cache Incoherency



Figure: Cache Incoherency



Figure : Cache Incoherency



Figure : Cache Incoherency



Figure: Cache Incoherency



Figure : Cache Incoherency

Кеши должны находиться в согласованном состоянии (быть когерентными):

- процессоры могут обмениваться сообщениями:
  - можем считать, что сообщения передаются надежно;
  - не можем полагаться на порядок доставки и обработки сообщений;
- процессоры используют специальный протокол обеспечения когерентности:
  - наверно, самый широкоизвестный протокол MESI (есть сомнения, что он используется без модификаций);

#### **MESI**

MESI (Modified, Exclusive, Shared, Invalid) предполагает, что каждая линия кеша находится в одном из четырех состояний:

- Modified кеш линия находится только в кеше данного процессора и она была записана (может отличаться от версии в памяти);
- Exclusive кеш линия находится только в кеше данного процессора и она совпадает с копией в памяти;
- Shared кеш линия находится в кеше данного процессора и возможно в кешах других процессоров, содержимое совпадает с памятью;
- Invalid кеш линия не используется;



#### **MESI**

Перед тем как модифицировать данные процессор должен получить данные в эксклюзивное пользование:

- если несколько процессоров держат в кеше данные (Shared), то мы просим их сбросить данные;
- если другой процессор держит данные в кеше (Modified или Exclusive), то мы просим его передать нам данные
  - контроллер памяти может увидеть передачу и обновить данные в памяти;
  - или процессор может явно сбросить данные в память;
- если никто не держит данные в кеше, то мы получаем их от контроллера памяти;





Figure: Cache Store Stall

"Первая" запись данных приводит к ненужным остановкам ковеера:

- другие процессоры должны сбросить данные из кеша;
- процессор должен дождаться от них подтверждения;

"Первая" запись данных приводит к ненужным остановкам ковеера:

- другие процессоры должны сбросить данные из кеша;
- процессор должен дождаться от них подтверждения;
- но нам даже не нужно знать старое значение, если мы всеравно его перезаписываем!

"Первая" запись данных приводит к ненужным остановкам ковеера:

- другие процессоры должны сбросить данные из кеша;
- процессор должен дождаться от них подтверждения;
- но нам даже не нужно знать старое значение, если мы всеравно его перезаписываем!
- заведем малнеький кеш без поддержки когерентности (Store Buffer):
  - первоначально запишем данные в него;
  - когда придет подтверждение сбросим данные в кеш;



Figure: Store Buffer

```
1  void foo(void)
2  {
3    a = 1;
4    barrier();
5    b = 1;
6  }
7  
8  void bar(void)
9  {
   while (b == 0)
      continue;
12    barrier();
13    assert(a == 1);
14  }
```

- а равна 0 и находится в кеше CPU1;
- b равна 0 и находится в кеше CPU0;
- CPU0 исполняет foo и CPU1 исполняет bar;

- CPU0 исполняет строку 3;
- переменная *a* не в кеше CPU0
   посылаем Invalidate;
- сохраняем новое значение для а в Store Buffer;

```
1  void foo(void)
2  {
3     a = 1;
4     barrier();
5     b = 1;
6     }
7     8  void bar(void)
9     {
10         while (b == 0)
11         continue;
12         barrier();
13         assert(a == 1);
14  }
```

- CPU1 исполняет строку 10;
- переменная *b* не в кеше CPU1
  - запрашиваем ее для чтения;

- CPU0 исполняет строку 5;
- переменная b лежит в кеше СРU0 - можно ее прям там и обновить (кеш линия Modified или Exclusive);

```
void foo(void)

a = 1;
barrier();
b = 1;

void bar(void)

while (b = 0)
continue;
barrier();
assert(a = 1);

}
```

- СРU0 получает запрос на чтение b от СРU1;
- CPU0 отправляет последнее значение b = 1;
- СРU0 помечает кеш линию с перемнной b как Shared;

```
void foo(void)

a = 1;
barrier();
b = 1;

void bar(void)

while (b == 0)

continue;
barrier();
assert(a == 1);

}
```

- CPU1 получает ответ от CPU0 со значением *b*:
- CPU1 помещает значение b в кеш (кеш линия Shared);
- СРU1 может закончить выполнение строки 10 условие ложно;

```
1 void foo(void)
2 {
3 a = 1;
4 barrier();
5 b = 1;
7
8 void bar(void)
9 {
while (b == 0)
11 continue;
12 barrier();
13 | assert(a == 1);
14 }
```

- CPU1 исполняет строку 12;
- CPU1 держит в кеше старое значение a = 0;

```
void foo(void)

a = 1;
barrier();
b = 1;

void bar(void)

while (b = 0)
continue;
barrier();
assert(a = 1);

}
```

- CPU1 получает Invalidate но уже поздно;
- CPU1 сбрасывает линию и посылает Acknowledge CPU0;

#### Store Barrier

- Процессор ничего не знает о зависимостях между перемнными
  - он ничего не знал, о том, что сохранение a должно предшествовать сохранению b;
- чтобы указать процессору на зависимость используется специальная инструкция-барьер
  - в x86 есть инструкция sfence, которая гарантирует, что все записи начатые перед барьером "завершаться";
  - другими словами sfence ждет, пока Store Buffer опустеет;
  - sfence сериализует только store операции;



#### Invalidate Queue

- Store Buffer имеет ограниченный размер и может переполнится
  - хочется получать Acknowledge на Invalidate побыстрее;
  - сброс данных из кеша может занять время (если кеш занят или если много Invalidate сообщений пришло за раз);
- процессор может отложить инвалидацию кеша и послать Acknowledge почти сразу
  - при этом, конечно, он должен воздержаться от общения с другими СРU об "инвалидированной" кеш линии;
  - Invalidate при этом ставится в очередь (CPU обращается к этой очереди, только если собирается послать сообщение кому-то);



- a = 0 и она находится в кеше обоих процессоров (Shared);
- b = 0 и она находится в кеше CPU0 (Exclusive или Modified);
- CPU0 исполняет foo, a CPU1 исполняет bar;

```
#define wmb() asm volatile ("

    sfence" : : "memory

    void foo (void)
       a = 1;
      wmb();
      b = 1:
10
    void bar(void)
11
      while (b == 0)
         continue:
14
       barrier();
15
      assert (a == 1);
```

- CPU0 исполняет строку 5;
- кеш линия помечена как Shared - нужно послать Invalidate;

```
#define wmb() asm volatile ("
          \hookrightarrow sfence" : : "memory
     void foo (void)
       wmb();
       b = 1:
10
     void bar (void)
       while (b == 0)
         continue:
14
       barrier();
15
       assert (a == 1);
```

- CPU1 исполняет строку 12;
- *b* не в кеше CPU1 запрашиваем значение *b*;

```
#define wmb() asm volatile ("

→ sfence":: "memory
    void foo (void)
      wmb():
10
    void bar(void)
11
12
      while (b == 0)
        continue:
14
      barrier();
15
      assert (a == 1);
16
```

- CPU1 получает Invalidate от CPU0:
- CPU1 сохраняет запись в Invalidate Queue, но не сбрасывает кеш линию;
- CPU1 отправляет Acknowledge CPU0;

```
#define wmb() asm volatile ("
            sfence":: "memory
    void foo (void)
      a = 1:
       wmb();
        = 1:
    void bar(void)
12
        continue:
14
      barrier();
      assert (a == 1);
```

- CPU0 получает Acknowledge от CPU1;
- CPU0 может переместить значение *b* из Store Buffer в кеш и может завершить выполнение барьера;

```
#define wmb() asm volatile ("
          \hookrightarrow sfence" : : "memory
     void foo (void)
       a = 1;
      wmb();
       b = 1;
10
     void bar(void)
       while (b == 0)
         continue;
14
       barrier();
       assert (a == 1):
```

- CPU0 выполняет строку 7;
- b уже в кеше CPU0 и CPU0 владеет этими данными можно обновить прямо в кеше;

```
#define wmb() asm volatile ("

→ sfence": : "memory
    void foo (void)
      wmb():
      b = 1:
10
    void bar(void)
11
12
      while (b == 0)
        continue:
14
      barrier();
15
      assert (a == 1);
16
```

- СРU0 получает запрос на чтение b из СРU1;
- CPU0 отправляет обновленное значение b;

```
#define wmb() asm volatile ("
             sfence":: "memory
    void foo (void)
      wmb();
      b = 1:
10
    void bar (void)
       while (b == 0)
         continue:
14
       barrier();
15
      assert (a == 1);
```

- CPU1 получает ответ на запрос на чтение b от CPU0;
- CPU1 сохраняет полученное *b* в кеш и может завершить проверку условия условие ложно;

```
#define wmb() asm volatile ("
             sfence":: "memory
    void foo (void)
      wmb();
      b = 1:
10
    void bar (void)
11
12
      while (b == 0)
         continue;
       barrier();
       assert(a == 1);
16
```

- CPU1 выполняет строку 15;
- CPU1 старое значение a=0 все еще в кеше (мы не пометили ее как Invalid, а сразу отправили подтверждение);

```
#define wmb() asm volatile ("

→ sfence": : "memory
    void foo (void)
      wmb():
10
    void bar(void)
11
12
      while (b == 0)
        continue:
      barrier();
14
15
      assert (a == 1);
16
```

 CPU1 обрабатывает отложенный Invalidate, но слишком поздно;

#### Invalidate Queue

- Процессор ничего не знает о зависимостях между перемиными
  - он ничего не знал, о том, что чтение b должно строго предшествовать чтению a и "прочитал a" заранее;
- чтобы указать процессору на зависимость используется специальная инструкция-барьер
  - в x86 есть инструкция *lfence*, которая запрещает переупорядочивать операции чтения;
  - другими словами Ifence ждет, пока Invalidate Queue опустеет;

#### Осторожно х86

#### Важное замечание касательно примеров:

- в примерах выше sfence не нужен:
  - архитектура x86 гарантирует, что store операции одного процессора не могут быть "переставлены";
- в примерах выше Ifence не нужен:
  - архитектура x86 гарантирует, что load операции одного процессора не будут переставлены друг с другом;