### 3. Механизм внимания

В предыдущей главе мы готовили человеческий текст к восприятию машиной.  
Теперь рассмотрим основной механизм больших языковых моделей, разбив рассмотрение на 4 усложняющихся шага.

![](images/llm3.2.png)

![](images/llm3.3.png)

### 3.1 Проблема длины контекста (шаг 0)

Что такое перевод? - Это сопоставления токенов из разных словарей (с позиции этой книги).

А т.к. у различных языков различные грамматики, то минимальный смысловой токен - предложение (перевод слово - к слову невозможен, рисунок).   
Т.е. необходим учет контекста, причем чем он длиннее - тем лучше, но его сложнее вычислить - проблема.

Решением этой проблемы были рекурентные нейронные сети (РНН). В этих сетях результат работы одного блока, идет на вход следующего, откуда и берется название (рекурентный член последовательности вычисляется на основе предыдущего): 
1. Входной текст подается в шифратор 
2. Шифратор обновляет значения слоев (состояния скрытых слоев, hidden states), так, что в последнем слое зашифрован контекст всего входящего текста.
3. Дешифратор получает этот последний слой, чтобы генерировать перевод предложения (уже не рекурентно, опираясь каждый раз на слой-контекст, который не меняется).

Т.е. нейронная сеть, построенная на рекурентном механизме способна работать с контекстом как векторным представлением, но без динамики - дешифратору доступно только последнее состояние контекста. Таким образом, по построению, возникает ограничение на длину и сложность входного текста. 

![](images/llm3.4.png)

![](images/llm3.5.png)

### 3.2. Примитивное внимание: учет контекста (шаг 1)

В 2014 году был предложен механизм, позволяющий дешифратору получать все предыдущие состояния, а не только последнее. Причем дешифратор может ранжировать вклад скрытых слоев при генерации выходного токена.  
  
Ранг токена называется его весом (матрица весов слоя). 

В общем, идея внимания - это идея построения не просто понятного машине контекста, а эффективное его построение. На этом шаге объекты(токены) контекста восприятия машины количественно измеряются как более и менее важные.

![](images/llm3.6.png)

### 3.3 Стандартное внимание (шаг 2)
#### 3.3.1. Вычисление ранга относительно одной позиции.  

На этом шаге показавыается способ измерения важности токенов - вычисление весов внимания (attention weight). Обратим внимание, что эти веса вычисляются относительно позиции. Т.е. важность токена может быть разной относительно контекста.

Есть входящая последовательность токенов.  
Каждый элемент последовательности, представлен как 3-мерный вектор (размерность 3 выбрана для простоты иллюстраций).

Наша цель — вычислить векторы контекста относительно каждого элемента входящей последовательности.  
Для этого: 
- Вычислим промежуточные значения помощью скалярного произведения. Эти промежуточные значения называются, называются оценками внимания (attention score).
- Нормализуем эти значения. Нормализованные оценки внимания называются весами (attention weight).

Скалярное произведение определим как сумму поэлементного умножения. 
"Физический смысл" скалярного произведения - определение степени "перекрытия" векторов. Так, ортогональные вектора (1, 0) и (0, 1) вообще не "перекрываются" и дадут 0. Т.е. чем больше значение скалярное произведение - тем больше их "перекрытие" и оценка внимания. 

![](images/llm3.8.png)

![](images/llm3.9.png) 

![](images/llm3.10.png)

![](images/llm3.11.png) 

![](images/llm3.13.png) 

In [2]:
%pip install torch
import torch

# векторное представление входящий последовательности
inputs = torch.tensor(
  [[0.43, 0.15, 0.89], # Your     (x^1)
   [0.55, 0.87, 0.66], # journey  (x^2)
   [0.57, 0.85, 0.64], # starts   (x^3)
   [0.22, 0.58, 0.33], # with     (x^4)
   [0.77, 0.25, 0.10], # one      (x^5)
   [0.05, 0.80, 0.55]] # step     (x^6)
)

^C
Note: you may need to restart the kernel to use updated packages.


ModuleNotFoundError: No module named 'torch'

ERROR: Cannot uninstall 'TBB'. It is a distutils installed project and thus we cannot accurately determine which files belong to it which would lead to only a partial uninstall.


Collecting torch
  Downloading torch-2.3.0-cp39-cp39-win_amd64.whl (159.7 MB)
Collecting typing-extensions>=4.8.0
  Downloading typing_extensions-4.11.0-py3-none-any.whl (34 kB)
Collecting mkl<=2021.4.0,>=2021.1.1
  Downloading mkl-2021.4.0-py2.py3-none-win_amd64.whl (228.5 MB)
Collecting tbb==2021.*
  Downloading tbb-2021.12.0-py3-none-win_amd64.whl (286 kB)
Collecting intel-openmp==2021.*
  Downloading intel_openmp-2021.4.0-py2.py3-none-win_amd64.whl (3.5 MB)
Installing collected packages: tbb, intel-openmp, typing-extensions, mkl, torch
  Attempting uninstall: tbb
    Found existing installation: TBB 0.2


In [None]:
# вычисление оценок внимания

query = inputs[1]
attn_scores_2 = torch.empty(inputs.shape[0])
for i, x_i in enumerate(inputs):
    attn_scores_2[i] = torch.dot(x_i, query)
print(attn_scores_2)

tensor([0.9544, 1.4950, 1.4754, 0.8434, 0.7070, 1.0865])


In [None]:
# 1ый вариант нормализации 
attn_weights_2_tmp = attn_scores_2 / attn_scores_2.sum()
print("Attention weights:", attn_weights_2_tmp)
print("Sum:", attn_weights_2_tmp.sum())


Attention weights: tensor([0.1455, 0.2278, 0.2249, 0.1285, 0.1077, 0.1656])
Sum: tensor(1.0000)


In [None]:
# 2ой вариант нормализации. Нормализация с помощью softmax считается предпочтительнее, т.к. гарантирует, что веса всегда будут положительными. 
# Это позволяет интерпретировать выходные данные как вероятности или относительную важность (больший вес - большая важность).

def softmax_naive(x):
    return torch.exp(x) / torch.exp(x).sum(dim=0)
 
attn_weights_2_naive = softmax_naive(attn_scores_2)
print("Attention weights:", attn_weights_2_naive)
print("Sum:", attn_weights_2_naive.sum())

Attention weights: tensor([0.1385, 0.2379, 0.2333, 0.1240, 0.1082, 0.1581])
Sum: tensor(1.)


In [None]:
# вычисление векторного представления контекста относительно второго элемента входящей последовательности - inputs[1]

query = inputs[1] 
context_vec_2 = torch.zeros(query.shape)
for i,x_i in enumerate(inputs):
    context_vec_2 += attn_weights_2_naive[i]*x_i
print(context_vec_2)

#### 3.3.2 Вычисление ранга относительно всех позиций

Результаты предыдущего шага:  

![](images/llm3.12.png) 



In [None]:
# вычисление оценок внимания с помощью скалярного произведения
attn_scores = torch.empty(6, 6)
for i, x_i in enumerate(inputs):
    for j, x_j in enumerate(inputs):
        attn_scores[i, j] = torch.dot(x_i, x_j)
print(attn_scores)


In [None]:
# Код выше можно записать с помощью векторного произвденеия вектора inputs и транспонированного inputs.T (вычислительно эффективнее)
attn_scores = inputs @ inputs.T
print(attn_scores)

In step 2, as illustrated in Figure 3.12, we now normalize each row so that the values in each row sum to 1:

In [None]:
# нормализация со стандартной логистической функцией
attn_weights = torch.softmax(attn_scores, dim=1)
print(attn_weights)

In [None]:
# тест нормализации
row_2_sum = sum([0.1385, 0.2379, 0.2333, 0.1240, 0.1082, 0.1581])
print("Row 2 sum:", row_2_sum)
print("All row sums:", attn_weights.sum(dim=1))

In [None]:
# шаг 3 - скалярное (матричное) произведение векторов весов внимания и входящих токенов
all_context_vecs = attn_weights @ inputs
print(all_context_vecs) # Значения вектора весов контекста z_2, полученные сейчас и в е 3.3.1 совпали.  


#### 3.3.3 Вычисление ранга относительно всех возможных позиций (trainable weights)

Мы научились вычислять векторное представление контекста, связывая токены, векторные представления которых "накладываются". 
Но как расширить "глубину" контекста от предложений и абзацев до глав и книг? Необходимо усложнить механизм внимания, как-то учесть значимость контекста не только конкретного входного текста, но и всех возможных входных текстов. А т.к. "все возможные" тексты обработать нельзя, искомый механизм должен быть механизмом изменения, т.е. обучения от входного текста: 
- вводятся изменяющиеся матрицы вход, ключ, значение
-  



Реализуем логику улучшения векторного представления контекста с помощью изменения весов внимания:
- для каждого входящего токена создадим пару ключ - значения, где:
    - значение получено умножением матрицы весов на входящий токен
    - 




Наиболее заметным отличием является введение весовых матриц, которые обновляются во время обучения модели. Эти обучаемые весовые матрицы имеют решающее значение для того, чтобы модель (в частности, модуль внимания внутри модели) могла научиться создавать «хорошие» векторы контекста. (Обратите внимание, что мы будем обучать LLM в главе 5.)

Мы рассмотрим этот механизм самообслуживания в двух подразделах. Сначала мы напишем код шаг за шагом, как и раньше. Во-вторых, мы организуем код в компактный класс Python, который можно будет импортировать в архитектуру LLM, код которой мы напишем в главе 4.
3.4.1 Пошаговое вычисление весов внимания

Мы будем реализовывать механизм самообслуживания шаг за шагом, вводя три обучаемые весовые матрицы Wq, Wk и Wv. Эти три матрицы используются для проецирования встроенных входных токенов x(i) в векторы запроса, ключа и значения, как показано на рисунке 3.14.


Рисунок 3.14. На первом этапе механизма самообслуживания с обучаемыми весовыми матрицами мы вычисляем векторы запроса (q), ключа (k) и значения (v) для входных элементов x. Как и в предыдущих разделах, мы обозначаем второй вход, x(2), как вход запроса. Вектор запроса q(2) получается путем умножения матриц входных данных x(2) и весовой матрицы Wq. Аналогичным образом мы получаем векторы ключа и значения путем умножения матриц с использованием весовых матриц Wk и Wv.

Ранее в разделе 3.3.1 мы определили второй входной элемент x(2) как запрос при вычислении упрощенных весов внимания для вычисления вектора контекста z(2). Позже, в разделе 3.3.2, мы обобщили это для вычисления всех векторов контекста z(1) ... z(T) для входного предложения из шести слов «Ваше путешествие начинается с одного шага».

Аналогично, в целях иллюстрации мы начнем с вычисления только одного вектора контекста z(2). В следующем разделе мы изменим этот код для расчета всех векторов контекста.

Начнем с определения нескольких переменных:

In [None]:
x_2 = inputs[1]
d_in = inputs.shape[1]
d_out = 2

Обратите внимание, что в моделях, подобных GPT, входные и выходные измерения обычно одинаковы, но в целях иллюстрации, чтобы лучше следить за вычислениями, мы выбираем здесь разные входные (d_in=3) и выходные измерения (d_out=2).

Далее мы инициализируем три весовые матрицы Wq, Wk и Wv, показанные на рисунке 3.14:

In [None]:
torch.manual_seed(123)
W_query = torch.nn.Parameter(torch.rand(d_in, d_out), requires_grad=False)
W_key   = torch.nn.Parameter(torch.rand(d_in, d_out), requires_grad=False)
W_value = torch.nn.Parameter(torch.rand(d_in, d_out), requires_grad=False)

Обратите внимание, что мы устанавливаем require_grad=False, чтобы уменьшить беспорядок в выходных данных в целях иллюстрации, но если бы мы использовали весовые матрицы для обучения модели, мы бы установили require_grad=True для обновления этих матриц во время обучения модели.

Далее мы вычисляем векторы запроса, ключа и значения, как показано ранее на рисунке 3.14:

In [None]:
query_2 = x_2 @ W_query 
key_2 = x_2 @ W_key 
value_2 = x_2 @ W_value
print(query_2)

Как мы видим на основе результатов запроса, в результате получается двумерный вектор, поскольку мы устанавливаем количество столбцов соответствующей весовой матрицы через d_out равным 2:

тензор([0,4306, 1,4551])


Весовые параметры и веса внимания

Обратите внимание, что в весовых матрицах W термин «вес» является сокращением от «весовых параметров» — значений нейронной сети, которые оптимизируются во время обучения. Это не следует путать с весами внимания. Как мы уже видели в предыдущем разделе, веса внимания определяют степень, в которой вектор контекста зависит от различных частей входных данных, т. е. в какой степени сеть фокусируется на различных частях входных данных.

Подводя итог, можно сказать, что весовые параметры — это фундаментальные, изученные коэффициенты, которые определяют связи в сети, а веса внимания — это динамические, зависящие от контекста значения.




Несмотря на то, что наша временная цель состоит в том, чтобы вычислить только один вектор контекста, z(2), нам по-прежнему требуются векторы ключа и значения для всех входных элементов, поскольку они участвуют в вычислении весов внимания относительно запроса q(2), как показано на рисунке 3.14.

Мы можем получить все ключи и значения путем умножения матриц:

In [None]:
keys = inputs @ W_key 
values = inputs @ W_value
print("keys.shape:", keys.shape)
print("values.shape:", values.shape)

#A we can tell from the outputs, we successfully projected the 6 input tokens from a 3D onto a 2D embedding space:

keys.shape: torch.Size([6, 2])
values.shape: torch.Size([6, 2])


Теперь вторым шагом будет вычисление показателей внимания, как показано на рис. 3.15.

Рис. 3.15. Вычисление оценки внимания представляет собой вычисление скалярного произведения, аналогичное тому, что мы использовали в упрощенном механизме самообслуживания в разделе 3.3. Новым аспектом здесь является то, что мы не вычисляем скалярное произведение между входными элементами напрямую, а используем запрос и ключ, полученные путем преобразования входных данных с помощью соответствующих весовых матриц.

Сначала вычислим показатель внимания ω22:

In [None]:

keys_2 = keys[1]
attn_score_22 = query_2.dot(keys_2)
print(attn_score_22)


Опять же, мы можем обобщить эти вычисления на все показатели внимания посредством умножения матриц:

In [None]:
attn_scores_2 = query_2 @ keys.T # All attention scores for given query
print(attn_scores_2)

Как мы видим, в качестве быстрой проверки второй элемент в выходных данных соответствует attn_score_22, который мы вычислили ранее:

тензор([1,2705, 1,8524, 1,8111, 1,0795, 0,5577, 1,5440])

На третьем этапе мы переходим от оценок внимания к весам внимания, как показано на рис. 3.16.

Рисунок 3.16. После вычисления оценок внимания ω следующим шагом является нормализация этих оценок с помощью функции softmax для получения весов внимания α.

Затем, как показано на рис. 3.16, мы вычисляем веса внимания, масштабируя оценки внимания и используя функцию softmax, которую мы использовали ранее. Отличие от предыдущей версии состоит в том, что теперь мы масштабируем оценки внимания, разделив их на квадратный корень из вложения размер клавиш (обратите внимание, что извлечение квадратного корня математически эквивалентно возведению в степень на 0,5):

In [None]:
d_k = keys.shape[-1]
attn_weights_2 = torch.softmax(attn_scores_2 / d_k**0.5, dim=-1)
print(attn_weights_2)

Обоснование внимания к точечному продукту

Причина нормализации по размеру встраивания состоит в том, чтобы улучшить производительность обучения за счет исключения небольших градиентов. Например, при увеличении размера внедрения, который обычно превышает тысячу для GPT-подобных LLM, большие скалярные произведения могут привести к очень небольшим градиентам во время обратного распространения ошибки из-за примененной к ним функции softmax. По мере увеличения скалярного произведения функция softmax ведет себя скорее как ступенчатая функция, в результате чего градиенты приближаются к нулю. Эти небольшие градиенты могут резко замедлить обучение или привести к его застою.

Масштабирование с помощью квадратного корня из измерения внедрения является причиной того, почему этот механизм самообслуживания также называется вниманием масштабированного скалярного произведения.

Теперь последний шаг — вычислить векторы контекста, как показано на рисунке 3.17.

Рис. 3.17. На заключительном этапе вычисления внутреннего внимания мы вычисляем вектор контекста, объединяя все векторы значений через веса внимания.

Подобно разделу 3.3, где мы вычисляли вектор контекста как взвешенную сумму входных векторов, теперь мы вычисляем вектор контекста как взвешенную сумму векторов значений. Здесь веса внимания служат весовым коэффициентом, который взвешивает соответствующую важность каждого вектора значений. Как и в разделе 3.3, мы можем использовать умножение матриц для получения результата за один шаг:

In [None]:
context_vec_2 = attn_weights_2 @ values
print(context_vec_2)

Содержимое результирующего вектора следующее:

тензор([0,3061, 0,8210])

До сих пор мы вычислили только один вектор контекста z(2). В следующем разделе мы обобщим код для вычисления всех векторов контекста во входной последовательности от z(1) до z(T).


Зачем нужен запрос, ключ и значение?

Термины «ключ», «запрос» и «значение» в контексте механизмов внимания заимствованы из области поиска информации и баз данных, где аналогичные понятия используются для хранения, поиска и извлечения информации.

«Запрос» аналогичен поисковому запросу в базе данных. Он представляет текущий элемент (например, слово или токен в предложении), на котором модель фокусируется или пытается понять. Запрос используется для проверки других частей входной последовательности, чтобы определить, сколько внимания им следует уделить.

«Ключ» подобен ключу базы данных, используемому для индексации и поиска. В механизме внимания каждый элемент входной последовательности (например, каждое слово в предложении) имеет связанный ключ. Эти ключи используются для сопоставления с запросом.

«Значение» в этом контексте аналогично значению в паре «ключ-значение» в базе данных. Он представляет собой фактическое содержимое или представление входных элементов. Как только модель определяет, какие ключи (и, следовательно, какие части входных данных) наиболее релевантны запросу (текущий элемент фокуса), она извлекает соответствующие значения.


3.4.2. Реализация компактного класса Python с самообслуживанием

В предыдущих разделах мы выполнили множество шагов по вычислению результатов самообслуживания. В основном это было сделано в целях иллюстрации, чтобы мы могли проходить по одному шагу за раз. На практике, учитывая реализацию LLM, описанную в следующей главе, полезно организовать этот код в класс Python следующим образом:

Листинг 3.1. Компактный класс самообслуживания

In [None]:


import torch.nn as nn
class SelfAttention_v1(nn.Module):
    def __init__(self, d_in, d_out):
        super().__init__()
        self.d_out = d_out
        self.W_query = nn.Parameter(torch.rand(d_in, d_out))
        self.W_key   = nn.Parameter(torch.rand(d_in, d_out))
        self.W_value = nn.Parameter(torch.rand(d_in, d_out))
 
    def forward(self, x):
        keys = x @ self.W_key
        queries = x @ self.W_query
        values = x @ self.W_value
        attn_scores = queries @ keys.T # omega
        attn_weights = torch.softmax(
            attn_scores / keys.shape[-1]**0.5, dim=-1)
        context_vec = attn_weights @ values
        return context_vec

В этом коде PyTorch SelfAttention_v1 — это класс, производный от nn.Module, который является фундаментальным строительным блоком моделей PyTorch и предоставляет необходимые функциональные возможности для создания слоев модели и управления ими.

Метод __init__ инициализирует обучаемые весовые матрицы (W_query, W_key и W_value) для запросов, ключей и значений, каждая из которых преобразует входное измерение d_in в выходное измерение d_out.

Во время прямого прохода, используя метод Forward, мы вычисляем оценки внимания (attn_scores) путем умножения запросов и ключей, нормализуя эти оценки с помощью softmax. Наконец, мы создаем вектор контекста, взвешивая значения с помощью этих нормализованных показателей внимания.

Мы можем использовать этот класс следующим образом:

In [None]:
torch.manual_seed(123)
sa_v1 = SelfAttention_v1(d_in, d_out)
print(sa_v1(inputs))

Для быстрой проверки обратите внимание, что вторая строка ([0.3061, 0.8210]) соответствует содержимому context_vec_2 в предыдущем разделе.

Рисунок 3.18 суммирует механизм самообслуживания, который мы только что реализовали.

Рисунок 3.18. Внимательно мы преобразуем входные векторы во входную матрицу X с помощью трех весовых матриц: Wq, Wk и Wv. Затем мы вычисляем матрицу весов внимания на основе полученных запросов (Q) и ключей (K). Используя веса и значения внимания (V), мы затем вычисляем векторы контекста (Z). (Для наглядности на этом рисунке мы фокусируемся на одном входном тексте с n токенами, а не на пакете из нескольких входных данных. Следовательно, тензор трехмерного ввода в этом контексте упрощается до двумерной матрицы. Этот подход обеспечивает более простую визуализацию. и понимание происходящих процессов.)



Как показано на рис. 3.18, самовнимание включает в себя обучаемые весовые матрицы Wq, Wk и Wv. Эти матрицы преобразуют входные данные в запросы, ключи и значения, которые являются важнейшими компонентами механизма внимания. Поскольку во время обучения модель получает больше данных, она корректирует эти обучаемые веса, как мы увидим в следующих главах.

Мы можем улучшить реализацию SelfAttention_v1, используя слои nn.Linear PyTorch, которые эффективно выполняют умножение матриц, когда модули смещения отключены. Кроме того, существенным преимуществом использования nn.Linear вместо реализации nn.Parameter(torch.rand(...) вручную) является то, что nn.Linear имеет оптимизированную схему инициализации весов, что способствует более стабильному и эффективному обучению модели.

Листинг 3.2. Класс самообслуживания, использующий линейные слои PyTorch

In [None]:
class SelfAttention_v2(nn.Module):
    def __init__(self, d_in, d_out, qkv_bias=False):
        super().__init__()
        self.d_out = d_out
        self.W_query = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_key   = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_value = nn.Linear(d_in, d_out, bias=qkv_bias)
 
    def forward(self, x):
        keys = self.W_key(x)
        queries = self.W_query(x)
        values = self.W_value(x)
        attn_scores = queries @ keys.T
        attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=1)
        context_vec = attn_weights @ values
        return context_vec

In [None]:
#You can use the SelfAttention_v2 similar to SelfAttention_v1:

torch.manual_seed(789)
sa_v2 = SelfAttention_v2(d_in, d_out)
print(sa_v2(inputs))

Обратите внимание, что SelfAttention_v1 и SelfAttention_v2 дают разные выходные данные, поскольку они используют разные начальные веса для весовых матриц, поскольку nn.Linear использует более сложную схему инициализации весов.



Упражнение 3.1. Сравнение SelfAttention_v1 и SelfAttention_v2

Обратите внимание, что nn.Linear в SelfAttention_v2 использует другую схему инициализации веса, чем nn.Parameter(torch.rand(d_in, d_out)) в SelfAttention_v1, что приводит к тому, что оба механизма выдают разные результаты. Чтобы проверить, что обе реализации, SelfAttention_v1 и SelfAttention_v2, в остальном похожи, мы можем перенести весовые матрицы из объекта SelfAttention_v2 в SelfAttention_v1, чтобы оба объекта затем давали одинаковые результаты.

Ваша задача — правильно назначить веса экземпляра SelfAttention_v2 экземпляру SelfAttention_v1. Для этого нужно понять взаимосвязь весов в обоих вариантах. (Подсказка: nn.Linear хранит матрицу весов в транспонированной форме.) После присваивания вы должны заметить, что оба экземпляра выдают одинаковые выходные данные.



В следующем разделе мы усовершенствуем механизм само-внимания, уделяя особое внимание включению причинных и многоголовых элементов. Причинный аспект предполагает изменение механизма внимания, чтобы предотвратить доступ модели к будущей информации в последовательности, что имеет решающее значение для таких задач, как моделирование языка, где предсказание каждого слова должно зависеть только от предыдущих слов.

Компонент «многоголовость» предполагает разделение механизма внимания на несколько «голов». Каждая голова изучает различные аспекты данных, что позволяет модели одновременно обрабатывать информацию из разных подпространств представления в разных позициях. Это улучшает производительность модели в сложных задачах.

### 3.5 Скрытие будущих слов с помощью причинного внимания

В этом разделе мы модифицируем стандартный механизм само-внимания, чтобы создать механизм причинно-следственного внимания, который необходим для разработки LLM в последующих главах.

Причинное внимание, также известное как замаскированное внимание, представляет собой специализированную форму внимания к себе. Это ограничивает модель рассмотрением только предыдущих и текущих входных данных в последовательности при обработке любого данного токена. В этом отличие от стандартного механизма самообслуживания, который позволяет получить доступ ко всей последовательности ввода одновременно.

Следовательно, при вычислении показателей внимания механизм причинно-следственного внимания гарантирует, что модель учитывает только токены, которые встречаются на или до текущего токена в последовательности.

Чтобы добиться этого в LLM, подобных GPT, для каждого обработанного токена мы маскируем будущие токены, которые идут после текущего токена во входном тексте, как показано на рисунке 3.19.

Рисунок 3.19. В каузальном внимании мы маскируем веса внимания над диагональю, так что для данного входного сигнала LLM не может получить доступ к будущим токенам при вычислении векторов контекста с использованием весов внимания. Например, для слова «путешествие» во второй строке мы сохраняем веса внимания только для слов до («Ваш») и в текущей позиции («путешествие»).



Как показано на рисунке 3.19, мы маскируем веса внимания над диагональю и нормализуем немаскированные веса внимания так, чтобы сумма весов внимания равнялась 1 в каждой строке. В следующем разделе мы реализуем эту процедуру маскировки и нормализации в коде.
3.5.1 Применение маски причинного внимания

В этом разделе мы реализуем маску причинного внимания в коде. Начнем с процедуры, представленной на рис. 3.20.

Рисунок 3.20. Один из способов получить матрицу весов замаскированного внимания для причинного внимания — применить функцию softmax к показателям внимания, обнулив элементы над диагональю и нормализовав полученную матрицу.



Чтобы реализовать шаги по применению маски причинного внимания для получения замаскированных весов внимания, как показано на рисунке 3.20, давайте поработаем с показателями и весами внимания из предыдущего раздела, чтобы закодировать механизм причинного внимания.

На первом этапе, показанном на рисунке 3.20, мы вычисляем веса внимания с помощью функции softmax, как мы это делали в предыдущих разделах:

In [None]:
queries = sa_v2.W_query(inputs)
keys = sa_v2.W_key(inputs) 
attn_scores = queries @ keys.T
attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=1)
print(attn_weights)


In [None]:
We can implement step 2 in Figure 3.20 using PyTorch's tril function to create a mask where the values above the diagonal are zero:

context_length = attn_scores.shape[0]
mask_simple = torch.tril(torch.ones(context_length, context_length))
print(mask_simple)

The resulting mask is as follows:


tensor([[1., 0., 0., 0., 0., 0.],
        [1., 1., 0., 0., 0., 0.],
        [1., 1., 1., 0., 0., 0.],
        [1., 1., 1., 1., 0., 0.],
        [1., 1., 1., 1., 1., 0.],
        [1., 1., 1., 1., 1., 1.]])


In [None]:
Now, we can multiply this mask with the attention weights to zero out the values above the diagonal:

masked_simple = attn_weights*mask_simple
print(masked_simple)

As we can see, the elements above the diagonal are successfully zeroed out:

tensor([[0.1921, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.2041, 0.1659, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.2036, 0.1659, 0.1662, 0.0000, 0.0000, 0.0000],
        [0.1869, 0.1667, 0.1668, 0.1571, 0.0000, 0.0000],
        [0.1830, 0.1669, 0.1670, 0.1588, 0.1658, 0.0000],
        [0.1935, 0.1663, 0.1666, 0.1542, 0.1666, 0.1529]],
       grad_fn=<MulBackward0>)

In [None]:
 The third step in Figure 3.20 is to renormalize the attention weights to sum up to 1 again in each row. We can achieve this by dividing each element in each row by the sum in each row:

row_sums = masked_simple.sum(dim=1, keepdim=True)
masked_simple_norm = masked_simple / row_sums
print(masked_simple_norm)



The result is an attention weight matrix where the attention weights above the diagonal are zeroed out and where the rows sum to 1:

tensor([[1.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.5517, 0.4483, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.3800, 0.3097, 0.3103, 0.0000, 0.0000, 0.0000],
        [0.2758, 0.2460, 0.2462, 0.2319, 0.0000, 0.0000],
        [0.2175, 0.1983, 0.1984, 0.1888, 0.1971, 0.0000],
        [0.1935, 0.1663, 0.1666, 0.1542, 0.1666, 0.1529]],
       grad_fn=<DivBackward0>)



3.5 Hiding future words with causal attention

In this section, we modify the standard self-attention mechanism to create a causal attention mechanism, which is essential for developing an LLM in the subsequent chapters.

Causal attention, also known as masked attention, is a specialized form of self-attention. It restricts a model to only consider previous and current inputs in a sequence when processing any given token. This is in contrast to the standard self-attention mechanism, which allows access to the entire input sequence at once.

Consequently, when computing attention scores, the causal attention mechanism ensures that the model only factors in tokens that occur at or before the current token in the sequence.

To achieve this in GPT-like LLMs, for each token processed, we mask out the future tokens, which come after the current token in the input text, as illustrated in Figure 3.19.

Figure 3.19 In causal attention, we mask out the attention weights above the diagonal such that for a given input, the LLM can't access future tokens when computing the context vectors using the attention weights. For example, for the word "journey" in the second row, we only keep the attention weights for the words before ("Your") and in the current position ("journey").



As illustrated in Figure 3.19, we mask out the attention weights above the diagonal, and we normalize the non-masked attention weights, such that the attention weights sum to 1 in each row. In the next section, we will implement this masking and normalization procedure in code.
3.5.1 Applying a causal attention mask

In this section, we implement the causal attention mask in code. We start with the procedure summarized in Figure 3.20.

Figure 3.20 One way to obtain the masked attention weight matrix in causal attention is to apply the softmax function to the attention scores, zeroing out the elements above the diagonal and normalizing the resulting matrix.



To implement the steps to apply a causal attention mask to obtain the masked attention weights as summarized in Figure 3.20, let's work with the attention scores and weights from the previous section to code the causal attention mechanism.

In the first step illustrated in Figure 3.20, we compute the attention weights using the softmax function as we have done in previous sections:

queries = sa_v2.W_query(inputs)
keys = sa_v2.W_key(inputs) 
attn_scores = queries @ keys.T
attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=1)
print(attn_weights)

This results in the following attention weights:

tensor([[0.1921, 0.1646, 0.1652, 0.1550, 0.1721, 0.1510],
        [0.2041, 0.1659, 0.1662, 0.1496, 0.1665, 0.1477],
        [0.2036, 0.1659, 0.1662, 0.1498, 0.1664, 0.1480],
        [0.1869, 0.1667, 0.1668, 0.1571, 0.1661, 0.1564],
        [0.1830, 0.1669, 0.1670, 0.1588, 0.1658, 0.1585],
        [0.1935, 0.1663, 0.1666, 0.1542, 0.1666, 0.1529]],
       grad_fn=<SoftmaxBackward0>)

We can implement step 2 in Figure 3.20 using PyTorch's tril function to create a mask where the values above the diagonal are zero:

context_length = attn_scores.shape[0]
mask_simple = torch.tril(torch.ones(context_length, context_length))
print(mask_simple)

The resulting mask is as follows:


tensor([[1., 0., 0., 0., 0., 0.],
        [1., 1., 0., 0., 0., 0.],
        [1., 1., 1., 0., 0., 0.],
        [1., 1., 1., 1., 0., 0.],
        [1., 1., 1., 1., 1., 0.],
        [1., 1., 1., 1., 1., 1.]])

Now, we can multiply this mask with the attention weights to zero out the values above the diagonal:

masked_simple = attn_weights*mask_simple
print(masked_simple)

As we can see, the elements above the diagonal are successfully zeroed out:

tensor([[0.1921, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.2041, 0.1659, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.2036, 0.1659, 0.1662, 0.0000, 0.0000, 0.0000],
        [0.1869, 0.1667, 0.1668, 0.1571, 0.0000, 0.0000],
        [0.1830, 0.1669, 0.1670, 0.1588, 0.1658, 0.0000],
        [0.1935, 0.1663, 0.1666, 0.1542, 0.1666, 0.1529]],
       grad_fn=<MulBackward0>)
 

 The third step in Figure 3.20 is to renormalize the attention weights to sum up to 1 again in each row. We can achieve this by dividing each element in each row by the sum in each row:

row_sums = masked_simple.sum(dim=1, keepdim=True)
masked_simple_norm = masked_simple / row_sums
print(masked_simple_norm)



The result is an attention weight matrix where the attention weights above the diagonal are zeroed out and where the rows sum to 1:

tensor([[1.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.5517, 0.4483, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.3800, 0.3097, 0.3103, 0.0000, 0.0000, 0.0000],
        [0.2758, 0.2460, 0.2462, 0.2319, 0.0000, 0.0000],
        [0.2175, 0.1983, 0.1984, 0.1888, 0.1971, 0.0000],
        [0.1935, 0.1663, 0.1666, 0.1542, 0.1666, 0.1529]],
       grad_fn=<DivBackward0>)


Information leakage

When we apply a mask and then renormalize the attention weights, it might initially appear that information from future tokens (which we intend to mask) could still influence the current token because their values are part of the softmax calculation. However, the key insight is that when we renormalize the attention weights after masking, what we're essentially doing is recalculating the softmax over a smaller subset (since masked positions don't contribute to the softmax value).

The mathematical elegance of softmax is that despite initially including all positions in the denominator, after masking and renormalizing, the effect of the masked positions is nullified — they don't contribute to the softmax score in any meaningful way.

In simpler terms, after masking and renormalization, the distribution of attention weights is as if it was calculated only among the unmasked positions to begin with. This ensures there's no information leakage from future (or otherwise masked) tokens as we intended.


While we could be technically done with implementing causal attention at this point, we can take advantage of a mathematical property of the softmax function and implement the computation of the masked attention weights more efficiently in fewer steps, as shown in Figure 3.21.

Figure 3.21 A more efficient way to obtain the masked attention weight matrix in causal attention is to mask the attention scores with negative infinity values before applying the softmax function.



The softmax function converts its inputs into a probability distribution. When negative infinity values (-∞) are present in a row, the softmax function treats them as zero probability. (Mathematically, this is because e-∞ approaches 0.)

We can implement this more efficient masking "trick" by creating a mask with 1's above the diagonal and then replacing these 1's with negative infinity (-inf) values:

mask = torch.triu(torch.ones(context_length, context_length), diagonal=1)
masked = attn_scores.masked_fill(mask.bool(), -torch.inf)
print(masked)

This results in the following mask:

tensor([[0.2899,   -inf,   -inf,   -inf,   -inf,   -inf],
        [0.4656, 0.1723,   -inf,   -inf,   -inf,   -inf],
        [0.4594, 0.1703, 0.1731,   -inf,   -inf,   -inf],
        [0.2642, 0.1024, 0.1036, 0.0186,   -inf,   -inf],
        [0.2183, 0.0874, 0.0882, 0.0177, 0.0786,   -inf],
        [0.3408, 0.1270, 0.1290, 0.0198, 0.1290, 0.0078]],
       grad_fn=<MaskedFillBackward0>)
 
Now, all we need to do is apply the softmax function to these masked results, and we are done:

attn_weights = torch.softmax(masked / keys.shape[-1]**0.5, dim=1)
print(attn_weights)

As we can see based on the output, the values in each row sum to 1, and no further normalization is necessary:

tensor([[1.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.5517, 0.4483, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.3800, 0.3097, 0.3103, 0.0000, 0.0000, 0.0000],
        [0.2758, 0.2460, 0.2462, 0.2319, 0.0000, 0.0000],
        [0.2175, 0.1983, 0.1984, 0.1888, 0.1971, 0.0000],
        [0.1935, 0.1663, 0.1666, 0.1542, 0.1666, 0.1529]],
       grad_fn=<SoftmaxBackward0>)

We could now use the modified attention weights to compute the context vectors via context_vec = attn_weights @ values, as in section 3.4. However, in the next section, we first cover another minor tweak to the causal attention mechanism that is useful for reducing overfitting when training LLMs.



3.5.2 Masking additional attention weights with dropout

Dropout in deep learning is a technique where randomly selected hidden layer units are ignored during training, effectively "dropping" them out. This method helps prevent overfitting by ensuring that a model does not become overly reliant on any specific set of hidden layer units. It's important to emphasize that dropout is only used during training and is disabled afterward.

In the transformer architecture, including models like GPT, dropout in the attention mechanism is typically applied in two specific areas: after calculating the attention scores or after applying the attention weights to the value vectors.

Here, we will apply the dropout mask after computing the attention weights, as illustrated in Figure 3.22, because it's the more common variant in practice.

Figure 3.22 Using the causal attention mask (upper left), we apply an additional dropout mask (upper right) to zero out additional attention weights to reduce overfitting during training.




In the following code example, we use a dropout rate of 50%, which means masking out half of the attention weights. (When we train the GPT model in later chapters, we will use a lower dropout rate, such as 0.1 or 0.2.)

In the following code, we apply PyTorch's dropout implementation first to a 6×6 tensor consisting of ones for illustration purposes:


torch.manual_seed(123)
dropout = torch.nn.Dropout(0.5)
example = torch.ones(6, 6)
print(dropout(example))

s we can see, approximately half of the values are zeroed out:

tensor([[2., 2., 0., 2., 2., 0.],
        [0., 0., 0., 2., 0., 2.],
        [2., 2., 2., 2., 0., 2.],
        [0., 2., 2., 0., 0., 2.],
        [0., 2., 0., 2., 0., 2.],
        [0., 2., 2., 2., 2., 0.]])



When applying dropout to an attention weight matrix with a rate of 50%, half of the elements in the matrix are randomly set to zero. To compensate for the reduction in active elements, the values of the remaining elements in the matrix are scaled up by a factor of 1/0.5 =2. This scaling is crucial to maintain the overall balance of the attention weights, ensuring that the average influence of the attention mechanism remains consistent during both the training and inference phases.

Now, let's apply dropout to the attention weight matrix itself:

torch.manual_seed(123)
print(dropout(attn_weights))

The resulting attention weight matrix now has additional elements zeroed out and the remaining ones rescaled:

tensor([[2.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.7599, 0.6194, 0.6206, 0.0000, 0.0000, 0.0000],
        [0.0000, 0.4921, 0.4925, 0.0000, 0.0000, 0.0000],
        [0.0000, 0.3966, 0.0000, 0.3775, 0.0000, 0.0000],
        [0.0000, 0.3327, 0.3331, 0.3084, 0.3331, 0.0000]],
       grad_fn=<MulBackward0>



Note that the resulting dropout outputs may look different depending on your operating system; you can read more about this inconsistency [here on the PyTorch issue tracker at https://github.com/pytorch/pytorch/issues/121595.

Having gained an understanding of causal attention and dropout masking, we will develop a concise Python class in the following section. This class is designed to facilitate the efficient application of these two techniques.
3.5.3 Implementing a compact causal attention class

In this section, we will now incorporate the causal attention and dropout modifications into the SelfAttention Python class we developed in section 3.4. This class will then serve as a template for developing multi-head attention in the upcoming section, which is the final attention class we implement in this chapter.

But before we begin, one more thing is to ensure that the code can handle batches consisting of more than one input so that the CausalAttention class supports the batch outputs produced by the data loader we implemented in chapter 2.

For simplicity, to simulate such batch inputs, we duplicate the input text example:

batch = torch.stack((inputs, inputs), dim=0)
print(batch.shape)

This results in a 3D tensor consisting of 2 input texts with 6 tokens each, where each token is a 3-dimensional embedding vector:

torch.Size([2, 6, 3])



The following CausalAttention class is similar to the SelfAttention class we implemented earlier, except that we now added the dropout and causal mask components as highlighted in the following code:

Listing 3.3 A compact causal attention class

class CausalAttention(nn.Module):
    def __init__(self, d_in, d_out, context_length, dropout, qkv_bias=False):
        super().__init__()
        self.d_out = d_out
        self.W_query = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_key   = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_value = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.dropout = nn.Dropout(dropout)
        self.register_buffer(
           'mask',
           torch.triu(torch.ones(context_length, context_length),
           diagonal=1)
        )
 
    def forward(self, x):
        b, num_tokens, d_in = x.shape
New batch dimension b
        keys = self.W_key(x)
        queries = self.W_query(x)
        values = self.W_value(x)
 
        attn_scores = queries @ keys.transpose(1, 2)
        attn_scores.masked_fill_(
            self.mask.bool()[:num_tokens, :num_tokens], -torch.inf) 
        attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=-1)
        attn_weights = self.dropout(attn_weights)
 
        context_vec = attn_weights @ values
        return context_vec



While all added code lines should be familiar from previous sections, we now added a self.register_buffer() call in the __init__ method. The use of register_buffer in PyTorch is not strictly necessary for all use cases but offers several advantages here. For instance, when we use the CausalAttention class in our LLM, buffers are automatically moved to the appropriate device (CPU or GPU) along with our model, which will be relevant when training the LLM in future chapters. This means we don't need to manually ensure these tensors are on the same device as your model parameters, avoiding device mismatch errors.

We can use the CausalAttention class as follows, similar to SelfAttention previously:

torch.manual_seed(123)
context_length = batch.shape[1]
ca = CausalAttention(d_in, d_out, context_length, 0.0)
context_vecs = ca(batch)
print("context_vecs.shape:", context_vecs.shape)

The resulting context vector is a 3D tensor where each token is now represented by a 2D embedding:


context_vecs.shape: torch.Size([2, 6, 2])

Figure 3.23 provides a mental model that summarizes what we have accomplished so far.


Figure 3.23 A mental model summarizing the four different attention modules we are coding in this chapter. We began with a simplified attention mechanism, added trainable weights, and then added a casual attention mask. In the remainder of this chapter, we will extend the causal attention mechanism and code multi-head attention, which is the final module we will use in the LLM implementation in the next chapter.

As illustrated in Figure 3.23, in this section, we focused on the concept and implementation of causal attention in neural networks. In the next section, we will expand on this concept and implement a multi-head attention module that implements several of such causal attention mechanisms in parallel.


3.6 Extending single-head attention to multi-head attention

In this final section of this chapter, we are extending the previously implemented causal attention class over multiple-heads. This is also called multi-head attention.

The term "multi-head" refers to dividing the attention mechanism into multiple "heads," each operating independently. In this context, a single causal attention module can be considered single-head attention, where there is only one set of attention weights processing the input sequentially.

In the following subsections, we will tackle this expansion from causal attention to multi-head attention. The first subsection will intuitively build a multi-head attention module by stacking multiple CausalAttention modules for illustration purposes. The second subsection will then implement the same multi-head attention module in a more complicated but computationally more efficient way.
3.6.1 Stacking multiple single-head attention layers

In practical terms, implementing multi-head attention involves creating multiple instances of the self-attention mechanism (depicted earlier in Figure 3.18 in section 3.4.1), each with its own weights, and then combining their outputs. Using multiple instances of the self-attention mechanism can be computationally intensive, but it's crucial for the kind of complex pattern recognition that models like transformer-based LLMs are known for.

Figure 3.24 illustrates the structure of a multi-head attention module, which consists of multiple single-head attention modules, as previously depicted in Figure 3.18, stacked on top of each other.

Figure 3.24 The multi-head attention module in this figure depicts two single-head attention modules stacked on top of each other. So, instead of using a single matrix Wv for computing the value matrices, in a multi-head attention module with two heads, we now have two value weight matrices: Wv1 and Wv2. The same applies to the other weight matrices, Wq and Wk. We obtain two sets of context vectors Z1 and Z2 that we can combine into a single context vector matrix Z.



As mentioned before, the main idea behind multi-head attention is to run the attention mechanism multiple times (in parallel) with different, learned linear projections -- the results of multiplying the input data (like the query, key, and value vectors in attention mechanisms) by a weight matrix.

In code, we can achieve this by implementing a simple MultiHeadAttentionWrapper class that stacks multiple instances of our previously implemented CausalAttention module:

Listing 3.4 A wrapper class to implement multi-head attention

class MultiHeadAttentionWrapper(nn.Module):
    def __init__(self, d_in, d_out, context_length,
                 dropout, num_heads, qkv_bias=False):
        super().__init__()
        self.heads = nn.ModuleList(
            [CausalAttention(d_in, d_out, context_length, dropout, qkv_bias) 
             for _ in range(num_heads)]
        )
 
    def forward(self, x):
        return torch.cat([head(x) for head in self.heads], dim=-1)

For example, if we use this MultiHeadAttentionWrapper class with two attention heads (via num_heads=2) and CausalAttention output dimension d_out=2, this results in a 4-dimensional context vectors (d_out*num_heads=4), as illustrated in Figure 3.25.

Figure 3.25 Using the MultiHeadAttentionWrapper, we specified the number of attention heads (num_heads). If we set num_heads=2, as shown in this figure, we obtain a tensor with two sets of context vector matrices. In each context vector matrix, the rows represent the context vectors corresponding to the tokens, and the columns correspond to the embedding dimension specified via d_out=4. We concatenate these context vector matrices along the column dimension. Since we have 2 attention heads and an embedding dimension of 2, the final embedding dimension is 2 × 2 = 4.

To illustrate Figure 3.25 further with a concrete example, we can use the MultiHeadAttentionWrapper class similar to the CausalAttention class before:

torch.manual_seed(123)
context_length = batch.shape[1] # This is the number of tokens
d_in, d_out = 3, 2
mha = MultiHeadAttentionWrapper(d_in, d_out, context_length, 0.0, num_heads=2)
context_vecs = mha(batch)
 
print(context_vecs)
print("context_vecs.shape:", context_vecs.shape)

This results in the following tensor representing the context vectors:


tensor([[[-0.4519,  0.2216,  0.4772,  0.1063],
         [-0.5874,  0.0058,  0.5891,  0.3257],
         [-0.6300, -0.0632,  0.6202,  0.3860],
         [-0.5675, -0.0843,  0.5478,  0.3589],
         [-0.5526, -0.0981,  0.5321,  0.3428],
         [-0.5299, -0.1081,  0.5077,  0.3493]],
 
        [[-0.4519,  0.2216,  0.4772,  0.1063],
         [-0.5874,  0.0058,  0.5891,  0.3257],
         [-0.6300, -0.0632,  0.6202,  0.3860],
         [-0.5675, -0.0843,  0.5478,  0.3589],
         [-0.5526, -0.0981,  0.5321,  0.3428],
         [-0.5299, -0.1081,  0.5077,  0.3493]]], grad_fn=<CatBackward0>)
context_vecs.shape: torch.Size([2, 6, 4])



The first dimension of the resulting context_vecs tensor is 2 since we have two input texts (the input texts are duplicated, which is why the context vectors are exactly the same for those). The second dimension refers to the 6 tokens in each input. The third dimension refers to the 4-dimensional embedding of each token.
Exercise 3.2 Returning 2-dimensional embedding vectors

Change the input arguments for the MultiHeadAttentionWrapper(..., num_heads=2) call such that the output context vectors are 2-dimensional instead of 4-dimensional while keeping the setting num_heads=2. Hint: You don't have to modify the class implementation; you just have to change one of the other input arguments.

In this section, we implemented a MultiHeadAttentionWrapper that combined multiple single-head attention modules. However, note that these are processed sequentially via [head(x) for head in self.heads] in the forward method. We can improve this implementation by processing the heads in parallel. One way to achieve this is by computing the outputs for all attention heads simultaneously via matrix multiplication, as we will explore in the next section.
3.6.2 Implementing multi-head attention with weight splits

In the previous section, we created a MultiHeadAttentionWrapper to implement multi-head attention by stacking multiple single-head attention modules. This was done by instantiating and combining several CausalAttention objects.

Instead of maintaining two separate classes, MultiHeadAttentionWrapper and CausalAttention, we can combine both of these concepts into a single MultiHeadAttention class. Also, in addition to just merging the MultiHeadAttentionWrapper with the CausalAttention code, we will make some other modifications to implement multi-head attention more efficiently.

In the MultiHeadAttentionWrapper, multiple heads are implemented by creating a list of CausalAttention objects (self.heads), each representing a separate attention head. The CausalAttention class independently performs the attention mechanism, and the results from each head are concatenated. In contrast, the following MultiHeadAttention class integrates the multi-head functionality within a single class. It splits the input into multiple heads by reshaping the projected query, key, and value tensors and then combines the results from these heads after computing attention.

Let's take a look at the MultiHeadAttention class before we discuss it further:

Listing 3.5 An efficient multi-head attention class

class MultiHeadAttention(nn.Module):
    def __init__(self, d_in, d_out, 
                 context_length, dropout, num_heads, qkv_bias=False):
        super().__init__()
        assert d_out % num_heads == 0, "d_out must be divisible by num_heads"
 
        self.d_out = d_out
        self.num_heads = num_heads
        self.head_dim = d_out // num_heads
        self.W_query = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_key = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_value = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.out_proj = nn.Linear(d_out, d_out)
        self.dropout = nn.Dropout(dropout)
        self.register_buffer(
            'mask',
             torch.triu(torch.ones(context_length, context_length), diagonal=1)
        )
 
    def forward(self, x):
        b, num_tokens, d_in = x.shape
        keys = self.W_key(x)
        queries = self.W_query(x)
        values = self.W_value(x)
 
        keys = keys.view(b, num_tokens, self.num_heads, self.head_dim)
        values = values.view(b, num_tokens, self.num_heads, self.head_dim)
        queries = queries.view(b, num_tokens, self.num_heads, self.head_dim)
 
        keys = keys.transpose(1, 2)
        queries = queries.transpose(1, 2)
        values = values.transpose(1, 2)
 
        attn_scores = queries @ keys.transpose(2, 3)
        mask_bool = self.mask.bool()[:num_tokens, :num_tokens]
  
        attn_scores.masked_fill_(mask_bool, -torch.inf)
 
        attn_weights = torch.softmax(
            attn_scores / keys.shape[-1]**0.5, dim=-1)
        attn_weights = self.dropout(attn_weights)
 
        context_vec = (attn_weights @ values).transpose(1, 2)

        context_vec = context_vec.contiguous().view(b, num_tokens, self.d_out)
        context_vec = self.out_proj(context_vec)
        return context_vec



Even though the reshaping (.view) and transposing (.transpose) of tensors inside the MultiHeadAttention class looks very complicated, mathematically, the MultiHeadAttention class implements the same concept as the MultiHeadAttentionWrapper earlier.

On a big-picture level, in the previous MultiHeadAttentionWrapper, we stacked multiple single-head attention layers that we combined into a multi-head attention layer. The MultiHeadAttention class takes an integrated approach. It starts with a multi-head layer and then internally splits this layer into individual attention heads, as illustrated in Figure 3.26.

Figure 3.26 In the MultiheadAttentionWrapper class with two attention heads, we initialized two weight matrices Wq1 and Wq2 and computed two query matrices Q1 and Q2 as illustrated at the top of this figure. In the MultiheadAttention class, we initialize one larger weight matrix Wq , only perform one matrix multiplication with the inputs to obtain a query matrix Q, and then split the query matrix into Q1 and Q2 as shown at the bottom of this figure. We do the same for the keys and values, which are not shown to reduce visual clutter.



The splitting of the query, key, and value tensors, as depicted in Figure 3.26, is achieved through tensor reshaping and transposing operations using PyTorch's .view and .transpose methods. The input is first transformed (via linear layers for queries, keys, and values) and then reshaped to represent multiple heads.

The key operation is to split the d_out dimension into num_heads and head_dim, where head_dim = d_out / num_heads. This splitting is then achieved using the .view method: a tensor of dimensions (b, num_tokens, d_out) is reshaped to dimension (b, num_tokens, num_heads, head_dim).

The tensors are then transposed to bring the num_heads dimension before the num_tokens dimension, resulting in a shape of (b, num_heads, num_tokens, head_dim). This transposition is crucial for correctly aligning the queries, keys, and values across the different heads and performing batched matrix multiplications efficiently.

To illustrate this batched matrix multiplication, suppose we have the following example tensor:

a = torch.tensor([[[[0.2745, 0.6584, 0.2775, 0.8573],
                    [0.8993, 0.0390, 0.9268, 0.7388],
                    [0.7179, 0.7058, 0.9156, 0.4340]],
 
                   [[0.0772, 0.3565, 0.1479, 0.5331],
                    [0.4066, 0.2318, 0.4545, 0.9737],
                    [0.4606, 0.5159, 0.4220, 0.5786]]]])

Now, we perform a batched matrix multiplication between the tensor itself and a view of the tensor where we transposed the last two dimensions, num_tokens and head_dim:

print(a @ a.transpose(2, 3))

The result is as follows:

tensor([[[[1.3208, 1.1631, 1.2879],
          [1.1631, 2.2150, 1.8424],
          [1.2879, 1.8424, 2.0402]],
 
         [[0.4391, 0.7003, 0.5903],
          [0.7003, 1.3737, 1.0620],
          [0.5903, 1.0620, 0.9912]]]])



In this case, the matrix multiplication implementation in PyTorch handles the 4-dimensional input tensor so that the matrix multiplication is carried out between the 2 last dimensions (num_tokens, head_dim) and then repeated for the individual heads.

For instance, the above becomes a more compact way to compute the matrix multiplication for each head separately:



first_head = a[0, 0, :, :]
first_res = first_head @ first_head.T
print("First head:\n", first_res)
 
second_head = a[0, 1, :, :]
second_res = second_head @ second_head.T
print("\nSecond head:\n", second_res)


The results are exactly the same results that we obtained when using the batched matrix multiplication print(a @ a.transpose(2, 3)) earlier:

First head:
 tensor([[1.3208, 1.1631, 1.2879],
        [1.1631, 2.2150, 1.8424],
        [1.2879, 1.8424, 2.0402]])
 
Second head:
 tensor([[0.4391, 0.7003, 0.5903],
        [0.7003, 1.3737, 1.0620],
        [0.5903, 1.0620, 0.9912]])




Continuing with MultiHeadAttention, after computing the attention weights and context vectors, the context vectors from all heads are transposed back to the shape (b, num_tokens, num_heads, head_dim). These vectors are then reshaped (flattened) into the shape (b, num_tokens, d_out), effectively combining the outputs from all heads.

Additionally, we added a so-called output projection layer (self.out_proj) to MultiHeadAttention after combining the heads, which is not present in the CausalAttention class. This output projection layer is not strictly necessary (see the References section in Appendix B for more details), but it is commonly used in many LLM architectures, which is why we added it here for completeness.

Even though the MultiHeadAttention class looks more complicated than the MultiHeadAttentionWrapper due to the additional reshaping and transposition of tensors, it is more efficient. The reason is that we only need one matrix multiplication to compute the keys, for instance, keys = self.W_key(x) (the same is true for the queries and values). In the MultiHeadAttentionWrapper, we needed to repeat this matrix multiplication, which is computationally one of the most expensive steps, for each attention head.

The MultiHeadAttention class can be used similar to the SelfAttention and CausalAttention classes we implemented earlier:

torch.manual_seed(123)
batch_size, context_length, d_in = batch.shape
d_out = 2
mha = MultiHeadAttention(d_in, d_out, context_length, 0.0, num_heads=2)
context_vecs = mha(batch)
print(context_vecs)
print("context_vecs.shape:", context_vecs.shape)


s we can see based on the results, the output dimension is directly controlled by the d_out argument:

tensor([[[0.3190, 0.4858],
         [0.2943, 0.3897],
         [0.2856, 0.3593],
         [0.2693, 0.3873],
         [0.2639, 0.3928],
         [0.2575, 0.4028]],
 
        [[0.3190, 0.4858],
         [0.2943, 0.3897],
         [0.2856, 0.3593],
         [0.2693, 0.3873],
         [0.2639, 0.3928],
         [0.2575, 0.4028]]], grad_fn=<ViewBackward0>)
context_vecs.shape: torch.Size([2, 6, 2])



In this section, we implemented the MultiHeadAttention class that we will use in the upcoming sections when implementing and training the LLM itself. Note that while the code is fully functional, we used relatively small embedding sizes and numbers of attention heads to keep the outputs readable.

For comparison, the smallest GPT-2 model (117 million parameters) has 12 attention heads and a context vector embedding size of 768. The largest GPT-2 model (1.5 billion parameters) has 25 attention heads and a context vector embedding size of 1600. Note that the embedding sizes of the token inputs and context embeddings are the same in GPT models (d_in = d_out).
Exercise 3.3 Initializing GPT-2 size attention modules

Using the MultiHeadAttention class, initialize a multi-head attention module that has the same number of attention heads as the smallest GPT-2 model (12 attention heads). Also ensure that you use the respective input and output embedding sizes similar to GPT-2 (768 dimensions). Note that the smallest GPT-2 model supports a context length of 1024 tokens.



3.7 Summary

    Attention mechanisms transform input elements into enhanced context vector representations that incorporate information about all inputs.
    A self-attention mechanism computes the context vector representation as a weighted sum over the inputs.
    In a simplified attention mechanism, the attention weights are computed via dot products.
    A dot product is just a concise way of multiplying two vectors element-wise and then summing the products.
    Matrix multiplications, while not strictly required, help us to implement computations more efficiently and compactly by replacing nested for-loops.
    In self-attention mechanisms that are used in LLMs, also called scaled-dot product attention, we include trainable weight matrices to compute intermediate transformations of the inputs: queries, values, and keys.
    When working with LLMs that read and generate text from left to right, we add a causal attention mask to prevent the LLM from accessing future tokens.
    Next to causal attention masks to zero out attention weights, we can also add a dropout mask to reduce overfitting in LLMs.
    The attention modules in transformer-based LLMs involve multiple instances of causal attention, which is called multi-head attention.
    We can create a multi-head attention module by stacking multiple instances of causal attention modules.
    A more efficient way of creating multi-head attention modules involves batched matrix multiplications.
