# Attention Is All You Need
- [I Finally Understood “Attention is All You Need” After So Long. Here’s How I Did It.](https://ai.plainenglish.io/i-finally-understood-attention-is-all-you-need-after-so-long-heres-how-i-did-it-263b46273f9f)

## 세 단계로 논문 읽기
- 핵심 아이디어는 무엇인가?
- 한 발짝 더 깊이
- 세세한 기술 이해

## 이 논문은 무엇을 해결한 것인가?
- seq2seq 기술은 번역 문제처럼 sequence를 sequence로 매핑하는 기술이다. 이 전까지 RNN, LSTM의 방법은 입력과 출력의 과정이 앞 단어의 처리 후에 다음 단어를 처리하는 식이기 때문에 병렬화되지 못 했다. 이 논문에서는 attention mechanism만을 사용함으로써 (출력은 여전히 단계적이지만) 입력의 병렬처리가 가능하진다.

## 모델의 구조
- attention: f(query)->(key, value)
- self-attention: Looks at words in the same sentence.
- cross-attention: Decoder looks at encoder output.

## scaled dot product attention
$$Attention(Q,K,V)=softmax(QK^T/\sqrt{d_k})\cdot V$$

In [None]:
import numpy as np

def explain_attention(Q, K, V):
    d_k = Q.shape[-1]
    print("Q:\n", Q)
    print("K:\n", K)
    print("V:\n", V)
    print("\nd_k (dimension of K):", d_k)
    
    scores = np.dot(Q, K.T) / np.sqrt(d_k)
    print("\nStep 1: Compute scores (QK^T / sqrt(d_k)):\n", scores)
    
    exp_scores = np.exp(scores)
    
    sum_exp_scores = np.sum(exp_scores, axis=1, keepdims=True)
    
    weights = exp_scores / sum_exp_scores
    print("\nStep 2: Softmax weights:\n", weights)
    
    output = np.dot(weights, V)
    print("\nStep 3: Weighted sum (Attention Output):\n", output)
    
    return output, weights

# Example input
Q = np.array([[1, 0, 1]])
K = np.array([[1, 0, 1], [0, 1, 0], [1, 1, 0]])
V = np.array([[0, 1], [1, 0], [1, 1]])

output, weights = explain_attention(Q, K, V)

Q:
 [[1 0 1]]
K:
 [[1 0 1]
 [0 1 0]
 [1 1 0]]
V:
 [[0 1]
 [1 0]
 [1 1]]

d_k (dimension of K): 3

Step 1: Compute scores (QK^T / sqrt(d_k)):
 [[1.15470054 0.         0.57735027]]

Step 2: Softmax weights:
 [[0.53289684 0.16794345 0.29915971]]

Step 3: Weighted sum (Attention Output):
 [[0.46710316 0.83205655]]
