**1. Self Attention📌**

아래 코드를 수행해보고, Self Attention은 어떤 메커니즘인지 설명하고,

 그 설명에 맞게 각 코드에 직접 주석을 달아봅시다.

 ✅설명: 주어진 입력에서 각 요소가 다른 요소와의 관계를 학습하는 메커니즘임. 문장 내에서 각 단어가 문장의 다른 단어와 얼마나 연관되어 있는지를 계산. Query, Key, Value 벡터를 구성되며, 이 벡터들 간의 내적을 통해 각 요소가 다른 요소에 얼마나 집중할지 가중치를 부여함

In [None]:
import numpy as np

# 간단한 문장: ['나는', '사과를', '먹었다']
words = ['나는', '사과를', '먹었다']
word_vectors = {
    '나는': np.array([1, 0, 0]),  #'나는'에 대응하는벡터
    '사과를': np.array([0, 1, 0]), #'사과를' "
    '먹었다': np.array([0, 0, 1]) #'먹었다' "
}

# 유사도 계산 함수 (self-attention)
def self_attention(query, key):
    return np.dot(query, key) #Query 벡터와 Key 벡터 간의 내적 계산

attention_matrix = np.zeros((len(words), len(words)))
for i in range(len(words)):  #i: Query 단어
    for j in range(len(words)): #j: Key 단어
        attention_matrix[i][j] = self_attention(word_vectors[words[i]], word_vectors[words[j]])
         #i번째 단어(Query)와 j번째 단어(Key) 간의 self-attentionr계산

print("Self-Attention Matrix:")
print(attention_matrix)


Self-Attention Matrix:
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


**2. Multi-Head Self Attention📌**

아래 코드를 수행해보고, Multi-Head Self Attention은 어떤 메커니즘인지 설명하고,

 그 설명에 맞게 각 코드에 직접 주석을 달아봅시다.

 ✅설명: Self-Attention의 확장된 형태로, 여러 개의 서로 다른 Attention Head를 사용하여 더 다양한 관계와 정보를 학습할 수 있도록 설계됨. Self-Attention에서는 단일 Attention만 계산하지만, Multi-Head Attention에서는 여러개의 Attention Head를 병렬로 사용해 다양한 시각에서 정보를 처리함

In [None]:
# 여러 개의 attention heads
def multi_head_self_attention(query, key, heads=3):
    return [np.dot(query, key) for _ in range(heads)]
    #각 Head에서 Query와 Key간의 내적을 수행하여 Attention 값을 계산함

# multi_head_attention_matrix는 각 단어 간의 attention을 여러 head로 표현한 행렬
#3차원 배열로 구성:(단어수, 단어수, head수)
multi_head_attention_matrix = np.zeros((len(words), len(words), 3))
for i in range(len(words)):
    for j in range(len(words)):
        multi_head_attention_matrix[i][j] = multi_head_self_attention(word_vectors[words[i]], word_vectors[words[j]])

print("\nMulti-Head Self-Attention Matrix:")
print(multi_head_attention_matrix)



Multi-Head Self-Attention Matrix:
[[[1. 1. 1.]
  [0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [1. 1. 1.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]
  [1. 1. 1.]]]


**3. Masked Multi-Head Self Attention📌**

아래 코드를 수행해보고, Masked Multi-Head Self Attention은 어떤 메커니즘인지 설명하고,

 그 설명에 맞게 각 코드에 직접 주석을 달아봅시다.

 ✅설명: 기본적인 Multi-Head Self Attention에서 미래의 정보를 마스킹하여 보지 않도록 설계된 메커니즘임. 마스크를 사용하여 특정 위치의 Attention을 제한하고, 현재 시점에서 과거 단어에만 집중하도록 하는 방식임

In [None]:
# 마스크 추가: 현재 단어 이후의 단어는 계산하지 않음
def masked_attention(query, key, mask):
    return np.dot(query, key) * mask
    # Query와 Key간의 내적을 계산하고 마스크 값을 곱함(미래 단어는 0으로 처리), mask가 0인 경우 해당 attention값을 무시함

mask = np.array([1, 1, 0])  # 첫 번째, 두 번째는 보지만, 세 번째는 단어는 보지않음
masked_attention_matrix = np.zeros((len(words), len(words)))
for i in range(len(words)):
    for j in range(len(words)):
        masked_attention_matrix[i][j] = masked_attention(word_vectors[words[i]], word_vectors[words[j]], mask[j])

print("\nMasked Self-Attention Matrix:")
print(masked_attention_matrix)



Masked Self-Attention Matrix:
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 0.]]


**4. Cross Attention📌**

아래 코드를 수행해보고, Cross Attention은 어떤 메커니즘인지 설명하고,

 그 설명에 맞게 각 코드에 직접 주석을 달아봅시다.

 ✅설명: 두 개의 서로 다른 시퀀스 간에 이루어지는 Attention 메커니즘임. 이는 주로 질문과 응답, 또는 입력과 출력 같은 상호작용이 필요한 상황에서 사용됨. self Attention이 단일 시퀀스 내에서 단어들 간의 상호작용을 계산하는 반면, Cross Attention은 두 개의 서로 다른 시퀀스에서 단어들 간의 연관성을 계산함

In [None]:
# 입력 문장과 응답 문장
question_words = ['너는', '사과를']
answer_words = ['나는', '먹었다']
question_vectors = {
    '너는': np.array([1, 0]),
    '사과를': np.array([0, 1])
}
answer_vectors = {
    '나는': np.array([1, 0]),
    '먹었다': np.array([0, 1])
}

# Cross-Attention
cross_attention_matrix = np.zeros((len(question_words), len(answer_words)))
for i in range(len(question_words)):
    for j in range(len(answer_words)):
        cross_attention_matrix[i][j] = np.dot(question_vectors[question_words[i]], answer_vectors[answer_words[j]])

print("\nCross-Attention Matrix:")
print(cross_attention_matrix)


Cross-Attention Matrix:
[[1. 0.]
 [0. 1.]]
