**1. Self Attention📌**

아래 코드를 수행해보고, Self Attention은 어떤 메커니즘인지 설명하고,

 그 설명에 맞게 각 코드에 직접 주석을 달아봅시다.

 ✅설명:
Self-Attention은 문장 내 단어 간의 관계를 학습하는 메커니즘으로, 각 단어가 문장의 다른 단어들과 얼마나 관련이 있는지 점수화합니다. 이 메커니즘은 query와 key 벡터 간의 내적을 통해 유사도를 계산하여, 각 단어가 문장 내 다른 단어들과 얼마나 관련이 있는지 결정합니다. 결과적으로, 모든 단어들 사이의 상호 연관성을 나타내는 attention matrix가 생성됩니다.

In [1]:
import numpy as np

# 간단한 문장: ['나는', '사과를', '먹었다']
words = ['나는', '사과를', '먹었다']
word_vectors = {
    '나는': np.array([1, 0, 0]),
    '사과를': np.array([0, 1, 0]),
    '먹었다': np.array([0, 0, 1])
}

# 유사도 계산 함수 (self-attention)
def self_attention(query, key):
    return np.dot(query, key) # query와 key의 내적을 통해 유사도 계산

attention_matrix = np.zeros((len(words), len(words))) # Attention Matrix 초기화
for i in range(len(words)):
    for j in range(len(words)):
        attention_matrix[i][j] = self_attention(word_vectors[words[i]], word_vectors[words[j]]) # 각 단어 쌍의 유사도를 attention matrix에 저장

print("Self-Attention Matrix:")
print(attention_matrix)


Self-Attention Matrix:
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


**2. Multi-Head Self Attention📌**

아래 코드를 수행해보고, Multi-Head Self Attention은 어떤 메커니즘인지 설명하고,

 그 설명에 맞게 각 코드에 직접 주석을 달아봅시다.

 ✅설명: Multi-Head Self Attention은 여러 개의 attention heads를 사용하여 각 단어 간의 상호작용을 다양한 방식으로 학습합니다. 각 head는 서로 다른 가중치와 다른 관점에서 단어 간의 연관성을 학습하며, 이를 통해 모델은 더 복잡한 관계를 포착할 수 있습니다.

In [2]:
# 여러 개의 attention heads
def multi_head_self_attention(query, key, heads=3):
    return [np.dot(query, key) for _ in range(heads)] # 여러 개의 attention heads에서 각각의 유사도를 계산

multi_head_attention_matrix = np.zeros((len(words), len(words), 3)) # Multi-Head Attention Matrix 초기화
for i in range(len(words)):
    for j in range(len(words)):
        multi_head_attention_matrix[i][j] = multi_head_self_attention(word_vectors[words[i]], word_vectors[words[j]]) # 각 단어 쌍에 대해 여러 head의 attention 값을 저장

print("\nMulti-Head Self-Attention Matrix:")
print(multi_head_attention_matrix)



Multi-Head Self-Attention Matrix:
[[[1. 1. 1.]
  [0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [1. 1. 1.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]
  [1. 1. 1.]]]


**3. Masked Multi-Head Self Attention📌**

아래 코드를 수행해보고, Masked Multi-Head Self Attention은 어떤 메커니즘인지 설명하고,

 그 설명에 맞게 각 코드에 직접 주석을 달아봅시다.

 ✅설명: Masked Multi-Head Self Attention은 특정 단어 이후의 단어들을 보지 않도록 마스크를 적용하는 메커니즘입니다. 이는 주로 언어 모델에서 미래 정보를 참조하지 않도록 하기 위해 사용됩니다.

In [4]:
# 마스크 추가: 현재 단어 이후의 단어는 계산하지 않음
def masked_attention(query, key, mask):
    return np.dot(query, key) * mask # 유사도 계산 후 마스크 적용

mask = np.array([1, 1, 0])  # 첫 번째, 두 번째는 보지만, 세 번째는 보지 않는다 (이 빈칸 꼭 채워주세요 :) )
masked_attention_matrix = np.zeros((len(words), len(words))) # Masked Attention Matrix 초기화
for i in range(len(words)):
    for j in range(len(words)):
        masked_attention_matrix[i][j] = masked_attention(word_vectors[words[i]], word_vectors[words[j]], mask[j]) # 마스크를 적용한 attention 값을 저장

print("\nMasked Self-Attention Matrix:")
print(masked_attention_matrix)



Masked Self-Attention Matrix:
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 0.]]


**4. Cross Attention📌**

아래 코드를 수행해보고, Cross Attention은 어떤 메커니즘인지 설명하고,

 그 설명에 맞게 각 코드에 직접 주석을 달아봅시다.

 ✅설명: Cross Attention은 서로 다른 두 시퀀스 간의 상호작용을 학습하는 메커니즘입니다. 예를 들어, 입력 문장과 응답 문장 간의 연관성을 계산할 때 사용됩니다. 여기서는 두 문장의 단어들 사이의 유사도를 계산하여 attention matrix를 생성합니다.

In [5]:
# 입력 문장과 응답 문장
question_words = ['너는', '사과를']
answer_words = ['나는', '먹었다']
question_vectors = {
    '너는': np.array([1, 0]),
    '사과를': np.array([0, 1])
}
answer_vectors = {
    '나는': np.array([1, 0]),
    '먹었다': np.array([0, 1])
}

# Cross-Attention
cross_attention_matrix = np.zeros((len(question_words), len(answer_words))) # Cross-Attention Matrix 초기화
for i in range(len(question_words)):
    for j in range(len(answer_words)):
        cross_attention_matrix[i][j] = np.dot(question_vectors[question_words[i]], answer_vectors[answer_words[j]]) # 두 시퀀스 간의 유사도를 계산하여 저장

print("\nCross-Attention Matrix:")
print(cross_attention_matrix)


Cross-Attention Matrix:
[[1. 0.]
 [0. 1.]]
