<a href="https://colab.research.google.com/github/daanbee/tobigs-22nd/blob/main/%ED%88%AC%EB%B9%85%EC%8A%A4_Week5_%EA%B3%BC%EC%A0%9C1_transformer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**1. Self Attention📌**

아래 코드를 수행해보고, Self Attention은 어떤 메커니즘인지 설명하고,

 그 설명에 맞게 각 코드에 직접 주석을 달아봅시다.

 ✅설명:

In [4]:
import numpy as np

# 간단한 문장: ['나는', '사과를', '먹었다']
words = ['나는', '사과를', '먹었다']  # 문장을 구성하는 단어 리스트

# 각 단어에 대한 임의의 벡터 표현 (Word Embedding)
word_vectors = {
    '나는': np.array([1, 0, 0]),   # '나는'에 해당하는 벡터
    '사과를': np.array([0, 1, 0]),  # '사과를'에 해당하는 벡터
    '먹었다': np.array([0, 0, 1])   # '먹었다'에 해당하는 벡터
}

# 유사도 계산 함수 (Self-Attention의 핵심 연산: Query와 Key 간 내적)
def self_attention(query, key):
    return np.dot(query, key)  # Query와 Key의 벡터 내적을 통해 유사도 계산

# Attention 값을 담을 행렬 초기화 (단어 개수 x 단어 개수 크기)
attention_matrix = np.zeros((len(words), len(words)))

# 각 단어 간의 Self-Attention 계산 (Query와 Key를 비교하여 Attention 값 저장)
for i in range(len(words)):  # i번째 단어를 Query로 설정
    for j in range(len(words)):  # j번째 단어를 Key로 설정
        attention_matrix[i][j] = self_attention(word_vectors[words[i]], word_vectors[words[j]])
        # i번째 단어(Query)와 j번째 단어(Key)의 유사도를 행렬에 저장

# Self-Attention 행렬 출력
print("Self-Attention Matrix:")
print(attention_matrix)


Self-Attention Matrix:
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


**2. Multi-Head Self Attention📌**

아래 코드를 수행해보고, Multi-Head Self Attention은 어떤 메커니즘인지 설명하고,

 그 설명에 맞게 각 코드에 직접 주석을 달아봅시다.

 ✅설명:

In [2]:
# 여러 개의 attention heads를 계산하는 함수
def multi_head_self_attention(query, key, heads=3):
    return [np.dot(query, key) for _ in range(heads)]  # Query와 Key의 벡터 내적을 heads 개수만큼 계산하여 리스트로 반환

# 3개의 Attention Heads를 가지는 Multi-Head Attention 행렬 초기화
multi_head_attention_matrix = np.zeros((len(words), len(words), 3))  # (단어 개수, 단어 개수, heads 개수) 크기의 3D 행렬

# 각 단어 쌍에 대해 Multi-Head Self-Attention 계산
for i in range(len(words)):  # i번째 단어를 Query로 설정
    for j in range(len(words)):  # j번째 단어를 Key로 설정
        multi_head_attention_matrix[i][j] = multi_head_self_attention(word_vectors[words[i]], word_vectors[words[j]])
        # i번째 단어(Query)와 j번째 단어(Key)에 대해 각 head별 attention 값을 행렬에 저장

# Multi-Head Self-Attention 행렬 출력
print("\nMulti-Head Self-Attention Matrix:")
print(multi_head_attention_matrix)



Multi-Head Self-Attention Matrix:
[[[1. 1. 1.]
  [0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [1. 1. 1.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]
  [1. 1. 1.]]]


**3. Masked Multi-Head Self Attention📌**

아래 코드를 수행해보고, Masked Multi-Head Self Attention은 어떤 메커니즘인지 설명하고,

 그 설명에 맞게 각 코드에 직접 주석을 달아봅시다.

 ✅설명:

In [3]:
# 마스크된 Attention을 계산하는 함수 (현재 단어 이후의 단어는 계산하지 않음)
def masked_attention(query, key, mask):
    return np.dot(query, key) * mask  # Query와 Key의 내적 결과에 mask를 곱해 불필요한 계산을 제외

# 마스크 배열 (첫 번째, 두 번째 단어는 보지만, 세 번째 단어는 무시)
mask = np.array([1, 1, 0])  # 첫 번째, 두 번째 단어는 계산, 세 번째 단어는 계산하지 않음

# 마스크된 Self-Attention 행렬 초기화
masked_attention_matrix = np.zeros((len(words), len(words)))  # 단어 개수 x 단어 개수 크기의 2D 행렬

# 각 단어 쌍에 대해 Masked Self-Attention 계산
for i in range(len(words)):  # i번째 단어를 Query로 설정
    for j in range(len(words)):  # j번째 단어를 Key로 설정
        masked_attention_matrix[i][j] = masked_attention(word_vectors[words[i]], word_vectors[words[j]], mask[j])
        # j번째 단어(Key)에 대해 마스크 값을 적용하여 attention 값을 계산

# 마스크된 Self-Attention 행렬 출력
print("\nMasked Self-Attention Matrix:")
print(masked_attention_matrix)



Masked Self-Attention Matrix:
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 0.]]


**4. Cross Attention📌**

아래 코드를 수행해보고, Cross Attention은 어떤 메커니즘인지 설명하고,

 그 설명에 맞게 각 코드에 직접 주석을 달아봅시다.

 ✅설명:

In [5]:
# 입력 문장과 응답 문장에 포함된 단어 리스트
question_words = ['너는', '사과를']  # 질문에 해당하는 단어 리스트
answer_words = ['나는', '먹었다']   # 응답에 해당하는 단어 리스트

# 질문 문장에 있는 각 단어의 벡터 표현 (Word Embedding)
question_vectors = {
    '너는': np.array([1, 0]),   # '너는'에 해당하는 벡터
    '사과를': np.array([0, 1])  # '사과를'에 해당하는 벡터
}

# 응답 문장에 있는 각 단어의 벡터 표현 (Word Embedding)
answer_vectors = {
    '나는': np.array([1, 0]),   # '나는'에 해당하는 벡터
    '먹었다': np.array([0, 1])  # '먹었다'에 해당하는 벡터
}

# Cross-Attention 행렬 초기화 (질문 단어 개수 x 응답 단어 개수 크기의 행렬)
cross_attention_matrix = np.zeros((len(question_words), len(answer_words)))

# 질문 단어와 응답 단어 사이의 Cross-Attention 계산
for i in range(len(question_words)):  # i번째 질문 단어를 Query로 설정
    for j in range(len(answer_words)):  # j번째 응답 단어를 Key로 설정
        # 질문 단어의 벡터와 응답 단어의 벡터 간 내적을 통해 Cross-Attention 값을 계산
        cross_attention_matrix[i][j] = np.dot(question_vectors[question_words[i]], answer_vectors[answer_words[j]])

# Cross-Attention 행렬 출력
print("\nCross-Attention Matrix:")
print(cross_attention_matrix)



Cross-Attention Matrix:
[[1. 0.]
 [0. 1.]]
