# 셀프 어텐션

- 기본 어텐션 메커니즘은 입력된 문장을 처리한 이노더의 은닉 상태와등 단어를 출력하기 위한 디코더의 은닉 상태를 비교해 어떤 단어가 가장 중요한지를 나타내는 어텐션 점수를 계산함

- 트랜스포머는 인코더에서 입력토큰을 입베딩한 벡터만으로 **어텐션 점수**르 계산

- 디코더의 은닉 상태 없이 입력 토큰만으로 어텐션 점수를 계산하기 때문에 셀프 어텐션이라고 부름

    - **입력된 문장 속 단어들이 서로 얼마나 중요한지를 계산하는 과정**
 
- 계산 과정

    - 1. 입력을 3개의 다른 벡터로 변환
         - 입력 토큰을 서로 다른 밀집층에 통과 시켜 쿼리, 키, 값 벡터를 만듦
             - 쿼리 : 이 단어가 어떤 정보를 보고 싶어하는지(계산의 기준)
             - 키 : 가지고 있는 정보가 무엇인지 (비교의 기준)
             - 값 : 실제로 attention 가중치를 적용해 합성(output)할 값 (실제정보의내용)
               
         - 일반적으로 쿼리, 키, 값의 길이는 토큰 임베딩의 길이와 동일함
    2. 벡터 간 관계(유사도) 및 최종 결과 계산
        - 각각의 벡터들이 얼마나 관련이 있는지를 계산하기 위해 연산을 수행하고 임베딩 길이의 제곱근올 나눠 스켕리링
        - 이를 통해 연산의 값이 너무 커지지 않도록 안정화
        - 각 단어에 계산된 중요도를 확률처럼 확인할 수 있도록 소프트맥스 함수에 통과시켜 합이 1이 되도록 어텐션 점수를 정규화
        - 마지막으로 계산된 어텐션 점수와 값 벡터(V)를 곱하면 각 단어의 중요도 기반으로 새로운 벡터가 만들어짐
 
- 쿼리, 키, 값을 만들기 위한 밀집층의 가중치는 모두 모델이 훈련될 때 **역전파를 통해 학습되는 파라미터**

In [1]:
import keras
from keras import layers
import numpy as np
import matplotlib.pyplot as plt

In [3]:
def self_attention(inputs, att_dim):
    # input 를 세 개의 Dense 층에 통과 시켜 쿼리, 키, 값을 만듦
    query = layers.Dense(att_dim)(inputs)
    key = layers.Dense(att_dim)(inputs)
    value = layers.Dense(att_dim)(inputs)

    
    # transpose() 로 키 전치 할꺼임
    # 배치 차원은 제외하고 두 차원을 전치
    key_t = keras.ops.transpose(key, axes = (0, 2, 1))


    # 쿼리와 키의 전치를 행렬곱
    query_key_dot = keras.ops.matmul(query, key_t) / keras.ops.sqrt(att_dim)

    # 소프트맥스
    score = keras.activation.softmax(query_key_dot)
    # value에 곱해야지~~~
    return keras.ops.matmul(score ,  value)

- 셀프 어텐션에서 사용되는 세 개의 밀집층의 가중치는 훈련을 통해 학습됨

- 이 가중치를 통해 입력 토큰에서 어떤 단어에 주목할지를 결정하는 데 도움을 주는 어텐션 점수를 계산 