# 어텐션(Attention)

### 맥락 벡터 : 단어 벡터에 가중치를  곱하여 합한 가중합을 구한 벡터
단어를 선택하는 작업은 미분 불가하므로 모든 것을 선택하고 단어의 중요도를 가중치로 계산

In [13]:
import numpy as np
np.random.seed(100)

T, H = 5, 4                # T : 시계열의 길이, H : Hidden size
hs = np.random.randn(T,H)  # (5,4)

print('hs:\n',hs)
print('hs0:\n',hs[0])

a = np.array([0.8, 0.1, 0.03, 0.05, 0.02]) # 가중치 , (5,)
print('a:\n',a)

# (1) repeat() 함수 사용
ar = a.reshape(T,1).repeat(4,axis=1) # (5,1)로 2차원으로 shape을 바꾸고 수평 방향으로 4번 반복 복사
print('ar:\n',ar)                    # (5,4)

t = hs * ar                          # (5,4) * (5,4) : 요소간의 곱셈, 단어벡터에 가중치를 곱함
print('t:\n',t)
print(t.shape)                       # (5,4)

# 가중합
c = np.sum(t,axis=0)                 # 수직 방향으로 합 , 가중합, 맥락 벡터
print('c  :',c)
print('hs0:',hs[0])
print(c.shape)                       # (4,)

print('-'*60)

# (2) 브로드캐스팅 사용, 1번과 결과 동일 
ar = a.reshape(T,1)                  # (5,1)로 2차원으로 shape을 바꿈
print('ar:\n',ar)                    # (5,1)

t = hs * ar                          # (5,4) * (5,1) : 브로드캐스팅 적용, , 단어벡터에 가중치를 곱함
print('t:\n',t)
print(t.shape)                       # (5,4)           

# 가중합
c = np.sum(t,axis=0)
print('c  :',c)
print('hs0:',hs[0])
print(c.shape)


hs:
 [[-1.74976547  0.3426804   1.1530358  -0.25243604]
 [ 0.98132079  0.51421884  0.22117967 -1.07004333]
 [-0.18949583  0.25500144 -0.45802699  0.43516349]
 [-0.58359505  0.81684707  0.67272081 -0.10441114]
 [-0.53128038  1.02973269 -0.43813562 -1.11831825]]
hs0:
 [-1.74976547  0.3426804   1.1530358  -0.25243604]
a:
 [0.8  0.1  0.03 0.05 0.02]
ar:
 [[0.8  0.8  0.8  0.8 ]
 [0.1  0.1  0.1  0.1 ]
 [0.03 0.03 0.03 0.03]
 [0.05 0.05 0.05 0.05]
 [0.02 0.02 0.02 0.02]]
t:
 [[-1.39981238  0.27414432  0.92242864 -0.20194883]
 [ 0.09813208  0.05142188  0.02211797 -0.10700433]
 [-0.00568487  0.00765004 -0.01374081  0.0130549 ]
 [-0.02917975  0.04084235  0.03363604 -0.00522056]
 [-0.01062561  0.02059465 -0.00876271 -0.02236636]]
(5, 4)
c  : [-1.34717053  0.39465326  0.95567913 -0.32348518]
hs0: [-1.74976547  0.3426804   1.1530358  -0.25243604]
(4,)
------------------------------------------------------------
ar:
 [[0.8 ]
 [0.1 ]
 [0.03]
 [0.05]
 [0.02]]
t:
 [[-1.39981238  0.27414432  0.92242864 

In [17]:
# 3차원 배열의 가중합의 구현, 맥락 벡터
np.random.seed(100)

N,T,H = 10,5,4   
hs = np.random.randn(N,T,H)
# print('hs:\n',hs)

np.random.seed(100)
a = np.random.randn(N,T)
print('a:\n',a)

ar = a.reshape(N,T,1).repeat(H,axis=2)
print('ar:\n',ar)

a:
 [[-1.74976547  0.3426804   1.1530358  -0.25243604  0.98132079]
 [ 0.51421884  0.22117967 -1.07004333 -0.18949583  0.25500144]
 [-0.45802699  0.43516349 -0.58359505  0.81684707  0.67272081]
 [-0.10441114 -0.53128038  1.02973269 -0.43813562 -1.11831825]
 [ 1.61898166  1.54160517 -0.25187914 -0.84243574  0.18451869]
 [ 0.9370822   0.73100034  1.36155613 -0.32623806  0.05567601]
 [ 0.22239961 -1.443217   -0.75635231  0.81645401  0.75044476]
 [-0.45594693  1.18962227 -1.69061683 -1.35639905 -1.23243451]
 [-0.54443916 -0.66817174  0.00731456 -0.61293874  1.29974807]
 [-1.73309562 -0.9833101   0.35750775 -1.6135785   1.47071387]]
ar:
 [[[-1.74976547 -1.74976547 -1.74976547 -1.74976547]
  [ 0.3426804   0.3426804   0.3426804   0.3426804 ]
  [ 1.1530358   1.1530358   1.1530358   1.1530358 ]
  [-0.25243604 -0.25243604 -0.25243604 -0.25243604]
  [ 0.98132079  0.98132079  0.98132079  0.98132079]]

 [[ 0.51421884  0.51421884  0.51421884  0.51421884]
  [ 0.22117967  0.22117967  0.22117967  0.2211