# Do it 자연어 처리 3장 숫자 세계로 떠난 자연어
## 3.4 트랜스포머에 적용된 기술들
### 피드포워드 뉴럴 네트워크

In [1]:
# 피드포워드 뉴럴 네트워크 계산 예시
import torch
x = torch.tensor([2, 1])
w1 = torch.tensor([[3,2,-4], [2,-3,1]])
b1 = 1
w2 = torch.tensor([[-1, 1], [1,2], [3,1]])
b2 = -1

In [2]:
h_preact = torch.matmul(x, w1) + b1 # 행렬곱 + 바이어스 수행
h = torch.nn.functional.relu(h_preact) # 활성함수 거침
y = torch.matmul(h, w2) + b2 # 두번째 은닉층 수행

In [3]:
print(h_preact)
print(h)
print(y)

tensor([ 9,  2, -6])
tensor([9, 2, 0])
tensor([-8, 12])


### 잔차연결
- 모델이 다양한 관점에서 블록 계산을 수행
- 모델 중간에 블록을 건너뛰는 경로를 설정함으로써 학습을 쉽게 하는 효과를 거둘 수 있음

### 레이어 정규화
- 학습이 안정되고 그 속도가 빨라짐

In [5]:
# 레이어 정규화 예시
import torch
input = torch.tensor([[1.0, 2.0, 3.0], [1.0, 1.0, 1.0]])
m = torch.nn.LayerNorm(input.shape[-1]) # 레이어 정규화 코드
output = m(input)
print(output)
print(m.weight)
print(m.bias)

tensor([[-1.2247,  0.0000,  1.2247],
        [ 0.0000,  0.0000,  0.0000]], grad_fn=<NativeLayerNormBackward0>)
Parameter containing:
tensor([1., 1., 1.], requires_grad=True)
Parameter containing:
tensor([0., 0., 0.], requires_grad=True)


### 드롭아웃
- 과적합 방지
- 일부 노드를 확률적으로 0으로 대치하여 계산에서 제외
- 10%가 일반적

In [6]:
# 드롭 아웃 예시
import torch
m = torch.nn.Dropout(p=0.2) # 안정적인 학습을 위해 각 요솟값에 1/(1-p)를 곱하기도 함
input = torch.randn(1,10)
output = m(input)
print(input)
print(output)

tensor([[ 0.3482,  1.7226,  0.9384,  0.2712,  2.2820,  0.9701,  0.3257,  1.5054,
         -1.4174, -0.7939]])
tensor([[ 0.4352,  2.1533,  1.1730,  0.0000,  2.8525,  0.0000,  0.4071,  1.8818,
         -1.7717, -0.9924]])


### 아담 옵티마이저
- 딥러닝 모델 학습: 출력-정답 사이 오차 최소화, 파라미터 업데이트 과정
- 손실(loss): 오차
- 기울기(gradient): 오차를 최소화하는 방향
- 최적화(optimization): 오차를 최소화하는 과정

In [None]:
# 아담 옵티마이저 예시
from torch.optim import Adam
optimizer = Adam(model.parameters(), lr=model.learning_rate) 
# lr을 정해주면 아담이 model.parameters(최적화 대상 파라미터들)에 방향과 보폭을 정해줌