# Transformer

RNN의 순차적 처리 한계를 극복하기 위해 제안된, 자기 주의(Self-Attention) 메커니즘 기반의 인코더-디코더 구조

## 모델 구조
- 인코더 N개 층
- 디코더 N개 층
- 각 층은 Multi-Head Attention과 Feed Forward Neural Network로 구성

### 핵심 수식

**Attention**:
- $Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$
- Q: Query, K: Key, V: Value
- $\sqrt{d_k}$: 스케일링 팩터 (어텐션 스코어의 분산을 1로 유지)

**Multi-Head Attention**:
- $MultiHead(Q, K, V) = Concat(head_1, ..., head_h)W^O$
- $head_i = Attention(QW^Q_i, KW^K_i, VW^V_i)$

### 구성 요소
- **인코더**:
  - Self-Attention: 입력 시퀀스 내 토큰 간 관계 파악
  - Feed Forward: 비선형 변환
  - Layer Normalization & Residual Connection

- **디코더**:
  - Masked Self-Attention: 미래 정보 참조 방지
  - Cross-Attention: 인코더 출력 참조
  - Feed Forward: 비선형 변환

- **Position Encoding**:
  - 순서 정보를 임베딩에 추가
  - 사인/코사인 함수 사용
  - 상대적 위치 정보 제공

## 작동 원리

### 1. 인코딩 단계
- 입력 임베딩 + 위치 인코딩
- Self-Attention으로 문맥 파악
- Feed Forward로 특징 추출

### 2. 디코딩 단계
- 자기 주의로 이전 출력 참조
- 교차 주의로 인코더 정보 참조
- 다음 토큰 예측

## 주요 특징
- 병렬 처리 가능 (RNN과 달리)
- 전역적 의존성 직접 모델링
- 고정된 길이 제한 없음
- 계산 복잡도: O(n²)

## 장점
- 병렬화로 인한 빠른 학습
- 긴 거리 의존성 잘 포착
- 풍부한 문맥 이해
- 확장성이 좋음 (BERT, GPT 등)

## 한계점
- 많은 메모리 요구
- 이차 복잡도로 인한 긴 시퀀스 처리의 어려움
- 위치 정보의 상대적 약점
  - 이를 개선하기 위한 다양한 변형 제안됨

## 응용 분야
- 자연어 처리 전반
- 기계 번역
- 텍스트 생성
- 문서 요약
- 질의응답