
### Transformer 모델의 인코더와 디코더 구조 설명

이 노트북은 Transformer 모델의 인코더와 디코더 구조에 대해 설명하고, 이를 시각화한 도식을 포함합니다.



#### 인코더 (Encoder)
1. **Input Embedding**: 입력 문장을 고정된 차원의 벡터로 변환.
2. **Positional Encoding**: 입력 벡터에 위치 정보를 추가하여 순서 정보를 보존.
3. **Multi-Head Attention (Self)**: 각 단어가 문장의 다른 모든 단어와 관계를 학습.
4. **Add & Norm**: Attention 출력과 입력을 더하고, 정규화.
5. **Feed Forward**: 각 위치에서 독립적으로 적용되는 완전 연결 층.
6. **Add & Norm**: Feed Forward 출력과 입력을 더하고, 정규화.
7. **N x (Stack of Layers)**: 위 과정을 N번 반복.



#### 디코더 (Decoder)
1. **Input Embedding**: 출력 문장을 고정된 차원의 벡터로 변환.
2. **Positional Encoding**: 출력 벡터에 위치 정보를 추가.
3. **Multi-Head Attention (Self)**: 각 단어가 출력 문장의 다른 모든 단어와 관계를 학습.
4. **Add & Norm**: Attention 출력과 입력을 더하고, 정규화.
5. **Multi-Head Attention (Encoder-Decoder)**: 인코더의 출력과 디코더의 입력 간의 관계를 학습.
6. **Add & Norm**: Encoder-Decoder Attention 출력과 입력을 더하고, 정규화.
7. **Feed Forward**: 각 위치에서 독립적으로 적용되는 완전 연결 층.
8. **Add & Norm**: Feed Forward 출력과 입력을 더하고, 정규화.
9. **N x (Stack of Layers)**: 위 과정을 N번 반복.
10. **Linear & Softmax**: 최종 출력층으로, 다음 단어의 확률을 계산.


In [None]:

import matplotlib.pyplot as plt
import networkx as nx

# Define the Transformer Encoder-Decoder structure
G = nx.DiGraph()

# Encoder layers
encoder_layers = ['Input Embedding', 'Positional Encoding', 'Multi-Head Attention (Self)', 'Add & Norm', 
                  'Feed Forward', 'Add & Norm', 'N x (Stack of Layers)']

# Decoder layers
decoder_layers = ['Input Embedding', 'Positional Encoding', 'Multi-Head Attention (Self)', 'Add & Norm', 
                  'Multi-Head Attention (Encoder-Decoder)', 'Add & Norm', 'Feed Forward', 'Add & Norm', 
                  'N x (Stack of Layers)', 'Linear & Softmax']

# Add encoder nodes
for i, layer in enumerate(encoder_layers):
    G.add_node(f'Encoder {i+1}\n{layer}')

# Add decoder nodes
for i, layer in enumerate(decoder_layers):
    G.add_node(f'Decoder {i+1}\n{layer}')

# Add connections between encoder layers
for i in range(len(encoder_layers) - 1):
    G.add_edge(f'Encoder {i+1}\n{encoder_layers[i]}', f'Encoder {i+2}\n{encoder_layers[i+1]}')

# Add connections between decoder layers
for i in range(len(decoder_layers) - 1):
    G.add_edge(f'Decoder {i+1}\n{decoder_layers[i]}', f'Decoder {i+2}\n{decoder_layers[i+1]}')

# Add connection between encoder and decoder (Multi-Head Attention)
G.add_edge(f'Encoder 6\nAdd & Norm', f'Decoder 5\nMulti-Head Attention (Encoder-Decoder)')

# Draw the graph
plt.figure(figsize=(16, 12))
pos = nx.spring_layout(G, seed=42)
nx.draw(G, pos, with_labels=True, node_size=5000, node_color='lightblue', font_size=10, font_weight='bold', arrows=True)
plt.title('Transformer Encoder-Decoder Structure')
plt.show()
