<a href="https://colab.research.google.com/github/Taiga10969/Lecture-Transformer/blob/main/copy_code_Transformer_04_FeedFowardNetwork.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 写経して理解するTransformer_04：Feed Forward Network (FFN)

Feed Forward Networks(FFN)は，各トークンのベクトルごとに非線形変換処理を行う．
これにより，位置情報を考慮したまま特徴を非線形変換でき，モデルが複雑な関数を学習し，より高度な特徴を抽出することができる．
FFNは，2つの線形変換とその間のReLU関数により構成される．
FFNを式に示す．<br><br>
  $\mathrm{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2$
<br><br>
ここで，$x$はある位置におけるトークンの特徴量，$W_1$，$b_1$は1つ目の全結合層の重みとバイアス，$W_2$，$b_2$は2つ目の全結合層の重みとバイアスを表す．

## 必要ライブラリのインポート

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F

## 【FeedForwardNetworkクラスの定義】

In [2]:
class FeedForwardNetwork(nn.Module):

  def __init__(self, dim, hidden_dim, dropout=0.1):
    super().__init__()
    self.dropout = nn.Dropout(dropout)
    self.linear_1 = nn.Linear(dim, hidden_dim)
    self.relu = nn.ReLU()
    self.linear_2 = nn.Linear(hidden_dim, dim)

  def forward(self, x):
    x = self.linear_1(x)
    x = self.relu(x)
    x = self.dropout(x)
    x = self.linear_2(x)
    return x

## FeedForwardNetworkの挙動確認

In [3]:
# 疑似データ（Embedderによって1batch,7tokenが埋め込まれた，埋め込み次元数128のデータ）
input_data = torch.randn(1, 7, 128)

d_model = 128
hidden_dim = 512  # ヘッド数を4に設定

# Multi-Head Attentionモデルの作成
ffn = FeedForwardNetwork(d_model, hidden_dim)

# テストデータをMulti-Head Attentionに流す
output = ffn(input_data)

# 出力のサイズを確認
print("output.shape:", output.shape)

output.shape: torch.Size([1, 7, 128])
