# Transformer

ディープラーニング セクションの学習ステップ 7/8。
Transformerは、損失が下がる理由を『式』と『数値変化』の両方で確認する構成です。

このステップの到達目標: 損失、勾配、最適化、正則化のつながりをコードで確かめ、モデルの挙動を説明できる状態にします。
前提: ベクトル・行列の計算と、微分の意味を言葉で説明できると理解しやすくなります。

今回の中心語: 「順伝播」、「逆伝播」、「勾配」、「損失」、「正則化」、「Transformer」
前ステップ「再帰型ニューラルネットワーク（RNN/LSTM/GRU）」では 再帰状態の1ステップ更新 → 損失を計算する を確認しました。
ここまでに登場した語: 「順伝播」、「逆伝播」、「勾配」、「損失」、「正則化」、「ニューラルネットワーク」、「損失関数と勾配降下法」、「最適化と正則化」、「畳み込みとCNN」、「画像認識」
セクション全体のゴール: 損失、勾配、最適化、正則化のつながりをコードで確かめ、モデルの挙動を説明できる状態にします。

## 観察 1: 自己注意の最小例

Transformerの核心である注意重みを、2トークンの最小例で計算します。

In [None]:
import math
query = [1.0, 0.0]
key = [0.8, 0.6]
value = [0.3, 0.9]
score = sum(q * k for q, k in zip(query, key)) / math.sqrt(2)
weight = math.exp(score) / (math.exp(score) + math.exp(0.0))
x = [weight, 1 - weight, 1.0]
w = [value[0], value[1], 0.0]
z = sum(xi * wi for xi, wi in zip(x, w))
y = 1 / (1 + math.exp(-z))
print('task = transformer-basics', 'attn=', round(weight, 6), 'mix=', round(z, 6))

この注意重みの計算が、系列依存を扱う中心操作です。

この節では、順伝播 が入出力のどこを決めるかを中心に読める状態になれば十分です。

## 観察 2: 損失を計算する

次に、予測値に対する損失を計算します。学習は損失を下げる方向に進むので、損失の意味を言葉で説明できることが重要です。

In [None]:
target = 1.0
eps = 1e-9
loss = -(target * math.log(y + eps) + (1 - target) * math.log(1 - y + eps))
print('loss =', round(loss, 6))
print('error =', round(target - y, 6))

損失は『どれだけ外したか』を測る物差しです。物差しがない状態では、改善の方向を決められません。

この節では、順伝播 が入出力のどこを決めるかを中心に読める状態になれば十分です。

## 計算の対応表

1. $Attention(Q,K,V) = softmax(QK^T / sqrt(d_k))V$
2. $FFN(x) = W2 * sigma(W1*x + b1) + b2$

## 観察 3: 勾配降下法の一歩

ここで、重みを一回更新する最小実験を行います。更新前後の損失を比較して、学習の方向が正しいかを確認します。

In [None]:
lr = 0.1
grad = -(target - y) * y * (1 - y)
w_new = [wi - lr * grad * xi for wi, xi in zip(w, x)]
z_new = sum(xi * wi for xi, wi in zip(x, w_new)) + 0.1
y_new = 1 / (1 + math.exp(-z_new))
print('y before/after =', round(y, 6), round(y_new, 6))

この更新で損失が下がれば、勾配方向が合理的だったと言えます。下がらないなら学習率や符号を疑います。

この節では、順伝播 が入出力のどこを決めるかを中心に読める状態になれば十分です。

## 観察 4: 正則化の感覚を作る

次に、重みが大きくなりすぎることを抑える正則化項を追加します。過学習対策をコードで体験するのが狙いです。

In [None]:
l2 = 0.01
weight_norm = sum(wi * wi for wi in w_new)
loss_reg = loss + l2 * weight_norm
print('weight_norm =', round(weight_norm, 6))
print('regularized loss =', round(loss_reg, 6))

正則化は精度を上げる魔法ではなく、汎化の崩れを防ぐ保険です。評価データと合わせて効果を判断してください。

この節では、順伝播 が入出力のどこを決めるかを中心に読める状態になれば十分です。

## 観察 5: ミニバッチの考え方

最後に、複数サンプルをまとめて扱う発想を確認します。実務では1件ずつよりバッチ処理が主流です。

In [None]:
batch = [[0.8, -0.4, 0.2], [0.2, 0.1, -0.3], [0.5, -0.2, 0.7]]
targets = [1.0, 0.0, 1.0]
preds = []
for bx in batch:
    z_b = sum(xi * wi for xi, wi in zip(bx, w_new)) + 0.1
    preds.append(1 / (1 + math.exp(-z_b)))
print('preds =', [round(p, 4) for p in preds])

ミニバッチを扱えるようになると、計算効率と学習安定性の両面で設計の幅が広がります。

この節では、順伝播 が入出力のどこを決めるかを中心に読める状態になれば十分です。

## 要点整理

今回のノートで押さえておくべき誤解しやすい点を整理します。

1. 学習率が大きすぎて発散する
2. 検証損失の監視をせず過学習を見逃す
3. 前処理と活性化の相性を無視する

次は学習ステップ 8/8「自然言語処理」へ進み、今回のコードとの差分を確認してください。