----
----

**Attention ile F(x) HER ZAMAN ÇARPILIR.**

**ASLA attention + F(x) diye toplanmaz.**

**x, attention sürecine hiç girmez.x ayrı bir yoldan, doğrudan sona gider.**


-----
----- 

# Residual + Attention Fusion Pattern (7) - Not Defteri

**Kapsam:** Bu defter, residual bloklar ile attention modüllerini birleştirirken kullanılan **fusion pattern** (tasarım kalıpları) mantığını; nerede/niçin uygulandığını; pratikte PyTorch'ta nasıl kodlandığını; ve tasarım seçimlerinin (yerleşim, ölçekleme, norm/aktivasyon sırası) sonuçlarını **notluk** formatta toplar.

**Bu bölüm ne değildir?** Stochastic Depth, ShakeDrop, DropBlock vb. eğitim-zamanı regularization teknikleri burada ana konu değildir. Burada odak: **inference-time mimari akış** ve “attention'ı residual ile nereye nasıl koyduğun” sorusu.

---

## 0) Kısa sözlük

- **Residual branch (F(x))**: Bloğun "öğrenen" yolu (conv/norm/act vb.).
- **Identity/skip path (x)**: Doğrudan taşınan yol.
- **Add**: Birleşim işlemi: `y = x + F(x)`.
- **Attention**: Özellik haritalarını **yeniden ağırlıklandıran** modül.
- **Fusion pattern**: Attention’ın **hangi akışa** ve **hangi sırayla** eklendiğini tarif eden kalıp.

---


## 1) Daha önce işlenen bloklar ve attention'lar (mini tanım tablosu)

Aşağıdaki tabloda sadece **kısa tanım** var (detaylar önceki başlıklarda). Bu defterin geri kalanı "residual + attention" birleşim kalıplarına odaklanır.

### 1.1 Residual bloklar (özet)

| Residual Blok | Mini Tanım |
|---|---|
| **Basic Residual Block** | 2 adet 3×3 conv (veya benzeri) + skip-add; düşük/orta kanallarda standart ResNet bloğu. |
| **Pre-activation Residual Block** | BN+Act önce gelir; `BN→Act→Conv` sırası ile gradient akışı ve optimizasyon daha stabil. |
| **Wide Residual Block** | Kanal sayısı artırılmış (widen factor); daha az derinlikle daha yüksek kapasite. |
| **ResNeXt Grouped Convolution Block** | Bottleneck içinde **grouped conv** + cardinality; aynı FLOPs ile daha zengin temsiller. |
| **Bottleneck with Expansion** | `1×1 reduce → 3×3 process → 1×1 expand` (expansion>1); derin ResNet'lerin temel bloğu. |
| **Squeeze-Excite Residual Block** | Residual branch üzerinde **SE** ile kanal ağırlıkları öğrenilerek `F(x)` yeniden ölçeklenir. |

### 1.2 Attention modülleri (özet)

| Attention | Mini Tanım |
|---|---|
| **SE (Squeeze-and-Excitation)** | Global average pooling ile kanal istatistiği çıkarır, küçük MLP ile kanal ağırlıkları üretir. |
| **ECA (Efficient Channel Attention)** | SE gibi kanal dikkatidir; MLP yerine 1D conv ile daha hafif kanal etkileşimi kurar. |
| **CBAM** | Kanal attention + uzamsal (spatial) attention'ı ardışık uygular; genel amaçlı modül. |
| **Coordinate Attention** | Uzamsal bilgiyi koordinat eksenlerinde özetleyip kanal attention ile birleştirir; konum duyarlı kanal ağırlığı üretir. |

---


## 2) Fusion Pattern nedir, neden ayrı başlık?

Attention eklemek tek başına bir şey söylemez. Kritik olan: **attention nerede uygulanıyor?**

Aynı attention modülü (ör. SE) farklı yere konduğunda:

- Gradient akışı,
- Representational capacity,
- Hesap yükü,
- Eğitim stabilitesi,
- Düşük seviye/ yüksek seviye feature davranışı

değişebilir.

Bu yüzden **"Residual + Attention Fusion Pattern"** bir *mimari tasarım kalıbı* başlığıdır.

### 2.1 Fusion pattern'i tanımlayan 3 soru

1. **Konum (Where?)**: Attention, residual branch içinde mi, add'den sonra mı, skip üzerinde mi?
2. **Neyi modüle ediyor (What?)**: Kanal mı, spatial mı, ikisi mi, yoksa etkileşim (self-attn) mi?
3. **Kim "dokunulmadan" kalıyor (Safety?)**: Identity path bozuluyor mu? (Çoğu tasarım identity path’i saf tutar.)

---


## 3) En temel 4 fusion pattern (çekirdek)

Aşağıdaki şemalarda `F(·)` residual branch; `A(·)` attention modülü.

> Not: Bu pattern'ler pratikte kombinlenebilir. Ancak düşünmeyi kolaylaştırmak için 4 ana forma indirgenir.

----

### Pattern-1: **Attention inside residual branch (en yaygın)**  fx’in önemini yeniden tarttık, sonra ekledik

**Pattern-1, residual blokta üretilen F(x) feature map’ini attention ile yeniden ağırlıklandırıp, bu maskelenmiş çıktıyı dokunulmamış skip yolu x ile toplayan mimari yapıdır.**

\[ y = x + A(F(x)) \]

**α=A(F(x))**

*A(⋅) = attention modülü*

* Önce normal residual hesaplanır

* Sonra attention, sadece F(x)’i yeniden ağırlıklandırır

* Skip path dokunulmaz

ASCII:

```bash
      x ────────────────┐
      │                 │
      │      F(·)       │
      └─> [conv... ] -> A -> (+) -> y
```

**Neden yaygın?**
- Identity path **saf** kalır (gradient için "emniyet hattı").
- Attention, sadece öğrenen transform'u (F) şekillendirir.
- Uygulama basit, davranış öngörülebilir.

**SE-ResNet / ECA-ResNet / birçok CBAM entegrasyonu** bu kalıbı kullanır.

----

### Pattern-2: **Post-addition attention (birleşmiş feature üzerinde)**

\[ y = A(x + F(x)) \]

ASCII:

```bash
      x ────────────────┐
      │                 │
      │      F(·)       │
      └─> [conv... ] ───┘
              │
             (+) -> A -> y
```

**Ne zaman mantıklı?**
- Add sonrası feature'ın hem kimliği (x) hem dönüşümü (F) birlikte görülür.
- "Gating" daha güçlüdür ama **attention artık identity etkisini de** dolaylı şekillendirir.

**Risk/Trade-off:**
- Çok agresif attention öğrenimi, identity'nin "bedava" geçişini zayıflatabilir.
- Bazı görevlerde faydalı, bazı görevlerde over-suppression yapabilir.

----

### Pattern-3: **Pre-residual attention (input conditioning / gated input)**

\[ y = x + F(A(x)) \]

ASCII:

```bash
      x -> A -> F(·) -> (+ with x) -> y
```

**Okuma:** Attention, bloğa girecek sinyali filtreler; residual transform bu filtrelenmiş sinyal üzerinden öğrenir.

**Ne zaman mantıklı?**
- Erken aşamalarda gürültü baskılama,
- Çok hafif backbone'larda feature seçiciliğini erkenden artırma.

**Dikkat:**
- A(x) kötü öğrenirse, F'nin öğrenebileceği bilgi azalır.

----

### Pattern-4: **Dual-path / skip-aware fusion (daha agresif)**

En genel form:

\[ y = A_s(x) + A_r(F(x)) \]

ASCII:

```bash
      x -> A_s -> (+)
      x -> F -> A_r -^
```

**Okuma:** Hem skip path hem residual path ayrı ayrı modüle edilir.

**Avantaj:** Çok güçlü ifade gücü.

**Risk:** Identity artık "tam identity" değildir. Stabilite için genellikle:
- `A_s` çok hafif seçilir,
- başlangıçta yaklaşık 1'e yakın olacak şekilde tasarlanır.

---


## 4) Hangi pattern'i seçmeliyim? (tasarım rehberi)

Aşağıdaki karar çizelgesi pratikte işe yarar:

### 4.1 Default seçim (çoğu projede)

- Başlangıç için **Pattern-1**.
- Neden: davranışı öngörülebilir, identity korunur, debug kolay.

### 4.2 Pattern-2 ne zaman?

- Add sonrası birleşmiş feature üzerinde *tek seferde* gating istiyorsan.
- Backbone çok derin değilse ve attention'ın identity'yi fazla bastırmayacağından eminsen.

### 4.3 Pattern-3 ne zaman?

- Bloğun girişini koşullandırmak istiyorsan.
- Özellikle düşük seviyeli gürültü/arka plan baskılama hedefi varsa.

### 4.4 Pattern-4 ne zaman?

- Araştırma / ablation odaklı çalışma.
- Skip’i modüle etmek riskli olduğu için: iyi initialization, dikkatli LR ve güçlü validasyon gerekir.

---

## 5) "Attention" nereye konur? (residual bloğun içi)

Bir residual blok (özellikle bottleneck) içinde attention için en yaygın yerleşimler:

### 5.1 Bottleneck örneği

```
1x1 reduce -> 3x3 -> 1x1 expand -> (optional BN)
```

**Kural gibi çalışan pratik:**
- Kanal attention (SE/ECA) çoğunlukla **expand sonrası** konur.
  - Çünkü dikkat uygulanacak kanal sayısı, bloğun çıkış kanal sayısı ile hizalı olur.

### 5.2 CBAM / Spatial attention için

- Spatial attention, `H×W` üzerinde çalıştığı için genelde **son conv sonrası** konur.
- Çok erken koyarsan compute artar ve düşük seviyeli feature'ları gereğinden fazla kesebilir.

### 5.3 Pre-activation blokta dikkat

Pre-activation mantığı bozulmasın diye dikkat yerleştirirken:
- ya residual branch'in sonuna koy,
- ya da attention'ın kendisini "norm/act" akışına uyumlu olacak şekilde tasarla.

---


## 6) Ölçekleme ve stabilite: "gating" patlamasın

Attention modülleri pratikte **çarpan** üretir: `scale ∈ [0,1]` veya bazen `[0,∞)`.

Residual ekleme:

\[ y = x + scale \cdot F(x) \]

Bu noktada iki kritik stabilite konusu çıkar:

### 6.1 Identity korunumu

- Eğer `scale` sürekli çok küçükse: model residual öğrenemez (underfit gibi görünür).
- Eğer `scale` çok agresif dalgalanırsa: eğitim kararsızlaşır.

### 6.2 Zero-init / near-identity başlangıç

Bazı tasarımlar, attention'ın veya residual branch'in son BN gamma'sını **0'a yakın** başlatır.
Amaç:
- İlk iterasyonlarda blok ≈ identity gibi davranır,
- sonra yavaş yavaş residual katkı artar.

Bu, attention'lı residual tasarımlarda sık kullanılan bir stabilite hilesidir.

---


## 7) Pattern'lerin pratik kod şablonları (PyTorch)

Aşağıdaki kodlar "çalışır" örnekten ziyade **yerleşim mantığını** göstermeyi hedefler. İstediğin residual bloğa (basic/bottleneck/pre-act) uyarlayabilirsin.

> Not: Aşağıda attention modülleri "placeholder" gibi verilmiştir. Projendeki gerçek SE/ECA/CBAM/CA implementasyonunu aynı slotlara takabilirsin.


In [None]:
import torch
import torch.nn as nn

class ConvBNAct(nn.Module):
    def __init__(self, in_ch, out_ch, k=3, s=1, p=None, groups=1, act=True):
        super().__init__()
        if p is None:
            p = k // 2
        self.conv = nn.Conv2d(in_ch, out_ch, k, s, p, groups=groups, bias=False)
        self.bn = nn.BatchNorm2d(out_ch)
        self.act = nn.ReLU(inplace=True) if act else nn.Identity()

    def forward(self, x):
        return self.act(self.bn(self.conv(x)))

class IdentityAttn(nn.Module):
    def forward(self, x):
        return x

class SEStub(nn.Module):
    def __init__(self, ch, r=16):
        super().__init__()
        hidden = max(1, ch // r)
        self.pool = nn.AdaptiveAvgPool2d(1)
        self.fc1 = nn.Conv2d(ch, hidden, 1)
        self.act = nn.ReLU(inplace=True)
        self.fc2 = nn.Conv2d(hidden, ch, 1)
        self.gate = nn.Sigmoid()

    def forward(self, x):
        s = self.pool(x)
        s = self.fc2(self.act(self.fc1(s)))
        w = self.gate(s)
        return x * w


In [None]:
# Pattern-1: y = x + A(F(x))
class ResidualAttn_P1(nn.Module):
    def __init__(self, ch, attn=None):
        super().__init__()
        self.f = nn.Sequential(
            ConvBNAct(ch, ch, 3, 1),
            ConvBNAct(ch, ch, 3, 1, act=False),
        )
        self.attn = attn if attn is not None else IdentityAttn()
        self.act = nn.ReLU(inplace=True)

    def forward(self, x):
        fx = self.f(x)
        fx = self.attn(fx)
        y = x + fx
        return self.act(y)


In [None]:
# Pattern-2: y = A(x + F(x))
class ResidualAttn_P2(nn.Module):
    def __init__(self, ch, attn=None):
        super().__init__()
        self.f = nn.Sequential(
            ConvBNAct(ch, ch, 3, 1),
            ConvBNAct(ch, ch, 3, 1, act=False),
        )
        self.attn = attn if attn is not None else IdentityAttn()
        self.act = nn.ReLU(inplace=True)

    def forward(self, x):
        fx = self.f(x)
        y = x + fx
        y = self.attn(y)
        return self.act(y)


In [None]:
# Pattern-3: y = x + F(A(x))
class ResidualAttn_P3(nn.Module):
    def __init__(self, ch, attn=None):
        super().__init__()
        self.attn = attn if attn is not None else IdentityAttn()
        self.f = nn.Sequential(
            ConvBNAct(ch, ch, 3, 1),
            ConvBNAct(ch, ch, 3, 1, act=False),
        )
        self.act = nn.ReLU(inplace=True)

    def forward(self, x):
        ax = self.attn(x)
        fx = self.f(ax)
        y = x + fx
        return self.act(y)


In [None]:
# Pattern-4: y = A_s(x) + A_r(F(x))
class ResidualAttn_P4(nn.Module):
    def __init__(self, ch, attn_skip=None, attn_res=None):
        super().__init__()
        self.attn_skip = attn_skip if attn_skip is not None else IdentityAttn()
        self.f = nn.Sequential(
            ConvBNAct(ch, ch, 3, 1),
            ConvBNAct(ch, ch, 3, 1, act=False),
        )
        self.attn_res = attn_res if attn_res is not None else IdentityAttn()
        self.act = nn.ReLU(inplace=True)

    def forward(self, x):
        xs = self.attn_skip(x)
        fx = self.attn_res(self.f(x))
        y = xs + fx
        return self.act(y)


## 8) Pattern seçimi için ablation planı (notluk)

Bu bölüm doğrudan uygulamada “hangisi daha iyi?” sorusunu sistematik çözmek için.

### 8.1 Kontrol değişkenleri

Ablation yaparken aynı anda her şeyi değiştirme:

- Backbone aynı kalsın (ör. ResNet-50 bottleneck).
- Aynı attention modülü ile pattern değiştir.
- Aynı data augmentation ve optimizer.

### 8.2 Minimum ablation seti

- Baseline: no attention
- +SE Pattern-1
- +SE Pattern-2
- +SE Pattern-3

### 8.3 Ölçüm

- Top-1 / mAP (göreve göre)
- Params / FLOPs
- Latency (GPU/CPU hedefe göre)
- Training stability: loss curve, grad norm

### 8.4 Yorumlama ipucu

- Pattern-2 iyileşiyor ama training dalgalanıyorsa: attention çok agresif olabilir.
- Pattern-3 erken katmanlarda iyiyse ama derinlerde kötüleşiyorsa: input gating fazla filtreliyor olabilir.

---


## 9) Pre-activation residual ile attention: dikkat edilmesi gerekenler

Pre-activation blokta tipik akış:

```
BN -> ReLU -> Conv -> BN -> ReLU -> Conv -> Add
```

Burada attention eklerken iki güvenli yaklaşım:

### 9.1 Güvenli-1 (branch sonu)

- Residual branch'in **son conv** çıkışına attention koy.
- Add öncesi uygulandığı için Pattern-1 benzeri olur.

### 9.2 Güvenli-2 (norm/act uyumlu)

- Attention modülünü, BN/Act sırasına uyacak şekilde "stateless" tut.
- Örn: CBAM/CA gibi uzamsal işlemler, pre-act'te gereksiz dağılım kaymasına sebep olmasın.

> Pratikte: pre-act + SE/ECA genelde sorunsuz; pre-act + güçlü spatial attention (CBAM/CA) için validasyon şart.

---


## 10) ResNeXt (grouped conv) + attention: nerede oturur?

ResNeXt bottleneck mantığı:

- `1×1 reduce`
- `3×3 grouped conv (cardinality)`
- `1×1 expand`

Attention yerleşimi için pratik kural değişmez:

- SE/ECA: **expand sonrası**
- CBAM/CA: çoğu zaman expand sonrası (veya add sonrası Pattern-2)

**Neden?**
- Grouped conv feature çeşitliliği üretir.
- Attention, bu çeşitliliği "seçici" hale getirir.

Trade-off:
- Cardinality yüksekse attention compute görece az kalır; bu yüzden SE/ECA burada çok maliyet-etkin olur.

---


## 11) Wide residual + attention: aşırı kapasiteyi kontrol

Wide ResNet'te kanal sayısı artar → capacity artar.

Bu durumda attention iki rol oynar:

1. **Seçicilik**: Kanallar çoksa, hepsini aynı güçte taşımak gereksiz olabilir.
2. **Regularization benzeri etki**: Yanlış kanalları bastırarak overfit'i azaltabilir.

Pratik öneri:
- Wide backbone + SE/ECA genelde iyi.
- Wide backbone + CBAM/CA compute artışına dikkat.

---


## 12) Sık yapılan hatalar (debug checklist)

### 12.1 Shape uyuşmazlığı
- Attention modülü `C` kanal bekliyor ama bloğun output'u `C_out`.
- Çözüm: attention'ı **output kanalına göre** kur.

### 12.2 Skip path projeksiyonu unutma
- Stride=2 veya kanal değişiminde `x` ile `F(x)` aynı shape olmaz.
- Çözüm: skip üzerinde `1×1 conv` (projection) uygula.

### 12.3 Add sonrası activation
- Bazı implementasyonlar add sonrası ReLU yapar; bazıları pre-act.
- Karışık kullanırsan istatistikler sapar.

### 12.4 Attention'ı "her yere" koymak
- Her blokta CBAM/CA: compute ve training zorlaşır.
- Çözüm: stage bazlı seç (özellikle derin stage'lerde).

---


## 13) Sonuç: bu başlıkta ne öğrendik?

- Attention modülü "ne" olduğu kadar **"nereye" konduğu** ile de anlam kazanır.
- 4 ana fusion pattern, pratikte tüm varyasyonların düşünce çerçevesini verir.
- Default ve güvenli tercih çoğu senaryoda: **Pattern-1 (A(F(x)) + x)**.
- Daha agresif tasarımlar (Pattern-2/4) daha güçlü olabilir ama stabilite/ablation gerektirir.

