
# Bu soruya cevap arƒ±yoruz: **kernel_size, padding, stride** nasƒ±l se√ßilir?

Bu notebook, CNN tasarlarken en √ßok oynanan √º√ß parametreyi **temelden derine** ele alƒ±r:

- **kernel_size (K)**: filtrenin g√∂r√º≈ü alanƒ±
- **stride (S)**: √∂rnekleme / downsample
- **padding (P)**: sƒ±nƒ±r davranƒ±≈üƒ± + √ßƒ±ktƒ± boyutu kontrol√º

üéØ Ama√ß: ‚Äúezber optimum‚Äù deƒüil; **probleme g√∂re** tasarƒ±m yapmanƒ± saƒülayacak mantƒ±k + hesap ara√ßlarƒ±.

---

## ƒ∞√ßerik

1. Conv2D √ßƒ±ktƒ± boyutu form√ºl√º + hesaplayƒ±cƒ±
2. Kernel se√ßimi (3√ó3 neden default?)
3. Stride se√ßimi (detay ‚Üî hƒ±z)
4. Padding se√ßimi (SAME/VALID)
5. Receptive Field (RF) + Effective Stride (jump) hesaplarƒ±
6. FLOPs sezgisi (K ve S maliyeti)
7. Probleme g√∂re re√ßeteler (classification / detection / segmentation)
8. Mini ara√ßlar ve √∂rnek ‚Äústride planƒ±‚Äù



## 1) Conv2D √ßƒ±kƒ±≈ü boyutu: √∂nce ≈üekli kontrol et

Giri≈ü: \(H \times W\)

Parametreler:
- kernel: \(K\)
- padding: \(P\)
- stride: \(S\)
- dilation: \(D\)

\[
H_{out}=\left\lfloor \frac{H+2P - D(K-1) - 1}{S} + 1 \right\rfloor
\quad,\quad
W_{out}=\left\lfloor \frac{W+2P - D(K-1) - 1}{S} + 1 \right\rfloor
\]

üìå Tasarƒ±mƒ±n ilk kuralƒ±:
> ‚ÄúBu katmandan sonra feature map ka√ß olacak?‚Äù sorusunu **hesaplayabiliyor** ol.


In [1]:

import math

def conv2d_out(H, W, K=3, S=1, P=1, D=1):
    H_out = math.floor((H + 2*P - D*(K-1) - 1)/S + 1)
    W_out = math.floor((W + 2*P - D*(K-1) - 1)/S + 1)
    return H_out, W_out

# √ñrnekler
examples = [
    (224,224,3,1,1,1),
    (224,224,3,2,1,1),
    (224,224,7,2,3,1),
    (128,128,5,1,2,1),
]
for H,W,K,S,P,D in examples:
    print(f"in={H}x{W}  K={K} S={S} P={P} D={D} -> out={conv2d_out(H,W,K,S,P,D)}")


in=224x224  K=3 S=1 P=1 D=1 -> out=(224, 224)
in=224x224  K=3 S=2 P=1 D=1 -> out=(112, 112)
in=224x224  K=7 S=2 P=3 D=1 -> out=(112, 112)
in=128x128  K=5 S=1 P=2 D=1 -> out=(128, 128)



## 2) Kernel size (K) nasƒ±l se√ßilir?

Kernel, ‚Äúlokal baƒülam penceresi‚Äùdir.

### 2.1) Modern default: **3√ó3**
Neden?

- Parametre/FLOPs verimli
- Yƒ±ƒüƒ±labilir:
  - 2√ó(3√ó3) ‚âà 5√ó5 RF
  - 3√ó(3√ó3) ‚âà 7√ó7 RF
- Araya nonlinearity girdiƒüi i√ßin ifade g√ºc√º artar

### 2.2) B√ºy√ºk kernel (5√ó5, 7√ó7) ne zaman?
- Erken katmanda hƒ±zlƒ± baƒülam toplamak istiyorsan (bazƒ± classification tasarƒ±mlarƒ±)
- √áok d√º≈ü√ºk √ß√∂z√ºn√ºrl√ºkte (32√ó32 gibi) az katmanla baƒülam b√ºy√ºtmek istiyorsan
- Large-kernel tasarƒ±mlarƒ± √∂zel olarak hedefliyorsan (compute maliyetiyle)

### 2.3) B√ºy√ºk kernel yerine alternatifler
- stacked 3√ó3
- dilation (RF b√ºy√ºt√ºr; ‚Äúgridding‚Äù riski var)
- depthwise separable
- attention/pooling

üìå Pratik kural:
> ≈û√ºphedeysen **3√ó3 ile ba≈üla**; b√ºy√ºk kernel ihtiyacƒ±nƒ± RF analiziyle gerek√ßelendir.



## 3) Stride (S) nasƒ±l se√ßilir?

Stride = √∂rnekleme adƒ±mƒ±.  
S=2 ‚Üí H ve W yakla≈üƒ±k yarƒ±ya iner ‚Üí compute genelde **~4√ó d√º≈üer** (kanallar sabitse).

Burada hep tradeoff var:
- ‚úÖ detay / k√º√ß√ºk nesne / lokalizasyon (S k√º√ß√ºk)
- ‚úÖ hƒ±z / bellek (S b√ºy√ºk)

### G√∂reve g√∂re:
- **Classification:** erken downsample √ßoƒüu zaman tolere edilir, final stride sƒ±klƒ±kla 32√ó
- **Detection:** k√º√ß√ºk obje varsa erken S=2 riskli; tipik hedef stride 8/16/32 feature map‚Äôler
- **Segmentation:** detay kritik; encoder stride‚Äôƒ± 16‚Äôda bƒ±rakmak yaygƒ±n, dilation+decoder kullanƒ±lƒ±r

üìå Pratik soru:
> En k√º√ß√ºk ‚Äúanlamlƒ±‚Äù desen/nesne giri≈üte ka√ß piksel?  
Bu sayƒ±, erken stride kararƒ±nƒ± direkt etkiler.



## 4) Padding (P) nasƒ±l se√ßilir?

Padding iki ≈üeyi kontrol eder:
1) Output shape  
2) Sƒ±nƒ±r davranƒ±≈üƒ± (border effects)

### SAME vs VALID
- **VALID:** P=0 ‚Üí boyut k√º√ß√ºl√ºr
- **SAME:** stride=1 iken boyutu korur (odd K i√ßin)

Odd K‚Äôde klasik SAME:
\[
P = \frac{K-1}{2}
\]

√ñrnek:
- K=3 ‚Üí P=1
- K=5 ‚Üí P=2
- K=7 ‚Üí P=3

üìå Pratik kural:
> Backbone‚Äôda √ßoƒüu zaman 3√ó3 + P=1 ‚Äúdefault doƒüru‚Äùdur.



## 5) Receptive Field (RF) ve Effective Stride (Jump)

‚ÄúProbleme g√∂re nasƒ±l hesaplanƒ±r?‚Äù sorusunun matematik tarafƒ± burada.

Takip ettiƒüimiz iki b√ºy√ºkl√ºk:
- **RF:** √ßƒ±kƒ±≈ütaki 1 nokta giri≈üte ne kadar alan g√∂r√ºr?
- **J (jump):** √ßƒ±kƒ±≈üta 1 piksel adƒ±m, giri≈üte ka√ß piksel adƒ±m?

G√ºncelleme:
\[
J_l = J_{l-1}\cdot S_l
\]
\[
RF_l = RF_{l-1} + (K_l-1)\cdot D_l \cdot J_{l-1}
\]
Ba≈ülangƒ±√ß: \(RF_0=1, J_0=1\)

A≈üaƒüƒ±daki ara√ß, verdiƒüin layer listesinden RF/J trace √ºretir.


In [2]:

def rf_trace(layers):
    RF, J = 1, 1
    rows = []
    for i, L in enumerate(layers, 1):
        K = L["K"]; S = L["S"]; D = L.get("D", 1)
        RF = RF + (K - 1) * D * J
        J = J * S
        rows.append({"layer": i, "K": K, "S": S, "D": D, "RF": RF, "J": J})
    return rows

layers_early = [{"K":3,"S":2},{"K":3,"S":1},{"K":3,"S":1},{"K":3,"S":2},{"K":3,"S":1}]
layers_late  = [{"K":3,"S":1},{"K":3,"S":1},{"K":3,"S":2},{"K":3,"S":2},{"K":3,"S":1}]

for name, layers in [("Erken downsample", layers_early), ("Ge√ß downsample", layers_late)]:
    print("\n", name)
    for r in rf_trace(layers):
        print(r)



 Erken downsample
{'layer': 1, 'K': 3, 'S': 2, 'D': 1, 'RF': 3, 'J': 2}
{'layer': 2, 'K': 3, 'S': 1, 'D': 1, 'RF': 7, 'J': 2}
{'layer': 3, 'K': 3, 'S': 1, 'D': 1, 'RF': 11, 'J': 2}
{'layer': 4, 'K': 3, 'S': 2, 'D': 1, 'RF': 15, 'J': 4}
{'layer': 5, 'K': 3, 'S': 1, 'D': 1, 'RF': 23, 'J': 4}

 Ge√ß downsample
{'layer': 1, 'K': 3, 'S': 1, 'D': 1, 'RF': 3, 'J': 1}
{'layer': 2, 'K': 3, 'S': 1, 'D': 1, 'RF': 5, 'J': 1}
{'layer': 3, 'K': 3, 'S': 2, 'D': 1, 'RF': 7, 'J': 2}
{'layer': 4, 'K': 3, 'S': 2, 'D': 1, 'RF': 11, 'J': 4}
{'layer': 5, 'K': 3, 'S': 1, 'D': 1, 'RF': 19, 'J': 4}



### 5.1) RF hedefi nasƒ±l konur?

Tek ‚Äúdoƒüru RF‚Äù yok. Hedef:
- g√∂rev (classification/detection/seg)
- nesne √∂l√ßekleri
- stride seviyeleri (8/16/32)
ile belirlenir.

Pratik y√∂ntem:
1) Giri≈ü boyutu + target stride seviyeleri se√ß  
2) Bu seviyelerdeki RF‚Äônin **nesne boyutlarƒ±nƒ±** kapsayƒ±p kapsamadƒ±ƒüƒ±nƒ± kontrol et  
3) Yetmiyorsa: daha derin, dilation, ya da farklƒ± stride yerle≈üimi

> RF‚Äôyi b√ºy√ºtmek kolay; asƒ±l mesele **detayƒ± √∂ld√ºrmeden** b√ºy√ºtmek.



## 6) FLOPs sezgisi: K ve S maliyeti

Yakla≈üƒ±k Conv FLOPs:

\[
FLOPs \approx 2\cdot H_{out}W_{out}\cdot C_{in}C_{out}\cdot K^2
\]

- K b√ºy√ºrse maliyet \(K^2\) ile artar
- S=2 olursa \(H_{out}W_{out}\) yakla≈üƒ±k 4√ó d√º≈üer

A≈üaƒüƒ±da basit bir FLOPs hesaplayƒ±cƒ± ile kƒ±yas yapƒ±yoruz.


In [3]:

def approx_conv_flops(H, W, Cin, Cout, K=3, S=1, P=1, D=1):
    Hout, Wout = conv2d_out(H, W, K=K, S=S, P=P, D=D)
    return 2 * Hout * Wout * Cin * Cout * (K*K)

H, W = 224, 224
Cin, Cout = 64, 64

for K in [3,5,7]:
    for S in [1,2]:
        P = (K-1)//2  # SAME (odd K)
        fl = approx_conv_flops(H, W, Cin, Cout, K=K, S=S, P=P)
        Hout, Wout = conv2d_out(H, W, K=K, S=S, P=P)
        print(f"K={K} S={S} P={P} -> {Hout}x{Wout} | approx {fl/1e9:.2f} GFLOPs")


K=3 S=1 P=1 -> 224x224 | approx 3.70 GFLOPs
K=3 S=2 P=1 -> 112x112 | approx 0.92 GFLOPs
K=5 S=1 P=2 -> 224x224 | approx 10.28 GFLOPs
K=5 S=2 P=2 -> 112x112 | approx 2.57 GFLOPs
K=7 S=1 P=3 -> 224x224 | approx 20.14 GFLOPs
K=7 S=2 P=3 -> 112x112 | approx 5.04 GFLOPs



## 7) ‚ÄúEn optimum‚Äù nasƒ±l bulunur?

‚ÄúOptimum‚Äù, tek metrik deƒüildir. Genelde aynƒ± anda:
- accuracy / mAP / mIoU
- latency / FLOPs
- bellek / batch size

Optimum bulma pratikleri:

### 7.1) Constraint tabanlƒ± tasarƒ±m (analitik)
- target stride seviyeleri (8/16/32)
- RF ihtiyacƒ± (nesne √∂l√ßekleri)
- compute b√ºt√ßesi

‚Üí stride planƒ± + kanal planƒ± kurulur.

### 7.2) Controlled ablation
- K sabit (genelde 3)
- stride yerle≈üimi varyasyonlarƒ±
- downsample y√∂ntemi varyasyonlarƒ± (stride conv vs pool vs blurpool)
- dilation varyasyonlarƒ±

Sonra Pareto bakarsƒ±n: ‚Äúdaha hƒ±zlƒ± ama az daha k√∂t√º‚Äù vs ‚Äúdaha yava≈ü ama daha iyi‚Äù.

üìå Ger√ßek d√ºnya:
> Default doƒüru ile ba≈üla ‚Üí k√º√ß√ºk kontroll√º oynamalarla iyile≈ütir.



## 8) Probleme g√∂re ≈üablonlar + stride planƒ± √ßƒ±ktƒ±sƒ±

A≈üaƒüƒ±daki h√ºcre, basit bir stride planƒ±ndan **total stride** ve yakla≈üƒ±k **feature map boyutlarƒ±** √ßƒ±karƒ±r.

- Classification (224√ó224): final stride 32 hedefi yaygƒ±n
- Detection (640√ó640): P3/P4/P5 i√ßin stride 8/16/32
- Segmentation: stride 16‚Äôda kalmak yaygƒ±n (detay i√ßin)

Not: Bu √ßƒ±ktƒ± ‚Äúplan‚Äùdƒ±r; ger√ßek aƒüda conv form√ºl√ºyle doƒürulamak gerekir.


In [4]:

def stage_shapes(H, W, strides):
    out = []
    tot = 1
    h, w = H, W
    for i, s in enumerate(strides, 1):
        tot *= s
        # kaba /s (conv form√ºl√º farklƒ± olabilir; burada plan sezgisi)
        h = math.floor((h + s - 1)/s)
        w = math.floor((w + s - 1)/s)
        out.append((f"stage{i}", h, w, tot))
    return out

print("Classification 224√ó224, strides=[2,2,2,2,2] (total 32√ó)")
for row in stage_shapes(224,224,[2,2,2,2,2]):
    print(row)

print("\nDetection 640√ó640, strides=[2,2,2,2,2] (P3=8, P4=16, P5=32 se√ßersin)")
for row in stage_shapes(640,640,[2,2,2,2,2]):
    print(row)

print("\nSegmentation √∂rnek: total stride 16√ó hedefi i√ßin strides=[2,2,2,2]")
for row in stage_shapes(512,512,[2,2,2,2]):
    print(row)


Classification 224√ó224, strides=[2,2,2,2,2] (total 32√ó)
('stage1', 112, 112, 2)
('stage2', 56, 56, 4)
('stage3', 28, 28, 8)
('stage4', 14, 14, 16)
('stage5', 7, 7, 32)

Detection 640√ó640, strides=[2,2,2,2,2] (P3=8, P4=16, P5=32 se√ßersin)
('stage1', 320, 320, 2)
('stage2', 160, 160, 4)
('stage3', 80, 80, 8)
('stage4', 40, 40, 16)
('stage5', 20, 20, 32)

Segmentation √∂rnek: total stride 16√ó hedefi i√ßin strides=[2,2,2,2]
('stage1', 256, 256, 2)
('stage2', 128, 128, 4)
('stage3', 64, 64, 8)
('stage4', 32, 32, 16)



## 9) M√ºhendislik kontrol listesi (kƒ±sa ama kritik)

Bir katman/stage tasarlarken:

1. **Shape**: H√óW ka√ß olacak? (conv form√ºl√ºyle doƒürula)
2. **Total stride**: Bu seviyenin giri≈üe g√∂re stride‚Äôƒ± ka√ß? (8/16/32)
3. **RF**: Bu seviyedeki RF, hedef nesne √∂l√ßeklerini kapsƒ±yor mu?
4. **Compute**: Bu seviyede maliyet √ßok mu y√ºksek? (√∂zellikle y√ºksek √ß√∂z√ºn√ºrl√ºkte)
5. **Aliasing**: stride=2 yaptƒ±ƒüƒ±n yerde sinyali ‚Äúkƒ±rpƒ±yor‚Äù musun? (gerekirse downsample y√∂ntemi deƒüi≈ütir)
6. **G√∂rev uyumu**: classification/detection/seg i√ßin uygun mu?

---

## Son s√∂z

> Kernel/padding/stride se√ßimi, ‚Äútablodan deƒüer almak‚Äù deƒüil,  
> shape + RF + compute √º√ßl√ºs√ºn√º hesaplayƒ±p **kontroll√º ablation** ile doƒürulamaktƒ±r.
