# 5️⃣ Optimizer’lar

Optimizer, modelin ağırlıklarını güncelleyen algoritmadır.  
Doğru optimizer seçimi, **hızlı ve stabil öğrenme** için kritik öneme sahiptir.


In [2]:
# Gerekli importlar
import torch
import torch.nn as nn
import torch.optim as optim

# Örnek model
model = nn.Linear(10, 1)  # 10 giriş, 1 çıkış

# ----------------------------
# 1️⃣ SGD (Stochastic Gradient Descent)
optimizer_sgd = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)

# 2️⃣ Adam
optimizer_adam = optim.Adam(model.parameters(), lr=0.001)

# 3️⃣ AdamW (Adam with Weight Decay)
optimizer_adamw = optim.AdamW(model.parameters(), lr=0.001, weight_decay=1e-4)

# 4️⃣ RMSprop
optimizer_rmsprop = optim.RMSprop(model.parameters(), lr=0.001, alpha=0.99)




## 🔹 Stochastic Gradient Descent (SGD)
```python
optimizer = torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9)


* Basit ve klasik optimizer

* Momentum ile gradyan hızını artırır ve osilasyonu azaltır

* Büyük veri setlerinde ve derin ağlarda bazen yavaş olabilir

## 🔹 Adam !!!!!!!!!!!

In [None]:
import torch 

optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

* Adaptive Moment Estimation

* Öğrenme hızı otomatik ayarlanır (adaptive learning rate)

* Derin ağlarda ve çoğu problemde en çok tercih edilen optimizer

## 🔹 AdamW

In [None]:
optimizer = torch.optim.AdamW(model.parameters(), lr=0.001, weight_decay=1e-4)

* Adam’ın L2 regularization ile geliştirilmiş versiyonu

* Overfitting’i azaltmak için ağırlık çürümesini (weight decay) içerir

* Transformer ve modern mimarilerde sık kullanılır

## 🔹 RMSprop

In [None]:
optimizer = torch.optim.RMSprop(model.parameters(), lr=0.001, alpha=0.99)

* Adaptive learning rate kullanır

* Özellikle RNN ve sequence modellerde iyi performans gösterir

# 🔹 Özet Tablosu

| Optimizer | Amaç                                             | Kullanım / Notlar                                   |
| --------- | ------------------------------------------------ | --------------------------------------------------- |
| SGD       | Basit gradient descent, momentum ile hız artırır | Küçük ve orta boyutlu veri setleri, klasik kullanım |
| Adam      | Adaptive learning rate, hızlı konverjans         | Derin ağlar ve çoğu problem için standart tercih    |
| AdamW     | Adam + weight decay, overfitting kontrolü        | Transformer ve modern mimarilerde önerilir          |
| RMSprop   | Adaptive LR, özellikle RNN                       | Sequence ve zaman serisi modellerinde tercih edilir |


----


#  Optimizer ve İleri Seviye İpuçları

Bu bölümde optimizer’lar, learning rate ve ileri seviye teknikler bir arada ele alınmıştır.



### 🔹 İleri Seviye Notlar

#### 1. Momentum
- Önceki gradyan adımlarını dikkate alır, osilasyonu azaltır.  
- Adam, kendi adaptive moment mekanizmasını kullandığı için ekstra momentum genellikle gerekmez.

#### 2. Weight Decay / L2 Regularization
- `weight_decay` ile overfitting azaltılabilir  
- AdamW, weight decay’i doğru uygular

#### 3. Optimizer + Scheduler Kombinasyonu
- Örnek: `Adam + ReduceLROnPlateau` veya `AdamW + StepLR`  
- Scheduler, optimizer ile birlikte kullanılmalı


### 🔹 Cyclic Learning Rate (CLR)

```python
scheduler = torch.optim.lr_scheduler.CyclicLR(
    optimizer_adam, base_lr=1e-4, max_lr=1e-2, step_size_up=10
)


* Learning rate’i periyodik olarak artırıp azaltır

* Modelin plateau’da sıkışmasını önler ve konverjansı hızlandırır

### 🔹 Learning Rate Seçimi

* Çok küçük LR → Model çok yavaş öğrenir

* Çok büyük LR → Kayıp patlar ve eğitim kararsız olur

Doğru LR seçimi optimizer performansını doğrudan etkiler

### 🔹 Lookahead Optimizer

- Daha **stabil öğrenme** sağlar  
- PyTorch’da ek kütüphane ile uygulanabilir  
- Derin ve karmaşık ağlarda **konverjans stabilitesini artırır**



####  Nasıl Çalışır?

1. **Fast weights (hızlı ağırlıklar):** Normal optimizer gibi her adımda ağırlıkları günceller.  
2. **Slow weights (yavaş ağırlıklar):** Hızlı ağırlıkların belirli adım sayısı sonunda ortalamasını alır ve ağırlıkları daha stabil günceller.  
3. **Faydası:** Ağırlıkların ani değişmesini engeller, derin ve karmaşık ağlarda konverjans daha kararlı olur.


####  Örnek Kod

```python
# Ek kütüphaneyi yüklemeniz gerekir:
# pip install torch-optimizer

import torch
import torch.nn as nn
import torch_optimizer as optimx

# Örnek model
model = nn.Linear(10, 1)

# Base optimizer
base_optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

# Lookahead optimizer
optimizer = optimx.Lookahead(base_optimizer, k=5, alpha=0.5)


## 🔹 İleri Seviye Optimizer ve Learning Taktikleri – Ne Zaman Kullanılır?

| Teknik / Taktik | Ne Zaman Kullanılır | Notlar / Avantajlar |
|-----------------|------------------|------------------|
| **Momentum (SGD)** | Ağ çok derin değil, ancak osilasyon veya yavaş öğrenme varsa | Gradyan hızını artırır, osilasyonu azaltır |
| **Weight Decay / L2 Regularization** | Overfitting riski yüksek, özellikle küçük datasetlerde | Ağırlıkları küçülterek genelleme performansını artırır |
| **Optimizer + Scheduler Kombinasyonu** | Derin veya karmaşık ağlarda, LR’yi dinamik ayarlamak istiyorsan | Plateau veya learning rate düşüşlerini otomatik uygular |
| **Cyclic Learning Rate (CLR)** | Model plateau’da sıkışıyor, öğrenme yavaş veya LR ayarlamak zor | LR’i periyodik olarak değiştirir, hızlı konverjans sağlar |
| **Lookahead Optimizer** | Çok derin veya karmaşık ağlar, gradyan stabilitesi sorunlu | Ağırlıkları yumuşatarak daha stabil konverjans sağlar |
| **CLR + Scheduler Kombinasyonu** | Çok derin ağlarda ve büyük veri setlerinde | Öğrenme hızını dinamik tutarak eğitim stabilitesini ve hızını artırır |
| **Adaptive LR Optimizer (Adam, AdamW, RMSprop)** | Standart derin ağlarda, çoğu problem | Learning rate’i otomatik ayarlar, çoğu durumda hızlı ve stabil öğrenme sağlar |

---

### 🔹 Özet

- **Küçük ve basit ağlar:** SGD veya Adam genellikle yeterli  
- **Derin ve karmaşık ağlar:** Scheduler, CLR ve Lookahead gibi ileri teknikler eklenmeli  
- **Overfitting riski varsa:** Weight decay / L2 regularization + Dropout eklemek faydalı  
- **Plateau veya stabilite sorunları varsa:** CLR, ReduceLROnPlateau ve Lookahead kullanmak en mantıklısı
