# Regularization

### Regularizayon Nedir?

Lineer Modeller (Lineer Regresyon, SVM, vb.) en çok kullanılan Machine Learning Algoritmalarının başında gelir.

Fakat çok ciddi bir eksiği vardır: Overfitting yapmaya çok yatkındırlar.

En basit hali ile 2 boyutlu düzlemde göreceğiniz gibi, veri noktalarına en iyi uyan doğru (ya da eğri) parçasını bulmaya çalışır.

<img src='images/ols.jpg' />

$$ y = w_0 + w_1x_1$$

Formulü son derece basittir.

$$ y = w_0 + w_1x_1 + w_2x_2 + w_3x_3 + ... + w_nx_n$$

Ama değişken sayısı arttıkça, katsayılar yani $w$'lar büyümeye (artı ve eksi yönde) başlar. 

Yeterince büyük $w$'lar ile hemen hemen her şeyi tahmin edebilirsiniz.

İşte bu da tam olarak Overfit'in başladığı yerdir.

<img src='images/overfit.png' />

Bu problem **Regularization** ile çözülebilir.

Model OLS yaparken katsayıları - ve + olarak büyütüp en az hata yakalamaya çalışır. Dolayısı ile katsayılar - ve + yönde büyüyecektir.

Fakat `Regularization` modelin kaysayıları büyütmesini cezalandırır.

Böylece model artık istese bile katsayıları büyütümez.

Regularization ile beraber yeni Loss Fonksiyonumuz:

$$ L_R = \sum(y_{true} - y_{pred})^2 + \alpha * \sum w_i^2 $$

Buradaki:
$$\alpha * \sum w_i^2$$

Regularization terimidir.

Ve:

$\alpha$'ya regularization katsayısı (Regularization Coefficient) denir. (Pozitif bir değerdir.)

**Sonuç:**
    
$\sum w_i^2$ ifadesi her zaman pozitif olacağı için modelimiz artık $w$'ları küçük tutmak zorunda olacaktır.

Dolayısı ile Regularization, `Variance`'ı azaltmış olur ama aynı anda `Bias` da eklemiş olur.

### Regularizasyon Nasıl Uygulanır?

Yukarıda gördüğünüz $w$ değerleri aslında modelin içinde set edilen **parametre**'lerdir.

Ama $\alpha$ ifadesi bir **hyperparameter**'dir, ve onu set ederek Regularizasyon şiddetini biz kontrol ederiz.

### Regularizasyon Türleri

### 1- Lasso

**Lasso** Regularization'a aynı zamanda **L1 Regularization** da denir.

Lasso, katsayıları daha çok sıfır (0) olmaya zorlar.

Aşağıdaki maliyet fonksiyonunu çalıştırır (loss function):

$$ L(w) = \sum_{i=1}^n(y_i - \hat y_i)^2 + \alpha \sum_{j=1}^p |w_j| $$

Burada:

* $\alpha$ = ceza terimi (0 ile 1 arasında)
* $|w|$ = katsayıların mutlak değeri
* $y_i$ = gerçek sonuç
* $\hat y_i$ = tahmin

**Not:**

Lasso'ya L1 regularization denmesenin nedeni katsayıların birinci kuvvetini (1) almasıdır.

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html

---

### 2- Ridge Regression

**Ridge** Regularization'a aynı zamanda **L2 Regularization** da denir.

Aşağıdaki maliyet fonksiyonunu çalıştırır (loss function):

$$ L(w) = \sum_{i=1}^n(y_i - \hat y_i)^2 + \alpha \sum_{j=1}^p w_j^2 $$

Burada:

* $\alpha$ = ceza terimi (0 ile 1 arasında)
* $w^2$ = katsayıların karesi
* $y_i$ = gerçek sonuç
* $\hat y_i$ = tahmin

**Not:**

Ridge Regression'a L2 regularization denmesenin nedeni katsayıların karesini (2) almasıdır.

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html

---

### 3- Elastic Net Regression

**Elastic Net** Regularization, **L1 ve L2 Regularization**'ın bileşimidir.

Aşağıdaki maliyet fonksiyonunu çalıştırır (loss function):

$$ L(w) = \sum_{i=1}^n(y_i - \hat y_i)^2 + \alpha_1 \sum_{j=1}^p |w_j| + \alpha_2 \sum_{j=1}^p w_j^2 $$

Burada:

* $\alpha_1$ ve $\alpha_2$ = ceza terimleri (0 ile 1 arasında)
* $|w|$ = katsayıların mutlak değeri
* $w^2$ = katsayıların karesi
* $y_i$ = gerçek sonuç
* $\hat y_i$ = tahmin

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.ElasticNet.html