## Supervised Learning  modellərinin Formulları və İtki (loss) funksiyaları



1. **Linear Regression**:
   $$
   \text{Predict}: \quad y = kx + b
   $$
   (Sadə xətti əlaqə, burada $ k $ - əmsal, $ b $ - bias).

   $$
   \text{Itki Funksiyası (Loss)}: \quad L = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2
   $$
   (MSE - Mean Squared Error, burada $ y_i $ gerçək dəyər, $ \hat{y}_i $ isə modelin proqnozudur).

---

2. **SVM (Support Vector Machine)**:
   $$
   \text{Predict}: \quad y = \text{sign}(w^T x + b)
   $$
   (Sinifləndirmə üçün, $ w $ - ağırlıqlar, $ x $ - girişlər, $ b $ - bias, $ \text{sign} $ - aktivasiya funksiyası).

   $$
   \text{Itki Funksiyası (Loss)}: \quad L = \sum_{i=1}^{N} \max(0, 1 - y_i(w^T x_i + b))
   $$
   (Hinge Loss funksiyası, burada $ y_i $ - doğru sinif, $ w $ - ağırlıqlar, $ x_i $ - girişlər).

---

3. **Logistic Regression**:
   $$
   \text{Predict}: \quad y = \frac{1}{1 + e^{-(wx + b)}}
   $$
   (Logistikanın sigmoidal funksiyası ilə ehtimal hesablanır, burada $ w $ - ağırlıqlar, $ x $ - girişlər, $ b $ - bias).

   $$
   \text{Itki Funksiyası (Loss)}: \quad L = - \sum_{i=1}^{N} \left( y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i) \right)
   $$
   (Binary Cross-Entropy Loss funksiyası, burada $ \hat{y}_i $ - modelin ehtimal proqnozu).

---

4. **Naive Bayes**:
   $$
   \text{Predict}: \quad P(C|X) = \frac{P(X|C)P(C)}{P(X)}
   $$
   (Şartlı ehtimal, burada $ C $ sinif, $ X $ - xüsusiyyətlərdir).

   $$
   \text{Itki Funksiyası (Loss)}: \quad L = - \sum_{i=1}^{N} \log P(y_i | x_i)
   $$
   (Klassiklik ehtimalı əsasında verilənləri təsdiq etmək üçün istifadə olunur, burada $ y_i $ və $ x_i $ müvafiq sinif və girişdir).

---

5. **Decision Tree**:
   (Yalnız qərarları və şaxələri izləyir, yəni girişlərin müxtəlif şərtlərə görə bölünməsi əsasında sinif təyin edilir. Dəqiq riyazi bir ifadə yoxdur, amma **predict** girişin hansı şaxəyə düşməsinə əsaslanır).

   $$
   \text{Itki Funksiyası (Loss)}: \quad L = \sum_{i=1}^{N} \left( \text{Gini Impurity} \text{ or } \text{Entropy} \right)
   $$
   (Çox vaxt **Gini Impurity** və ya **Entropy** istifadə edilir, burada **Entropy**: 
   $$
   -\sum_{i=1}^{M} p_i \log(p_i)
   $$
   və **Gini Impurity**:
   $$
   1 - \sum_{i=1}^{M} p_i^2
   $$
   burada $ p_i $ sinif ehtimallarıdır).

---

6. **Random Forest**:
   $$
   \text{Predict}: \quad y = \frac{1}{N} \sum_{i=1}^{N} \hat{y}_i
   $$
   (Bir çox qərar ağacının nəticələrinin ortalaması alınır, burada $ \hat{y}_i $ hər bir ağacın verdiyi nəticədir).

   $$
   \text{Itki Funksiyası (Loss)}: \quad L = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2
   $$
   (MSE - Mean Squared Error, burada $ y_i $ gerçək dəyər, $ \hat{y}_i $ isə modelin proqnozudur).

---

Hər bir modelin **predict** funksiyası, modelin nəticə təyin etməsi üçün istifadə olunan əsas yanaşmanı göstərir, həmçinin **itki funksiyaları** hər bir modelin optimallaşdırılmasına kömək edir.

## **Boosting** modellərinin Formulları və İtki (loss) funksiyaları

Əlbəttə, **Boosting** metodlarının əsas modellərini və onların **itki (loss) funksiyalarını** aşağıda təqdim edirəm:

---

1. **AdaBoost (Adaptive Boosting)**:
   $$
   y = \text{sign}\left( \sum_{i=1}^{M} \alpha_i h_i(x) \right)
   $$
   (Bir çox zəif modelin (adətən qərar ağacları) ağırlıqlı cəmini götürür. Hər modelin səhvini kompensasiya etmək üçün ağırlıqlar tənzimlənir).

   $$
   \text{Itki Funksiyası (Loss)}: \quad L = \sum_{i=1}^{N} \exp\left( -y_i \sum_{i=1}^{M} \alpha_i h_i(x) \right)
   $$
   (Exponential Loss - Hər iterasiyada modelin səhvini minimuma endirmək məqsədilə səhv siniflərin cəmini azaltmaq üçün istifadə olunur).

---

2. **Gradient Boosting**:
   $$
   y = \sum_{i=1}^{M} \alpha_i f_i(x)
   $$
   (Hər addımda model, əvvəlki modelin səhvlərini düzəltmək üçün optimallaşdırılır. $ f_i(x) $ hər bir ağacın çıxışı, $ \alpha_i $ isə ağacın çəkisidir).

   $$
   \text{Itki Funksiyası (Loss)}: \quad L = \sum_{i=1}^{N} \left( y_i - f(x_i) \right)^2
   $$
   (Mean Squared Error (MSE) - Gradient Boosting ümumiyyətlə səhvləri kvadratla minumumlaşdırır).

---

3. **XGBoost (Extreme Gradient Boosting)**:
   $$
   y = \sum_{i=1}^{M} \left( f_i(x) + \lambda \| f_i \|^2 \right)
   $$
   (Gradient Boosting-in optimallaşdırılmış versiyasıdır. $ \lambda $ - L2 cərimə termi, əlavə olaraq, tənzimlənmiş cərimə və erkən dayandırma ilə optimallaşdırılır).

   $$
   \text{Itki Funksiyası (Loss)}: \quad L = \sum_{i=1}^{N} \left( y_i - f(x_i) \right)^2 + \lambda \| f_i \|^2
   $$
   (XGBoost həmçinin **regularization** (tənzimləmə) tətbiq edir, bu da modelin overfitting-i qarşısını alır).

---

4. **LightGBM (Light Gradient Boosting Machine)**:
   $$
   y = \sum_{i=1}^{M} f_i(x)
   $$
   (XGBoost-a bənzərdir, lakin daha sürətli işləmək üçün xüsusi olaraq hazırlanmışdır. Leaf-wise axtarış və histogram əsaslı texnologiyalar istifadə edir).

   $$
   \text{Itki Funksiyası (Loss)}: \quad L = \sum_{i=1}^{N} \left( y_i - f(x_i) \right)^2
   $$
   (LightGBM-də də MSE və **Cross-Entropy Loss** kimi ümumi itki funksiyaları istifadə olunur).

---

5. **CatBoost (Categorical Boosting)**:
   $$
   y = \sum_{i=1}^{M} \alpha_i f_i(x)
   $$
   (CatBoost, xüsusilə kateqorial dəyişənləri işləmək üçün optimallaşdırılmış gradient boosting metodudur və böyük məlumat dəstləri ilə yaxşı işləyir).

   $$
   \text{Itki Funksiyası (Loss)}: \quad L = \sum_{i=1}^{N} \left( y_i - f(x_i) \right)^2
   $$
   (CatBoost da digər boosting modelləri kimi MSE və ya **Cross-Entropy Loss** istifadə edir).

---

### Ümumi Qayda:
Boosting metodları ümumiyyətlə zəif modellərin ardıcıl tətbiq edilməsi ilə çalışır. Hər bir model, əvvəlki modelin səhvlərini düzəltməyə çalışır. Modellər sırasıyla düzəldilən səhvlərin cəmini təklif edir və nəticədə daha güclü bir model əldə edilir.

Boosting metodları müxtəlif yanaşmalarla optimallaşdırılır və hər biri öz xüsusiyyətlərinə görə fərqlənir, amma ümumi məqsəd hər zaman səhvlərin azaldılması və proqnozun yaxşılaşdırılmasıdır.

## **Boosting** metodlarında $ f_i(x) $

**Boosting** metodlarında $ f_i(x) $, hər bir zəif modelin verdiyi çıxışı göstərir, amma bu çıxış **sadə xətti bir funksiya** (yəni $ y = kx + b $) ilə məhdudlaşmır. Əksər hallarda, **Boosting** metodlarında istifadə edilən zəif modellər, məsələn, **qərar ağacları** və ya digər ağac əsaslı modellər olduğu üçün $ f_i(x) $ genelliklə daha mürəkkəb bir struktura sahib olur.

Buna görə, **Boosting** modellərində $ f_i(x) $ bir **qərar ağacı** kimi daha mürəkkəb bir funksiya ola bilər. Qərar ağacları $ x $ dəyişənlərinə əsaslanaraq müəyyən şərtlərə görə qərar verir. 

**Qərar ağacları** modelində $ f_i(x) $ belə bir şeyə bənzəyə bilər:

$$
f_i(x) = \begin{cases} 
      \text{class}_1 & \text{if } x \text{ satisfies condition 1} \\
      \text{class}_2 & \text{if } x \text{ satisfies condition 2} \\
      \dots & \dots
   \end{cases}
$$

Bu şərtlər, məsələn, $ x_1 $ və $ x_2 $ kimi xüsusiyyətlərə əsaslanaraq, müxtəlif siniflərə və ya dəyərlərə bölünməyə imkan verir.

Başqa sözlə, **Boosting** metodlarında $ f_i(x) $, hər bir zəif modelin, məsələn, **qərar ağacının** verdiyi qiymətdir və bu qiymətlər əvvəlki modellərin səhvlərini düzəltmək üçün istifadə edilir.

---

**Sadə xətti modelin (yəni $ y = kx + b $) tətbiqi** yalnız çox sadə zəif modellər üçün istifadə edilə bilər. Lakin əksər zaman **Boosting** metodlarında daha mürəkkəb modellər (xüsusən **qərar ağacları**) istifadə olunur. 

Məsələn:
- **AdaBoost** və **Gradient Boosting** çox vaxt qərar ağacları kimi zəif modellərlə işləyir.
- **XGBoost**, **LightGBM** və **CatBoost** daha optimallaşdırılmış versiyalardır, amma onların da əsasında qərar ağacları və digər ağac əsaslı modellər dayanır.

Bu səbəbdən **Boosting** metodlarında $ f_i(x) $, çox vaxt daha mürəkkəb strukturların nəticəsidir və yalnız xətti proqnozlarla məhdudlaşmır.