## Supervised Learning Regression Models Metrics

### R-squared: This measures the variation of a regression model. R-squared either increases or remains the same when new predictors are added to the model. ( R-kvadrat: Bu, reqressiya modelinin dəyişməsini ölçür. Modelə yeni proqnozlaşdırıcılar əlavə edildikdə R-kvadrat ya artır, ya da eyni qalır.)
### Adjusted R-squared: This measures the variation for a multiple regression model, and helps you determine goodness of fit. Unlike R-squared, adjusted R-squared only adds new predictors to its model if it improves the model’s predicting power. (Düzəliş edilmiş R-kvadrat: Bu, çoxlu reqressiya modeli üçün variasiyanı ölçür və uyğunluğun yaxşılığını müəyyən etməyə kömək edir. R-kvadratdan fərqli olaraq, düzəliş edilmiş R-kvadrat modeli yalnız modelin proqnozlaşdırma gücünü yaxşılaşdırdığı halda modelinə yeni proqnozlaşdırıcılar əlavə edir.)

#### https://images.app.goo.gl/Qgeqz1LPsGkEAfoD9
#### https://images.app.goo.gl/xRogYdJjCpqKPc937

## SST, SSR, SSE

**SST, SSR, və SSE** statistika və regresiya analizində istifadə olunan əsas ölçülərdir. Bu ölçülər modelin nə dərəcədə yaxşı uyğunlaşdığını və modeldəki variasiyaların nə qədərinin izah edildiyini qiymətləndirmək üçün istifadə olunur.

**1. SST (Total Sum of Squares):** Ümumi kvadratlar cəmi (Total Sum of Squares) 
- Bu, `y` dəyişəninin ümumi dəyişkənliyini ölçür.
- Formula:
  $$
  \text{SST} = \sum_{i=1}^{n} (y_i - \bar{y})^2
  $$
  Burada \( y_i \) həqiqi müşahidə olunan dəyərlər, $( \bar{y})$ isə müşahidə olunan dəyərlərin orta qiymətidir.

**2. SSR (Regression Sum of Squares):** Regresiya kvadratlar cəmi (Regression Sum of Squares)
- Bu, modelin nə dərəcədə uyğun gəldiyini ölçür, yəni modelin izah etdiyi variasiyadır.
- Formula:
  $$
  \text{SSR} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2
  $$
  Burada $( \hat{y}_i )$ model tərəfindən proqnozlaşdırılan dəyərlərdir.

**3. SSE (Error Sum of Squares):** Qalıq kvadratlar cəmi (Error Sum of Squares)
- Bu, modelin izah edə bilmədiyi, qalıq variasiyanı ölçür.
- Formula:
  $$
  \text{SSE} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
  $$
  Burada \( y_i \) həqiqi müşahidə olunan dəyərlər, $( \hat{y}_i )$ isə model tərəfindən proqnozlaşdırılan dəyərlərdir.

**Əlaqə**:
Bu üç ölçü arasında belə bir əlaqə var:
$$
\text{SST} = \text{SSR} + \text{SSE}
$$
Bu formula, ümumi variasiyanın izah edilən variasiyaya (SSR) və izah edilməmiş qalıq variasiyaya (SSE) bölünməsini göstərir.


## R2 and Adjusted R2

**R-squared (R²)** və **Adjusted R-squared** regresiya modelinin uyğunluğunu qiymətləndirmək üçün istifadə olunan iki əsas ölçüdür. 

### 1. **R-squared (R²)**
R², modelin nə qədər yaxşı izah etdiyini, yəni müstəqil dəyişənlərin asılı dəyişən üzərindəki variasiyanı nə qədər izah etdiyini göstərir. 

**Formula:**

$$
R^2 = \frac{\text{SSR}}{\text{SST}} = 1 - \frac{\text{SSE}}{\text{SST}}
$$

Burada:
- **SSR** - Regresiya kvadratlar cəmi (Regression Sum of Squares)
- **SSE** - Qalıq kvadratlar cəmi (Error Sum of Squares)
- **SST** - Ümumi kvadratlar cəmi (Total Sum of Squares)

R² dəyəri həmişə 0 ilə 1 arasında olur. 1-ə yaxın olduqda modelin yüksək uyğunluğunu, 0-a yaxın olduqda isə zəif uyğunluğu göstərir.

### 2. **Adjusted R-squared**
**Adjusted R²** (Düzəldilmiş R²) modelə əlavə edilən dəyişənlərin sayını nəzərə alır və modelin sadəcə dəyişənlərin sayına görə şişirdilməməsini təmin edir. Əgər modelə faydalı olmayan bir dəyişən əlavə edilərsə, Adjusted R² dəyəri azalacaq. Bu xüsusiyyət Adjusted R²-i daha etibarlı edir.

**Formula:**

$$
\text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2) \cdot (n - 1)}{n - p - 1} \right)
$$

Burada:
- **R²** - R-squared dəyəri
- **n** - Nümunə ölçüsü (müşahidələrin sayı)
- **p** - Müstəqil dəyişənlərin sayı

**Adjusted R²** dəyəri hər zaman **R²**-dən kiçik və ya ona bərabərdir. Bu, modelin sadəcə əlavə dəyişənlərin sayı ilə deyil, onların əhəmiyyəti ilə də əlaqəli olduğunu göstərir.


### R2 = SSregression / SST = 1 - SSresiduals / SST
### R2 adjusted = 1 - (1 - R2) * (n - 1) / ( n - p - 1) 

In [1]:
import pandas as pd  
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error
from scipy.stats import pearsonr

data = pd.read_csv(r"C:\Users\dell\Desktop\Python\week4\day1\Weather.csv")
dataset = data.copy()

# Data
x = dataset['MinTemp'].values.reshape(-1,1)
y = dataset['MaxTemp'].values.reshape(-1,1)

# Train-test bölünməsi
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=1, shuffle=True)

# Model təlimi
regressor = LinearRegression().fit(x_train, y_train)
y_pred = regressor.predict(x_test)

# Metriklərin hesablamaq
R2 = r2_score(y_test, y_pred)
print('R^2:', R2)

n = x_test.shape[0]
p = x_test.shape[1]
adjusted_R2 = 1 - (1-R2)*(n-1)/(n-p-1)
print('Adjusted R^2:', adjusted_R2)

MAE = round(mean_absolute_error(y_test, y_pred), 2)
print("MAE:", MAE)

MSE = round(mean_squared_error(y_test, y_pred), 2)
print("MSE:", MSE)

RMSE = round(np.sqrt(mean_squared_error(y_test, y_pred)), 2)
print("RMSE:", RMSE)

# Pearson korelyasiya əmsalını hesablamaq
correlation_matrix = np.corrcoef(y_test.flatten(), y_pred.flatten())
pearson_corr = correlation_matrix[0, 1]
print('Pearson Korelyasiya Əmsalı:', pearson_corr)

# Alternativ olaraq, scipy istifadə etməklə
pearson_corr, _ = pearsonr(y_test.flatten(), y_pred.flatten())
print('Pearson Korelyasiya Əmsalı (scipy ilə):', pearson_corr)

# Intercept və Slope tapmaq
intercept = regressor.intercept_[0]
slope = regressor.coef_[0][0]
print("Intercept (kəsik):", intercept)
print("Slope (meyl əmsalı):", slope)

# Xətti tənliyi qurmaq
print(f"Xətti tənlik: y = {slope} * x + {intercept}")

# Yeni feature
x_1 = 23
print(f'Yeni feature x_1 = {x_1}')

# Predict
print(f"Predict: y = {slope * x_1 + intercept}")

R^2: 0.7111220768354529
Adjusted R^2: 0.7110611578301462
MAE: 2.15
MSE: 7.17
RMSE: 2.68
Pearson Korelyasiya Əmsalı: 0.8434059453729525
Pearson Korelyasiya Əmsalı (scipy ilə): 0.8434059453729523
Intercept (kəsik): 7.603902211896262
Slope (meyl əmsalı): 0.9982101225691038
Xətti tənlik: y = 0.9982101225691038 * x + 7.603902211896262
Yeni feature x_1 = 23
Predict: y = 30.56273503098565


## Supervised Learning Classification Models Metrics

#### Accuracy:
#### Accuracy, modelin düzgün təsnif etdiyi nümunələrin ümumi nümunələrə olan nisbətini göstərir.
#### Accurence = (TP + TN ) / (TP + FP + TN + FN)

#### AUC (Area Under the Curve):
#### AUC, ROC (Receiver Operating Characteristic) əyrisinin altında qalan sahəni ölçür. ROC əyrisi modelin True Positive Rate (TPR) və False Positive Rate (FPR) göstəricilərini müxtəlif qərar hədlərinə (threshold) görə təyin edir. AUC dəyəri 0 ilə 1 arasında dəyişir və modelin təsnifat qabiliyyətini qiymətləndirir. Yüksək AUC dəyəri modelin müsbət və mənfi sinifləri yaxşı ayırdığını göstərir.
#### TPR = TP / (TP+FN)
#### FPR = FP / (FP+TN)

#### AUC dəyərinin formulu birbaşa verilmir, amma AUC əsasən ROC əyrisinin altında qalan sahədir və inteqrasiya vasitəsilə hesablanır.

#### https://docs.h2o.ai/h2o/latest-stable/h2o-docs/performance-and-prediction.html
#### Accurence = (TP + TN ) / (TP + FP + TN + FN)
#### PRECISON = TP / TP + FP
#### RECALL = TP / TP + FN
### F1 = 2 * ( (precision *  recall) / (precision+  recall) )
### F0.5 = 1.25 * ( (precision * recall) / (0.25 * precision + recall) )
### F2 = 5 * ( (precision * recall) / (4 * precision + recall) )

### F1 score, modelin həm dəqiqlik, həm də recall göstəricilərində yaxşı performans göstərib-göstərmədiyini dəyərləndirir və balanslı bir metrikdir. Bir modelin F1 score-u yüksəkdirsə, demək olar ki, model həm yanlış müsbət, həm də yanlış mənfi nəticələri minimallaşdırmağa nail olur.

In [3]:
#                                     Predicted
#                     *******************************************     
#                     *  Positive        *     Negative         *
#         ***************************************************************************************
#         * Positive  *   True Positive  *    False Negative    *    Sensitivity                *
#         *           *     (TP)         *  (FN)Type II error   *  TP / (TP + FN)               *  
# Actual  ***************************************************************************************   
#         * Negative  *  False Positive  *   True Negative      *    Specificity                *  
#         *           * (FP)Type I error *      (TN)            *  TN / (TN + FP)               * 
#         *************************************************************************************** 
#         *           *  Precision       *  Negative Predictive *    Accuracy                   *   
#         *           * TP / (TP + FP)   *    TN / (TN + FN)    * TP + TN / (TP + TN + FP + FN) *
#         *************************************************************************************** 

## True Positive Rate and  False Positive Rate

#### True Positive Rate (TPR) və False Positive Rate (FPR) təsnifat modellərinin performansını qiymətləndirmək üçün istifadə edilən iki mühüm göstəricidir. Onlar modelin müsbət və mənfi təsnifatlarla necə başa çıxdığını izah edirlər.

#### 1. True Positive Rate (TPR)
#### True Positive Rate (TPR), digər adı ilə Recall və ya Sensitivity (Sensitivlik), həqiqətən müsbət olan nümunələrin neçə faizinin model tərəfindən düzgün olaraq müsbət kimi təsnif edildiyini göstərir.

#### TPR formulu:

#### TPR = True Positives (TP) / (True Positives (TP) + False Negatives (FN))

 
#### True Positives (TP): Modelin müsbət olaraq təsnif etdiyi və həqiqətən müsbət olan nümunələr.
#### False Negatives (FN): Modelin mənfi olaraq təsnif etdiyi, lakin əslində müsbət olan nümunələr.
#### TPR yüksəkdirsə, bu o deməkdir ki, model həqiqətən müsbət olanları yaxşı tanıyır və az sayda yanlış mənfi nəticə verir.

#### 2. False Positive Rate (FPR)
#### False Positive Rate (FPR), həqiqətən mənfi olan nümunələrin neçə faizinin model tərəfindən səhvən müsbət kimi təsnif edildiyini göstərir. FPR, modelin yanlış müsbət nəticələr vermə tendensiyasını göstərir.

#### FPR formulu:
#### FPR = 1 - Specificity = 1 - TN / (TN + FP)
#### FPR = False Positives (FP) /  (False Positives (FP) + True Negatives (TN))
 
#### False Positives (FP): Modelin müsbət olaraq təsnif etdiyi, lakin əslində mənfi olan nümunələr.
#### True Negatives (TN): Modelin mənfi olaraq təsnif etdiyi və həqiqətən mənfi olan nümunələr.
#### FPR yüksəkdirsə, bu, modelin çox sayda yanlış müsbət nəticə verdiyini göstərir.

#### Nəticə:
#### TPR yüksəkdirsə, bu, modelin həqiqətən müsbət olanları yaxşı tanıdığını göstərir.
#### FPR aşağıdırsa, bu, modelin yanlış müsbət nəticələri azaldığını göstərir.
#### Bu iki göstərici adətən ROC (Receiver Operating Characteristic) əyrisi ilə birlikdə istifadə edilir və AUC (Area Under the Curve) dəyəri ilə modelin performansı qiymətləndirilir. TPR və FPR dəyərlərinin tarazlaşdırılması modelin ümumi effektivliyini təmin edir.

## Ridge and Lasso

#### https://www.saedsayad.com/images/MLR_r2.png

 Ridge :  (yi − ŷi)^2 + λ ∗ Slope^2  
 Lasso: (yi − ŷi)^2 + λ ∗ |Slope|

Bu ifadə, ümumiyyətlə, cərimə terminləri (penalization terms) ilə birlikdə istifadə olunan optimallaşdırma məqsəd funksiyalarından biridir. Buradakı simvollar və ifadələrin mənası belədir:

- `(yi − ŷi)^2`: Bu, müşahidə olunan dəyərlər (yi) ilə proqnozlaşdırılan dəyərlər (ŷi) arasındakı fərqlərin kvadratıdır. Bu fərq, adətən xəta və ya qalıq (residual) adlanır. Kvadrat halında ifadə edilməsinin səbəbi fərqlərin müsbət və mənfi olmasının fərqini aradan qaldırmaq və daha böyük fərqləri cəza olaraq daha çox nəzərə almaqdır.
  
- `λ ∗ Slope`: Bu, cərimə terminidir. Burada `λ` (lambda) cərimə əmsalıdır. Bu, modelin sadəliyinə nə qədər əhəmiyyət verildiyini göstərir. `Slope` isə modelin meyli və ya meyl əmsalının (məsələn, xətti reqressiyada meyl əmsalı beta) qiymətidir. Cərimə termini modelin çox mürəkkəb olmasının qarşısını almaq üçün əlavə olunur.

Bu cür cərimə terminləri Ridge və ya Lasso kimi reqressiya modellərində istifadə olunur. Məqsəd, sadəcə modelin dəqiqliyini artırmaq deyil, həm də modelin sadəliyini və ümumiləşdirmə qabiliyyətini (overfitting-i aradan qaldırmaq) təmin etməkdir. Lambda (`λ`) çox böyük olarsa, model həddindən artıq sadə ola bilər; əksinə, çox kiçik olarsa, model mürəkkəb və ya overfit ola bilər.

## Ridge an Lasso haqqinda bilmek isteyirem. ne is gorurler?

Ridge və Lasso reqressiyası, xətti reqressiya modellərində dəyişənlərin seçilməsi və modelin sadələşdirilməsi məqsədilə istifadə olunan iki məşhur cərimələndirmə (penalization) metodudur. Hər ikisi overfitting-in qarşısını almaq üçün reqressiya əmsallarına cərimə tətbiq edir, lakin bunu fərqli yollarla edirlər.

### 1. **Ridge Regression**
   - **Nədir?**
     Ridge reqressiyası, dəyişənlərin seçilməsi üçün cərimə olaraq əmsalların kvadratlarının cəmini minimallaşdırır. Burada cərimə termini `λ * Σ (βj^2)` şəklindədir.
   - **Nə iş görür?**
     Ridge reqressiyası, əmsalların böyük olmasının qarşısını almaq üçün onları kiçikləşdirir. Bu metod xüsusilə yüksək kollinear (bir-birinə bağlı) dəyişənlər olduğu hallarda effektivdir.
   - **Xüsusiyyətlər:**
     - **Cərimə:** L2 norması (kvadrat cərimə).
     - **Əsas üstünlüyü:** Overfitting-in qarşısını alır və modelin stabilliyini artırır.
     - **Dəyişənlər:** Bütün dəyişənlər saxlanılır, lakin əmsalları kiçikləşdirilir.

### 2. **Lasso Regression**
   - **Nədir?**
     Lasso reqressiyası, dəyişənlərin seçilməsi üçün cərimə olaraq əmsalların modullarının cəmini minimallaşdırır. Burada cərimə termini `λ * Σ |βj|` şəklindədir.
   - **Nə iş görür?**
     Lasso reqressiyası, bəzi əmsalların tamamilə sıfıra bərabər olmasına səbəb ola bilər. Bu, modeldə əhəmiyyətsiz olan dəyişənlərin tamamilə çıxarılmasına imkan verir.
   - **Xüsusiyyətlər:**
     - **Cərimə:** L1 norması (modul cərimə).
     - **Əsas üstünlüyü:** Dəyişənlərin seçilməsi və modelin sadələşdirilməsi.
     - **Dəyişənlər:** Bəzi dəyişənlər sıfırlanır və modeldən çıxarılır.

### **Ridge və Lasso Arasındakı Fərqlər:**
   - **Cərimə növü:** Ridge L2 cəriməsi istifadə edərək əmsalları kiçikləşdirir, Lasso isə L1 cəriməsi ilə bəzi əmsalları sıfıra çevirir.
   - **Dəyişənlərin seçilməsi:** Ridge bütün dəyişənləri saxlayır, lakin Lasso bəzi dəyişənləri tamamilə çıxarır.
   - **Yüksək korrelyasiya:** Ridge yüksək korrelyasiyalı dəyişənlər üçün daha uyğundur, çünki o, bu dəyişənləri bir arada saxlayır, Lasso isə yüksək korrelyasiyalı dəyişənlərin bir qismini sıfırlaya bilər.

### **Ridge və Lasso'nun İstifadəsi:**
   - Ridge reqressiyası daha çox dəyişən olduğu və onların əhəmiyyətinin hamısının qorunması lazım olduğu hallarda istifadə olunur.
   - Lasso reqressiyası isə dəyişənlərin seçilməsi və daha sadə modellər qurmaq lazım olduğu hallarda istifadə olunur.

Bu metodlar, xüsusilə böyük verilənlər dəstləri və yüksək miqdarda dəyişən olan problemlər üçün faydalıdır.

## bes λ nece tapilir?

Lambda (`λ`) dəyəri, modelin cərimə əmsalıdır və onun optimal dəyəri modelin performansını yaxşılaşdırmaq üçün seçilir. Lambda-nı təyin etmək üçün bir neçə üsul mövcuddur:

### 1. **Cross-Validation (Çapraz Doğrulama)**
   - **Addım 1:** Verilənlər toplusunu bir neçə hissəyə bölmək (məsələn, 5 və ya 10 fold cross-validation).
   - **Addım 2:** Müxtəlif lambda dəyərləri üçün modelin performansını hər bir hissədə qiymətləndirmək.
   - **Addım 3:** Hər bir fold üçün modelin performansını ölçmək və ortalama performansı hesablayaraq ən yaxşı nəticə verən lambda dəyərini seçmək.

### 2. **Grid Search**
   - Müəyyən bir aralıqda lambda dəyərləri təyin olunur (məsələn, 0.001-dən 10-a qədər).
   - Hər bir lambda dəyəri üçün model qurulur və performans ölçülür.
   - Ən yaxşı performansı verən lambda seçilir.

### 3. **Regularization Paths**
   - Bu üsulda, müxtəlif lambda dəyərləri üçün reqressiya əmsallarının dəyişməsi analiz edilir.
   - Bu qrafik üzərində, reqressiya əmsallarının stabilləşdiyi nöqtədəki lambda dəyəri seçilir.

### 4. **Information Criteria (AIC, BIC)**
   - Akaike Information Criterion (AIC) və ya Bayesian Information Criterion (BIC) kimi informasiya meyarları ilə lambda seçilə bilər. Bu meyarlar modeli uyğunlaşdırma keyfiyyətini və onun mürəkkəbliyini qiymətləndirir.

Bu üsulların hər biri fərqli vəziyyətlər üçün uyğun ola bilər. Ən çox istifadə olunan metod isə Cross-Validation üsuludur, çünki bu metod həm modelin performansını yaxşı ölçməyə, həm də overfitting-in qarşısını almağa kömək edir.

## penalty='elasticnet', solver='saga', l1_ratio=0.5, C=1.0 bu paramertler haqqinda yaz

Bu parametrlər, `sklearn.linear_model.LogisticRegression` sinfində ElasticNet cərimələndirməsini həyata keçirmək üçün istifadə olunur. Aşağıda hər bir parametrin detallı izahı verilmişdir:

### 1. **`penalty='elasticnet'`**
   - **İşlevi:** Bu parametr ElasticNet cərimələndirməsini tətbiq edir. ElasticNet cərimələndirməsi həm L1 (Lasso) həm də L2 (Ridge) normlarını birləşdirir. Yəni, ElasticNet modeli həm bəzi əmsalları sıfıra yaxınlaşdırır (Lasso kimi), həm də digər əmsalları kiçikləşdirir (Ridge kimi).
   - **Necə işləyir?**: Bu parametr təkbaşına işləməz, onu aktivləşdirmək üçün `l1_ratio` parametri və uyğun `solver` lazımdır.

### 2. **`solver='saga'`**
   - **İşlevi:** `solver` parametri Logistic Regression modelinin təlimi üçün istifadə edilən optimizasiya alqoritmini təyin edir. `saga`, həm L1, həm də ElasticNet cərimələndirmələrini dəstəkləyən bir solverdir. Bu alqoritm böyük verilənlər dəstlərində və sparse (sıx olmayan) xüsusiyyətlərə malik olan modellərdə çox effektivdir.
   - **Nə üçün vacibdir?**: ElasticNet cərimələndirməsi üçün `saga` solverini seçmək məcburidir, çünki yalnız `saga` (və `liblinear`) L1 normunu dəstəkləyir, ElasticNet isə həm L1, həm də L2 normlarını birləşdirdiyindən, onun üçün də uyğundur.

### 3. **`l1_ratio=0.5`**
   - **İşlevi:** Bu parametr ElasticNet cərimələndirməsi daxilində L1 və L2 cərimələri arasındakı balansı təyin edir. 
     - **`l1_ratio=0`** olduqda, ElasticNet yalnız L2 (yəni, Ridge) cərimələndirməsini həyata keçirir.
     - **`l1_ratio=1`** olduqda, ElasticNet yalnız L1 (yəni, Lasso) cərimələndirməsini həyata keçirir.
     - **`l1_ratio=0.5`** dəyəri həm L1, həm də L2 cərimələndirmələrinin qarışığını tətbiq edir, yəni hər ikisini bərabər şəkildə qarışdırır.
   - **İstifadə məqsədi:** Bu parametr L1 və L2 normları arasında uyğun bir balans yaratmaq üçündür. Verilən problemə uyğun optimal balansı tapmaq üçün `l1_ratio` dəyərini dəyişdirərək təcrübə etmək mümkündür.

### 4. **`C=1.0`**
   - **İşlevi:** `C` parametri modelin cərimələndirmə əmsalını təyin edir. `C` dəyəri cərimələndirmənin tərs əmsalıdır (yəni, `C` nə qədər böyükdürsə, cərimə bir o qədər kiçikdir və əksinə).
   - **Nə üçün vacibdir?**: 
     - **Kiçik `C` dəyəri:** Daha böyük cərimələndirməyə səbəb olur, yəni modelin sadələşdirilməsinə və əmsalların kiçikləşdirilməsinə (və ya sıfıra yaxınlaşmasına) gətirib çıxarır.
     - **Böyük `C` dəyəri:** Daha az cərimələndirməyə səbəb olur və model daha çox uyğunlaşır (overfitting riskini artırır).
   - **Standart dəyər:** `C=1.0` balanslı bir dəyərdir, lakin onu artırıb azaltmaqla modelin performansını dəyişdirə bilərsiniz.

### **Yekun:**
Bu parametrlər birlikdə ElasticNet cərimələndirməsini həyata keçirmək üçün istifadə edilir. `penalty='elasticnet'` ElasticNet cərimələndirməsini tətbiq edir, `solver='saga'` bu cərimələndirməni dəstəkləyən optimizasiya alqoritmidir, `l1_ratio=0.5` L1 və L2 normları arasında balansı təyin edir, və `C=1.0` isə cərimələndirmənin dərəcəsini müəyyən edir. Bu parametrlər sizin modelinizin kompleksliyini idarə etmək və overfitting riskini azaldaraq daha dəqiq proqnozlar vermək üçün istifadə edilə bilər.

## solver nedir umumiyyetle ve imkan varsa formulasini yaz ve ya adi dilde izah ele

`Solver`, statistik modellərin və optimizasiya problemlərinin həlli üçün istifadə olunan bir alqoritmdir. Xüsusən, `sklearn.linear_model.LogisticRegression` sinifində olduğu kimi, xətti modellərdə (xətti reqressiya, logistika reqressiyası və s.) əmsalları tapmaq üçün bu alqoritmlərdən istifadə olunur. 

### **Solver Nədir?**

- **Nə iş görür?**: Solver, optimizasiya problemini həll edərək modelin əmsallarını tapır. Bu prosesdə məqsəd, itki funksiyasını (loss function) minimallaşdırmaq və ən uyğun model parametrlərini tapmaqdır.
- **İş prinsipi:** Solver modelin parametrlərini iterativ şəkildə dəyişdirir və itki funksiyasını tənzimləyərək ən yaxşı nəticəyə çatmağa çalışır. Hər bir iterasiyada modelin parametrləri yenilənir və daha az itki ilə nəticə əldə etməyə çalışılır.

### **Populyar Solver-lər və İş Prinsipləri**

1. **`liblinear`**
   - **Xüsusiyyətləri:** Çoxlu miqdarda xüsusiyyətə malik olan (feature) kiçik və orta miqdarda verilənlər üçün yaxşıdır. L1 və L2 cərimələndirmələrini dəstəkləyir.
   - **İş Prinsipi:** Koordinat Descent alqoritmindən istifadə edir. L1 və L2 cərimələndirməsi ilə səmərəlidir.

2. **`newton-cg`**
   - **Xüsusiyyətləri:** Daha böyük verilənlər dəstləri üçün uyğundur. L2 cərimələndirməsini dəstəkləyir.
   - **İş Prinsipi:** Newton-Raphson metodundan istifadə edir. Hər iterasiyada ikinci dərəcəli diferensial məlumatlardan istifadə edərək əmsalları yeniləyir.

3. **`saga`**
   - **Xüsusiyyətləri:** Böyük verilənlər dəstləri və sıx olmayan (sparse) verilənlər üçün yaxşıdır. L1, L2 və ElasticNet cərimələndirmələrini dəstəkləyir.
   - **İş Prinsipi:** Stochastic Average Gradient Descent (SAG) metodunun inkişaf etdirilmiş formasıdır. Bu, gradient descend metodu ilə əmsalları iterativ şəkildə yeniləyir.

4. **`lbfgs`**
   - **Xüsusiyyətləri:** L2 cərimələndirməsini dəstəkləyir və böyük verilənlər üçün yaxşı nəticələr verir.
   - **İş Prinsipi:** Limited-memory Broyden–Fletcher–Goldfarb–Shanno (L-BFGS) alqoritmindən istifadə edir. İkinci dərəcəli optimizasiya üsulu olaraq parametrlərin optimallaşdırılmasına kömək edir.

### **Solver-lərin İstifadəsi**

Solver-lər müxtəlif optimizasiya alqoritmləri ilə modelin parametrlərini optimallaşdırmağa kömək edir. Onların əsas məqsədi itki funksiyasını minimallaşdırmaqdır.

### **Formulalar**

Solver-lərin istifadə etdiyi əsas formulalar ümumiyyətlə optimizasiya və gradient descend metodlarına əsaslanır. Burada ən çox istifadə olunan metodlardan biri olan gradient descent formulunu təqdim edirəm:

**Gradient Descent Formula:**

$$ \theta_{j} := \theta_{j} - \alpha \frac{\partial J(\theta)}{\partial \theta_{j}} $$

- **$\theta_{j}$**: Modelin parametridir.
- **$\alpha$**: Öğrenmə sürətidir (learning rate).
- **$J(\theta)$**: İtki funksiyasıdır (loss function).
- **$\frac{\partial J(\theta)}{\partial \theta_{j}}$**: İtki funksiyasının $\theta_{j}$ parametrinə görə gradientidir.

### **Adi Dildə İzahetmə**

Solver-lər modelin "öyrənmə" mərhələsində əmsalları tapmağa kömək edir. Məsələn, Logistic Regression modelini qurduğunuz zaman, solver modelin düzgün parametrlərini tapmaq üçün müxtəlif üsullardan istifadə edir. Hər iterasiyada solver əmsalları dəyişdirərək itki funksiyasını (modelin səhvini) azaldır və nəticədə ən yaxşı parametrləri tapmağa çalışır. 

Solver-lərin seçimləri, verilənlərin ölçüsünə, cərimələndirmə növünə və modelin tələblərinə görə fərqlənə bilər.

## itki funksiayasi nedir?

İtki funksiyası (loss function), statistik modelləşdirmədə modelin nə qədər düzgün proqnoz verdiyini ölçmək üçün istifadə olunan bir funksiyadır. Bu funksiya modelin proqnozları ilə həqiqi dəyərlər arasındakı fərqi kvantlaşdırır. İtki funksiyasının məqsədi modelin performansını qiymətləndirmək və modelin parametrlərini optimallaşdırmaq üçün istifadə olunur.

İtki funksiyası müxtəlif modellərdə müxtəlif formullarla təyin olunur. Burada iki əsas növ itki funksiyasını təqdim edirəm: **Xətti Reqressiya** və **Logistik Reqressiya** üçün.

### **1. Xətti Reqressiya üçün İtki Funksiyası (Mean Squared Error - MSE)**

Xətti reqressiya modelində itki funksiyası adətən **Mean Squared Error (MSE)** ilə təyin olunur. MSE, modelin proqnozları ilə həqiqi dəyərlər arasındakı fərqin kvadratlarının ortalamasını ölçür. 

**Formul:**

$$
\text{MSE} = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y_i})^2
$$

- **$N$**: Nümunələrin sayı (datanın ölçüsü).
- **$y_i$**: Həqiqi dəyər (ground truth).
- **$\hat{y_i}$**: Modelin proqnozu (predicted value).

**İzahat:**

- MSE, modelin nə qədər yanıldığını ölçür. Kiçik MSE dəyərləri modelin daha yaxşı nəticə verdiyini göstərir.
- Kvadratlı fərqlərin ortalaması olduğu üçün, böyük səhvləri daha çox vurğulayır.

### **2. Logistik Reqressiya üçün İtki Funksiyası (Log Loss / Binary Cross-Entropy Loss)**

Logistik reqressiya modelində itki funksiyası adətən **Log Loss** (və ya Binary Cross-Entropy Loss) ilə təyin olunur. Bu itki funksiyası modelin proqnozlarının doğru etiketlərlə nə qədər uyğun olduğunu ölçür.

**Formul:**

$$
\text{Log Loss} = -\frac{1}{N} \sum_{i=1}^{N} [y_i \log(\hat{y_i}) + (1 - y_i) \log(1 - \hat{y_i})]
$$

- **$N$**: Nümunələrin sayı.
- **$y_i$**: Həqiqi etiket (1 və ya 0).
- **$\hat{y_i}$**: Modelin ehtimal proqnozu (0 ilə 1 arasında).

**İzahat:**

- Log Loss, proqnozların həqiqi etiketlərlə nə qədər uyumlu olduğunu qiymətləndirir.
- Əgər modelin proqnozu həqiqi etiketə yaxınsa, Log Loss dəyəri kiçik olacaqdır.
- Log Loss, ehtimal dəyərləri ilə işləyir və aşağı ehtimallar üçün yüksək cəzalar verir.

### **Əlavə Nümunələr:**

- **Hinge Loss**: SVM (Support Vector Machine) modellərində istifadə olunur. Formulu belədir: 
  $$
  \text{Hinge Loss} = \sum_{i=1}^{N} \max(0, 1 - y_i \cdot \hat{y_i})
  $$
  burada **$y_i$** doğru etiketlərdir (1 və ya -1), **$\hat{y_i}$** isə proqnoz edilən etiketlərdir.

İtki funksiyası modelin öyrənmə prosesində əsas rol oynayır, çünki modelin parametrləri itki funksiyasını minimuma endirmək üçün optimallaşdırılır. Hər bir model və problem üçün itki funksiyası fərqli ola bilər və bu, modelin məqsədinə və xüsusiyyətlərinə əsaslanır.

## sklearn.linear_model.LogisticRegression daxilinde ridge lasso elasticnet tetbiqi

`sklearn.linear_model.LogisticRegression` sinfi daxilində Ridge, Lasso və ElasticNet cərimələndirmələrini tətbiq etmək mümkündür. Bu cərimələndirmələr `penalty` parametri vasitəsilə seçilir. Aşağıda hər bir cərimələndirmə üsulunun necə tətbiq edildiyini göstərən nümunələr təqdim edirəm.

### 1. **Ridge Regression (L2 Penalty)**
Ridge cərimələndirməsi `penalty='l2'` parametri ilə həyata keçirilir. Bu, `LogisticRegression` sinfinin standart cərimələndirmə üsuludur.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Məlumat dəstini bölmək
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Logistic Regression modeli L2 cəriməsi ilə
ridge_model = LogisticRegression(penalty='l2', C=1.0)  # C parametri lambda-nın tərsidir
ridge_model.fit(X_train, y_train)

# Proqnozlaşdırmaq və performansı ölçmək
y_pred = ridge_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Ridge Logistic Regression Accuracy:", accuracy)

### 2. **Lasso Regression (L1 Penalty)**
Lasso cərimələndirməsi `penalty='l1'` parametri ilə həyata keçirilir. Bunun üçün `solver` parametrini də uyğun olaraq `liblinear` və ya `saga` seçmək lazımdır.

In [None]:
lasso_model = LogisticRegression(penalty='l1', solver='saga', C=1.0)  # SAGA və ya liblinear solver
lasso_model.fit(X_train, y_train)

# Proqnozlaşdırmaq və performansı ölçmək
y_pred = lasso_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Lasso Logistic Regression Accuracy:", accuracy)

### 3. **ElasticNet Regression**
ElasticNet cərimələndirməsi üçün həm `l1_ratio`, həm də `penalty='elasticnet'` parametrləri istifadə olunur. Burada da `solver` olaraq `saga` istifadə edilməlidir.

In [None]:
elasticnet_model = LogisticRegression(penalty='elasticnet', solver='saga', l1_ratio=0.5, C=1.0)
elasticnet_model.fit(X_train, y_train)

# Proqnozlaşdırmaq və performansı ölçmək
y_pred = elasticnet_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("ElasticNet Logistic Regression Accuracy:", accuracy)

### Parametrlərin İzahı:
- **`penalty`**: Cərimələndirmə növünü təyin edir (`l1`, `l2`, `elasticnet`).
- **`C`**: Cərimə əmsalını təyin edir. Daha böyük `C` daha az cərimələndirmə deməkdir (`C` dəyəri lambda-nın tərsidir).
- **`l1_ratio`**: ElasticNet üçün L1 və L2 arasında balans yaradır. `l1_ratio=0` yalnız Ridge, `l1_ratio=1` isə yalnız Lasso cəriməsi deməkdir.
- **`solver`**: Problemi həll etmək üçün istifadə edilən alqoritmdir. `liblinear` və `saga` solverləri L1 və ElasticNet cərimələndirməsini dəstəkləyir.

Bu nümunələrdə Logistic Regression daxilində Ridge, Lasso və ElasticNet cərimələndirmə üsullarını tətbiq edə bilərsiniz.

## Ridge, Lasso ve Elasticnet  svm, KNN, Decision tree-de de isleyir?

Ridge, Lasso və ElasticNet kimi cərimələndirmə üsulları xətti modellərdə, xüsusilə xətti reqressiya və logistika reqressiya modellərində tətbiq olunan texnikalardır. Bu cərimələndirmə metodları, xətti modellərin daha yaxşı ümumiləşdirilməsini təmin etmək üçün nəzərdə tutulmuşdur. Ancaq digər maşın öyrənməsi alqoritmlərində (məsələn, SVM, KNN, Decision Tree) bu cərimələndirmə üsullarının eyni formada işlədilməsi mümkün deyil, çünki bu alqoritmlər fərqli optimizasiya və iş prinsiplərinə malikdir.

### **Ridge, Lasso və ElasticNet Cərimələndirmələri**
- **Ridge (L2 Penalty):** Əmsalların böyüklüyünü cərimələyir və onların kiçik olmasına səbəb olur. Overfitting riskini azaldır.
- **Lasso (L1 Penalty):** Bəzi əmsalları tam sıfıra bərabər edir, yəni xüsusiyyət seçimi (feature selection) rolunu oynayır.
- **ElasticNet:** Həm L1, həm də L2 cərimələndirməsini birləşdirir və xüsusiyyətlər arasındakı əlaqələri idarə edir.

### **Bu Texnikalar Aşağıdakı Alqoritmlərdə Tətbiq Edilə Bilərmi?**

1. **Support Vector Machines (SVM)**
   - **SVM Cərimələndirməsi:** SVM-də **cərimə parametri (C)** Ridge Regression-a bənzər şəkildə işləyir. Bu parametr səhv təsnifatları cərimələndirərək marjanı böyütməyə çalışır. Yəni, SVM-də L1 və L2 cəriməsi istifadə edilməsə də, itki funksiyası və cərimələndirmə prinsipləri cərimə parametri `C` ilə idarə olunur.
   - **L1 və L2 Cərimələndirməsi:** SVM-də **LinearSVC** sinfi daxilində `penalty='l1'` və `penalty='l2'` parametrləri ilə L1 və L2 cərimələri tətbiq oluna bilər.

2. **K-Nearest Neighbors (KNN)**
   - **KNN-də Cərimələndirmə:** KNN alqoritmində cərimələndirmə tətbiq olunmur, çünki bu alqoritm xüsusiyyət əmsalları ilə deyil, məsafə metrikləri ilə işləyir. KNN sadəcə verilənlərdəki ən yaxın nöqtələrə əsaslanaraq qərar verir və əmsalların böyüklüyü kimi anlayışlar burada mövcud deyil.
   
3. **Decision Tree**
   - **Decision Tree Cərimələndirməsi:** Decision Tree alqoritmlərində də Ridge və Lasso kimi cərimələndirmələr tətbiq edilmir, çünki bu alqoritm əmsallarla işləmək əvəzinə, verilənləri ağac strukturu şəklində bölür.
   - **Overfitting-i İdarə Etmək:** Overfitting riskini azaltmaq üçün Decision Tree alqoritmində **ağacın dərinliyini məhdudlaşdırmaq** və ya **minimum nümunə sayını** təyin etmək kimi texnikalardan istifadə olunur.

### **Nəticə**
- **Ridge, Lasso və ElasticNet** xətti modellərə aid texnikalardır və onlar SVM-də müəyyən formada tətbiq oluna bilər.
- **KNN** və **Decision Tree** kimi qeyri-xətti modellərdə isə bu texnikalar tətbiq edilmir, çünki bu alqoritmlər əmsallarla deyil, fərqli prinsiplərlə işləyirlər.

Bu cərimələndirmə metodlarının işlədiyi modelləri və digər modellərdə alternativ üsulları başa düşmək maşın öyrənməsində doğru texnikaları seçmək üçün vacibdir.

## Bes Random Forest-de Ridge, Lasso ve Elasticnet isleyir?

**Random Forest** alqoritmində **Ridge**, **Lasso** və **ElasticNet** kimi cərimələndirmə üsulları birbaşa tətbiq olunmur. Bunun səbəbi Random Forest-in təməlində **Decision Tree** alqoritmi dayanmasıdır və Decision Tree əmsallarla işləmək əvəzinə, verilənləri qaydalara görə bölən bir alqoritmdir.

### **Niyə Random Forest-də Ridge, Lasso və ElasticNet İşləmir?**

1. **Decision Tree ilə İşləmə Prinsipi:**
   - Random Forest bir çox decision tree-dən ibarət olan ansambl metodudur. Hər bir decision tree verilənlər dəstini qaydalara görə bölərək təsnifat və ya reqressiya işləri görür.
   - Decision Tree-lər verilənləri əmsallarla təhlil etmədiyi üçün, Ridge, Lasso və ElasticNet cərimələri ilə işləmirlər. Bu cərimələr xətti modellərdə əmsalları tənzimləmək üçün istifadə olunur, lakin Decision Tree-lərdə belə bir əmsal yoxdur.

2. **Overfitting-lə Mübarizə:**
   - Random Forest alqoritmi decision tree-lərin təbii overfitting meylini azaldır. Bir çox ağacın nəticələrini birləşdirərək (və fərqli verilənlər dəstləri və xüsusiyyətlər üzərində hər bir ağacı təlim etdirərək), Random Forest daha sabit və ümumiləşdirilmiş nəticələr verir.
   - Random Forest modelində overfitting-in qarşısını almaq üçün ağacın dərinliyini məhdudlaşdırmaq, minimum nümunə sayını təyin etmək və ağaclar arasında müxtəliflik yaratmaq kimi metodlardan istifadə olunur. Bu üsullar Ridge, Lasso və ElasticNet cərimələndirmələrinin funksiyasını əvəz edir.

### **Random Forest üçün Alternativlər:**
Ridge, Lasso və ElasticNet kimi cərimələndirmələr xətti modellərdə xüsusiyyətlərin seçimi və modelin sadələşdirilməsi üçün istifadə olunur. Random Forest-də isə xüsusiyyətlərin seçimi avtomatik şəkildə edilir, çünki hər ağac yalnız bir hissə xüsusiyyəti istifadə edir. 

Əgər xüsusiyyət seçimi və ya əmsallar üzərində müəyyən bir cərimələndirmə tətbiq etmək istəyirsinizsə, xətti modellərdən istifadə etməlisiniz, məsələn:

- **Linear Regression** üçün Ridge, Lasso və ElasticNet.
- **Logistic Regression** üçün L1, L2 və ElasticNet.

Random Forest-də belə bir ehtiyac yoxdur, çünki o, ansambl metodlarının təbiəti ilə artıq overfitting-ə qarşı dayanır və xüsusiyyət seçimi prosesini təbii olaraq həyata keçirir.

### **Nəticə:**
Random Forest-də Ridge, Lasso və ElasticNet kimi cərimələndirmələr işləməz, çünki bu cərimələndirmələr xətti modellər üçün nəzərdə tutulmuşdur və Random Forest-in iş prinsipinə uyğun gəlmir. Əgər modeldə xüsusiyyət seçimi və cərimələndirmə tətbiq etmək istəyirsinizsə, xətti modellərə baxmaq daha uyğun olar.

## Types of Ensemble learning

Ensemble learning metodları, bir neçə zəif modelin birləşdirilərək daha güclü və sabit nəticələr əldə edilməsinə imkan verir. Bu metodlar fərqli modelləri və ya eyni modelin fərqli versiyalarını istifadə edərək nəticələrin ortalamasını alır və ya səs çoxluğunu təyin edir. Aşağıda Ensemble learning-in əsas növləri haqqında geniş məlumat verilir:

### 1. **Voting**
Voting, müxtəlif modellərin proqnozlarının birləşdirilməsi üsuludur. Burada əsas məqsəd bir neçə fərqli modelin proqnozlarını birləşdirərək daha dəqiq nəticə əldə etməkdir.

- **Hard Voting**: Hər modelin proqnozları nəzərə alınır və ən çox səs verilən sinif seçilir. Yəni, hansı sinif daha çox model tərəfindən seçilirsə, o sinif yekun proqnoz kimi təyin edilir.
- **Soft Voting**: Hər modelin ehtimal proqnozları nəzərə alınır və ortalama ehtimallar əsasında yekun proqnoz verilir.

### 2. **Bagging (Bootstrap Aggregating)**
Bagging, Bootstrap metodunu istifadə edərək təkrarlı olaraq verilənlərdən müxtəlif alt dəstələr seçir və hər bir alt dəstədə fərqli modellər qurur. Bu metod əsasən yüksək dəyişkənliyə malik modellərin stabilləşdirilməsi üçün istifadə edilir.

- **Random Forest**: Bagging-in ən məşhur tətbiqi olan Random Forest, müxtəlif decision tree-lərdən ibarət bir ansambl yaradır. Hər bir decision tree fərqli verilənlər dəstəsində qurulur və nəticələr səs çoxluğuna əsasən təyin edilir.

### 3. **Boosting**
Boosting, ardıcıl olaraq zəif modellər qurur və hər yeni model əvvəlki modelin düzgün proqnoz verə bilmədiyi nümunələri düzəltməyə çalışır. Bu metod zəif modelləri güclü modelə çevirmək üçün nəzərdə tutulub.

- **AdaBoost**: AdaBoost, hər modelin düzgün və ya səhv proqnozlarına görə ağırlıqlarını dəyişdirərək zəif modelləri ardıcıl qurur. Səhv proqnozlar daha çox ağırlıq alır, doğru proqnozlar isə daha az.
- **Gradient Boosting**: Gradient Boosting, qalıqların üzərində işləyən modellər yaradır. Hər yeni model əvvəlki modelin səhvlərini düzəltməyə çalışır.
- **XGBoost**: Gradient Boosting-in optimallaşdırılmış versiyasıdır. Hesablama performansını artırmaq və overfitting-i azaltmaq üçün müxtəlif optimallaşdırmalar təqdim edir.
- **CatBoost**: KatBoost, əsasən kateqorik verilənlərlə işləmək üçün optimallaşdırılmış bir Boosting metodudur. Bu metod xüsusilə kateqorik dəyişənlərin avtomatik olaraq kodlaşdırılmasını və optimal performans təmin etməsini asanlaşdırır.
- **LightGBM**: LightGBM, Gradient Boosting-in daha yüngül və sürətli bir variantıdır. Bu metod böyük verilənlər dəstələri üzərində effektiv şəkildə işləyir və hesablama müddətini əhəmiyyətli dərəcədə azaldır.

### 4. **Model Stacking**
Model Stacking, fərqli modellərin proqnozlarını birləşdirərək ikinci səviyyəli bir model qurur. Bu ikinci səviyyəli model ilkin modellərin proqnozlarına əsaslanaraq yekun proqnoz verir.

- **Base Models**: İlk səviyyədə bir neçə müxtəlif model istifadə olunur və hər biri verilənlər dəstəsində təlim olunur.
- **Meta-Model**: İkinci səviyyədə, ilkin modellərin proqnozlarını input olaraq istifadə edən bir meta-model qurulur. Bu meta-model yekun proqnozu təyin edir.

### Nəticə
Bu metodlar Ensemble learning-in müxtəlif tətbiq üsullarıdır və hər biri fərqli üstünlüklərə malikdir. Bagging yüksək dəyişkənlikli modelləri stabilləşdirmək üçün istifadə edilir, Boosting isə zəif modelləri güclü modellərə çevirmək üçün. Voting sadə birləşdirmə üsuludur, Stacking isə daha kompleks və güclü ansambl modellər yaratmağa imkan verir.

CatBoost və LightGBM kimi spesifik alqoritmlər isə Boosting texnikalarının optimallaşdırılmış formalarını təklif edirlər və müxtəlif problem sahələrində yüksək performans təmin edə bilirlər.

## 3. Boosting modellerin daha etrafli izahi

Boosting metodları maşın öyrənməsində güclü və effektiv modellər qurmaq üçün geniş istifadə olunur. AdaBoost, Gradient Boosting, XGBoost, CatBoost və LightGBM kimi müxtəlif Boosting alqoritmləri mövcuddur. Hər birinin özünəməxsus xüsusiyyətləri, üstünlükləri və məhdudiyyətləri vardır. Aşağıda bu modellərin detallı fərqlərini və hansı vəziyyətdə hansı modelin daha uyğun olacağını izah edirəm.

## 1. AdaBoost (Adaptive Boosting)

### Əsas Xüsusiyyətləri:
- **İş Prinsipi:** AdaBoost, hər yeni zəif modelin əvvəlki modellərin səhvlərinə fokuslanaraq qurulmasını təmin edir. Yəni, səhv proqnoz verilən nümunələrə daha çox ağırlıq verilir.
- **Ağırlıq Yeniləmə:** Hər iterasiyada nümunələrin ağırlıqları yenilənir. Səhv proqnoz verilən nümunələrin ağırlığı artırılır, doğru proqnoz verilənlərin isə azaldılır.
- **Zəif Modellər:** Adətən, sadə qərar ağacları (decision stumps) kimi zəif modellər istifadə olunur.

### Üstünlükləri:
- Sadə və asan tətbiq edilə biləndir.
- Overfitting riskini azaldır.
- Sürətli təlim prosesinə malikdir.

### Məhdudiyyətləri:
- Məsələn, çoxlu sayda outliers olan verilənlərdə performansı zəif ola bilər.
- Kompleks verilənlər üçün optimal olmaya bilər.

## 2. Gradient Boosting

### Əsas Xüsusiyyətləri:
- **İş Prinsipi:** Gradient Boosting, hər yeni modelin əvvəlki modelin qalıqlarını (residuals) düzəltməyə çalışdığı iterativ bir prosesdir.
- **Qalıq Əsasında Təkmilləşdirmə:** Hər iterasiyada əvvəlki modellərin səhvləri üzərində işləyərək ümumi dəqiqliyi artırır.
- **Loss Funksiyaları:** Müxtəlif itki funksiyalarını dəstəkləyir, bu da onu müxtəlif problemlərə uyğunlaşdırır.

### Üstünlükləri:
- Yüksək dəqiqlik və performans.
- Çeşidli problemlərə tətbiq oluna bilir (regressiya, təsnifat və s.).
- Parametrlərin geniş konfiqurasiyası ilə optimallaşdırma imkanı.

### Məhdudiyyətləri:
- Hesablama baxımından bahalı ola bilər.
- Overfitting riski yüksəkdir, xüsusilə çox sayda iterasiya ilə.

## 3. XGBoost (Extreme Gradient Boosting)

### Əsas Xüsusiyyətləri:
- **Optimallaşdırılmış Gradient Boosting:** Hesablama sürətini və yaddaş istifadəsini optimallaşdırır.
- **Regularizasiya:** L1 və L2 regularizasiyası vasitəsilə overfitting-i azaldır.
- **Paralel Təlim:** Paralel hesablama imkanları ilə təlim prosesini sürətləndirir.
- **Tree Pruning:** Daha effektiv ağac kəsimi alqoritmləri istifadə edir.

### Üstünlükləri:
- Sürətli və effektiv, böyük verilənlər üzərində yaxşı işləyir.
- Yüksək performans və dəqiqlik.
- Çoxlu sayda parametr tuning imkanları.
- Kaggle kimi yarışmalarda geniş istifadə olunur.

### Məhdudiyyətləri:
- Parametr tuning mürəkkəb ola bilər.
- Daha çox resurs tələb edir.

## 4. CatBoost

### Əsas Xüsusiyyətləri:
- **Kateqorik Dəyişənlərin Avtomatik Emalı:** Kateqorik verilənləri avtomatik olaraq kodlaşdırır, əlavə ön emal tələb etmir.
- **Order Boosting:** Overfitting-i azaltmaq üçün xüsusi təlim strategiyası istifadə edir.
- **Default Parametrlər:** Yaxşı performans üçün az parametr tuning tələb edir.

### Üstünlükləri:
- Kateqorik verilənlərlə asan işləyir.
- Overfitting riski aşağıdır.
- Performansı yüksək, xüsusən kateqorik xüsusiyyətlər çox olan verilənlər üçün.
- Minimal ön emal tələb edir.

### Məhdudiyyətləri:
- Bəzi hallarda digər modellərə nisbətən daha yavaş ola bilər.
- Bəzi platformalarda performans fərqləri ola bilər.

## 5. LightGBM (Light Gradient Boosting Machine)

### Əsas Xüsusiyyətləri:
- **Sürətli Təlim:** Gradient Boosting metodunu daha sürətli və yüngül etmək üçün optimallaşdırılmışdır.
- **Histogram-based:** Histogram əsasında təlim alqoritmi daha az yaddaş istifadə edir və sürətli təlim təmin edir.
- **Leaf-wise Tree Growth:** Dərin ağaclar quraraq daha yaxşı dəqiqlik əldə edir.

### Üstünlükləri:
- Böyük verilənlər dəstləri üçün idealdır.
- Yüksək sürət və effektivlik.
- Daha az yaddaş tələb edir.
- Yaxşı performans və dəqiqlik.

### Məhdudiyyətləri:
- Overfitting riski, xüsusilə dərin ağaclar istifadə edildikdə.
- Kateqorik xüsusiyyətlər üçün əlavə ön emal tələb edə bilər (CatBoost-dan fərqli olaraq).

## Hansını Necə Tətbiq Etmək?

### **AdaBoost:**
- **Uyğun Vəziyyətlər:** Sadə problemlər və kiçik verilənlər üçün idealdır.
- **Misal:** Klassik təsnifat problemləri, məsələn, spam filtrləri.
- **Nəzərə Alınmalı Faktorlar:** Overfitting riski azaldılmışdır, lakin çoxlu outliers olan verilənlər üçün uyğun deyil.

### **Gradient Boosting:**
- **Uyğun Vəziyyətlər:** Yüksək dəqiqlik tələb edən müxtəlif problemlər üçün geniş istifadə olunur.
- **Misal:** Proqnozlaşdırma modelləri, satış təhlili.
- **Nəzərə Alınmalı Faktorlar:** Optimal parametr tuning ilə yüksək performans əldə etmək mümkündür, amma hesablama baxımından bahalı ola bilər.

### **XGBoost:**
- **Uyğun Vəziyyətlər:** Böyük verilənlər və yüksək performans tələb edən tətbiqlər üçün idealdır.
- **Misal:** Kaggle yarışmaları, böyük biznes məlumat analizi.
- **Nəzərə Alınmalı Faktorlar:** Parametr tuning mürəkkəb ola bilər, amma yüksək performans təmin edir.

### **CatBoost:**
- **Uyğun Vəziyyətlər:** Kateqorik xüsusiyyətlər çox olan verilənlər üçün ən yaxşı seçimdir.
- **Misal:** Marketinq analizi, müştəri seqmentləşdirməsi.
- **Nəzərə Alınmalı Faktorlar:** Minimal ön emal tələb edir və kateqorik verilənlərlə asan işləyir.

### **LightGBM:**
- **Uyğun Vəziyyətlər:** Çox böyük verilənlər və yüksək sürət tələb edən tətbiqlər üçün idealdır.
- **Misal:** Real-time təhlil sistemləri, böyük verilənlər dəstləri ilə işləyən biznes tətbiqləri.
- **Nəzərə Alınmalı Faktorlar:** Overfitting riskinə diqqət edilməli, xüsusən dərin ağaclar istifadə edildikdə.

## Nəticə

Hansı Boosting metodunu seçməyiniz layihənizin tələblərinə və verilənlərinizin xüsusiyyətlərinə bağlıdır. Aşağıdakı tövsiyələrdən istifadə edə bilərsiniz:

- **Kateqorik verilənlər çoxdursa:** **CatBoost** ən yaxşı seçimdir.
- **Böyük verilənlər üzərində sürətli və effektiv performans istəyirsinizsə:** **LightGBM** uyğun olar.
- **Optimal performans və geniş optimallaşdırma imkanları üçün:** **XGBoost** istifadə edilə bilər.
- **Sadə və kiçik verilənlər üçün:** **AdaBoost** və ya **Gradient Boosting** istifadə edilə bilər.

Əlavə olaraq, müxtəlif modelləri sınayıb onların performansını müqayisə etmək, layihəniz üçün ən uyğun olanını müəyyənləşdirməyə kömək edəcəkdir. Modellərin hər biri müxtəlif vəziyyətlərdə üstünlük göstərə bilər, buna görə də verilənlərinizin xüsusiyyətlərini və layihənizin tələblərini diqqətlə qiymətləndirmək vacibdir.

## Voting de regressor tetbiqi haqqinda yaz

**Voting Regressor** də mövcuddur və bu metod, müxtəlif regresiya modellərinin nəticələrini birləşdirərək yekun proqnoz çıxarmaq üçün istifadə olunur. Voting Regressor, modellərin birləşdirilməsində fərqli strategiyalar istifadə edərək, bir neçə fərqli regressoru birləşdirir. 

### **Voting Regressor**
Voting Regressor, bir neçə fərqli regressoru birləşdirərək yekun proqnoz əldə edir. Burada əsas ideya, müxtəlif modellərin proqnozlarını birləşdirərək ümumi nəticəni yaxşılaşdırmaqdır. Voting Regressor iki növ ola bilər:

1. **Averaging (Orta hesabla birləşdirmə):**
   - Bütün modellərin proqnozları alınır və onların ortalaması çıxarılır.
   - Məsələn, üç fərqli model (Model 1, Model 2, Model 3) bir verilənlər dəstəsi üzərində tətbiq edildikdə, hər bir modelin proqnozu alınır və bu proqnozların arifmetik ortalaması nəticə kimi qəbul edilir.

2. **Weighted Averaging (Çəkili orta hesabla birləşdirmə):**
   - Bütün modellərin proqnozları alınır, lakin hər bir modelin proqnozuna müəyyən bir çəki verilir. Daha güclü performansa sahib modellərə daha çox çəki verilir.
   - Bu metod, daha yaxşı performans göstərən modellərin nəticələrə daha çox təsir etməsini təmin edir.

### **Voting Regressor-un üstünlükləri**
- **Model müxtəlifliyi**: Fərqli modellərin birləşdirilməsi ilə, hər bir modelin zəif cəhətləri digər modellər tərəfindən kompensasiya edilə bilər.
- **Təkmilləşdirilmiş performans**: Model müxtəlifliyi nəticəsində Voting Regressor daha sabit və dəqiq nəticələr təmin edə bilər.

### **Nümunə: Voting Regressor**
Tutaq ki, siz Linear Regression, Decision Tree Regressor və Random Forest Regressor modellərindən istifadə edirsiniz. Bu modellərin proqnozlarını Voting Regressor ilə birləşdirə bilərsiniz:

```python
from sklearn.ensemble import VotingRegressor
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor

# Ayrı-ayrı modelləri təyin edək
model1 = LinearRegression()
model2 = DecisionTreeRegressor()
model3 = RandomForestRegressor()

# Voting Regressor
voting_regressor = VotingRegressor(estimators=[
    ('lr', model1), 
    ('dt', model2), 
    ('rf', model3)
])

# Modeli təlim etdirin və proqnoz verin
voting_regressor.fit(X_train, y_train)
predictions = voting_regressor.predict(X_test)
```

Bu yanaşma, modellərin hər birinin güclü tərəflərindən faydalanmağa imkan verir və beləliklə, yekun proqnoz daha dəqiq ola bilər.

## bagging de regressor modelleri tetbiq edile biler?

Bəli, Bagging yalnız klassifikatorlar deyil, həm də regressor modelləri üçün tətbiq edilə bilər. Bagging metodunun əsas məqsədi, modelin təlim edildiyi verilənlər dəstələrini müxtəlif alt dəstələrə bölərək hər bir alt dəstədə fərqli modellər qurmaqdır. Bu metod, həm klassifikasiya, həm də regresiya problemlərində istifadə oluna bilər.

### **Bagging Regressor**
- **Bagging Regressor**: Əsas model olaraq hər hansı bir regresor seçilə bilər, məsələn, Decision Tree Regressor, Linear Regression, və s. Bagging Regressor, müxtəlif verilənlər alt dəstələri üzərində bu əsas modelləri qurur və nəticələrin ortalamasını alaraq yekun proqnoz verir.
  
- **Random Forest Regressor**: Bagging-in spesifik bir tətbiqi olan Random Forest, Decision Tree Regressor-larının bir ansamblından ibarət olan bir regresor modeldir. Random Forest Regressor, verilənlər dəstəsindən təkrarən seçilmiş alt dəstələr üzərində bir neçə decision tree qurur və nəticədə bütün ağacların proqnozlarının ortalamasını alaraq yekun proqnoz verir.

Bagging metodunun regressorlar üzərində istifadəsi, modelin variansını azaldır və daha stabil proqnozlar əldə etməyə kömək edir. Bu, xüsusilə decision tree kimi yüksək dəyişkənlikli modellərdə faydalıdır, çünki Bagging bu dəyişkənliyi stabilləşdirir və overfitting-in qarşısını alır.

## bes boosting de regressor tetbiq edile biler?

Bəli, Boosting metodları da regressor modelləri üçün tətbiq oluna bilər. Boosting, əsas modelin ardıcıl olaraq qurulması ilə işləyir, burada hər bir yeni model əvvəlki modellərin səhvlərini düzəltməyə çalışır. Bu metod da həm klassifikasiya, həm də regresiya problemlərində istifadə oluna bilər.

### **Boosting Regressor**
- **AdaBoost Regressor**: AdaBoost metodunun regresiya üçün tətbiqi. Burada hər bir ardıcıl model əvvəlki modelin proqnoz səhvlərinə daha çox diqqət yetirir. Nəticədə, modelin performansı ardıcıl olaraq yaxşılaşır.

- **Gradient Boosting Regressor**: Gradient Boosting, hər yeni modelin qalıqları (yəni əvvəlki modellərin proqnoz səhvləri) üzərində qurulması ilə işləyir. Bu metod çox populyardır və yüksək dəqiqlik təmin edir. Scikit-learn kitabxanasında Gradient Boosting Regressor olaraq tətbiq edilir.

- **XGBoost, LightGBM, və CatBoost**: Bunlar Boosting-in daha inkişaf etmiş versiyalarıdır və böyük verilənlər üzərində sürətli və effektiv təlim etmə qabiliyyəti ilə tanınır. Hər üç metod da regresiya problemləri üçün tətbiq oluna bilər və xüsusilə böyük ölçülü və mürəkkəb verilənlər dəstələri üzərində çox yaxşı nəticələr verir.

Boosting metodları regressor modellərində də çox uğurlu ola bilər, xüsusən də verilənlər dəstəsində qeyri-xətti əlaqələr və mürəkkəb strukturlar olduqda. Bu metodlar modelin performansını artırmaq üçün ardıcıl olaraq səhvləri azaldır və nəticədə daha yaxşı proqnozlar təmin edir.

## voting bagging boosting feqrlerini cedvel seklinde cixart

Aşağıdakı cədvəldə Voting, Bagging və Boosting metodlarının əsas fərqləri göstərilib:

| **Xüsusiyyət**                | **Voting**                                      | **Bagging**                                   | **Boosting**                                      |
|-------------------------------|-------------------------------------------------|------------------------------------------------|---------------------------------------------------|
| **İş prinsipi**               | Fərqli modellərin nəticələrini birləşdirir      | Eyni modelin bir neçə varyantını təlim edir   | Modellər ardıcıl olaraq təlim edilir, səhvləri düzəldir |
| **Modellərin birləşdirilməsi**| Bir neçə fərqli model (ən çox istifadə edilənlər) | Eyni modelin fərqli alt nümunələr üzərində təlimi | Hər bir növbəti model əvvəlkilərin səhvlərini düzəldir |
| **İşləmə tərzi**              | Paralel                                         | Paralel                                        | Sequential (ardıcıl)                               |
| **Overfitting riski**         | Aşağı                                           | Aşağı                                          | Daha yüksək, amma düzgün parametrlərlə idarə edilə bilər |
| **Çeviklik**                  | Çox müxtəlif modelləri birləşdirə bilir         | Əsasən eyni modelin təkrarlanması               | Modellər daha çox özünü tənzimləyir, çətin nümunələrə fokuslanır |
| **Hesablama mürəkkəbliyi**    | Orta                                            | Aşağı                                          | Yüksək, çünki ardıcıl təlim tələb olunur          |
| **Məşhur alqoritmlər**        | VotingClassifier, VotingRegressor               | Random Forest, BaggingClassifier               | AdaBoost, XGBoost, Gradient Boosting, LightGBM, CatBoost |
| **Paralel İşləmə**            | Bəli                                            | Bəli                                           | Xeyr                                              |
| **Stabillik**                 | Artırır, modelləri birləşdirir                  | Artırır, varyansı azaldır                      | Riskli, ancaq yaxşı idarə olunarsa dəqiqlik artır  |
| **Tətbiq sahələri**           | Hər iki klassifikasiya və reqressiya problemləri | Hər iki klassifikasiya və reqressiya problemləri | Əsasən klassifikasiya, bəzən reqressiya            |

Bu cədvəl Voting, Bagging və Boosting metodlarının əsas xüsusiyyətlərini və fərqlərini ümumi şəkildə göstərir.

## voting bagging boosting feqrlerini cedvel seklinde cixart

| **Xüsusiyyət**                      | **Voting**                                      | **Bagging**                                      | **Boosting**                                  |
|-------------------------------------|-------------------------------------------------|-------------------------------------------------|------------------------------------------------|
| **Əsas İdeya**                      | Müxtəlif modellərin nəticələrinin birləşdirilməsi | Eyni modelin müxtəlif nümunələr və xüsusiyyətlər üzərində təlim edilməsi | Modellərin ardıcıl şəkildə təlim edilməsi və səhvlərin düzəldilməsi |
| **Model Birləşdirmə**               | Fərqli modellər (məs. SVM, DT, LR)               | Eyni modelin fərqli versiyaları (məs. bir neçə decision tree) | Hər bir model əvvəlki modelin səhvlərini düzəldir |
| **Nəticə Birləşdirmə**              | Səs çoxluğu və ya ortalama ilə                   | Orta/median (regressiya) və ya səs çoxluğu (klassifikasiya) | Ardıcıl modellərin nəticələri birləşdirilir |
| **Paralel/Sequential İşləmə**       | Paralel                                         | Paralel                                          | Sequential, yəni ardıcıl |
| **Overfitting Risk**                | Orta səviyyədə                                  | Aşağı                                            | Yüksək (əgər düzgün təlim edilməzsə)        |
| **Əsas Məqsəd**                     | Modellərin ümumi dəqiqliyini artırmaq            | Varyansı azaltmaq və stabil nəticələr əldə etmək | Səhvləri azaltmaq və dəqiqliyi artırmaq     |
| **İstifadə Edilən Məşhur Algoritmlər** | VotingClassifier                                | Random Forest, BaggingClassifier                 | AdaBoost, Gradient Boosting, XGBoost, LightGBM, CatBoost |
| **Parametr Sayı**                   | Əsasən modellərin sayına bağlıdır               | Estimator, n_estimators, max_samples, max_features, bootstrap | Learning rate, n_estimators, base_estimator |
| **Hesablama Çətinliyi**             | Aşağı və ya orta                                 | Orta                                             | Yüksək                                        |


### X_train,  X_test,  y_train,  y_test  =  train_test_split(X,  y,  test_size= 0.3, stratify = y, random_state=42) 
* stratify nedir?

`stratify` parametri, `train_test_split` funksiyasında verilən dataset-i təlim və test dəstlərinə bölərkən, target dəyişəninin (`y`) siniflərinin nisbətini qorumaq üçün istifadə edilir. Bu, dataset-dəki siniflərin balanslı qalmasını təmin edir.

### Nümunə:
Tutaq ki, dataset-də iki sinif var: `0` və `1`. Əgər dataset-inizdə `0` sinfi 70% və `1` sinfi 30% təşkil edirsə, `stratify=y` olaraq `train_test_split` funksiyasına verildikdə, həm təlim, həm də test dəstlərində bu nisbətlər təxminən qorunacaq. Bu, modelin hər iki sinifi daha yaxşı öyrənməsinə kömək edir, xüsusilə də sinif balansı qeyri-bərabər olduqda.

Əgər `stratify` parametrini verməsəniz və dataset sinifləri qeyri-bərabərdirsə, təlim və test dəstlərində siniflərin nisbəti fərqli ola bilər, bu da modelin performansına mənfi təsir göstərə bilər.

## confusion_matrix

`confusion_matrix` funksiyasının Sklearn-də qaytardığı qarışıqlıq matrisi aşağıdakı formada olur:

|                 | **Proqnoz Edilən Sinif 0** | **Proqnoz Edilən Sinif 1** |
|-----------------|---------------------------|---------------------------|
| **Əsl Sinif 0** | True Negative (TN)         | False Positive (FP)        |
| **Əsl Sinif 1** | False Negative (FN)        | True Positive (TP)         |

### Açıklama:
- **True Negative (TN):** Əslində 0 olan nümunələr və düzgün 0 olaraq proqnozlaşdırılanlar.
- **False Positive (FP):** Əslində 0 olan nümunələr, amma səhvən 1 olaraq proqnozlaşdırılanlar.
- **False Negative (FN):** Əslində 1 olan nümunələr, amma səhvən 0 olaraq proqnozlaşdırılanlar.
- **True Positive (TP):** Əslində 1 olan nümunələr və düzgün 1 olaraq proqnozlaşdırılanlar.

### Confusion Matrix-dəki Hüceyrələr

|                 | **Proqnoz Edilən Sinif 0** | **Proqnoz Edilən Sinif 1** |
|-----------------|---------------------------|---------------------------|
| **Əsl Sinif 0** | TN (True Negative)         | FP (False Positive)        |
| **Əsl Sinif 1** | FN (False Negative)        | TP (True Positive)         |

Bu cədvəl confusion matrix-dəki hüceyrələrin yerləşməsini göstərir. Sklearn-də `confusion_matrix` funksiyasını istifadə edərək əldə etdiyiniz matrisi bu qaydada oxuya bilərsiniz.

## xgbt.score(X_train, y_train)
* bu neyin score dur?

`xgbt.score(X_train, y_train)` metodu, `xgbt` modelinin (`XGBClassifier` obyektinin) təlim məlumat dəstində (`X_train`, `y_train`) əldə etdiyi dəqiqliyi (`accuracy`) qaytarır.

### Ətraflı:
- **`X_train`:** Təlim üçün istifadə olunan xüsusiyyətlər (features).
- **`y_train`:** Təlim üçün istifadə olunan hədəf dəyişəni (labels).
- **`xgbt.score`:** Dəqiqlik hesabını qaytarır, yəni təlim dəstində proqnozların neçə faizinin düzgün olduğunu göstərir.

Əgər modelin proqnozları `y_train` ilə uyğun gəlirsə, `score` metodu təlim dəstindəki ümumi düzgün proqnozların nisbətini verir. Dəqiqlik hesabı 0 ilə 1 arasında dəyişir, burada 1 tam dəqiqliyi (bütün proqnozlar doğrudur) göstərir.

 xgbt = XGBClassifier( max_depth = 2,
*             learning_rate = 0.2,
*             objective  = "multi:softmax",
*             num_class = 2,
*             booster = "gbtree",
*             n_estimators = 10,
*             random_state = 123)

### Parametrler haqqinda melumet ver

`XGBClassifier` üçün istifadə olunan parametrler aşağıdakılardır:

### **Parametrlər və Təsvirləri:**

1. **`max_depth`**
   - **Təsvir:** Hər bir decision tree-nin maksimum dərinliyi.
   - **Qeyd:** Dərinlik artdıqca model daha kompleks olur, amma overfitting riski də artır.

2. **`learning_rate` (və ya `eta`)**
   - **Təsvir:** Hər bir tree-nin təsirini azaldır. Kiçik dəyərlər daha yaxşı nəticələr verə bilər, amma daha çox tree tələb edə bilər.
   - **Qeyd:** Düşük learning rate modelin öyrənməsini yavaşlatır və bu, daha çox `n_estimators` tələb edir.

3. **`objective`**
   - **Təsvir:** Məqsəd funksiyasını təyin edir. `multi:softmax` çox sinifli təsnifat üçün istifadə olunur.
   - **Qeyd:** Məqsəd funksiyası, modelin öyrənmə məqsədini müəyyən edir. `multi:softmax` birbaşa siniflərin proqnozlaşdırılmasını təmin edir.

4. **`num_class`**
   - **Təsvir:** Siniflərin sayı. `objective="multi:softmax"` istifadə edilərkən təyin edilir.
   - **Qeyd:** Bu parametr çox sinifli təsnifat problemini həll edərkən mütləq olaraq təyin edilməlidir.

5. **`booster`**
   - **Təsvir:** Hansı növ boosterlə (tree-based, linear) modelləşdiriləcəyini müəyyən edir. `gbtree`, `gblinear` və `dart` seçimləri var.
   - **Qeyd:** `gbtree` ağac əsaslı boosterlə daha kompleks problemləri həll edə bilər, `gblinear` isə xətləri modelləşdirmək üçün istifadə olunur.

6. **`n_estimators`**
   - **Təsvir:** Modeldə istifadə olunan tree-lərin sayı.
   - **Qeyd:** Daha çox tree əlavə edildikdə model daha yaxşı öyrənə bilər, amma daha uzun təlim vaxtı və overfitting riski ilə birlikdə gəlir.

7. **`random_state`**
   - **Təsvir:** Modelin təsadüfi işlərini təyin edən ədədi dəyər.
   - **Qeyd:** Təyin edilmiş dəyər modelin hər dəfə eyni nəticələr verməsini təmin edir, bu da nəticələrin təkrarolunmasını asanlaşdırır.

### Parametrlərin Tətbiqi

Yuxarıdakı parametr dəyərləri ilə XGBoost modeli qurarkən:

```python
from xgboost import XGBClassifier

xgbt = XGBClassifier(
    max_depth=2,                 # Tree dərinliyi
    learning_rate=0.2,           # Təsir dərəcəsi
    objective="multi:softmax",   # Çox sinifli təsnifat
    num_class=2,                 # İki sinif
    booster="gbtree",            # Tree-based boosting
    n_estimators=10,             # 10 tree
    random_state=123             # Təkrar nəticələr üçün təsadüfi dəyər
)
```

Bu parametrləri öz modelinizdə tənzimləməklə, performansını artırmaq və modelin tələblərinə uyğunlaşdırmaq mümkündür.

## Regression ucun en yaxsi model?

Regressiya problemləri üçün ən yaxşı model müxtəlif amillərə, o cümlədən verilənlərin təbiətinə, modelin interpretasiya qabiliyyətinə və performansına bağlı olaraq dəyişir. Aşağıda ən çox istifadə olunan və yüksək performans verən regressiya modellərinin qısa izahı verilmişdir:

### 1. **Linear Regression**
   - **İstifadə Sahəsi:** Sadə, xətti əlaqələri olan verilənlər.
   - **Üstünlükləri:** Asan tətbiq edilir və interpretasiya olunur.
   - **Məhdudiyyətləri:** Non-linear (qeyri-xətti) əlaqələri yaxşı tuta bilmir; outliers-ə həssasdır.

### 2. **Ridge və Lasso Regression**
   - **İstifadə Sahəsi:** Yüksək ölçülü verilənlər və ya multicollinearity olan problemlər.
   - **Üstünlükləri:** Regularization (cərimələndirmə) istifadə edərək modelin sadələşdirilməsi və overfitting-in azaldılması.
   - **Məhdudiyyətləri:** Non-linear əlaqələr üçün optimal deyil.

### 3. **Polynomial Regression**
   - **İstifadə Sahəsi:** Non-linear əlaqələr.
   - **Üstünlükləri:** Xətti olmayan əlaqələri tuta bilir.
   - **Məhdudiyyətləri:** Model çox kompleks ola bilər və overfitting riski yüksəkdir.

### 4. **Decision Tree Regressor**
   - **İstifadə Sahəsi:** Həm xətti, həm də xətti olmayan əlaqələr üçün istifadə olunur.
   - **Üstünlükləri:** Asan interpretasiya olunur və outliers-lərə daha az həssasdır.
   - **Məhdudiyyətləri:** Overfitting riski yüksəkdir, xüsusilə ağac çox dərin olduqda.

### 5. **Random Forest Regressor**
   - **İstifadə Sahəsi:** Decision Tree-dən daha stabil və dəqiq proqnozlar tələb olunan hallar.
   - **Üstünlükləri:** Overfitting riski azdır; yaxşı ümumi performans verir.
   - **Məhdudiyyətləri:** Ağacların sayı çox olduqda daha çox hesablama resursu tələb edir.

### 6. **Gradient Boosting Regressor**
   - **İstifadə Sahəsi:** Yüksək dəqiqlik tələb edən non-linear əlaqələri olan verilənlər.
   - **Üstünlükləri:** Yüksək performans; yaxşı ümumi dəqiqlik.
   - **Məhdudiyyətləri:** Hesablama baxımından bahalı və parametr tuning mürəkkəbdir.

### 7. **XGBoost, LightGBM, və CatBoost Regressor**
   - **İstifadə Sahəsi:** Böyük verilənlər, kompleks əlaqələr və yüksək dəqiqlik tələb olunan hallar.
   - **Üstünlükləri:** Yüksək sürət və performans; müxtəlif optimallaşdırmalar və avtomatik kateqorik xüsusiyyətlərin emalı.
   - **Məhdudiyyətləri:** Parametr tuning mürəkkəb ola bilər.

### 8. **Support Vector Regression (SVR)**
   - **İstifadə Sahəsi:** Xətti olmayan və kompleks verilənlər.
   - **Üstünlükləri:** Xətti olmayan əlaqələri yaxşı tuta bilir və margin-based regressiya təmin edir.
   - **Məhdudiyyətləri:** Parametr tuning çətin ola bilər və böyük verilənlər dəstləri üçün yavaş ola bilər.

### 9. **Neural Networks (MLP Regressor)**
   - **İstifadə Sahəsi:** Çox böyük və kompleks verilənlər.
   - **Üstünlükləri:** Xətti olmayan kompleks əlaqələri tuta bilir.
   - **Məhdudiyyətləri:** Hesablama baxımından bahalı və interpretasiya etmək çətindir.

### Hansı Modeli Seçmək?
- **Sadə, xətti əlaqələr:** Linear Regression, Ridge və ya Lasso Regression.
- **Xətti olmayan əlaqələr:** Polynomial Regression, Decision Tree Regressor, SVR.
- **Yüksək performans və kompleks modellər:** Random Forest, Gradient Boosting, XGBoost, LightGBM, CatBoost.
- **Böyük və çox ölçülü verilənlər:** LightGBM, CatBoost, Neural Networks.

Verilənlərinizin xüsusiyyətlərinə uyğun olaraq modelləri sınamaq və onların performansını müqayisə etmək daha yaxşı nəticələr əldə etməyə kömək edəcək.

## Polynomial Regression model qur?

Aşağıda Polynomial Regression modelini qurmaq üçün tam kod nümunəsi verilmişdir:

### Adım 1: Lazımi kitabxanaların yüklənməsi
```python
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
```

### Adım 2: Verilənlərin yüklənməsi və hazırlanması
```python
# Verilənləri yükləyin
credit = pd.read_csv(r"C:\Users\dell\Desktop\Python\week6\day1\CreditCardDefault.csv")
credit.drop(["ID"], axis=1, inplace=True)

# X və y dəyişənlərini təyin edin
X = credit.iloc[:, 0:23]
y = credit.iloc[:, -1]

# Verilənləri təlim və test dəstlərinə bölün
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
```

### Adım 3: Polynomial Features yaratmaq
```python
# Polynomial features yaratmaq üçün PolynomialFeatures sinifini çağırın
degree = 2  # Polynomial dərəcəsi
poly = PolynomialFeatures(degree)

# Təlim və test dəstləri üçün polynomial xüsusiyyətlər yaradın
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)
```

### Adım 4: Linear Regression modeli ilə polynomial regression tətbiqi
```python
# Linear Regression modelini qurun
model = LinearRegression()

# Polynomial verilənlər üzərində modeli təlim edin
model.fit(X_train_poly, y_train)

# Test dəsti üzərində proqnozlar edin
y_pred = model.predict(X_test_poly)
```

### Adım 5: Model performansının qiymətləndirilməsi
```python
# MSE və R2 dəyərlərini hesablayın
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error (MSE): {mse}")
print(f"R-squared (R2): {r2}")
```

### İcra
Bu kod parçalarını addım-addım icra etdikdən sonra Polynomial Regression modelini qurmuş olacaqsınız. Kodun sonunda modelin performansını `Mean Squared Error (MSE)` və `R-squared (R2)` dəyərləri ilə ölçə biləcəksiniz.

**Qeyd:** `degree` parametrini dəyişdirərək polynomial modelin dərəcəsini tənzimləyə bilərsiniz. Çox yüksək dərəcələr overfitting-ə səbəb ola bilər, buna görə dərəcəni diqqətlə seçmək vacibdir.

## Modellerde threshold-u nece deyisim?

Threshold (məhdud) dəyərini dəyişdirmək, xüsusilə təsnifat modelləri üçün vacibdir, çünki default olaraq modellər çox vaxt 0.5 threshold ilə işləyir. Threshold dəyərini dəyişdirməklə, modelin proqnoz nəticələrinin "positive" və "negative" olaraq təsnif edilmə meyarını dəyişdirə bilərsiniz.

### Adımlar

1. **Model proqnozlarını ehtimallar kimi əldə edin.**
   - Təsnifat modellərində `.predict_proba()` metodu istifadə edərək ehtimal dəyərlərini ala bilərsiniz.

2. **Threshold-a əsasən proqnozları təsnif edin.**
   - İstədiyiniz threshold dəyərinə əsasən ehtimalları `positive` və ya `negative` olaraq təsnif edəcəksiniz.

### Kod nümunəsi

Məsələn, bir təsnifat modeli üçün threshold-u necə dəyişdirəcəyinizi göstərən bir nümunə:

```python
import numpy as np
from sklearn.metrics import confusion_matrix, accuracy_score, roc_auc_score, f1_score, precision_score, recall_score

# Model proqnozları ehtimal kimi alındı
y_probs = model.predict_proba(X_test)[:, 1]  # Positive class üçün ehtimal

# Threshold dəyərini təyin edin
threshold = 0.3  # İstədiyiniz threshold dəyəri

# Threshold-a əsasən proqnozları təsnif edin
y_pred_threshold = np.where(y_probs > threshold, 1, 0)

# Performansı qiymətləndirin
print('Confusion Matrix:\n', confusion_matrix(y_test, y_pred_threshold))
print()
print('Accuracy: ', accuracy_score(y_test, y_pred_threshold))
print('ROC AUC Score: ', roc_auc_score(y_test, y_pred_threshold))
print('F1 Score: ', f1_score(y_test, y_pred_threshold))
print('Precision Score: ', precision_score(y_test, y_pred_threshold))
print('Recall Score: ', recall_score(y_test, y_pred_threshold))
```

### İzahat:
- **`predict_proba`:** Bu metod modelin hər bir sinif üçün ehtimallarını qaytarır. `[:, 1]` pozitiv sinifin ehtimallarını seçir.
- **`threshold = 0.3`:** İstədiyiniz threshold dəyərini təyin edirsiniz. Burada 0.3 olaraq seçilib.
- **`np.where(y_probs > threshold, 1, 0)`:** Ehtimalları seçilən threshold dəyərinə əsasən 1 (positive) və ya 0 (negative) olaraq təsnif edir.

Bu yanaşma, threshold dəyərini dəyişdirərək modelin performansını müxtəlif threshold dəyərləri üçün optimallaşdırmağa və balanslaşdırmağa imkan verir. Bu, xüsusilə sinif disbalansı olan verilənlər dəstlərində faydalı ola bilər.

## Butun modellerde threshold-u eyni cur deyismek olar?

Bəli, threshold dəyərini dəyişdirmə üsulu demək olar ki, bütün təsnifat modellərində tətbiq edilə bilər. Lakin bu proses yalnız ehtimal əsaslı təsnifat modelləri üçün keçərlidir. Aşağıda bəzi ümumi modellər üçün bu yanaşmanı necə tətbiq etmək barədə izahatlar verilmişdir:

### 1. **Logistic Regression, Random Forest, Gradient Boosting və s.**  
Bu modellər ehtimal proqnozları qaytarır və threshold-u dəyişdirmək üçün `.predict_proba()` metodundan istifadə edilə bilər.

### 2. **Support Vector Machine (SVM)**
SVM modelləri default olaraq ehtimal vermir, lakin `probability=True` olaraq modeli qurmaqla ehtimal əsaslı proqnozlar əldə edə bilərsiniz. Sonra threshold-u dəyişdirmək mümkündür.

### 3. **Neural Networks (MLPClassifier)**
Sinif ehtimalları `.predict_proba()` metodu ilə əldə edilir və threshold-a əsasən dəyişdirilə bilər.

### 4. **Naive Bayes**
Naive Bayes modelləri də ehtimallar qaytarır, buna görə threshold-u dəyişdirmək üçün `.predict_proba()` metodundan istifadə edilə bilər.

### 5. **K-Nearest Neighbors (KNN)**
KNN də `.predict_proba()` metodu ilə ehtimallar qaytarır və bu ehtimallara əsasən threshold dəyişdirilə bilər.

### Tətbiq etmək üçün Ümumi Yanaşma:
```python
y_probs = model.predict_proba(X_test)[:, 1]  # Pozitiv sinif ehtimalları

threshold = 0.3  # İstədiyiniz threshold dəyəri

y_pred_threshold = np.where(y_probs > threshold, 1, 0)

# Performansı qiymətləndirin
print('Confusion Matrix:\n', confusion_matrix(y_test, y_pred_threshold))
print('Accuracy: ', accuracy_score(y_test, y_pred_threshold))
print('ROC AUC Score: ', roc_auc_score(y_test, y_pred_threshold))
print('F1 Score: ', f1_score(y_test, y_pred_threshold))
print('Precision Score: ', precision_score(y_test, y_pred_threshold))
print('Recall Score: ', recall_score(y_test, y_pred_threshold))
```

### Qeyd:
- **Decision Tree** kimi bəzi modellərdə ehtimal dəyərləri, leaf düyünlərinin təxminləri ilə hesablanır və `.predict_proba()` metodu vasitəsilə əldə edilə bilər.
- **Threshold dəyərini dəyişdirmək**, modelin təsnifat balansını dəyişdirməyə imkan verir, bu da sinif disbalansı olan verilənlərdə xüsusilə faydalıdır.

Beləliklə, ehtimal əsaslı təsnifat modellərində threshold dəyərini dəyişdirmək mümkün və çox vaxt faydalıdır.

## Boosting modellerinde, meselen XGBoost goturek. Bu modeli tetbiq ederken ozu arxa plnada hansi modeller qurur?

Boosting modellərində, məsələn, XGBoost istifadə edərkən, modelin arxa planda qurduğu zəif modelləri (base learners) başa düşmək vacibdir. Boosting metodları ardıcıl olaraq zəif modelləri birləşdirərək daha güclü bir model qurur. XGBoost, Gradient Boosting metodunun optimallaşdırılmış bir versiyasıdır və bu arxa planda aşağıdakı addımları həyata keçirir:

### XGBoost-un Arxa Planında Qurulan Modellər

1. **Zəif Modellərin (Base Learners) Qurulması:**
   - **Decision Trees:** XGBoost, ən çox Decision Tree-lərdən istifadə edir. Bu ağaclar, çox vaxt "stumps" olaraq da adlandırılan çox sadə qərar ağaclarıdır. XGBoost-da bu ağaclar çox vaxt qısa və çox dərin olmur; bu, hər bir ağacın çox sadə olduğunu bildirir.

2. **Ardıcıl Tətbiq:**
   - **Gradient Descent:** XGBoost, hər yeni ağacı əvvəlki modellərin səhvlərini düzəltmək üçün qurur. Bu, gradient descent optimallaşdırma metodu vasitəsilə həyata keçirilir. Hər bir ağacın yaradılması, əvvəlki ağacların səhvlərinə (residuals) əsaslanır.

3. **Öyrənmə Sürəti (Learning Rate):**
   - **Learning Rate:** Hər yeni ağacın təsirini tənzimləyən bir öyrənmə sürəti (learning rate) istifadə edilir. Bu, hər bir ağacın proqnozlarına əlavə ediləcək ağırlığı müəyyən edir. Daha kiçik öyrənmə sürəti ilə daha çox ağac tələb olunur.

4. **Regularization:**
   - **Regularization:** XGBoost-da modelin overfitting riskini azaltmaq üçün cərimələndirmə (regularization) tətbiq edilir. Bu, ağacların böyüməsini tənzimləmək və modelin kompleksliyini azaltmaq məqsədini güdür. XGBoost L1 (Lasso) və L2 (Ridge) cərimələndirmə üsullarını dəstəkləyir.

5. **Early Stopping:**
   - **Early Stopping:** XGBoost, modelin performansını qiymətləndirmək üçün validasiya dəstini istifadə edir və performansın yaxşılaşmadığı yerə qədər ağacları qurmağa davam edir. Bu, overfitting-i azaltmağa kömək edir.

### XGBoost-un İş Prinsipi:

1. **Başlanğıc Model:** Əvvəlcə bütün verilənlər üçün proqnozları təsadüfi bir başlanğıc dəyəri ilə başlatır.
2. **Residual Hesablanması:** Təxmin edilmiş dəyərlərlə real dəyərlər arasındakı fərqi hesablamaqla qalıqları (residuals) tapır.
3. **Yeni Ağacın Qurulması:** Qalıqları (residuals) düzəltmək üçün yeni bir Decision Tree qurur. Bu ağac qalıqların düzəldilməsinə kömək edir.
4. **Proqnozlara Əlavə:** Yeni ağacın təxminləri əvvəlki proqnozlara əlavə edilir.
5. **Yenidən Hesablamalar:** Bu proses təkrar olunur, hər dəfə yeni ağac əvvəlki ağacların səhvlərini düzəldir.

Bu üsulla, XGBoost bir neçə zəif modelin (Decision Trees) ardıcıl olaraq birləşdirilməsi ilə güclü və dəqiq bir model qurur. Bu yanaşma, modelin öyrənmə qabiliyyətini artırır və daha yaxşı nəticələr əldə etməyə kömək edir.

## Boosting modelleri arxa planda hansi modelleri qurur. Bir bir hamisi haqqinda yaz?

Boosting modelləri arxa planda zəif modellər (base learners) qurur. Ən çox istifadə olunan boosting modelləri bunlardır: AdaBoost, Gradient Boosting, XGBoost, LightGBM, və CatBoost. Aşağıda hər birinin arxa planda qurduğu modellərin xüsusiyyətlərini izah edirəm:

### 1. **AdaBoost (Adaptive Boosting)**

- **Zəif Modellər:** Ən çox **Decision Trees** (adətən "stumps" adlanan çox sadə ağaclar) istifadə edilir. Hər bir ağac, əvvəlki ağacların səhvlərinə daha çox diqqət yetirir.
- **İş Prinsipi:** AdaBoost, hər yeni ağacın əvvəlki ağacların səhvlərini düzəltməyə çalışır. Səhv təsnif edilən nümunələrə daha çox ağırlıq verilir, beləliklə, yeni ağaclar bu nümunələrə daha çox diqqət yetirir.

### 2. **Gradient Boosting**

- **Zəif Modellər:** **Decision Trees** istifadə edilir. Bu ağaclar adətən daha dərin və daha kompleks ola bilər, lakin hələ də çox sadə modellərdir.
- **İş Prinsipi:** Hər yeni ağac, əvvəlki ağacların qalıqları üzərində işləyərək səhvləri düzəltməyə çalışır. Hər ağac gradient descent metodunu istifadə edərək əvvəlki ağacların səhvlərini azaldır.

### 3. **XGBoost (Extreme Gradient Boosting)**

- **Zəif Modellər:** **Decision Trees** (adətən daha kiçik və daha sadə).
- **İş Prinsipi:** XGBoost, Gradient Boosting metodunun optimallaşdırılmış versiyasıdır. Bu metod eyni zamanda L1 (Lasso) və L2 (Ridge) cərimələndirmə tətbiq edir, və ağacların böyüməsini tənzimləyərək overfitting-i azaldır. Hər ağac əvvəlki ağacların səhvlərinə əsaslanaraq yaradılır və öyrənmə sürəti (learning rate) ilə tənzimlənir.

### 4. **LightGBM (Light Gradient Boosting Machine)**

- **Zəif Modellər:** **Decision Trees** (adətən daha yüngül və daha sürətli öyrənən ağaclar).
- **İş Prinsipi:** LightGBM, Gradient Boosting-in daha sürətli və daha az resurs tələb edən variantıdır. Ağacları "leaf-wise" bölmələrdən istifadə edərək qurur, bu da daha dərin və daha təkmil ağaclara gətirib çıxarır. Bu yanaşma, daha sürətli və daha yaxşı performans verir, xüsusilə böyük verilənlər dəstələrində.

### 5. **CatBoost (Categorical Boosting)**

- **Zəif Modellər:** **Decision Trees** (daha optimallaşdırılmış və kateqorik dəyişənləri avtomatik emal edən ağaclar).
- **İş Prinsipi:** CatBoost, Gradient Boosting-in xüsusilə kateqorik verilənlərlə işləməyə optimallaşdırılmış versiyasıdır. Bu model kateqorik dəyişənlərin avtomatik kodlaşdırılmasını təmin edir və şumun qarşısını almaq üçün müxtəlif texnikalardan istifadə edir. Ağaclar adətən daha qısa və effektiv olur, modelin öyrənmə sürəti yüksəkdir.

### Ümumi Yanaşma:
Bütün bu boosting modelləri, zəif modelləri (adətən Decision Trees) bir-birinin ardınca quraraq, əvvəlki modellərin səhvlərini düzəltməyə çalışır. Hər yeni model əvvəlki modellərin qalıqları üzərində işləyir və modelin ümumi performansını artırır.

Bu yanaşmaların hər biri, müxtəlif optimallaşdırma və cərimələndirmə üsulları ilə modelin performansını artırmağa və overfitting-i azaltmağa çalışır.

## Bagging-de eyni model qurulur? Boosting-de eyni model qurulur yoxsa bir nece model?

Bagging və Boosting metodları arasında əsas fərq ondan ibarətdir ki, hər biri modelləri necə qurur və birləşdirir.

### Bagging (Bootstrap Aggregating)

**Bagging** metodunda bir neçə eyni model (həmin növ model) qurulur, lakin bu modellər fərqli verilənlər dəstləri üzərində öyrədilir. 

- **Eyni Model:** Bəli, **bagging** metodunda eyni növ modeldən bir neçə dəfə istifadə edilir. Məsələn, əgər bagging metodunda Decision Tree istifadə edilirsə, bütün modellər Decision Tree olacaq.
- **Verilənlər Dəstləri:** Bagging, orijinal verilənlər dəstinin təkrar nümunələri ilə yaradılan fərqli verilənlər dəstlərini (bootstrap samples) istifadə edərək hər bir modeli öyrədir.
- **Final Nəticə:** Hər bir modelin proqnozları birləşdirilir. Təsnifat üçün bu, adətən səsvermə (majority voting) üsulu ilə, regresiyada isə ortalama (averaging) ilə həyata keçirilir.

**Nəticə:** Bagging metodunda bir neçə eyni model yaradılır, lakin bu modellər fərqli verilənlər üzərində öyrədilir və final nəticə bütün modellərin nəticələrinin birləşdirilməsi ilə alınır.

### Boosting

**Boosting** metodunda isə modellər ardıcıl olaraq qurulur, və hər bir yeni model əvvəlki modellərin səhvlərini düzəltməyə çalışır. Bu prosesdə modellərin hər biri eyni növ olsa da, onların hər biri müxtəlif verilənlər üzərində və fərqli səhvlər üzərində öyrədilir.

- **Eyni Model:** Bəli, **boosting** metodunda da eyni növ model istifadə edilir. Məsələn, Gradient Boosting-də Decision Tree-lər istifadə edilirsə, bütün modellər Decision Tree olacaq.
- **Modellərin Qurulması:** Lakin burada fərq ondan ibarətdir ki, hər bir yeni model əvvəlki modellərin səhvlərini düzəltmək üçün qurulur, yəni hər model fərqli şəkildə optimallaşdırılmış bir variant kimi fəaliyyət göstərir.
- **Final Nəticə:** Hər bir modelin nəticələri birləşdirilir, lakin bu birləşmə hər bir modelin səhvlərini düzəltmək üçün fərqli çəkilərdən istifadə edir.

**Nəticə:** Boosting metodunda eyni növ model bir neçə dəfə qurulur, lakin bu modellər bir-birindən fərqlidir, çünki hər biri əvvəlki modellərin səhvlərini düzəltməyə çalışır. Bu modellər ardıcıl olaraq qurulur və nəticələr birləşdirilərək daha güclü bir model yaradılır.

### Ümumi Qısa Xülasə:

- **Bagging:** Eyni növ model, fərqli verilənlər dəstləri üzərində paralel olaraq öyrədilir və nəticələr birləşdirilir.
- **Boosting:** Eyni növ model, ardıcıl olaraq qurulur və hər bir yeni model əvvəlki modellərin səhvlərini düzəldir.

## Modelin overfitting edib etmediyini nece bilim?

Modelin overfitting edib-etmədiyini müəyyən etmək üçün bir neçə üsul və göstəricidən istifadə etmək mümkündür. Overfitting, modelin təlim məlumatlarına həddindən artıq uyğunlaşdığı, lakin test və ya yeni məlumatlarla yaxşı performans göstərmədiyi bir vəziyyətdir. Overfitting olub-olmadığını müəyyən etmək üçün aşağıdakı yanaşmaları istifadə edə bilərsiniz:

### 1. **Train-Test Split və Performans Müqayisəsi**
   - **Train Score:** Modelin təlim (train) məlumatlarındakı performansını ölçün. Yüksək dəqiqlik (accuracy) və ya digər performans metrikləri (məsələn, R² score) modelin təlim məlumatlarına çox yaxşı uyğunlaşdığını göstərə bilər.
   - **Test Score:** Modelin test (validation) məlumatlarındakı performansını ölçün. Əgər test dəstindəki performans əhəmiyyətli dərəcədə aşağıdırsa, bu, overfitting işarəsi ola bilər.

   **Misal:**
   ```python
   train_score = model.score(X_train, y_train)
   test_score = model.score(X_test, y_test)
   
   print("Train Score:", train_score)
   print("Test Score:", test_score)
   ```

   - **Overfitting əlaməti:** Train score çox yüksək, test score isə əhəmiyyətli dərəcədə aşağıdırsa, bu, overfitting işarəsidir.

### 2. **Learning Curve**
   - **Learning Curve:** Train və test məlumatları üzərində modelin performansını müxtəlif təlim məlumatları ilə vizuallaşdıran bir əyri çəkin. Əgər train əyrisi yuxarıda qalır və test əyrisi daha aşağıda qalırsa, bu da overfitting göstəricisidir.

   **Misal:**
   ```python
   from sklearn.model_selection import learning_curve
   import matplotlib.pyplot as plt

   train_sizes, train_scores, test_scores = learning_curve(model, X, y, cv=5)

   train_scores_mean = np.mean(train_scores, axis=1)
   test_scores_mean = np.mean(test_scores, axis=1)

   plt.plot(train_sizes, train_scores_mean, 'o-', color="r", label="Training score")
   plt.plot(train_sizes, test_scores_mean, 'o-', color="g", label="Cross-validation score")
   plt.xlabel("Training examples")
   plt.ylabel("Score")
   plt.legend(loc="best")
   plt.show()
   ```

   - **Overfitting əlaməti:** Əgər train əyrisi yüksək performans göstərir, lakin test əyrisi daha aşağı qalırsa və aradakı fərq böyükdürsə, bu da overfitting-i göstərir.

### 3. **Cross-Validation**
   - **Cross-Validation:** Verilənlər dəstini bir neçə hissəyə bölərək modelin performansını müxtəlif hissələr üzərində yoxlayın. Əgər modelin performansı müxtəlif hissələr arasında çox dəyişirsə, bu da overfitting işarəsi ola bilər.

   **Misal:**
   ```python
   from sklearn.model_selection import cross_val_score
   scores = cross_val_score(model, X, y, cv=5)

   print("Cross-Validation Scores:", scores)
   print("Mean Score:", np.mean(scores))
   ```

   - **Overfitting əlaməti:** Cross-validation nəticələri arasında böyük fərqlər varsa, bu, modelin müəyyən verilənlər dəstlərinə həddən artıq uyğunlaşdığını göstərə bilər.

### 4. **Validation Curve**
   - **Validation Curve:** Modelin müəyyən parametrləri üzrə performansını yoxlamaq üçün validation curve çəkə bilərsiniz. Əgər train performansı yüksəkdir, lakin validation performansı aşağıdırsa, overfitting ehtimalı var.

   **Misal:**
   ```python
   from sklearn.model_selection import validation_curve

   param_range = np.logspace(-6, -1, 5)
   train_scores, test_scores = validation_curve(model, X, y, param_name="alpha", param_range=param_range, cv=5)

   train_scores_mean = np.mean(train_scores, axis=1)
   test_scores_mean = np.mean(test_scores, axis=1)

   plt.plot(param_range, train_scores_mean, label="Training score", color="r")
   plt.plot(param_range, test_scores_mean, label="Cross-validation score", color="g")
   plt.xlabel("Parameter")
   plt.ylabel("Score")
   plt.legend(loc="best")
   plt.show()
   ```

   - **Overfitting əlaməti:** Train əyrisi yüksək, validation əyrisi isə daha aşağı qalırsa, overfitting ehtimalı var.

### 5. **Regularization Yoxlamaq**
   - **Regularization:** Regularization (L1, L2 cərimələndirmə) metodlarından istifadə etməklə modelin overfitting edilib-etmədiyini yoxlaya bilərsiniz. Regularization overfitting-in qarşısını almağa kömək edir.

   - **Overfitting əlaməti:** Regularization tətbiq etdikdə modelin performansı daha sabit və balanslı olursa, bu, overfitting-in qarşısını almağa kömək edə bilər.

### 6. **Modelin Kompleksliyi**
   - **Modelin Kompleksliyi:** Çox kompleks modellər (çox dərin decision tree-lər, çox sayda hidden layer-ləri olan neyron şəbəkələr və s.) asanlıqla overfitting edə bilər. Sadə modellər istifadə edərək performansı müqayisə etmək də overfitting-i müəyyən etməyə kömək edə bilər.

   - **Overfitting əlaməti:** Çox kompleks model çox yüksək train performansı və aşağı test performansı göstərə bilər.

Bu metodlar və yanaşmalarla modelin overfitting edib-etmədiyini müəyyən edə bilərsiniz və ehtiyac olduqda daha yaxşı performans əldə etmək üçün modelin quruluşunu və parametrlərini tənzimləyə bilərsiniz.

### train_score = model.score(X_train, y_train)
### test_score = model.score(X_test, y_test)
## Bunlar accuracy dir?

Bəli, `model.score(X_train, y_train)` və `model.score(X_test, y_test)` metodları adətən **accuracy** dəyərini qaytarır, amma bu, yalnız təsnifat (classification) modelləri üçün keçərlidir. 

### Təfsilatlı izah:
- **Classification Modelləri üçün:** 
  - `model.score(X_train, y_train)` və `model.score(X_test, y_test)` təlim və test dəstlərində modelin təsnifat dəqiqliyini (accuracy) qaytarır. Bu, düzgün proqnozların ümumi nümunələrə nisbətidir.

  ```python
  accuracy = correct_predictions / total_predictions
  ```

- **Regression Modelləri üçün:** 
  - Əgər model regresiya modelidirsə (məsələn, Linear Regression, Ridge, Lasso), `model.score()` metodunun qaytardığı dəyər **R² score** olacaq. R² score, modelin verilənlər dəstinə nə qədər yaxşı uyğun gəldiyini ölçür və proqnozların faktiki dəyərlərə nə qədər yaxın olduğunu göstərir.

  ```python
  R² = 1 - (SS_res / SS_tot)
  ```
  Burada:
  - `SS_res`: Proqnozlaşdırılmış dəyərlərin və faktiki dəyərlərin kvadrat fərqlərinin cəmi.
  - `SS_tot`: Faktiki dəyərlərin və onların ortalama dəyərinin kvadrat fərqlərinin cəmi.

### Nəticə:
Əgər təsnifat modeli istifadə edirsinizsə, `model.score()` metodu **accuracy** dəyərini, əgər regresiya modeli istifadə edirsinizsə, **R² score** qaytaracaq.

## Bank datalari ucun ve elektronika satan sirket datalari ucun en cox hansi modeller istifade olunur?

Bank dataları və elektronika satan şirkətlərin məlumatları üçün ən uyğun modellər seçilərkən, bu dataların xarakteristikası və məqsəd nəzərə alınır. Hər bir sektorun özünəməxsus xüsusiyyətləri var, buna görə də istifadə olunan modellər fərqlənə bilər.

### Bank Dataları Üçün
Bank sektoru əsasən müştərilərin maliyyə məlumatları, kredit riski, fırıldaqçılıq aşkar edilməsi, müştəri seqmentasiyası kimi mövzulara yönəlir. Bu səbəbdən bank məlumatları üçün geniş istifadə olunan modellər:

1. **Logistic Regression:**
   - Əsasən kredit riski, müştəri davranışı və fırıldaqçılıq aşkar etmək üçün istifadə olunur.
   - Məqsəd: İkili təsnifat (binary classification) məsələləri.

2. **Random Forest:**
   - Fərqli atributlar üzərində güclü performans göstərir və feature importance üçün istifadə edilir.
   - Məqsəd: Təsnifat və regresiya məsələləri.

3. **Gradient Boosting (XGBoost, LightGBM, CatBoost):**
   - Bank dataları üçün xüsusilə effektivdir, çünki bu metodlar mürəkkəb əlaqələri və nümunələri öyrənə bilir.
   - Məqsəd: Kredit skoring, risk analizi, müştəri churn təxminatı.

4. **Support Vector Machines (SVM):**
   - Daha az məlumat üçün güclü performans göstərir, lakin böyük datalar üçün hesablama baxımından bahalı ola bilər.
   - Məqsəd: Kredit riski və fırıldaqçılıq aşkar edilməsi.

5. **K-Means Clustering:**
   - Müştəri seqmentasiyası üçün istifadə olunur.
   - Məqsəd: Müştəri qruplarını tapmaq və onlara fərqli maliyyə məhsulları təklif etmək.

### Elektronika Satan Şirkətlərin Dataları Üçün
Elektronika satan şirkətlər əsasən satış təxminatı, müştəri davranışı, stok idarəsi və qiymət optimallaşdırması üzərində işləyirlər. Bu sahə üçün istifadə olunan əsas modellər:

1. **Linear Regression:**
   - Satış proqnozları və qiymət optimallaşdırılması üçün istifadə olunur.
   - Məqsəd: Kəmiyyət (quantitative) proqnozlar.

2. **Time Series Analysis (ARIMA, SARIMA):**
   - Satış və tələbat proqnozları üçün zaman seriyası analizləri geniş istifadə olunur.
   - Məqsəd: Gələcək satışların və tələbin proqnozlaşdırılması.

3. **Random Forest və Gradient Boosting:**
   - Elektronika məhsullarının satışlarına təsir edən müxtəlif faktorları təhlil etmək üçün istifadə olunur.
   - Məqsəd: Təsnifat və proqnozlaşdırma.

4. **Collaborative Filtering (Recommendation Systems):**
   - Məhsul təklifləri və müştəriyə fərdi təkliflərin hazırlanması üçün geniş istifadə olunur.
   - Məqsəd: Müştəriyə uyğun məhsul təklifləri vermək.

5. **Clustering (K-Means, DBSCAN):**
   - Müştəri seqmentasiyası və marketinq strategiyalarının tərtibi üçün.
   - Məqsəd: Müştəri qruplarının aşkar edilməsi və hədəfli reklam strategiyalarının inkişafı.

### Nəticə
Bank məlumatları üçün daha çox təsnifat modelləri (logistic regression, random forest, gradient boosting) istifadə olunur. Elektronika satan şirkətlər isə satış proqnozları və tələbat analizi üçün zaman seriyaları modelləri və regresiya modellərinə üstünlük verirlər. Hər iki sahədə də clustering müştəri seqmentasiyası üçün geniş istifadə olunur.

## CatBoost-da daxilde hansi model islesin, onu deyise bilirem?

CatBoost modeli daxilində işləyən spesifik modelləri dəyişdirmək mümkün deyil, çünki CatBoost özü qərar ağacları (decision trees) əsasında işləyən bir **Gradient Boosting** metodudur və daxili arxitekturası istifadəçilər üçün dəyişdirilə bilən deyil. CatBoost, xüsusilə kateqorik verilənlərlə effektiv işləmək üçün optimallaşdırılmışdır və daxili olaraq xüsusi bir **symmetrical tree** strukturu istifadə edir.

Bununla belə, siz CatBoost modelinin performansını və davranışını təsir edən müxtəlif hiperparametrləri tənzimləməklə modelin necə işlədiyini dəyişə bilərsiniz. Məsələn:

### 1. **`depth` (ağacın dərinliyi):**
   - Modelin hər bir ağacının maksimum dərinliyini təyin edir. Daha böyük dərinlik daha kompleks modellər və overfitting riskini artırır.

### 2. **`learning_rate`:**
   - Modelin hər bir iterasiyada addım böyüklüyünü təyin edir. Daha aşağı qiymətlər daha sabit, amma daha yavaş öyrənməyə səbəb olur.

### 3. **`iterations`:**
   - Ümumi ağac sayını müəyyən edir. Daha çox iterasiya adətən daha yüksək dəqiqlik, amma overfitting riski ilə nəticələnə bilər.

### 4. **`l2_leaf_reg`:**
   - Ağacların budaqlanmasının qarşısını almaq üçün cərimələndirmə əmsalıdır (regularization term). Daha böyük dəyər daha az kompleks modellərə və overfitting riskinin azalmasına səbəb ola bilər.

### 5. **`one_hot_max_size`:**
   - Kateqorik dəyişənlər üçün one-hot encoding tətbiq ediləcək maksimum unikal dəyər sayını təyin edir. Bu, xüsusilə çox unikal kateqorik dəyərə malik atributlar üçün faydalıdır.

### 6. **`boosting_type`:**
   - CatBoost modeli əsasən **Ordered Boosting** və **Plain Boosting** kimi iki növ boosting metodu təklif edir:
     - **Ordered Boosting**: Overfitting-in qarşısını almaq üçün daha yaxşıdır.
     - **Plain Boosting**: Daha sürətli öyrənməyə səbəb ola bilər, amma overfitting riskini artıra bilər.

Bu hiperparametrləri dəyişərək CatBoost modelinin performansını və davranışını təyin edə bilərsiniz, amma daxildəki modeli fərqli bir model ilə əvəz etmək mümkün deyil, çünki CatBoost özü bir boosting alqoritmi kimi çalışır.

## XGBoost da daxilde hansi model islesin, onu deyise bilirem?

XGBoost (eXtreme Gradient Boosting) modelində də spesifik olaraq işləyən "daxili model" anlayışı yoxdur, çünki XGBoost özü qərar ağacları (decision trees) üzərində qurulmuş bir **Gradient Boosting** metodudur. Bununla belə, siz XGBoost modelində bəzi hiperparametrləri dəyişdirərək modelin necə işlədiyini təsir edə bilərsiniz. Amma bu, istifadə olunan modelin növünü deyil, qərar ağaclarının quruluşunu və iş rejimini dəyişdirir.

### XGBoost Modelində Dəyişdirilə Bilən Əsas Hiperparametrlər:

1. **`booster`:**
   - **`gbtree`**: Standart qərar ağaclarına əsaslanan boosting (ən geniş yayılmış).
   - **`gblinear`**: Qərar ağacları əvəzinə xətti modellər (linear boosters) istifadə edilir.
   - **`dart`**: Dropouts təklif edir ki, bu da gbtree-də olan bəzi ağacları tərk edərək overfitting-i azalda bilər.

   Yəni, XGBoost-da "model" əvəzinə, fərqli boosting metodlarını seçə bilərsiniz.

2. **`max_depth`:**
   - Hər bir ağacın maksimum dərinliyini təyin edir. Dərinlik nə qədər böyükdürsə, model o qədər kompleks və potensial olaraq overfitting riski böyükdür.

3. **`learning_rate`:**
   - Yeni ağacın verdiyi töhfənin ölçüsünü təyin edir. Aşağı dəyər daha stabillik gətirir, amma modelin öyrənmə sürətini azaldır.

4. **`n_estimators`:**
   - Ağacların ümumi sayını təyin edir. Daha çox ağac daha yaxşı performansa gətirib çıxara bilər, amma overfitting riski də artar.

5. **`subsample`:**
   - Hər bir ağac üçün istifadə edilən təlim məlumatlarının faizini təyin edir. Bu, modelin daha az məlumat üzərində öyrənməsinə və overfitting riskinin azalmasına kömək edir.

6. **`colsample_bytree`, `colsample_bylevel`, `colsample_bynode`:**
   - Hər bir ağac üçün (və ya səviyyə və ya düyün üçün) istifadə edilən atributların faizini təyin edir. Bu da overfitting riskini azaldır.

7. **`gamma`:**
   - Ağacların bölünməsinə nəzarət edən cərimələndirmə əmsalıdır. Yüksək dəyər daha az bölünmə və daha sadə modellərlə nəticələnir.

### Yekun
XGBoost-da da daxildə işləyən model dəyişdirilə bilməz, çünki o, Gradient Boosting-ə əsaslanan bir metoddur. Lakin siz modelin necə öyrəndiyini və performansını dəyişdirmək üçün müxtəlif hiperparametrləri tənzimləyə bilərsiniz. Məsələn, **`booster`** parametri ilə "gbtree", "gblinear", və "dart" arasında seçim edə bilərsiniz ki, bu da modelin davranışını xeyli dərəcədə dəyişə bilər.

## Boosting modellerin hansinda daxili modeli deyismek olar?

Boosting modellərində ümumiyyətlə "daxili model" anlayışı yoxdur, çünki bu modellərin strukturu müəyyən bir əsas modelə, adətən qərar ağaclarına (decision trees), əsaslanır. Bu səbəbdən, boosting metodlarında daxili modeli dəyişdirmək mümkün olmur. 

### Əsas Boosting Modelləri və Daxili Model Seçimi:

1. **XGBoost, LightGBM, və CatBoost:**
   - Bu modellər qərar ağacları əsasında işləyir və istifadəçilər üçün daxili modelin (məsələn, qərar ağacları əvəzinə xətti modellər və ya başqa bir model) dəyişdirilməsi imkanı təqdim etmir.
   - Yeganə istisna XGBoost-da **`booster`** parametridir, burada "gbtree" (qərar ağacları) və "gblinear" (xətti model) arasında seçim edə bilərsiniz. Lakin bu, daha çox modelin strukturu ilə əlaqədardır və tam mənada "daxili model" dəyişimi kimi qəbul edilmir.

2. **AdaBoost:**
   - AdaBoost-da istifadə olunan zəif modellər adətən qərar ağaclarıdır, lakin bu modelin təbiətinə görə zəif model olaraq fərqli algoritmlər (məsələn, xətti regresiya, SVM və ya başqa modellər) istifadə oluna bilər. Bu, AdaBoost-un digər boosting metodlarından fərqli olmasının əsas səbəbidir.
   - Yəni, **AdaBoost** modelində istifadə olunan zəif modelləri dəyişdirmək mümkündür.

### Nəticə
Əgər daxili modeli dəyişmək imkanını istəyirsinizsə, **AdaBoost** istifadə etməlisiniz. AdaBoost-da zəif model olaraq fərqli algoritmlərdən istifadə edə bilərsiniz. Lakin digər məşhur boosting metodları olan XGBoost, LightGBM, və CatBoost-da daxili model dəyişdirilməsi mümkün deyil, çünki bunlar xüsusi olaraq qərar ağacları üzərində işləmək üçün dizayn olunub.

## Gradient Boosting-de daxili modeli deyismek olmur?

Bəli, Gradient Boosting metodunda da daxili model dəyişdirilmir. Gradient Boosting, adətən qərar ağacları (decision trees) istifadə edərək işləyən bir boosting metodudur və bu, metodun əsas strukturunu təşkil edir. 

### Əsas Nöqtələr:
- **Gradient Boosting** metodunun əsas ideyası, zəif modellərin (adətən qərar ağacları) ardıcıl olaraq qurulması və hər bir yeni modelin əvvəlki modelin qalıqlarını (residuals) düzəltməyə çalışmasıdır.
- **Qərar ağacları** bu metodun əsasında durur və buna görə də daxili model olaraq dəyişdirilə bilməz.

### İstisnalar və Seçimlər:
- **XGBoost** və **LightGBM** kimi Gradient Boosting-in optimallaşdırılmış versiyaları da əsasən qərar ağacları üzərində işləyir. Bu modellərdə də daxili modeli dəyişdirmək mümkün deyil.
- Yalnız **XGBoost** modelində `booster` parametri ilə "gbtree" (qərar ağacı) və "gblinear" (xətti model) arasında seçim edə bilərsiniz, amma bu tam olaraq daxili modelin dəyişdirilməsi deyil. Bu parametr sadəcə olaraq modelin xətti və ya ağac əsaslı olacağını təyin edir.

### Nəticə:
Gradient Boosting metodunda daxili model adətən dəyişdirilmir və əsas olaraq qərar ağacları istifadə olunur. Bu, metodun fundamental xüsusiyyətlərindən biridir və onun effektivliyini təmin edən əsas səbəblərdən biridir. 

## Robust Scale haqqinda genis melumat?

**Robust Scaler** məlumat dəstələrinin (datasets) miqyasını dəyişdirmək üçün istifadə olunan bir normalizasiya texnikasıdır. Bu metod ənənəvi miqyaslandırma üsulları (məsələn, Standart Scaler, Min-Max Scaler) ilə müqayisədə məlumat dəstələrindəki outlier-lərə (məlumatların ümumi tendensiyasından uzaq olan dəyərlərə) qarşı daha davamlıdır. 

### Robust Scaler-in Əsas Xüsusiyyətləri:

1. **Median Və İQR Əsaslı Miqyaslandırma:**
   - **Median**: Məlumat dəstəsinin ortasında olan dəyərdir və bu dəyər məlumat dəstəsindəki dəyərlərin yarısının bu dəyərdən az, yarısının isə çox olduğunu göstərir.
   - **IQR (Interquartile Range)**: Məlumat dəstəsinin 25-ci və 75-ci percentilləri arasındakı fərqdir. Bu aralıq mərkəzləşmiş dəyərləri əhatə edir və outlier-lərdən daha az təsirlənir.
   - Robust Scaler məlumat dəstəsini median ətrafında mərkəzləşdirir və dəyərləri IQR ilə miqyaslandırır. Yəni, hər bir dəyərdən median çıxılır və sonra IQR-ə bölünür:
     $$ 
     X_{\text{scaled}} = \frac{X - \text{Median}(X)}{\text{IQR}(X)}
      $$
   - Bu yanaşma məlumat dəstəsində outlier-lər olduğu halda belə, məlumatların düzgün miqyaslandırılmasını təmin edir.

2. **Outlier-lərə Qarşı Dayanıqlıq:**
   - Outlier-lər, məlumatların əksəriyyətinin uzaqında yerləşən ekstremal dəyərlərdir. Ənənəvi miqyaslandırma üsulları bu dəyərlərə həssas ola bilər və nəticədə miqyaslandırılmış dəyərlər qeyri-adekvat ola bilər.
   - Robust Scaler, median və IQR istifadə etdiyi üçün outlier-lərin təsirini azaldır və məlumatların miqyaslandırılmasını daha sabit və dəqiq edir.

3. **Tətbiq Sahələri:**
   - **Maşın Öyrənməsi (Machine Learning):** Məlumat dəstələrinin outlier-lərlə zəngin olduğu vəziyyətlərdə xüsusən istifadə olunur. Bu, modellərin (məsələn, linear regression, SVM) performansını artırmağa kömək edə bilər.
   - **Peyk Məlumatları:** Məsələn, peyk görüntüləri və ya uzaqdan zondlama (remote sensing) məlumatları çox sayda outlier-lərlə işləyə bilər.
   - **Finans Məlumatları:** Finansal məlumatlarda outlier-lər tez-tez rast gəlinir. Robust Scaler bu məlumatları miqyaslandırmaq üçün əlverişlidir.

### Nümunə: Python ilə Robust Scaler

```python
from sklearn.preprocessing import RobustScaler
import numpy as np

# Random data with outliers
data = np.array([[1, 2, 2], 
                 [3, 6, 4], 
                 [7, 18, 8], 
                 [9, 10, 12], 
                 [20, 50, 90]])

# RobustScaler-in tətbiqi
scaler = RobustScaler()
scaled_data = scaler.fit_transform(data)

print("Original Data:\n", data)
print("\nScaled Data with RobustScaler:\n", scaled_data)
```

### Üstünlüklər:
- **Outlier-lərə Dayanıqlıq:** Median və IQR istifadə edildiyi üçün məlumat dəstələrindəki outlier-lər bu miqyaslandırmaya az təsir edir.
- **Daha Sabit Nəticələr:** Ənənəvi miqyaslandırma metodları ilə müqayisədə, outlier-lərin səbəb olduğu qeyri-stabilliklər azaldılır.

### Çatışmazlıqlar:
- **Küçük Məlumat Dəstələrində Problemlər:** Əgər məlumat dəstəsi çox kiçikdirsə və ya çox az sayda nümunədən ibarətdirsə, median və IQR düzgün hesablanmaya bilər.
- **Yalnız Düzgün Paylanmış Məlumatlarda Effektivdir:** Məlumatların paylanışı çox qeyri-bərabərdirsə, Robust Scaler bəzən qeyri-adekvat miqyaslandırma apara bilər.

### Nəticə:
Robust Scaler outlier-lərlə zəngin olan məlumat dəstələrinin miqyaslandırılması üçün ideal bir vasitədir. Median və IQR kimi statistik ölçülərdən istifadə edərək məlumatları miqyaslandırmaqla, bu metod outlier-lərə qarşı daha sabit və dəqiq nəticələr verir. Bu səbəbdən, Robust Scaler maşın öyrənməsi tətbiqlərində və digər məlumat təhlili proseslərində geniş istifadə olunur.

## Feature Importance Riyaziyyatda formulu? Hesablanma qaydasi?

Decision Tree modellərində **feature importance** hər bir xüsusiyyətin (feature) modeldə nə qədər vacib olduğunu göstərir. Bu, xüsusiyyətin ağacın qurulmasında (tree-building process) nə qədər təsirli olduğunu qiymətləndirir. Decision Tree-də **feature importance** ümumiyyətlə impurity-based importance metodu ilə hesablanır.

### Feature Importance Hesablanması

1. **Impurity Measurement (Gini impurity, Entropy):** 
   - Hər bir düyündə (node) impurity (məsələn, Gini impurity, Entropy) hesablanır. Impurity, həmin düyündəki qarışıqlığın ölçüsüdür.

2. **Impurity Reduction (Information Gain):**
   - Hər bir xüsusiyyət üçün, həmin xüsusiyyətə əsaslanaraq ağacın düyünü bölündükdən sonra impurity azalması hesablanır. Bu azalma həmin xüsusiyyətin nə qədər məlumat verdiyini (information gain) göstərir.
   
   - Impurity reduction = impurity_before_split - impurity_after_split

3. **Cumulative Importance:**
   - Hər bir xüsusiyyət üçün, ağacın müxtəlif düyünlərindəki impurity reduction-lar toplanır. Bu, həmin xüsusiyyətin ümumi əhəmiyyətini (total importance) göstərir.

4. **Normalization:**
   - Hər bir xüsusiyyətin əhəmiyyəti normallaşdırılır (0 ilə 1 arasında) və nəticədə hər bir xüsusiyyətin final feature importance dəyəri əldə edilir.

### Riyazi Formula

Feature importance $  FI_j  $ hər bir xüsusiyyət $ j $ üçün aşağıdakı kimi hesablanır:

$$ 
FI_j = \sum_{t=1}^{T} \Delta i_t \cdot 1 \{v(t) = j\}
 $$

burada:
- $  \Delta i_t  $ - düyün $ t $-də impurity reduction-dur (impurity_before_split - impurity_after_split).
- $ 1 \{v(t) = j\}  $ - düyün $ t $-nin xüsusiyyət $ j $-yə aid olub-olmamasını göstərən göstərici funksiyasıdır.
- $ T $ - ümumi düyünlərin sayıdır.

Bu formula ağacın bütün düyünlərində xüsusiyyətin nə qədər məlumat verdiyini toplamaqla xüsusiyyətin ümumi əhəmiyyətini hesablayır. Nəticədə, daha çox informasiya verən xüsusiyyətlərin əhəmiyyəti yüksək olur.

* scaler = preprocessing.StandardScaler().fit(X_train)
* X_train = scaler.transform(X_train)
* X_test = scaler.transform(X_test)

### Muellif scale -i bu formada edib. Niye X_test-i de X_traine gore scale edib? Umimiyyetle  train test splitden evvel ya sonra yaxsidir scale?

`StandardScaler` və digər skalarlardan istifadə edərkən `train` və `test` setlərinin uyğunlaşdırılması (scaling) çox önəmlidir. Niyə `X_test` də `X_train`-ə görə standartlaşdırılır və bu prosesin ən doğru vaxtı haqqında izahat verəcəyəm.

### Niyə `X_test` `X_train`-ə görə standartlaşdırılır?

1. **Məlumat Sızması (Data Leakage) Əngəllənməsi:**
   - **Qarşısını Almaq:** Test məlumatlarına birbaşa müdaxilə etmək modelin qiymətləndirilməsini səhv edə bilər. Test məlumatlarına əvvəlcədən baxmaq, modelin test dəstinə uyğunlaşmasına və nəticədə daha yaxşı nəticələr əldə etməsinə səbəb ola bilər. Bu, məlumat sızması (data leakage) olaraq adlandırılır.
   - **Nə Üçün:** Test setini `X_train`-ə görə standartlaşdırmaq, test məlumatlarının yalnız təlim məlumatları əsasında miqyaslandırılması və beləliklə, test dəstinin düzgün qiymətləndirilməsi təmin edilir.

2. **Hesablama Uyğunluğu:**
   - **Standartlaşdırma:** Təlim məlumatları (`X_train`) üzərində fit edilmiş `StandardScaler`, müvafiq olaraq bu məlumatların ortalaması və standart sapması ilə `X_train` və `X_test`-i miqyaslandırır.
   - **Nə Üçün:** Bu, modelin test məlumatlarının dəqiq və obyektiv qiymətləndirilməsi üçün lazımdır. `X_test`-i `X_train`-ə görə miqyaslandırmaq, test dəstinin eyni skala ilə işlənməsini təmin edir.

### Train Test Splitdən Əvvəl Yoxsa Sonra Scale Etmək?

- **Testdən Sonra:** Test və təlim məlumatlarını ayırdıqdan sonra, `StandardScaler` fit edildikdə, yalnız təlim məlumatlarına əsaslanaraq fit edilir və sonra bu transformasiyanı test məlumatlarına tətbiq etmək məsləhətdir. Bu, test məlumatlarının təlim məlumatlarının xüsusiyyətlərindən istifadə etmədən miqyaslandırılmasını təmin edir.

### Məsələn

**Train Test Splitdən Sonra Skalarlama:**

```python
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# DataFrame və target dəyişənini ayırmaq
X = df.drop('target', axis=1)
y = df['target']

# Train və Test dəstini ayırmaq
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# StandardScaler obyektini yaratmaq və fit etmək
scaler = StandardScaler().fit(X_train)

# Təlim və test məlumatlarını transformasiya etmək
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)
```

### Əsas Məqamlar

1. **Train Test Splitdən Sonra Skalarlama:**
   - `StandardScaler`-in `fit()` metodu yalnız `X_train` üzərində çalışır.
   - `transform()` metodu həm `X_train`, həm də `X_test` üzərində tətbiq olunur.

2. **Test Seti Üzərində Fit Etmək:**
   - Test setinə fit edilməməlidir, çünki bu, test məlumatlarının məlumat sızması ilə nəticələnə bilər.

Bu yanaşma test dəstinin düzgün qiymətləndirilməsini təmin edir və modelin yalnız təlim məlumatlarına əsaslanaraq necə performans göstərdiyini daha doğru qiymətləndirir.

## RobustScaler haqqinda genis melumat ver?

`RobustScaler`, xüsusilə outlier-lərlə zəngin məlumat dəstləri üçün nəzərdə tutulmuş bir miqyaslandırma metodudur. Bu metod, xüsusiyyətləri `median` və `interquartile range` (IQR) əsasında standartlaşdıraraq daha dayanıqlı və etibarlı nəticələr əldə etməyə imkan verir.

### `RobustScaler` Nədir?

`RobustScaler`, `sklearn.preprocessing` kitabxanasında olan bir vasitədir. Bu metod, xüsusiyyətləri aşağıdakı addımlar ilə miqyaslandırır:

1. **Median ilə Mərkəzləşdirmə:**
   - **Median**: Hər bir xüsusiyyət üçün orta dəyəri çıxarmaq məqsədilə istifadə olunur. Median outlier-lərdən təsirlənməz, çünki o, 50%-lik kvantildir və outlier-lərin təsirini azaltmağa kömək edir.

2. **Interquartile Range (IQR) ilə Miqyaslandırma:**
   - **IQR**: Bu metod, 25%-lik (Q1) və 75%-lik (Q3) kvantil arasındakı məsafəni ölçür. Bu məsafə xüsusiyyətlərin yayılmasını ölçmək üçün istifadə edilir və outlier-lərin təsirini azaltmaq məqsədilə miqyaslandırma prosesində tətbiq olunur.

### Formula

`RobustScaler`-in tətbiq etdiyi standartlaşdırma aşağıdakı kimi təyin olunur:

- **Mərkəzləşdirmə (Mean subtraction):**
  
  \[
  X_{\text{centered}} = X - \text{Median}
  \]

- **Miqyaslandırma (Scaling):**

  \[
  X_{\text{scaled}} = \frac{X_{\text{centered}}}{\text{IQR}}
  \]

  Burada:
  - \( X \) - Xüsusiyyətlərin dəyərləri
  - **Median** - Xüsusiyyətlərin medianı
  - **IQR** - Interquartile range (Q3 - Q1)

### İstifadə Misalı

`RobustScaler`-dən istifadə edərkən adətən aşağıdakı addımlar izlənir:

1. **DataFrame və target dəyişənini ayırmaq:**

   ```python
   import pandas as pd
   from sklearn.model_selection import train_test_split
   from sklearn.preprocessing import RobustScaler

   # Məsələn, DataFrame
   data = {
       'feature1': [1, 2, 3, 1000],  # Outlier daxil olan xüsusiyyətlər
       'feature2': [4, 5, 6, 7]
   }
   df = pd.DataFrame(data)
   X = df[['feature1', 'feature2']]
   y = [0, 1, 0, 1]  # Target dəyişəni

   # Train və Test dəstini ayırmaq
   X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
   ```

2. **`RobustScaler`-i tətbiq etmək:**

   ```python
   # RobustScaler obyektini yaratmaq və fit etmək
   scaler = RobustScaler()
   scaler.fit(X_train)

   # Təlim və test məlumatlarını transformasiya etmək
   X_train_scaled = scaler.transform(X_train)
   X_test_scaled = scaler.transform(X_test)

   # Dəyişdirilmiş məlumatları çap etmək
   print("Scaled X_train:\n", X_train_scaled)
   print("Scaled X_test:\n", X_test_scaled)
   ```

### Nə Zaman İstifadə Edilməlidir?

- **Outlier-lərlə Mübarizə:** `RobustScaler` xüsusilə outlier-lərin olduğu məlumat dəstləri üçün uyğundur, çünki median və IQR outlier-lərdən təsirlənmir.
- **Model Performansı:** Outlier-lərdən təsirlənməyən daha düzgün nəticələr və daha stabil model performansı təmin edir.

### Müqayisə

- **`StandardScaler` vs. `RobustScaler`:**
  - `StandardScaler`-in istifadə etdiyi ortalama və standart sapma outlier-lərlə təsirlənə bilər, amma `RobustScaler`-in istifadə etdiyi median və IQR outlier-lərdən daha dayanıqlıdır.
  - `StandardScaler` daha çox "normal" paylanma olan məlumat dəstləri üçün uyğundur, `RobustScaler` isə outlier-lərin olduğu hallarda daha uyğundur.

Bu şəkildə, `RobustScaler` xüsusiyyətlərin daha dayanıqlı şəkildə standartlaşdırılmasını təmin edir və xüsusiyyətlərdəki outlier-lərin təsirini azaltmağa kömək edir.

## RobustScaler de train test split den sonra olmalidir?

Bəli, `RobustScaler` və digər miqyaslandırma metodları train-test splitdən sonra tətbiq olunmalıdır. Bu, məlumat sızmasının (data leakage) qarşısını almaq və modelin təlim və test mərhələlərində düzgün qiymətləndirilməsini təmin etmək üçün vacibdir.

### Niyə Train-Test Splitdən Sonra Scalarlama?

1. **Məlumat Sızmasının Qarşısını Almaq:**
   - **Niyə:** Test məlumatlarına birbaşa təsir etmədən yalnız təlim məlumatlarından miqyaslandırma parametrləri (median və IQR) əldə etmək lazımdır. Bu, test dəstinin yalnız təlim məlumatları əsasında miqyaslandırıldığını təmin edir.
   - **Nəticə:** Test məlumatlarına əvvəlcədən baxmaq və ya onları miqyaslandırmaq modelin nəticələrini təhrif edə bilər və məlumat sızması ilə nəticələnə bilər.

2. **Miqyaslandırma Parametrlərinin Düzgün Tətbiqi:**
   - **Təlim Məlumatları:** Miqyaslandırma parametrləri yalnız təlim məlumatlarına əsaslanaraq fit edilir.
   - **Test Məlumatları:** Eyni parametrlər (mediana və IQR) test məlumatlarına tətbiq edilir.

### Misal Kodu

**1.** **Train-Test Splitdən Sonra Miqyaslandırma:**

```python
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import RobustScaler

# Nümunə DataFrame
data = {
    'feature1': [1, 2, 3, 1000],  # Outlier olan xüsusiyyət
    'feature2': [4, 5, 6, 7]
}
df = pd.DataFrame(data)
X = df[['feature1', 'feature2']]
y = [0, 1, 0, 1]  # Target dəyişəni

# Train və Test dəstini ayırmaq
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# RobustScaler obyektini yaratmaq və fit etmək
scaler = RobustScaler()
scaler.fit(X_train)  # Yalnız X_train üzərində fit edilir

# Təlim və test məlumatlarını transformasiya etmək
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Dəyişdirilmiş məlumatları çap etmək
print("Scaled X_train:\n", X_train_scaled)
print("Scaled X_test:\n", X_test_scaled)
```

**2.** **Nümunənin İslahatı:**

- **DataFrame Yaratma:** Nümunə məlumatlar yaradılır.
- **Train-Test Split:** `X` və `y` məlumatları train və test dəstlərinə bölünür.
- **`RobustScaler` İstifadəsi:** `RobustScaler` yalnız təlim dəstində fit edilir, sonra həm təlim, həm də test dəstinə tətbiq edilir.

### Nəticə

`RobustScaler` və digər miqyaslandırma üsulları üçün düzgün təcrübə train-test splitdən sonra miqyaslandırma tətbiq etməkdir. Bu yanaşma, məlumat sızmasının qarşısını alır və modelin daha düzgün qiymətləndirilməsini təmin edir.

## Bagging parameters

* bag = BaggingClassifier(estimator=svm,
*                        n_estimators=10,
*                        max_samples=0.4,
*                        max_features=35,
*                        bootstrap=True,
*                        bootstrap_features=True,
*                        random_state=123)
### Bu parametrler neyi izah edir?

`BaggingClassifier` parametrleri aşağıda izah olunur:

1. **`estimator=svm`**: Burada `svm`, bagging ilə istifadə olunan əsas modelin növünü göstərir. SVM (Support Vector Machine) burada əsas model kimi istifadə olunur. `BaggingClassifier`, bu SVM modellərindən bir neçə nüsxə yaradaraq onları birləşdirir.

2. **`n_estimators=10`**: Bu parametr, neçə dənə baza modelinin (bu halda SVM) yaradılacağını göstərir. `n_estimators=10` təyin edildikdə, `BaggingClassifier` 10 fərqli SVM modeli qurur və onları birləşdirir.

3. **`max_samples=0.4`**: Bu parametr, hər bir baza modelinin təlimi üçün orijinal məlumat dəstindən seçilən nümunələrin faizi və ya sayı ilə bağlıdır. `max_samples=0.4` olduqda, hər baza modeli üçün orijinal məlumat dəstinin 40%-i təlim üçün istifadə olunur. Bu seçim prosesi "bootstrapping" metodu ilə həyata keçirilir.

4. **`max_features=35`**: Bu parametr, hər bir baza modelinin qurulmasında istifadə olunan xüsusiyyətlərin maksimum sayını göstərir. `max_features=35` təyin edildikdə, hər baza modelinin təlimində 35 xüsusiyyət seçilir.

5. **`bootstrap=True`**: Bu parametr, nümunələrin "bootstrapping" (yəni, geri qoyaraq nümunə götürmə) metodu ilə seçilib-seçilməyəcəyini göstərir. `bootstrap=True` olduqda, hər bir baza modeli üçün təlim nümunələri geri qoyularaq seçilir, yəni eyni nümunə bir neçə dəfə seçilə bilər.

6. **`bootstrap_features=True`**: Bu parametr, xüsusiyyətlərin "bootstrapping" metodu ilə seçilib-seçilməyəcəyini göstərir. `bootstrap_features=True` olduqda, hər bir baza modeli üçün xüsusiyyətlər geri qoyularaq seçilir.

7. **`random_state=123`**: Bu parametr, nəticələrin təkrarlanabilirliyini təmin etmək üçün istifadə olunur. `random_state=123` təyin edildikdə, modelin təsadüfi seçimləri eyni şəkildə həyata keçirilir və nəticələr hər dəfə eyni olur.

Bu parametrlər `BaggingClassifier` modelinin müxtəlif aspektlərini nəzarət edir və modelin qurulması, nümunə götürülməsi və xüsusiyyətlərin seçilməsi prosesi üzərində tam nəzarət təmin edir.

## XGBoost parameters

* xgbt = XGBClassifier(max_depth = 2,
*              learning_rate = 0.2,
*              objective  = "multi:softmax",
*              num_class = 2,
*              booster = "gbtree",
*              n_estimators = 10,
*              random_state = 123)
### Bu parametrler neyi izah edir?

`XGBClassifier` modelinin parametrləri aşağıda izah olunur:

1. **`max_depth = 2`**:
   - Bu parametr hər bir fərdi ağacın maksimal dərinliyini təyin edir. `max_depth = 2` təyin edildikdə, hər ağac ən çox 2 dərinlik səviyyəsinə malik olacaq. Daha kiçik dərinlik overfitting-i azaldır, lakin çox kiçik olarsa, model kifayət qədər mürəkkəbliyi tuta bilməz.

2. **`learning_rate = 0.2`**:
   - Bu parametr, hər ağacın öyrənmə sürətini təyin edir. `learning_rate = 0.2` olduqda, hər bir ağacın modelə töhfəsi 0.2 faktorla azalır. Kiçik learning rate daha dəqiq və stabil model təlimi verir, amma daha çox iterasiya tələb edir.

3. **`objective = "multi:softmax"`**:
   - Bu parametr modelin məqsədini təyin edir. `multi:softmax` təyin edildikdə, model çoxlu sinifli təsnifat (multi-class classification) üçün istifadə edilir və proqnozlaşdırılan dəyər ən yüksək ehtimala malik sinif kimi verilir.

4. **`num_class = 2`**:
   - Bu parametr, modelin neçə sinif olduğunu təyin edir. `num_class = 2` təyin edildikdə, model iki sinifli (binary) təsnifat məsələsini həll edir. (Qeyd: `multi:softmax` ilə birlikdə istifadə olunduqda, bu parametr faktiki olaraq daha çox sinif sayı üçün istifadə olunur.)

5. **`booster = "gbtree"`**:
   - Bu parametr, modelin hansı boosting algoritmini istifadə edəcəyini təyin edir. `gbtree` təyin edildikdə, model qərar ağacları ilə qurulur. Alternativ olaraq `gblinear` (linear model) və ya `dart` (Dropouts meet Multiple Additive Regression Trees) kimi digər algoritmlər də istifadə edilə bilər.

6. **`n_estimators = 10`**:
   - Bu parametr, modeldə neçə dənə ağacın qurulacağını göstərir. `n_estimators = 10` təyin edildikdə, model 10 ağac qurur. Daha çox ağac modelin dəqiqliyini artıra bilər, lakin eyni zamanda təlim müddətini uzada bilər.

7. **`random_state = 123`**:
   - Bu parametr, təsadüfi proseslər üçün toxum (seed) təyin edir ki, nəticələr təkrarlanabilsin. `random_state = 123` təyin edildikdə, modelin nəticələri hər dəfə eyni olur.

Bu parametrlər `XGBClassifier` modelinin qurulması və işləməsi zamanı onun davranışını təyin edir və modelin düzgün performans göstərməsi üçün müxtəlif aspektləri optimallaşdırmağa imkan verir.

### XGBoots-da 
* scale_pos_weight=[default=1]
### ???????????


`scale_pos_weight` parametri `XGBoost` modelində balanssız verilənlər dəstlərində (yəni, bir sinifin digərindən çox üstün olduğu hallarda) istifadə olunur. Bu parametr siniflər arasındakı balanssızlığı tənzimləmək və modelin daha yaxşı performans göstərməsini təmin etmək üçün istifadə edilir.

### `scale_pos_weight` Parametrinin İzahı

- **Məqsəd:** Əgər verilənlər dəstində siniflərdən biri (məsələn, pozitiv sinif) çox az sayda nümunə ilə təmsil olunursa, `scale_pos_weight` parametri bu sinifə daha çox əhəmiyyət vermək üçün istifadə olunur.
- **Dəyər:** `scale_pos_weight = nöqativ_sinif_nümunələri / pozitiv_sinif_nümunələri` şəklində təyin edilir.

### Necə İşləyir?

- **Balanssızlıq Problemi:** Əgər siniflər arasında balanssızlıq varsa, model çoxluqda olan sinifi daha çox öyrənir və bu da nadir sinifin düzgün proqnozlaşdırılmasına mane ola bilər.
- **`scale_pos_weight` Parametrinin Təyini:** Bu parametr, azlıqda olan sinifin təsirini artırmaq üçün istifadə olunur. Məsələn, pozitiv sinifdə 100 nümunə, neqativ sinifdə isə 1000 nümunə varsa, `scale_pos_weight = 1000/100 = 10` təyin etmək olar. Bu, modelin azlıqda olan sinifə daha çox diqqət yetirməsini təmin edir.

### Misal:

```python
xgbt = XGBClassifier(max_depth=2,
                     learning_rate=0.2,
                     objective="binary:logistic",
                     n_estimators=10,
                     scale_pos_weight=10,  # Siniflər arasındakı balanssızlıq nəzərə alınır
                     random_state=123)
```

Burada `scale_pos_weight=10` təyin edilib. Bu, modelin pozitiv sinifə neqativ sinifdən 10 dəfə daha çox diqqət yetirməsini təmin edir.

### Nəticə
`scale_pos_weight` parametri balanssız verilənlər dəstlərində siniflər arasındakı balansı tənzimləyərək, modelin azlıqda olan sinifi düzgün proqnozlaşdırmasını təmin etmək üçün istifadə edilir. Bu parametr xüsusilə tibbi diaqnostika, fırıldaqçılığın aşkarlanması kimi sahələrdə faydalıdır.

## Datani Uderstanding etmek ucun nelere baxim?

Bu məlumat dəstini yaxşı anlamaq üçün aşağıdakı addımları ata bilərsiniz:

### 1. **Veri Tipini Yoxlayın**
   - **Hər bir sütunun** (dəyişənin) tipini yoxlayın (məsələn, integer, float, object). Bu, hər bir dəyişənin necə işlənməli olduğunu anlamağa kömək edəcək. Məsələn, `LoanAmount` və `ApplicantIncome` sayısal dəyərlərdir, amma `Gender`, `Married` və `Loan_Status` kimi dəyişənlər kateqoriyalardır.

   ```python
   df.info()
   ```

### 2. **Məlumatların Yoxluğu (Missing Data)**
   - Məlumat dəstində boş dəyərlərin olub-olmadığını yoxlayın. Bu, model qurmaq üçün məlumatların keyfiyyətini artırmağa kömək edəcək. Boş dəyərlər varsa, onları doldurma (imputation) və ya silmə metodları tətbiq edə bilərsiniz.

   ```python
   df.isnull().sum()
   ```

### 3. **Məlumatların Dağılımı**
   - Sayısal dəyişənlərin (məsələn, `ApplicantIncome`, `LoanAmount`) və kateqoriyal dəyişənlərin (`Gender`, `Education`) dağılımını yoxlayın. Bu, məlumatların normal paylanıb-paylanmadığını və ya bəzi dəyişənlərdə outlier-ların olub-olmadığını anlamağa kömək edəcək.

   ```python
   df.describe()
   df['ApplicantIncome'].hist()
   ```

### 4. **Kateqoriyal Dəyərlərin Paylanması**
   - Kateqoriyal dəyişənlərin (məsələn, `Gender`, `Married`, `Education`) müxtəlif siniflər üzrə paylanmasını yoxlayın. Bu, məlumat dəstində hansı siniflərin dominant olduğunu və modelin necə performans göstərə biləcəyini anlamağa kömək edəcək.

   ```python
   df['Gender'].value_counts()
   ```

### 5. **Hədəf Dəyişən (Target Variable)**
   - `Loan_Status` dəyişəninin paylanmasını yoxlayın. Hədəf dəyişənin balanslı və ya balanssız olub-olmadığını bilmək vacibdir. Balanssızlıq varsa, xüsusi metodlar tətbiq etmək lazım ola bilər (məsələn, undersampling, oversampling).

   ```python
   df['Loan_Status'].value_counts()
   ```

### 6. **Məlumatların Əlaqəsi (Correlation)**
   - Sayısal dəyişənlər arasındakı əlaqəni yoxlayın. Bu, hansı dəyişənlərin bir-biri ilə daha çox əlaqəli olduğunu və hansı dəyişənlərin modelə daha çox təsir göstərə biləcəyini anlamağa kömək edəcək.

   ```python
   df.corr()
   ```

### 7. **Pivotal Dəyişənlərin Təsiri**
   - Hədəf dəyişən (`Loan_Status`) ilə digər dəyişənlər arasındakı əlaqəni yoxlayın. Məsələn, `ApplicantIncome`, `Credit_History` və `Education` dəyişənlərinin kredit təsdiqinə necə təsir etdiyini araşdırın.

   ```python
   pd.crosstab(df['Credit_History'], df['Loan_Status'])
   ```

### 8. **Outlier-ları Yoxlamaq**
   - Sayısal dəyişənlərdə outlier-ları yoxlayın və onları necə idarə edəcəyinizi qərar verin. Outlier-lar modeli yanıltmaq riski daşıya bilər.

   ```python
   df.boxplot(column='LoanAmount')
   ```

Bu addımları yerinə yetirdikdən sonra məlumat dəstini daha yaxşı anlayacaq və model qurmağa başlamaq üçün yaxşı bir zəmin yaradacaqsınız.

## Datani Preparation usullari?

Loan eligibility prediction üçün data preparation mərhələsi çox vacibdir və müvəffəqiyyətli modellər qurmaq üçün düzgün hazırlıq tələb olunur. Aşağıdakı addımlar bu prosesdə sizə kömək edə bilər:

### 1. **Veri Yükləmə və İnspeksiya**
   - Veriləri yükləyin və ilk baxışda statistik göstəricilərə baxın.
   - Datalarda hər hansı bir boş (missing) dəyərin olub olmadığını yoxlayın.

### 2. **Boş Dəyərlərin İdarə Edilməsi**
   - Boş dəyərləri necə idarə edəcəyinizə qərar verin. Ən çox istifadə olunan metodlar:
     - **İlkin Təsnifat**: Boş dəyərləri təyin olunmuş bir dəyər ilə əvəzləmək (məsələn, median, mod, və s.)
     - **Sıxlıqla Təyin Edilməsi**: Boş dəyərləri sıxlıqla təyin edilmiş dəyərlərlə əvəzləmək.

### 3. **Kateqoriyalı Dəyərlərin Kodlaşdırılması**
   - Kateqoriyalı dəyişənləri (Gender, Married, Education, Self_Employed, Property_Area) rəqəmlə ifadə etməlisiniz.
     - **Label Encoding**: Hər bir kateqoriyanı təmsil edən bir rəqəm verilir.
     - **One-Hot Encoding**: Hər bir kateqoriya üçün ayrılıqda sütun yaradılır və müvafiq sütunda 1, digərlərində isə 0 olur.

### 4. **Miqdar Dəyərlərin Miqyaslandırılması**
   - **Standardization**: Orta və standart sapma əsasında dəyərlərin normallaşdırılması.
   - **Normalization**: Dəyərlərin [0, 1] intervalına gətirilməsi.

### 5. **Boş Dəyərlərin Aşağı Səviyyədə Dəyərləndirilməsi**
   - Verilərin doğruluğunu və əlaqəliliyini artırmaq üçün boş dəyərləri analiz edin.

### 6. **Feature Engineering**
   - **Yeni Dəyişənlərin Yaradılması**: Yeni dəyərləri yaratmaq üçün mövcud dəyişənləri birləşdirə bilərsiniz (məsələn, **TotalIncome** = **ApplicantIncome** + **CoapplicantIncome**).
   - **Dəyişənlərin Seçilməsi**: Modeliniz üçün ən əhəmiyyətli olan dəyişənləri seçin.

### 7. **Outlierların İdarə Edilməsi**
   - **Outlier Analizi**: Outlierları aşkar edin və onların təsirini azaltmaq üçün uyğun üsullar tətbiq edin.

### 8. **Target Variableın İdarə Edilməsi**
   - **Label Encoding**: Kreditin təsdiqi dəyişənini (Loan_Status) 0 və 1 ilə təmsil edin.

### 9. **Data Split**
   - **Train-Test Split**: Veriləri təlim (training) və test (testing) qruplarına ayırın.

### 10. **Cross-validation**
   - Modelin gücünü qiymətləndirmək üçün cross-validation tətbiq edin.

### 11. **Feature Importance Analizi**
   - **Feature Importance**: Hansı xüsusiyyətlərin model üçün daha əhəmiyyətli olduğunu müəyyən edin və nəticələri nəzərə alın.

Bu addımları izləyərək data preparation mərhələsini uğurla tamamlayaraq modelinizi hazırlamağa başlaya bilərsiniz. Ehtiyacınıza uyğun addımları tətbiq edərək nəticələrinizi inkişaf etdirə bilərsiniz.

## Men burda bezi data preparation isleri gormisem.  ne yaddan cixib elemimisem sen onlari izah ele ve kodu yaz. Yani sonra men model quracam?

Mən notebook-dan aşağıdakı data preparation addımlarını aşkar etdim. Gördüyünüz işlər bunlardır:

### 1. **Verilənlərin Yüklənməsi**
   İlk addım olaraq, verilənlər `loan_prediction.csv` faylından yüklənib və `df` DataFrame-i yaradılıb.

### 2. **Sütun Adlarının və Məlumatın Araşdırılması**
   `df.columns` və `df.info()` metodları istifadə edilərək verilənlərin sütun adları və strukturu araşdırılıb.

### 3. **Verilənlərin İzlənməsi**
   - **Dəyərlərin sayılması**: `Dependents` və `Loan_Status` sütunlarında dəyərlərin sayı yoxlanılıb (`value_counts`).
   - **Balansın yoxlanılması**: `Loan_Status` sütununda balansın olub-olmadığı yoxlanılıb. Görünür, 192/612 və 422/612 hesabatları göstərir ki, balans problemi yoxdur.

### 4. **Boş Dəyərlərin Yoxlanılması və Doldurulması**
   - **Boş Dəyərlərin Araşdırılması**: `df.isnull().sum()` metodu ilə dataset-də boş dəyərlər yoxlanılıb.
   - **Boş Dəyərlərin Doldurulması**: Aşağıdakı sütunlarda boş dəyərlər doldurulub:
     - `Gender`: Mod (ən çox təkrarlanan) dəyər ilə doldurulub.
     - `Married`, `Dependents`, `Self_Employed`, `Credit_History`: Bu sütunlar da mod dəyəri ilə doldurulub.

### 5. **Hələ Yadınızdan Çıxmış Ola Bilən Data Preparation Addımları**
   - **Outlier Detection**: Məsələn, `ApplicantIncome` və `LoanAmount` üçün outlier-lərin yoxlanılması və ya uyğunlaşdırılması (log transformasiya və s.).
   - **Sütunların Normalizasiyası/Standartizasiyası**: `ApplicantIncome`, `LoanAmount` kimi numeric dəyişənlər üçün normalizasiya və ya standartizasiya aparıla bilər.
   - **Categorical Encoding**: Kategorik dəyişənlər (`Gender`, `Married`, `Education`, `Property_Area`, və s.) üçün one-hot encoding və ya label encoding tətbiq oluna bilər.
   - **Feature Engineering**: Yeni dəyişənlərin yaradılması, məsələn, `TotalIncome` (müraciət edən və birgə müraciət edənin gəliri toplamı).

Bu addımları tətbiq etmək üçün sizə uyğun kodları təqdim edə bilərəm. Hansı xüsusi addımlar haqqında məlumat əldə etmək istəyirsiniz?

Aşağıda, qeyd etdiyiniz dataya əlavə olaraq həyata keçirə biləcəyiniz data preparation addımlarını təqdim edirəm:

### 1. **Outlier-ların Yoxlanılması və Müxtəlifləşdirilməsi**
Numeric dəyişənlər (`ApplicantIncome`, `LoanAmount`) üçün outlier-ların olub-olmadığını yoxlayıb, ehtiyac varsa log transformasiya tətbiq edə bilərsiniz.

```python
import matplotlib.pyplot as plt
import numpy as np

# ApplicantIncome üçün outlier-ların yoxlanılması
plt.figure(figsize=(10, 6))
plt.subplot(1, 2, 1)
plt.boxplot(df['ApplicantIncome'])
plt.title('ApplicantIncome Outliers')

# Log transformasiya ilə outlier-ların uyğunlaşdırılması
df['Log_ApplicantIncome'] = np.log1p(df['ApplicantIncome'])

plt.subplot(1, 2, 2)
plt.boxplot(df['Log_ApplicantIncome'])
plt.title('Log Transformed ApplicantIncome')
plt.show()

# LoanAmount üçün eyni proseduru həyata keçirə bilərsiniz
df['LoanAmount'].fillna(df['LoanAmount'].median(), inplace=True)  # Boş dəyərləri median ilə doldurmaq
plt.figure(figsize=(10, 6))
plt.subplot(1, 2, 1)
plt.boxplot(df['LoanAmount'])
plt.title('LoanAmount Outliers')

df['Log_LoanAmount'] = np.log1p(df['LoanAmount'])

plt.subplot(1, 2, 2)
plt.boxplot(df['Log_LoanAmount'])
plt.title('Log Transformed LoanAmount')
plt.show()
```

### 2. **Categorical Encoding (One-Hot Encoding)**
Kategorik dəyişənlər üçün one-hot encoding tətbiq edərək, onları model üçün istifadə edə biləcəyiniz numerik formaya çevirmək.

```python
# One-hot encoding tətbiq etmək
df = pd.get_dummies(df, columns=['Gender', 'Married', 'Education', 'Self_Employed', 'Property_Area', 'Dependents'], drop_first=True)

# Dəyişdirilmiş dataset-ə baxmaq
df.head()
```

### 3. **Yeni Dəyişənlər Yaratmaq (Feature Engineering)**
Müraciət edən şəxsin və birgə müraciət edən şəxsin gəlirini toplam olaraq yeni bir dəyişən yaratmaq.

```python
# TotalIncome adlı yeni bir dəyişən yaratmaq
df['TotalIncome'] = df['ApplicantIncome'] + df['CoapplicantIncome']

# TotalIncome üçün log transformasiya tətbiq etmək
df['Log_TotalIncome'] = np.log1p(df['TotalIncome'])

# Vizual olaraq log transformasiyanın təsirini yoxlamaq
plt.figure(figsize=(10, 6))
plt.subplot(1, 2, 1)
plt.boxplot(df['TotalIncome'])
plt.title('TotalIncome Outliers')

plt.subplot(1, 2, 2)
plt.boxplot(df['Log_TotalIncome'])
plt.title('Log Transformed TotalIncome')
plt.show()
```

### 4. **Numeric Dəyərlərin Normalizasiyası və ya Standartizasiyası**
Numeric dəyişənlər üçün normalizasiya (Min-Max scaling) və ya standartizasiya (Z-score normalization) tətbiq edə bilərsiniz.

```python
from sklearn.preprocessing import StandardScaler

# Numeric dəyişənləri müəyyənləşdirin
numeric_features = ['Log_ApplicantIncome', 'Log_LoanAmount', 'Log_TotalIncome']

# Standartizasiya tətbiq etmək
scaler = StandardScaler()
df[numeric_features] = scaler.fit_transform(df[numeric_features])

# Dəyişdirilmiş dataset-ə baxmaq
df.head()
```

Bu addımların hamısı datanızı model üçün hazır etmək məqsədi daşıyır. Bu addımlardan sonra model qurma mərhələsinə keçə bilərsiniz. Hansısa spesifik addım haqqında daha çox məlumat və ya əlavə izah istəsəniz, mənə bildirin.

## Mene paired sample t test et bu iki sutunu?

Paired sample t-test, eyni subyektlərin iki müstəqil dəyişən üzərində ölçülən nəticələrinin statistik olaraq əhəmiyyətli fərqini yoxlamaq üçün istifadə olunur. Lakin sizin nümunədə `Loan_Status` (binary) və `ApplicantIncome` (numeric continuous) dəyişənləri arasında birbaşa `paired t-test` tətbiq etmək məntiqli olmayacaq, çünki `Loan_Status` müstəqil dəyişən, `ApplicantIncome` isə davamlı dəyişəndir. 

Bununla belə, eyni subyektlərdə iki ölçüm arasındakı fərqi təhlil etmək üçün `paired t-test` istifadə oluna bilər. Məsələn, iki müxtəlif zaman nöqtəsində eyni subyektlərdəki `ApplicantIncome` dəyişəni ölçülə bilər. Bu halda, `paired t-test` aşağıdakı şəkildə tətbiq oluna bilər:

### Python Kod Nümunəsi

1. **Bir Dataset Yaradın**: İki ölçüm arasındakı fərqi təsvir etmək üçün iki fərqli gəlir sütunu yaradın.
2. **Paired Sample t-Test Tətbiq Edin**: `scipy.stats` kitabxanasını istifadə edərək.

```python
import numpy as np
import pandas as pd
from scipy.stats import ttest_rel
import seaborn as sns
import matplotlib.pyplot as plt

# Dataset yaratmaq üçün funksiyalar
def generate_data(num_samples):
    np.random.seed(42)
    # Təsadüfi numeric continuous dəyərlər
    applicant_income_1 = np.random.rand(num_samples) * 10000  # 0-10000 arasında gəlir
    applicant_income_2 = applicant_income_1 + np.random.randn(num_samples) * 2000  # ikinci ölçüm, biraz fərqli
    
    # DataFrame yaratmaq
    df = pd.DataFrame({
        'ApplicantIncome_1': applicant_income_1,
        'ApplicantIncome_2': applicant_income_2
    })
    
    return df

# Data yaratmaq
df = generate_data(1000)

# Paired sample t-test tətbiq etmək
t_statistic, p_value = ttest_rel(df['ApplicantIncome_1'], df['ApplicantIncome_2'])

print(f'T-statistic: {t_statistic}')
print(f'p-value: {p_value}')

# Korrelyasiya matrisini hesablamaq
correlation_matrix = df.corr()

# Korrelyasiya matrisini vizualizasiya etmək
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Correlation Matrix')
plt.show()
```

### Açıklama

1. **Data Yaratmaq**: `generate_data` funksiyası iki fərqli `ApplicantIncome` sütunu ilə bir dataset yaradır.
2. **Paired Sample t-Test**: `ttest_rel` funksiyasını istifadə edərək iki müstəqil gəlir sütunu arasındakı fərqi test edir.
3. **Korrelyasiya Matrisini Hesablamaq**: Yaradılan data üzərində korrelyasiya matrisini və heatmap vizualizasiyasını təqdim edir.

Bu kod nümunəsi `ApplicantIncome` dəyişəninin iki fərqli ölçüm arasında əhəmiyyətli bir fərqin olub olmadığını yoxlamaq üçün `paired sample t-test` tətbiq edir. Əgər siz `Loan_Status` ilə `ApplicantIncome` arasında fərq yoxlamaq istəyirsinizsə, fərqli statistik testlər (məsələn, t-test, ANOVA) və ya metodlar istifadə etməlisiniz, çünki bu iki dəyişən fərqli növlərdir.

## plt.hist(np.log(df['CoapplicantIncome'] + 1))
* niye +1 edirik?

`np.log(df['CoapplicantIncome'] + 1)` əməliyyatında `+1` etməyin səbəbi, logaritma funksiyasının tərifinə görə sıfır və mənfi dəyərlərin logaritmı tərif olunmur. Əgər `CoapplicantIncome` sütununda sıfır dəyəri varsa, `np.log(0)` undefined (müəyyən edilməmiş) olacaq və bu da səhvlərə səbəb ola bilər.

`+1` əlavə etməklə, bütün dəyərlər ən azı 1 olacaq və logaritmik transformasiyanın tətbiqi mümkün olacaq. Bu həmçinin dəyərləri bir qədər dəyişir, lakin ümumi tendensiyanı və ya datanın strukturu əhəmiyyətli dərəcədə dəyişmir.

## Boosting modellerin hansina random_state vermek lazimdir?

Boosting modellərində `random_state` parametri modelin təkrarlanabilməsini təmin etmək üçün istifadə olunur. Bu, təlim zamanı təsadüfi elementlərin (məsələn, təlim məlumatlarının təsadüfi seçilməsi, təsadüfi başlanğıc ağırlıqları və s.) nəzarət edilməsi üçün bir toxum dəyəri (seed value) təmin edir.

### Hər hansı bir `random_state` dəyəri təyin edərkən:

- **Sabit bir dəyər təyin etmək** (məsələn, `random_state=42`): Təlim və test proseslərinin hər dəfə eyni nəticəni verməsini təmin edər. Bu, modeli təkrarlamaq və nəticələri yoxlamaq üçün faydalıdır.
  
- **`random_state`-i `None` olaraq buraxmaq**: Modelin hər dəfə fərqli bir təsadüfi dəyər seçməsinə səbəb olar. Bu da modelin hər dəfə fərqli nəticələr verməsi ilə nəticələnir.

### Fərqli Boosting Modellərində `random_state`:

1. **XGBoost (`xgboost.XGBClassifier` və ya `xgboost.XGBRegressor`)**
   - Parametr: `random_state` və ya `seed`
   - Sabit bir dəyər təyin edərək (məsələn, `random_state=42`), modeli təkrarlamaq mümkündür.

2. **LightGBM (`lightgbm.LGBMClassifier` və ya `lightgbm.LGBMRegressor`)**
   - Parametr: `random_state` və ya `seed`
   - Burada da sabit bir dəyər təyin etməklə modeli təkrarlamaq mümkündür.

3. **CatBoost (`catboost.CatBoostClassifier` və ya `catboost.CatBoostRegressor`)**
   - Parametr: `random_state`
   - Eyni təkrarlanabilirlik üçün sabit bir dəyər istifadə edilə bilər.

4. **AdaBoost (`sklearn.ensemble.AdaBoostClassifier` və ya `sklearn.ensemble.AdaBoostRegressor`)**
   - Parametr: `random_state`
   - Təkrarlanabilirlik üçün sabit bir dəyər verilməsi məsləhətlidir.

### Hansı `random_state` təyin edilməlidir?

- **Sabit dəyər olaraq `42`**: Bu, elm sahəsində çox yaygın olaraq istifadə olunur və təkrarlanabilirlik təmin etmək üçün yaxşı bir seçimdir.
- **Başqa bir sabit dəyər**: Əgər xüsusi olaraq fərqli bir toxum dəyəri istəyirsinizsə, istənilən ədəd seçilə bilər.
- **`None` olaraq buraxmaq**: Hər dəfə təsadüfi dəyərlər istəyirsinizsə, `random_state=None` olaraq buraxıla bilər.

Nəticədə, hansı `random_state` istifadə edəcəyiniz sizin proyektinizin tələblərindən asılıdır. Əgər nəticələrin hər dəfə təkrarlanmasını istəyirsinizsə, sabit bir `random_state` dəyəri təyin etmək yaxşı bir təcrübədir.

## [LightGBM] [Warning] No further splits with positive gain, best gain: -inf

## Nece edim bu warning olmasin?

Bu xəbərdarlıqlar, `LightGBM` modelini təlim etdirərkən yaranır və bu xəbərdarlıqların əsas səbəbi budur ki, model təlim zamanı bəzi node-lar üçün (qovşaqlar üçün) mənfi və ya sıfır dəyərində "gain" əldə edir. Bu halda, əlavə bir split (qovşaqda yeni bir bölmə) yaratmaq mənasız olur, çünki bu heç bir yaxşılaşma gətirməyəcək.

### Bu xəbərdarlıqların səbəbləri:

1. **Məlumatların Paylanması**: Məlumatların dəyər spektri çox dar ola bilər və ya bəzi dəyərlər çox nadir ola bilər. Bu halda, hər hansı bir split üçün müsbət "gain" əldə etmək çətin ola bilər.

2. **Parametr Dəyərləri**: Modelin parametr dəyərləri (məsələn, `min_child_samples`, `min_split_gain`, `max_depth`) çox sərt olaraq təyin edilmiş ola bilər, bu da modelin çox sayda split yaratmasına maneə ola bilər.

3. **Overfitting**: Model təlim zamanı çox sayda split etməyə çalışarkən overfitting-i önləmək üçün bu xəbərdarlıqları verir.

### Çözüm Yolları:

1. **Parametrləri Yenidən Dəyərləndirin**:
   - `min_child_samples` dəyərini azaldaraq daha çox split imkanı verə bilərsiniz.
   - `min_split_gain` dəyərini azaldaraq daha kiçik split-ləri icazə verə bilərsiniz.
   - `max_depth` dəyərini artırmaq da bəzi hallarda kömək edə bilər.

2. **Məlumatları Təkrardan Analiz Edin**:
   - Məlumatlarınızı yoxlayın və fərqli qruplar arasında balansı təmin etməyə çalışın.
   - Ehtiyac varsa, məlumatları transformasiya edərək (məsələn, log transformasiyası) modelin daha yaxşı öyrənməsi üçün şərait yaradın.

3. **Feature Engineering**:
   - Məlumat dəstinizə əlavə xüsusiyyətlər əlavə etməyi və ya bəzi xüsusiyyətləri yenidən yaratmağı nəzərdən keçirə bilərsiniz. Bu, modelin daha yaxşı öyrənməsinə kömək edə bilər.

Bu xəbərdarlıqlar modelin nəticələrinə birbaşa mənfi təsir göstərməyə bilər, ancaq məlumatların və parametrlərin diqqətlə incələnməsi modelin performansını artırmağa kömək edə bilər.

LightGBM modelini qurarkən bu xəbərdarlıqların qarşısını almaq üçün bəzi parametrləri aşağıdakı kimi tənzimləyə bilərsiniz:

1. **`min_split_gain`** dəyərini azaldaraq daha kiçik split-ləri icazə vermək.
2. **`min_child_samples`** dəyərini artırmaq, beləliklə model yalnız müəyyən sayda nümunələr üçün split edər.
3. **`max_depth`** dəyərini artırmaq və ya başqa dəyərlərini tənzimləməklə modelin daha yaxşı performans göstərməsini təmin etmək.

Aşağıda bir nümunə LightGBM kodu verilmişdir:

```python
import lightgbm as lgb

from lightgbm import LGBMClassifier

# Modelin yaradılması
model = LGBMClassifier(
    boosting_type='gbdt',
    objective='binary',  # Klassifikasiya üçün
    metric='binary_logloss',
    min_split_gain=0.01,  # Split üçün minimum "gain"
    min_child_samples=20,  # Split üçün minimum nümunə sayı
    max_depth=7,  # Maksimum dərinlik
    random_state=42  # Reproducibility üçün
)

# Modelin təlimi
model.fit(X_train, y_train)

# Modelin testi
y_pred = model.predict(X_test)
```

### İpuçları:
- **`min_split_gain`**: Bu dəyəri artırmaq splitlərin daha da mənalı olmasını təmin edəcək, beləliklə bu xəbərdarlıqların sayı azalacaq.
- **`min_child_samples`**: Bu dəyəri artırmaq, çox kiçik nümunələr üçün split yaratmamaq üçün istifadə edilə bilər.
- **`max_depth`**: Dərinliyi artırmaq, modelin daha çox split etməsinə icazə verəcək, ancaq overfitting riskini də nəzərə almaq lazımdır.

Bu parametrlər xəbərdarlıqların qarşısını ala bilər və ya sayını azalda bilər. Ayrıca, bu parametrləri layihənizin spesifik tələblərinə uyğun tənzimləyə bilərsiniz.

## yene warning gelir....

LightGBM-də xəbərdarlıqları azaltmaq üçün `min_split_gain`, `min_child_samples` və `max_depth` kimi parametrləri dəyişdirmək kifayət etmədikdə, digər variantları da yoxlamaq olar. Xəbərdarlıqları tamamilə aradan qaldırmaq üçün əlavə parametrlərdən istifadə edə bilərsiniz:

### 1. **`verbosity` və ya `verbose` Parametrindən İstifadə Edin:**
LightGBM modellərində `verbosity` (və ya `verbose`) parametrini istifadə edərək xəbərdarlıqların səviyyəsini tənzimləyə bilərsiniz. Xəbərdarlıqların qarşısını almaq üçün `verbosity` dəyərini `-1` təyin edə bilərsiniz:

```python
from lightgbm import LGBMClassifier

# Modelin yaradılması
model = LGBMClassifier(
    boosting_type='gbdt',
    objective='binary',
    metric='binary_logloss',
    min_split_gain=0.01,
    min_child_samples=20,
    max_depth=7,
    random_state=42,
    verbosity=-1  # Warning-ları tamamilə söndürmək
)

# Modelin təlimi
model.fit(X_train, y_train)

# Modelin testi
y_pred = model.predict(X_test)
```

### 2. **`early_stopping_rounds` İstifadə Edərək Overfitting-i Azaltmaq:**
`early_stopping_rounds` parametrini istifadə edərək, təlim zamanı modelin lazımsız splitlər etməsinin qarşısını ala bilərsiniz. Bu, xəbərdarlıqların azalmasına kömək edə bilər.

```python
model = LGBMClassifier(
    boosting_type='gbdt',
    objective='binary',
    metric='binary_logloss',
    min_split_gain=0.01,
    min_child_samples=20,
    max_depth=7,
    random_state=42,
    verbosity=-1
)

model.fit(X_train, y_train, early_stopping_rounds=10, eval_set=[(X_valid, y_valid)], verbose=False)
```

### 3. **`min_child_weight` Parametrini Dəyişdirin:**
`min_child_weight` parametrini artırmaqla xəbərdarlıqların qarşısını almaq mümkündür. Bu, splitlərin daha da məntiqli olmasını təmin edəcək.

```python
model = LGBMClassifier(
    boosting_type='gbdt',
    objective='binary',
    metric='binary_logloss',
    min_split_gain=0.01,
    min_child_samples=20,
    min_child_weight=1.0,  # Dəyəri artırmaqla xəbərdarlıqların qarşısını almaq
    max_depth=7,
    random_state=42,
    verbosity=-1
)
```

Bu parametrləri birləşdirərək və tənzimləyərək xəbərdarlıqların sayını azalda bilərsiniz. Ancaq `verbosity=-1` parametri bu xəbərdarlıqları tamamilə gizlədəcəkdir.