## Cross-validation

Cross-validation (CV) tətbiq etdikdən sonra əldə etdiyin nəticələri əsasən test nəticələri ilə müqayisə edirsən. Addım-addım belə gedir:  

1. **CV nəticələrini əldə et:**  
   - Əgər `cross_val_score` istifadə etmisənsə, o, bir neçə fold üçün modelin skorlarını qaytarır.  
   - Əsasən **mean** və **std** dəyərlərinə baxırsan:  
     ```python
     from sklearn.model_selection import cross_val_score
     from sklearn.ensemble import RandomForestClassifier  

     model = RandomForestClassifier()
     scores = cross_val_score(model, X_train, y_train, cv=5, scoring='accuracy')
     print(f"Mean CV Score: {scores.mean():.4f} ± {scores.std():.4f}")
     ```

2. **CV nəticələrini test nəticəsi ilə müqayisə et:**  
   - Modeli `X_train, y_train` üzərində öyrədib, `X_test, y_test` ilə qiymətləndir:  
     ```python
     model.fit(X_train, y_train)
     test_score = model.score(X_test, y_test)  
     print(f"Test Score: {test_score:.4f}")
     ```

3. **Müqayisə:**  
   - **Əgər test nəticəsi CV mean skorundan çox aşağıdırsa**, overfitting ola bilər.  
   - **Əgər test və CV nəticələri bir-birinə yaxındırsa**, model stabil işləyir.  
   - **Əgər CV nəticəsi yüksək, amma test nəticəsi aşağıdırsa**, model training set-ə çox uyğunlaşıb (overfitting).  
   - **Əgər CV nəticəsi aşağıdırsa, amma test nəticəsi yüksəkdirsə**, ehtimal ki, təsadüfi faktorlar təsir edib (underfitting ola bilər).  

Əsas məqsəd CV nəticələrinin və test nəticələrinin bir-birinə yaxın olmasıdır. Modelin yaxşı ümumiləşdiyini (generalization) yoxlamaq üçün bu müqayisəni aparırsan.  

Hansı metrikdən istifadə etdiyini dəqiqləşdirə bilərsən? Accuracy, F1-score və ya başqa bir metrik?

##  Cross-validation (CV) nəticələrini accuracy_score(y_test, y_pred) ilə müqayisə etmək tam doğrudur

Bəli, **cross-validation (CV) nəticələrini `accuracy_score(y_test, y_pred)` ilə müqayisə etmək tam doğrudur**. Əsas məqsəd CV zamanı alınan orta nəticənin test setində əldə olunan accuracy ilə nə qədər uyğun gəldiyini görməkdir.  

---

### ✅ **Müqayisə Addımları:**
1. **Cross-validation ilə modelin orta performansını ölç:**
   ```python
   from sklearn.model_selection import cross_val_score
   from sklearn.ensemble import RandomForestClassifier

   model = RandomForestClassifier()
   cv_scores = cross_val_score(model, X_train, y_train, cv=5, scoring='accuracy')

   print(f"Mean CV Accuracy: {cv_scores.mean():.4f} ± {cv_scores.std():.4f}")
   ```

2. **Modeli bütün `X_train, y_train` üzərində fit et və test accuracy-ni tap:**
   ```python
   model.fit(X_train, y_train)  # Bütün train datada öyrədirik

   y_pred = model.predict(X_test)  # Test setində proqnozlar alırıq
   test_accuracy = accuracy_score(y_test, y_pred)  # Test accuracy-ni ölçürük

   print(f"Test Accuracy: {test_accuracy:.4f}")
   ```

3. **Müqayisə et və şərh ver:**
   - **Əgər `test_accuracy` ≈ `Mean CV Accuracy`** → Model stabil işləyir.  
   - **Əgər `test_accuracy` < `Mean CV Accuracy`** → Overfitting ola bilər.  
   - **Əgər `test_accuracy` > `Mean CV Accuracy`** → Underfitting və ya data fərqliliyi ola bilər.  

---

### 🎯 **Nəticə:**
Bəli, CV nəticələrini test accuracy ilə müqayisə edə bilərsən. Əgər nəticələr arasında fərq çoxdursa, modeli daha yaxşı tənzimləmək (hyperparameter tuning) və ya daha çox data toplamaq lazım ola bilər.

Hər hansı fərq çoxdursa, modelin nəyə görə belə davrandığını yoxlamaq lazımdır. **Confusion matrix, Precision-Recall və digər metriklər də əlavə olaraq analiz edilməlidir.**