#🧩**Звіт проведення Етапу 3: "Розробка та Оцінювання Моделі"**

**Project:** Прогнозування Відтоку Клієнтів  
**Author:** Natalia Kalashnikova  
**Team Lead:** Vitalii Subbotin  
**Date:** 2025-10-17
---

## 🎯 **Мета етапу**

---

**Мета проєкту:** прогноз відтоку клієнтів (**churn**) на основі історичних даних телекомунікаційної компанії.  
**Поточний етап:** Розробка, порівняння та оптимізація моделей машинного навчання для вибору фінальної моделі з найкращою узагальнюючою здатністю.


## 🔍 **Опис етапів проведення обробки даних**
---

### **1.1. Побудова Baseline-Моделей та Порівняння**
* **Вибір Алгоритмів:** Проведено навчання та оцінку семи базових класифікаційних моделей, включаючи логістичну регресію, SVM, нейронні мережі (MLP) та ансамблеві методи (Random Forest, Gradient Boosting, LightGBM, CatBoost).
* **Оцінювання:** Для оцінки стабільності та продуктивності моделей використано **крос-валідацію** (**StratifiedKFold**) з метрикою **ROC-AUC**.
* **Ключовий Висновок Baseline:** Найкращі результати продемонстрували моделі **LightGBM** ($ROC-AUC \approx 0.9831$) та **Random Forest** ($ROC-AUC \approx 0.9824$), що підтвердило перевагу градієнтного та ансамблевого підходів для цієї задачі.

| Model | ROC-AUC (Cross-Validation) | F1-score |
| :--- | :--- | :--- |
| **LightGBM** | **0.9831** | **0.9519** |
| RandomForest | 0.9824 | 0.9481 |
| CatBoost | 0.9821 | 0.9488 |
| GradientBoosting | 0.9743 | 0.9450 |

<hr>

### **1.2. Оптимізація Гіперпараметрів (Hyperparameter Tuning)**
* **Метод:** Застосовано **GridSearchCV** для систематичного пошуку найкращих комбінацій гіперпараметрів для трьох топових моделей: **LightGBM**, **XGBoost**, та **RandomForest**.
* **Цільова Метрика:** **ROC-AUC** використовувалася як основна метрика для відбору найкращих параметрів, оскільки вона забезпечує збалансовану оцінку моделі незалежно від порогу класифікації.
* **Результати Оптимізації:**
    * **LightGBM** (Best $ROC-AUC$: $0.98199$)
    * **XGBoost** (Best $ROC-AUC$: $0.98132$)
    * **RandomForest** (Best $ROC-AUC$: $0.98079$)
* **Вибір Фінальної Моделі:** Модель **LightGBM** була обрана як фінальна через найвищий показник ROC-AUC та високу швидкість навчання.

<hr>

### **1.3. Донавчання та Перевірка Перенавчання**
* **Фінальне Донавчання:** Модель **LightGBM** з найкращими гіперпараметрами була донавчена на повному тренувальному наборі (`train+val`).
* **Перевірка Перенавчання (Overfitting Check):** Порівняно показники $ROC-AUC$ на тренувальному ($0.9911$) та тестовому ($0.9920$) наборах.
* **Висновок:** Різниця між ROC-AUC на train та test є **мінімальною** ($0.0009$), що свідчить про **відсутність суттєвого перенавчання** та високу узагальнюючу здатність моделі.

<hr>

### **1.4. Фінальне Оцінювання на Hold-out Наборі**
* **Мета:** Оцінити продуктивність фінальної моделі на **відкладеному тестовому наборі** (**Hold-out Test**), який не використовувався в процесі навчання та оптимізації.
* **Результати:**
    * **Accuracy:** $0.9514$ ($\approx 95.14\%$)
    * **Precision:** $0.9664$ ($\approx 96.64\%$)
    * **Recall:** $0.9456$ ($\approx 94.56\%$)
    * **F1-score:** $0.9559$ ($\approx 95.59\%$)
    * **ROC-AUC:** $0.9920$ ($\approx 99.20\%$)


## 🛠️ **Аргументація вибору методів**
---

| Метод | Мета | Аргументація Вибору |
| :--- | :--- | :--- |
| **LightGBM, CatBoost, XGBoost** | Вибір алгоритму. | Це сучасні **ансамблеві моделі** на основі градієнтного бустингу, які історично демонструють **найкращі результати** для табличних даних. Вони стійкі до викидів та не вимагають ретельного інжинірингу ознак. |
| **ROC-AUC (Крос-валідація)** | Надійність оцінки моделі. | ROC-AUC є більш **репрезентативною** метрикою для бінарної класифікації, ніж Accuracy, оскільки вона не залежить від дисбалансу класів та порогу класифікації. Крос-валідація забезпечила **стабільну** оцінку продуктивності. |
| **F1-score** | Баланс Precision та Recall. | **F1-score** використовувався поряд з ROC-AUC для оцінки *практичної* якості моделі. У задачі відтоку важливий баланс між **Precision** (точне визначення того, хто піде) та **Recall** (охоплення всіх клієнтів, що йдуть). |
| **GridSearchCV** | Оптимізація моделі. | Систематичний пошук найкращих гіперпараметрів гарантує, що обрана модель **LightGBM** працює на **максимумі свого потенціалу**, підвищуючи її узагальнюючу здатність. |

---

## 💡 **3. Ключові Знахідки**
---

* **Перевага LightGBM:** Модель **LightGBM** показала найвищу якість передбачень серед усіх протестованих алгоритмів на етапі базового моделювання ($ROC-AUC \approx 0.9831$) та після оптимізації ($ROC-AUC \approx 0.98199$).
* **Висока Якість:** Фінальна модель демонструє виняткову продуктивність на відкладеному тесті: **ROC-AUC $0.9920$** та **F1-score $0.9559$**.
* **Відсутність Перенавчання:** Міністерська різниця між метриками на тренувальному та тестовому наборах підтверджує, що модель є **добре збалансованою** та має високу узагальнюючу здатність.

## 💼 **4. Аналітичний Висновок Результатів (Що означає для бізнесу)**
---
| Аспект | Результат | Значення для Бізнесу |
| :--- | :--- | :--- |
| **Якість Прогнозування** | Фінальна модель **LightGBM** досягла **F1-score $95.59\%$** та **ROC-AUC $99.20\%$** на незалежних даних. | Це **винятково високий** рівень точності, який дозволяє компанії ідентифікувати клієнтів, що знаходяться під загрозою відтоку, з високою **надійністю**. |
| **Надійність Моделі** | Модель є **збалансованою** та **не перенавченою** (різниця метрик менше $0.001$). | Модель гарантовано буде працювати **стабільно** та **ефективно** при розгортанні у реальному середовищі (продакшні), мінімізуючи ризик помилкових спрацювань чи пропусків. |
| **Бізнес-Ефект** | Можливість завчасного виявлення $95.59\%$ клієнтів, що мають намір піти. | Компанія може **істотно підвищити рівень утримання клієнтів**, направляючи зусилля відділу утримання виключно на тих, хто знаходиться у зоні ризику, що забезпечує **оптимізацію ресурсів** та **прямий економічний ефект**. |

## 🚀 **Готовність до наступного етапу**

---

**Рекомендація:**

- Фінальна модель **LightGBM** з оптимізованими гіперпараметрами, а також **масштабатор** (`scaler.pkl`), успішно навчені та збережені.
- Модель **повністю готова** до етапу **розгортання (Deployment)** в продакшн для практичного використання.