#🧩**Звіт проведення Етапу 1: "Дослідження даних (EDA)" (виявлення сигналів та проблем у даних)**

## 🎯 **Мета етапу**

---

**Мета проєкту:** прогноз відтоку клієнтів (**churn**) на основі історичних даних телекомунікаційної компанії.  
**Поточний етап:** Аналіз даних (**EDA**) — виявлення сигналів та проблем у даних, що впливають на рівень відтоку.


## 📊 **1. Дані та загальні метрики**

---

- **Розмір датасету:** `72,274` рядків × `11` ознак  
- **Цільова змінна:** `churn (0/1)`  
- **Частка churn:** ≈ **55.4%** (незначна зміщеність класів)
- **Пропуски:**
  - `remaining_contract` ≈ **21,572 (30%)**
  - `download_avg`, `upload_avg` — **381**


## **📈 2. Аналіз розподілів**

---

Для числових змінних побудовано гістограми та boxplot-и, що показали:

- Асиметрію в розподілі `tenure`, `MonthlyCharges`, `TotalCharges`.
- Наявність аномальних значень у фінансових показниках.
- Більшість клієнтів мають короткі контракти (місячна підписка), що **пов’язано з підвищеним рівнем відтоку**.

> 💡 **Ключова знахідка:**  
> Клієнти без інформації про контракт мають надзвичайно високий churn (~91%).

## ⚠️ **3. Виявлення відсутніх значень**

---

Виявлено пропуски у деяких ознаках, зокрема:

| Ознака | Кількість пропусків | Можлива причина |
|:--|:--:|:--|
| `TotalCharges` | декілька значень | Нові клієнти без історії оплат |

**Висновки:**
- Пропуски не є випадковими — вони зумовлені логікою даних.  
- Для подальшої обробки планується заповнити їх медіанним або середнім значенням залежно від форми розподілу.


## 🔗 **4. Аналіз кореляцій**

---

Побудовано кореляційну матрицю для числових ознак.

**Основні спостереження:**
- Висока позитивна кореляція між `MonthlyCharges` та `TotalCharges`.
- Негативна кореляція між `Churn` і `tenure`: коротші контракти — більший ризик відтоку.
- Значущої мультиколінеарності між іншими змінними не виявлено.

> 🧠 **Додаткове спостереження:**  
> Нові клієнти (з малою `subscription_age`) та ті, хто має `service_failures`, демонструють вищий рівень churn.



## 🧩 **5. Ризики даних**

---

- Негативні значення `subscription_age` — можливі **помилки парсингу**.  
- Можливі **артефакти у великих значеннях** трафіку або рахунків (`bill_avg`, `download_avg`, `upload_avg`).  
- Потрібне підтвердження **семантики `NaN`** у `remaining_contract`.  
- Виявлено пропуски у `TotalCharges`, що зумовлено бізнес-логікою (нові клієнти без оплатної історії).

> 🔍 **Коментар:** перед обробкою таких пропусків потрібно узгодити логіку з бізнес-аналітиками, щоб уникнути спотворень.


## 💡 **6. Ключові знахідки**

---

- Клієнти без інформації про контракт мають **дуже високий churn (~91%)**.  
- Нові клієнти або ті, хто має збої у сервісі, демонструють **вищий ризик відтоку**.  
- Виявлені **аномалії та викиди** у `bill_avg`, `download_avg`, `upload_avg`, які потрібно обробити.


## 🧱 **7. Рекомендації для наступного етапу**

---

На основі проведеного аналізу рекомендовано виконати такі кроки **під час етапу попередньої обробки даних**:

### **7.1. Обробка відсутніх значень**

*   Заповнити пропуски у `TotalCharges` **медіанним або середнім** значенням.
*   Перевірити інші ознаки на неочевидні пропуски (наприклад, порожні рядки у текстових змінних).

### **7.2. Кодування категоріальних змінних**

*   Для **номінативних** змінних (`Gender`, `PaymentMethod`, `InternetService` тощо) застосувати **One-Hot Encoding**.
*   Для **порядкових** змінних (`Contract`, `Dependents` тощо) — **Label Encoding**, щоб зберегти логічну послідовність.

### **7.3. Нормалізація числових ознак**

*   Провести **стандартизацію** (`StandardScaler`) для числових ознак перед моделюванням.
*   Це особливо важливо для моделей, чутливих до масштабу, таких як **SVM** або **логістична регресія**.

### **7.4. Перевірка балансу цільової змінної (`Churn`)**

Якщо виявиться сильна **дисбалансованість класів**, розглянути використання методів:

*   Oversampling (SMOTE),
*   Undersampling,
*   або налаштування параметра `class_weight` у моделях.



## 📊 **8. Аналітичний висновок (що означає для бізнесу)**

---

- **91% клієнтів без контракту** — група найвищого ризику, яку варто таргетувати програмами лояльності.  
- **Нові клієнти** мають підвищений відтік — потрібно переглянути процес онбордингу.  
- **Аномалії у фінансових і трафікових даних** можуть свідчити про технічні проблеми або некоректне зчитування систем.  
- Корекція `subscription_age` і `remaining_contract` підвищить точність моделей та допоможе створити **більш надійні прогнози `churn`**.

Результати попереднього аналізу мають важливі бізнес-наслідки:

*   **Короткострокові контракти** пов’язані з **вищим ризиком відтоку**. Це означає, що компанії варто заохочувати клієнтів до **довгострокових підписок** через бонуси або знижки.
*   **Високі щомісячні тарифи** також корелюють із підвищеним рівнем відтоку — можливо, частина клієнтів не відчуває відповідної цінності послуги. Рекомендовано переглянути тарифну політику або створити **гнучкі пакети послуг**.
*   Відсутність значних кореляцій між більшістю ознак свідчить, що **поведінкові та сервісні фактори** можуть мати більший вплив на відтік, ніж демографічні.
*   Подальша модель зможе допомогти **ідентифікувати клієнтів з високим ризиком відтоку**, що дозволить компанії запровадити **превентивні заходи утримання** (персональні пропозиції, нагадування, бонуси тощо).

## 🚀 **Готовність до наступного етапу**

---

Після аналізу розподілів, перевірки пропусків і вивчення кореляцій дані готові до етапу **попередньої обробки**, який включатиме:

✅ очищення та заповнення пропусків;

✅ кодування категоріальних змінних;

✅ стандартизацію числових ознак;

✅ формування фінального датасету для моделювання.