Нижче — детальний аналіз кожного з переліку методів з точки зору їх доцільності для вашої задачі (виявлення впливу ознак на бінарну ціль «успішне/неуспішне замовлення»), а також кластеризація методів за математичною суттю (щоб визначити дублювання).

---

## 1. Welch’s t-test (p-value)

- **Призначення**: перевірити, чи відрізняються середні значення числової ознаки в двох незалежних групах (успішні vs. неуспішні).
- **Переваги**: уважається більш стабільним за стандартний t-тест при нерівній дисперсії та розмірах груп.
- **Обмеження**:
  - Потребує приблизно нормального розподілу в обох групах (але для великих «n» <u>частково непоколивий</u> через ЦПТ).
  - Не застосовується до категоріальних ознак без попереднього числового кодування.
  - Дає тільки p-значення, але не «розмір ефекту».

**Висновок**: корисний для швидкого скринінгу числових ознак, але слід доповнювати effect-size та перевіркою припущень.

---

## 2. Mann–Whitney U-test (p-value)

- **Призначення**: непараметричний тест на відмінність розподілу двох груп.
- **Переваги**:
  - Не вимагає нормальності чи рівності дисперсій.
  - Чутливий до зсуву медіан або загального «розкиду» двох підвибірок.
- **Обмеження**:
  - Інтерпретація p-значення менш прозора: тестує, чи значно відрізняється випадкова величина з однієї групи від випадкової величини з іншої (не строго медіани).
  - Не дає розміру ефекту (але можливий розрахунок rank-biserial correlation).

**Висновок**: рекомендований для числових ознак із сильно невідповідними нормальним припущенням розподілами.

---

## 3. Cohen’s d

- **Призначення**: стандартний розмір ефекту (різниця середніх, поділена на pooled SD).
- **Переваги**: дає інтуїтивну шкалу «малий/середній/великий» ефект.
- **Обмеження**:
  - Припускає приблизну нормальність.
  - Все одно потребує двох окремих розподілів (успішні vs. неуспішні).

**Висновок**: обов’язково використовувати спільно з t-тестом або ANOVA для оцінки практичної значущості.

---

## 4. Univariate AUC

- **Призначення**: зводить кожну ознаку до одно-означного предиктора, рахує ROC-криву та площу під нею.
- **Переваги**:
  - Не потребує жодних припущень про розподіл.
  - Чутливий до будь-яких зрушень розподілів чи розкиду.
- **Обмеження**:
  - Не дає напряму інформації про напрям (позитивний/негативний ефект).
  - Для категоріальних ознак з багатьма рівнями може бути неінформативним без правильного перетворення.

**Висновок**: універсальний скринер, але потребує наступного інтерпретаційного кроку (напрямко та shape of effect).

---

## 5. Information Value (IV)

- **Призначення**: популярний у скорингу кредитів – бінінг числових ознак, розрахунок WOE (weight of evidence) та IV.
- **Переваги**:
  - Добре працює з категоріями та бінованими числовими.
  - IV дає чіткий поріг (наприклад, IV>0.3 – сильний предиктор).
- **Обмеження**:
  - Потребує належного бінінгу (може «перебінювати» якщо даних мало в крайніх бінгах).
  - Орієнтований на бінарну ціль; не підходить для безперервних тарґетів.

**Висновок**: дуже корисний для швидкої оцінки «кредитоздатності» ознаки, але можна вважати варіантом інформаційного підходу, схожим на mutual information.

---

## 6. Mutual Information (MI)

- **Призначення**: вимір залежності між двома змінними (числовою/категоріальною) без припущень про лінійність.
- **Переваги**:
  - Виявляє будь-яку залежність, не тільки монотонну.
  - Підходить до змішаних типів ознак (після дискретизації для числових або без).
- **Обмеження**:
  - Для оцінки вимагає достатньо даних (оціночна нестабільність при малій «n»).
  - Не дає напряму «позитив/негатив»— лише міру взаємної інформації.

**Висновок**: універсальний, але схильний до нестабільного оцінювання, якщо ви дискретизуєте непродуманно. Частково дублює IV.

---

## 7. ANOVA F-статистика

- **Призначення**: загальне порівняння середніх більш ніж двох груп; у випадку двох груп еквівалентно квадрату t-статистики.
- **Дублювання**:
  - Для двох груп (успішні/неуспішні) F-тест ≈ (t-тест)\².
- **Висновок**: дублює t-тест (методи 1 і 14).

---

## 8. Spearman correlation

- **Призначення**: кореляція рангових значень (монотонна залежність).
- **Переваги**:
  - Чутлива до будь-яких монотонних залежностей.
  - Менш чутлива до викидів, ніж Пірсон.
- **Обмеження**:
  - Для бінарної цілі (0/1) на практиці дає rank-biserial correlation; може бути менш інтуїтивною.

**Висновок**: хороший непараметричний аналог Пірсона, варто включати для перевірки монотонних зв’язків.

---

## 9. Коєфіцієнт логістичної регресії

- **Призначення**: Univariate або multivariate logistic regression — оцінює log-odds зміни при зміні ознаки на 1.
- **Переваги**:
  - Дає напряму «збільшення/зменшення ризику».
  - Мультиваріантний варіант дозволяє контролювати інші ознаки.
- **Обмеження**:
  - Потрібна перевірка мультиколінеарності.
  - Coefficient magnitude залежить від масштабу ознаки.

**Висновок**: центральний метод для інтерпретації одночасного впливу багатьох ознак; у разі univariate аналізу — схожий на t-test/ANOVA/F-тест.

---

## 10–12. Feature Importance із деревних моделей

| Метод                   | Принцип                              | Плюси                                           | Мінуси                                      |
|-------------------------|--------------------------------------|-------------------------------------------------|---------------------------------------------|
| **Decision Tree**       | зменшення невизначеності (Gini/Entropy) при сплітах | Простий, інтерпретований                       | Залежить від одного дерева → нестійкий      |
| **Random Forest**       | середнє важливостей багатьох дерев   | Стабільніше, здатен виявити нелінійності        | Біас до категорій з багатьма рівнями        |
| **XGBoost**             | градієнтний бустинг дерев             | Часто дає кращу якість, контроль regularization | Складніший для інтерпретації, теж біасний   |

- **Дублювання**: усі три — на основі дерев, досить схожі; але зростаюча складність і стійкість RF та XGBoost дають різні профілі важливостей.
- **Висновок**: рекомендую застосувати хоча б один ансамбль (RF або XGBoost) для комплексного урахування взаємодій і нелінійностей.

---

## 13. Хі-квадрат тест

- **Призначення**: тест незалежності для двох категоріальних змінних.
- **Переваги**: простий, чітка інтерпретація.
- **Обмеження**:
  - Не підходить напряму до числових ознак (потребує бінінгу).
  - Залежить від розміру категорій — багато дрібних рівнів зменшують потужність тесту.

**Висновок**: основний інструмент для категоріальних ознак, але дублює загальну ідею MI (але дає p-value замість інформаційної міри).

---

## 14. Pearson correlation

- **Призначення**: лінійна кореляція між числовою ознакою та бінарною ціллю (point-biserial correlation).
- **Дублювання**:
  - Для двох груп t-тест та ANOVA дають ті самі p-значення.
- **Висновок**: дублює методи 1 і 7, але може додавати просту міру напрямку та сили лінійної залежності.

---

## 15. Distance Correlation (dCor)

- **Призначення**: вимір усіх типів залежностей (як лінійних, так і нелінійних).
- **Переваги**:
  - Чутливий до будь-яких видів залежностей, відмінний від нуля ↔ залежність ≠ незалежність.
- **Обмеження**:
  - Менш відомий, важче інтерпретувати величину.
  - Обчислювально затратний для великих «n» (≈ 86 794).

**Висновок**: корисний для вичерпного пошуку залежностей, але вартий лише за дуже потужного апаратного забезпечення.

---

## 16. HHG (Heller–Heller–Gorfine)

- **Призначення**: непараметричний тест загальної залежності.
- **Переваги**: виявляє як локальні, так і глобальні структури в даних.
- **Обмеження**: обчислювально дуже затратний, складна інтерпретація p-значення.

**Висновок**: метод «для крапкових» досліджень у невеликих підмножинах, але не для всього датасету.

---

## 17. Hoeffding’s D

- **Призначення**: тест незалежності, чутливий до будь-якої залежності.
- **Обмеження**: схожі на HHG — важко масштабувати й інтерпретувати.

**Висновок**: дублює ідею dCor/HHG/MIC, але є рідко в практиці через обчислювальні складнощі.

---

## 18. Maximal Information Coefficient (MIC)

- **Призначення**: шукає будь-які функціональні чи нефункціональні залежності за допомогою оптимального «грид-розбиття».
- **Переваги**:
  - Виявляє як лінійні, так і складні нефункціональні зв’язки.
- **Обмеження**:
  - Може створювати хибні покликання на залежність (overfitting гридів).
  - Досить затратний для великого датасету.

---

##  Альтернативні «сімейства» / дублювання

1. **t-test / ANOVA / Pearson correlation** (1, 7, 14)
2. **Information Value / Mutual Information / χ²** (5, 6, 13)
3. **Cohen’s d / p-value t-test** (3 & 1)
4. **HHG / Hoeffding’s D / Distance Correlation / MIC** (15–18)
5. **Decision Tree / Random Forest / XGBoost** (10–12)

---

## Рекомендації щодо підходу

1. **Базовий скринінг**
   - Для **числових ознак**: univariate AUC, Mann–Whitney, Cohen’s d.
   - Для **категоріальних**: χ², IV.
2. **Інформаційні методи**
   - Mutual Information (як універсальний) + Information Value (для швидкого порівняння).
3. **Мультиваріантний аналіз**
   - Univariate logistic regression → багатовимірна логістична модель (з регуляризацією L1/L2)
4. **Моделі на деревній основі**
   - Random Forest або XGBoost → permutation importance або SHAP values для надійності.
5. **Глибинний пошук залежностей** (опційно)
   - dCor або MIC для «нетипових» нелінійностей у невеликих підмножинах.

Таким чином, **базовий набір** для вашої задачі:
- Mann–Whitney + Cohen’s d (числові),
- χ² + IV (категоріальні),
- univariate AUC,
- logistic regression coefficients,
- Random Forest/XGBoost importance (з SHAP).

За потреби — mutual information та один з general-dependence тестів (dCor/MIC). Це дасть баланс простоти, інтерпретованості та охоплення як лінійних, так і нелінійних впливів.