# Оцінка моделей

In [1]:
%pip install pandas

import pandas as pd
import os
from sklearn.metrics import classification_report
from joblib import load

Note: you may need to restart the kernel to use updated packages.


Зчитування файлу processed_data.csv.

In [2]:
df = pd.read_csv("../data/processed/processed_data.csv")

In [3]:
X = df[df.columns[1:-1]]
y = df[df.columns[-1:]].values.flatten()

__Функція для виведення класифікаційного звіту__

In [4]:
def model_classification_report(model, model_name: str, X_test, y_test):
    y_pred = model.predict(X_test)
    print(
        f"Класифікаційний звіт для моделі {model_name}:\n",
        classification_report(y_test, y_pred),
    )

__Функція для виведення розміру моделі__

In [5]:
def model_size(model_path: str):
    size_in_bytes = os.path.getsize(model_path)
    size_in_kb = size_in_bytes / 1024
    size_in_mb = size_in_kb / 1024
    print(
        f"Розмір моделі: {size_in_bytes} B ({size_in_kb:.2f} kB / {size_in_mb:.2f} MB)"
    )
    return size_in_bytes

Завантаження моделей.

In [6]:
model_RF_path = "../models/model_RandomForest.joblib"
model_HGB_path = "../models/model_HistGradientBoosting.joblib"
model_GB_path = "../models/model_GradientBoosting.joblib"
model_LR_path = "../models/model_LogisticRegression.joblib"

In [7]:
model_RF = load(model_RF_path)
model_HGB = load(model_HGB_path)
model_GB = load(model_GB_path)
model_LR = load(model_LR_path)

In [8]:
model_RF_name = "Random Forest"
model_HGB_name = "Histogram-based Gradient Boosting Classification Tree"
model_GB_name = "Gradient Boosting"
model_LR_name = "Logistic Regression"

__Модель Random Forest__

In [9]:
model_classification_report(model_RF, model_RF_name, X, y)
model_RF_size = model_size(model_RF_path)

Класифікаційний звіт для моделі Random Forest:
               precision    recall  f1-score   support

           0       0.97      0.98      0.98     32224
           1       0.98      0.98      0.98     40050

    accuracy                           0.98     72274
   macro avg       0.98      0.98      0.98     72274
weighted avg       0.98      0.98      0.98     72274

Розмір моделі: 57330585 B (55986.90 kB / 54.67 MB)


__Модель Histogram-based Gradient Boosting Classification Tree__

In [10]:
model_classification_report(model_HGB, model_HGB_name, X, y)
model_HGB_size = model_size(model_HGB_path)

Класифікаційний звіт для моделі Histogram-based Gradient Boosting Classification Tree:
               precision    recall  f1-score   support

           0       0.95      0.96      0.95     32224
           1       0.97      0.96      0.96     40050

    accuracy                           0.96     72274
   macro avg       0.96      0.96      0.96     72274
weighted avg       0.96      0.96      0.96     72274

Розмір моделі: 1976064 B (1929.75 kB / 1.88 MB)


__Модель Gradient Boosting__

In [11]:
model_classification_report(model_GB, model_GB_name, X, y)
model_GB_size = model_size(model_GB_path)

Класифікаційний звіт для моделі Gradient Boosting:
               precision    recall  f1-score   support

           0       0.93      0.95      0.94     32224
           1       0.96      0.94      0.95     40050

    accuracy                           0.95     72274
   macro avg       0.95      0.95      0.95     72274
weighted avg       0.95      0.95      0.95     72274

Розмір моделі: 924349 B (902.68 kB / 0.88 MB)


__Модель Logistic Regression__

In [12]:
model_classification_report(model_LR, model_LR_name, X, y)
model_LR_size = model_size(model_LR_path)

Класифікаційний звіт для моделі Logistic Regression:
               precision    recall  f1-score   support

           0       0.84      0.77      0.81     32224
           1       0.83      0.88      0.86     40050

    accuracy                           0.83     72274
   macro avg       0.84      0.83      0.83     72274
weighted avg       0.83      0.83      0.83     72274

Розмір моделі: 1439 B (1.41 kB / 0.00 MB)


__Відсоткове співвідношення розмірів моделей__

In [13]:
sum_sizes = model_RF_size + model_HGB_size + model_GB_size + model_LR_size
print(f"{model_RF_name}: {model_RF_size / sum_sizes * 100:.2f}%")
print(f"{model_HGB_name}: {model_HGB_size / sum_sizes * 100:.2f}%")
print(f"{model_GB_name}: {model_GB_size / sum_sizes * 100:.2f}%")
print(f"{model_LR_name}: {model_LR_size / sum_sizes * 100:.2f}%")

Random Forest: 95.18%
Histogram-based Gradient Boosting Classification Tree: 3.28%
Gradient Boosting: 1.53%
Logistic Regression: 0.00%


In [14]:
import json


# Шлях до файлу для збереження даних
results_path = "../results/model_evaluation.json"

# Функція для збереження даних у JSON-файл
def save_results_to_json(model_name, classification_report, model_size):
    # Перевіряємо, чи файл вже існує
    if os.path.exists(results_path):
        with open(results_path, "r") as f:
            results = json.load(f)
    else:
        results = {}

    # Додаємо дані для поточної моделі
    results[model_name] = {
        "classification_report": classification_report,
        "model_size_mb": model_size,
    }

    # Записуємо результати у JSON-файл
    with open(results_path, "w") as f:
        json.dump(results, f, indent=4)

## Висновки

Розглянуто чотири моделі з бібліотеки `sklearn`. Здійснено оцінку *точності* моделей на усіх даних і на тестових даних за допомогою `classification_report` та *розміру* моделей.

**Рейтинг моделей за точність на тестових даних (починаючи від найточнішої):**

1. *Histogram-based Gradient Boosting Classification Tree*: 94%
2. *Random Forest*: 94%
3. *Gradient Boosting*: 94%
4. *Logistic Regression*: 84%

**Коментарі:** На тестових даних моделі *Random Forest*, *Histogram-based Gradient Boosting Classification Tree* та *Gradient Boosting* мають однакове значення метрики *accuracy*, але значення метрик *precision*, *recall* та *f1-score* відрізняються. Модель *Logistic Regression* має відчутно меншу точність ніж усі інші, але однаково залишається досить точною.

**Рейтинг моделей за точність на усіх даних (починаючи від найточнішої):**

1. *Random Forest*: 98%
2. *Histogram-based Gradient Boosting Classification Tree*: 96%
3. *Gradient Boosting*: 95%
4. *Logistic Regression*: 83%

**Коментарі:** На усіх даних найточнішою є модель *Random Forest*. Точність моделі *Histogram-based Gradient Boosting Classification Tree* менше ніж *Random Forest*, але різниця невелика. У моделі *Gradient Boosting* нижче точність ніж у *Histogram-based Gradient Boosting Classification Tree*, але різниця зовзім мала. Модель *Logistic Regression* має відчутно меншу точність ніж усі інші, але однаково залишається досить точною.

**Рейтинг моделей за розміром (починаючи від найменшої):**

1. *Logistic Regression*: 1.41 kB (0.00% від суми розмірів усіх моделей)
2. *Gradient Boosting*: 0.88 MB (1.54% від суми розмірів усіх моделей)
3. *Histogram-based Gradient Boosting Classification Tree*: 1.88 MB (3.29% від суми розмірів усіх моделей)
4. *Random Forest*: 54.55 MB (95.17% від суми розмірів усіх моделей)

**Коментарі:** Модель *Random Forest* важить набагато більше ніж інші моделі. Модель *Gradient Boosting* важить менше ніж *Histogram-based Gradient Boosting Classification Tree*, але різниця не є суттєвою. Модель *Logistic Regression* займає мінімальну кількість пам'яті.

**Підсумуємо результати:**

- Найточнішою є модель *Random Forest*, але й важить вона набагато більше ніж інші моделі.
- Точність моделі *Histogram-based Gradient Boosting Classification Tree* трохи менше ніж у моделі *Random Forest*, але важить вона набагато менше. Також саме ця модель найкраще себе показала на тестових даних.
- Модель *Gradient Boosting* має трохи нижчу точність та розмір ніж модель *Histogram-based Gradient Boosting Classification Tree*, але різниця не є суттєвою.
- Модель *Logistic Regression* має відчутно меншу точність ніж усі інші, але однаково залишається досить точною. До того ж модель займає мінімальну кількість пам'яті. Для *задачі прогнозування відтоку клієнтів* висока точність не є критично необхідною, тому модель має право на існування.

**Рекомендації:**

- Якщо обирати "золоту середину" між точністю та розміром, то варто обрати *Histogram-based Gradient Boosting Classification Tree*. Модель має високу точність і невеликий розмір.
- Якщо критично важлива точність, то варто обрати *Random Forest*.
- Якщо критично важливим є розмір, то варто обрати *Logistic Regression*.