In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score
from catboost import CatBoostClassifier
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score

# Завантаження даних
data = pd.read_csv('data_normalized.csv')

# Вибір ознак та цільової змінної
X = data.drop(columns=['id', 'churn'])  # Виключаємо 'id' та 'churn'
y = data['churn']  # Цільова змінна

# Розділення даних на навчальний та тестовий набори
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Найкращі параметри
best_params = {
    'border_count': 32,
    'depth': 5,
    'iterations': 100,
    'l2_leaf_reg': 3,
    'learning_rate': 0.1
}

# Створення моделі CatBoost
model = CatBoostClassifier(**best_params, verbose=0)

# Крос-валідація (наприклад, 5-fold)
cv_scores = cross_val_score(model, X, y, cv=5, scoring='accuracy')
print("Cross-Validation Accuracy Scores:", cv_scores)
print("Mean CV Accuracy:", cv_scores.mean())

# Навчання моделі на повному навчальному наборі
model.fit(X_train, y_train)

# Прогнозування на тестовому наборі
y_pred = model.predict(X_test)

# Оцінка моделі
accuracy = accuracy_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

# Виведення результатів
print("Test Set Metrics:")
print("Accuracy:", accuracy)
print("Recall:", recall)
print("Precision:", precision)
print("F1-score:", f1)

Cross-Validation Accuracy Scores: [0.65268795 0.55636692 0.56624244 0.59417165 0.84601474]
Mean CV Accuracy: 0.6430967408915207
Test Set Metrics:
Accuracy: 0.9369914458585437
Recall: 0.9360119047619048
Precision: 0.9508692365835223
F1-score: 0.943382077240345


In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score

# Завантаження даних
data = pd.read_csv('data_normalized.csv')

# Вибір ознак та цільової змінної
X = data.drop(columns=['id', 'churn'])  # Виключаємо 'id' та 'churn'
y = data['churn']  # Цільова змінна

# Розділення даних на навчальний та тестовий набори
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Найкращі параметри
best_params = {
    'n_estimators': 100,
    'max_depth': 5,
    'learning_rate': 0.1,
    'subsample': 0.8,
    'colsample_bytree': 0.8
}

# Створення моделі XGBoost
model = XGBClassifier(**best_params, random_state=42, n_jobs=-1)

# Крос-валідація (наприклад, 5-fold)
cv_scores = cross_val_score(model, X, y, cv=5, scoring='accuracy')
print("Cross-Validation Accuracy Scores:", cv_scores)
print("Mean CV Accuracy:", cv_scores.mean())

# Навчання моделі на повному навчальному наборі
model.fit(X_train, y_train)

# Прогнозування на тестовому наборі
y_pred = model.predict(X_test)

# Оцінка моделі
accuracy = accuracy_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

# Виведення результатів
print("Test Set Metrics:")
print("Accuracy:", accuracy)
print("Recall:", recall)
print("Precision:", precision)
print("F1-score:", f1)

Cross-Validation Accuracy Scores: [0.55803602 0.55664511 0.55594965 0.54854639 0.4899847 ]
Mean CV Accuracy: 0.5418323740328141
Test Set Metrics:
Accuracy: 0.9385214548995062
Recall: 0.9357638888888888
Precision: 0.9537411526794742
F1-score: 0.9446670005007511


In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score

# Завантаження даних
data = pd.read_csv('data_normalized.csv')

# Вибір ознак та цільової змінної
X = data.drop(columns=['id', 'churn'])  # Виключаємо 'id' та 'churn'
y = data['churn']  # Цільова змінна

# Розділення даних на навчальний та тестовий набори
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Найкращі параметри для LogisticRegression
best_params = {
    'C': 1.0,  # Параметр регуляризації
    'penalty': 'l2',  # Тип регуляризації
    'solver': 'liblinear',  # Solver, який підтримує L1 та L2
    'max_iter': 1000  # Максимальна кількість ітерацій
}

# Створення моделі LogisticRegression
model = LogisticRegression(**best_params)

# Крос-валідація (наприклад, 5-fold)
cv_scores = cross_val_score(model, X, y, cv=5, scoring='accuracy')
print("Cross-Validation Accuracy Scores:", cv_scores)
print("Mean CV Accuracy:", cv_scores.mean())

# Навчання моделі на повному навчальному наборі
model.fit(X_train, y_train)

# Прогнозування на тестовому наборі
y_pred = model.predict(X_test)

# Оцінка моделі
accuracy = accuracy_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

# Виведення результатів
print("Test Set Metrics:")
print("Accuracy:", accuracy)
print("Recall:", recall)
print("Precision:", precision)
print("F1-score:", f1)

Cross-Validation Accuracy Scores: [0.83719313 0.88761388 0.79157104 0.90353318 0.82264571]
Mean CV Accuracy: 0.8485113871463164
Test Set Metrics:
Accuracy: 0.8749565338340636
Recall: 0.9224950396825397
Precision: 0.8637947050627032
F1-score: 0.8921803789877668


In [9]:
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score
from catboost import CatBoostClassifier
from xgboost import XGBClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score

# Завантаження даних
data = pd.read_csv('data_normalized.csv')

# Вибір ознак та цільової змінної
X = data.drop(columns=['id', 'churn'])  # Виключаємо 'id' та 'churn'
y = data['churn']  # Цільова змінна

# Розділення даних на навчальний та тестовий набори
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Функція для навчання та оцінки моделі
def train_and_evaluate_model(model, model_name, X_train, y_train, X_test, y_test):
    # Крос-валідація (наприклад, 5-fold)
    cv_scores = cross_val_score(model, X_train, y_train, cv=5, scoring='accuracy')
    print(f"{model_name} - Cross-Validation Accuracy Scores:", cv_scores)
    print(f"{model_name} - Mean CV Accuracy:", cv_scores.mean())

    # Навчання моделі на повному навчальному наборі
    model.fit(X_train, y_train)

    # Прогнозування на тестовому наборі
    y_pred = model.predict(X_test)

    # Оцінка моделі
    accuracy = accuracy_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)

    # Виведення результатів
    print(f"{model_name} - Test Set Metrics:")
    print("Accuracy:", accuracy)
    print("Recall:", recall)
    print("Precision:", precision)
    print("F1-score:", f1)
    print("-" * 50)

    # Повертаємо результати для порівняння
    return {
        "Model": model_name,
        "Accuracy": accuracy,
        "Recall": recall,
        "Precision": precision,
        "F1-score": f1,
        "Mean CV Accuracy": cv_scores.mean()
    }

# Найкращі параметри для CatBoost
catboost_params = {
    'border_count': 32,
    'depth': 5,
    'iterations': 100,
    'l2_leaf_reg': 3,
    'learning_rate': 0.1,
    'verbose': 0
}

# Найкращі параметри для XGBoost
xgboost_params = {
    'n_estimators': 100,
    'max_depth': 5,
    'learning_rate': 0.1,
    'subsample': 0.8,
    'colsample_bytree': 0.8,
    'random_state': 42,
    'n_jobs': -1
}

# Найкращі параметри для LogisticRegression
logreg_params = {
    'C': 1.0,
    'penalty': 'l2',
    'solver': 'liblinear',
    'max_iter': 1000,
    'random_state': 42
}

# Створення моделей
catboost_model = CatBoostClassifier(**catboost_params)
xgboost_model = XGBClassifier(**xgboost_params)
logreg_model = LogisticRegression(**logreg_params)

# Навчання та оцінка моделей
results = []
results.append(train_and_evaluate_model(catboost_model, "CatBoost", X_train, y_train, X_test, y_test))
results.append(train_and_evaluate_model(xgboost_model, "XGBoost", X_train, y_train, X_test, y_test))
results.append(train_and_evaluate_model(logreg_model, "LogisticRegression", X_train, y_train, X_test, y_test))

# Виведення результатів у табличному вигляді
results_df = pd.DataFrame(results)
print("\nПорівняння моделей:")
print(results_df)

# Вибір найкращої моделі на основі усіх метрик
# Додаємо узагальнений рейтинг (середнє значення всіх метрик)
results_df['Overall Score'] = results_df[['Accuracy', 'Recall', 'Precision', 'F1-score', 'Mean CV Accuracy']].mean(axis=1)

# Виведення результатів з узагальненим рейтингом
print("\nПорівняння моделей з узагальненим рейтингом:")
print(results_df)

# Вибір найкращої моделі на основі узагальненого рейтингу
best_model = results_df.loc[results_df['Overall Score'].idxmax()]
print("\nНайкраща модель на основі усіх метрик:")
print(best_model)

CatBoost - Cross-Validation Accuracy Scores: [0.93966791 0.93645136 0.94175432 0.9373207  0.93618501]
CatBoost - Mean CV Accuracy: 0.9382758616884518
CatBoost - Test Set Metrics:
Accuracy: 0.9369914458585437
Recall: 0.9360119047619048
Precision: 0.9508692365835223
F1-score: 0.943382077240345
--------------------------------------------------
XGBoost - Cross-Validation Accuracy Scores: [0.94384074 0.93932018 0.94523168 0.93940711 0.9382716 ]
XGBoost - Mean CV Accuracy: 0.9412142618726408
XGBoost - Test Set Metrics:
Accuracy: 0.9385214548995062
Recall: 0.9357638888888888
Precision: 0.9537411526794742
F1-score: 0.9446670005007511
--------------------------------------------------
LogisticRegression - Cross-Validation Accuracy Scores: [0.87203338 0.8689907  0.87264192 0.87125098 0.8685446 ]
LogisticRegression - Mean CV Accuracy: 0.8706923158237144
LogisticRegression - Test Set Metrics:
Accuracy: 0.8749565338340636
Recall: 0.9224950396825397
Precision: 0.8637947050627032
F1-score: 0.8921803