# Используемые модули

In [2]:
import os
import pandas as pd
import numpy as np
from sklearn.model_selection import cross_validate
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
# в разных версиях ответы могут отличаться, поэтому важно иметь одну и ту же
# !pip install --upgrade pip
# !pip install scikit-learn==0.23.0

# Загрузка данных

In [3]:
df = pd.read_csv(os.path.join(os.getcwd(), 'Task_5_selected_data.csv'))

X = df.iloc[:, :-1] #Предикторы
y = df.iloc[:, -1] #Классы

# Инициализация классификаторов

Для логистической регрессии можно увеличить максимальное количество итераций через параметр max_iter (по умолчанию 100), от этого время исполнения увеличится

In [4]:
from tqdm import tqdm

seed = 94
estimators = {
    'logit': LogisticRegression(n_jobs=-3, random_state=seed),
    'dtc': DecisionTreeClassifier(random_state=seed),
    'rfc': RandomForestClassifier(random_state=seed, n_jobs=-3)
}

## Обучение моделей и кросс валидация

In [5]:
from sklearn.model_selection import cross_validate
from sklearn.model_selection import ShuffleSplit

results = {}

#Произведем кросс валидацию на 10 блоков с предварительным случайным перемешиванием
cv = 10
cross_val = ShuffleSplit(n_splits = cv, test_size = 1/cv, random_state = seed)
for name, est in tqdm(estimators.items()):
    scores = cross_validate(est, X, y, scoring=['accuracy', 'f1_weighted', 'roc_auc_ovr_weighted'], cv = cross_val, n_jobs=-3)
    results.update({name: scores})

100%|██████████| 3/3 [00:12<00:00,  4.30s/it]


## Вывод результатов

In [6]:
for est in tqdm(estimators.keys()):
    acc = results[est]['test_accuracy']
    f1 = results[est]['test_f1_weighted']
    roc_auc = results[est]['test_roc_auc_ovr_weighted']
    print(f'\nResults for {est}')
    print(f'Accuracy: {round(np.mean(acc),3)}')
    print(f'F1: {round(np.mean(f1),3)}')
    print(f'ROC AUC: {round(np.mean(roc_auc),3)}')

100%|██████████| 3/3 [00:00<00:00, 74.46it/s]


Results for logit
Accuracy: 0.275
F1: 0.186
ROC AUC: 0.624

Results for dtc
Accuracy: 0.734
F1: 0.734
ROC AUC: 0.834

Results for rfc
Accuracy: 0.798
F1: 0.798
ROC AUC: 0.954



