### Подход 1: градиентный бустинг "в лоб"

In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
from datetime import datetime
import pandas as p
from numpy import average
import sklearn
from sklearn.model_selection import KFold, cross_val_score
from sklearn.ensemble import GradientBoostingClassifier

In [3]:
features = p.read_csv('./features.csv', index_col='match_id')
features_test = p.read_csv('./features_test.csv', index_col='match_id')
features_train = features.drop(columns=[
     "duration", 
     "radiant_win",
     "tower_status_radiant",
     "tower_status_dire",
     "barracks_status_dire",
     "barracks_status_radiant"
])

In [4]:
values_count = features_train.count().sort_values(ascending=True)

#### Какие признаки имеют пропуски среди своих значений? Что могут означать пропуски в этих признаках (ответьте на этот вопрос для двух любых признаков)?

In [5]:
rows = values_count.max()

print("Количество пропусков\n")
for (feature, val) in sorted(values_count.iteritems()):
    values_missing = rows - val
    if values_missing > 0:
        print(f"{feature}: {values_missing}")

Количество пропусков

dire_bottle_time: 16143
dire_courier_time: 676
dire_first_ward_time: 1826
dire_flying_courier_time: 26098
first_blood_player1: 19553
first_blood_player2: 43987
first_blood_team: 19553
first_blood_time: 19553
radiant_bottle_time: 15691
radiant_courier_time: 692
radiant_first_ward_time: 1836
radiant_flying_courier_time: 27479


Много значений пропущено в колонках, касающихся First Blood (first_blood_player1, first_blood_player2, first_blood_time, first_blood_team). Это значит, что игроки никого не убили за первые 5 минут матча.

Пропуски в *_bottle_time, *_courier_time и *_flying_courier_time означают, что соответствующая команда не купила эти предметы за первые 5 минут.

Пропуски в *_first_ward_time означают, что команда не поставила ни одного наблюдателя за 5 минут.

In [6]:
features_train = features_train.fillna(value=0)

#### 2. Как называется столбец, содержащий целевую переменную?

In [7]:
Y_col = "radiant_win"


X = features_train
y = features[Y_col]

#### 3. Как долго проводилась кросс-валидация для градиентного бустинга с 30 деревьями? Инструкцию по измерению времени можно найти ниже по тексту. Какое качество при этом получилось? Напомним, что в данном задании мы используем метрику качества AUC-ROC.

In [8]:
kfold = KFold(shuffle=True, n_splits=5)

Обучается классификатор с 10 деревьями
Среднее значения качества: 0.6646291455551827 (за 0:01:12.878092мс)

Обучается классификатор с 20 деревьями
Среднее значения качества: 0.6809860273308972 (за 0:02:18.501172мс)

**Обучается классификатор с 30 деревьями
Среднее значения качества: 0.6900458742897161 (за 0:03:09.979634мс)**

Обучается классификатор с 40 деревьями
Среднее значения качества: 0.694294321131233 (за 0:04:12.675311мс)

Обучается классификатор с 50 деревьями
Среднее значения качества: 0.6977442051399642 (за 0:05:26.558180мс)

Обучается классификатор с 60 деревьями
Среднее значения качества: 0.7002027254594443 (за 0:06:49.034804мс)

Обучается классификатор с 70 деревьями
Среднее значения качества: 0.7019988271689213 (за 0:07:50.472654мс)

Обучается классификатор с 80 деревьями
Среднее значения качества: 0.7047217159467425 (за 0:09:17.449093мс)

Обучается классификатор с 90 деревьями
Среднее значения качества: 0.7058723237655931 (за 0:09:42.171533мс)

Обучается классификатор с 100 деревьями
Среднее значения качества: 0.7069479623025787 (за 0:11:31.993495мс)

#### 4. Имеет ли смысл использовать больше 30 деревьев в градиентном бустинге? Что бы вы предложили делать, чтобы ускорить его обучение при увеличении количества деревьев?

При количества деревьев больше 30 качество продолжает расти, не медленее. При 80+ рост замедляется ещё сильнее. К тому же, время на обучение начинает заметно увеличиваться.
Это значит, что оптимально испольховать 60 деревьев.

Чтобы ускорить обучение, можно использовать метод главных компонент.

### Подход 2: логистическая регрессия

Отмасштабируем признаки

In [34]:
from sklearn.preprocessing import StandardScaler 
import numpy as np

scaler = StandardScaler()
X_scaled_array = scaler.fit_transform(X.astype(np.float64))
X_scaled = p.DataFrame(data=X_scaled_array, index=X.index, columns=X.columns)

**1. Какое качество получилось у логистической регрессии над всеми исходными признаками? Как оно соотносится с качеством градиентного бустинга? Чем вы можете объяснить эту разницу? Быстрее ли работает логистическая регрессия по сравнению с градиентным бустингом?**

In [49]:
from sklearn.linear_model import LogisticRegressionCV
from sklearn.metrics import roc_auc_score

def _fit_and_score_(X, c):
    ll_clf = LogisticRegressionCV(cv=kfold, penalty='l2')
    ll_clf.scoring = "roc_auc"
    ll_clf.C = c
    ll_clf.fit(X, y)
    return ll_clf.score(X, y)

def fit_log_reg(X):
    best_score = None
    best_c = None
    for c in [0.001, 0.01, 0.1, 1, 10, 100, 1000]:
        start_time = datetime.now()
        print(f"Обучается LogisticRegressionCV с C={c}")
        avg_score = _fit_and_score_(X, c)
        if best_score is None or avg_score > best_score:
            best_score = avg_score
            best_c = c
        exec_time = datetime.now() - start_time    
        print(f"Средний AUC-ROC = {avg_score} найден за {exec_time}мс")
    return best_score, best_c

In [11]:
score, c = fit_log_reg(X_scaled_array)
print(f"\n🏆 Лучшее качество логистической регрессии = {score} (при c={c})")

Обучается LogisticRegressionCV с C=0.001
Средний AUC-ROC = 0.7179728963119072 найден за 0:00:17.117537мс

🏆 Лучшее качество логистической регрессии = 0.7179728963119072 (при c=0.001)




Обучается LogisticRegressionCV с C=0.001

Средний AUC-ROC = 0.7179729170730196 найден за 0:00:16.773102мс

Обучается LogisticRegressionCV с C=0.01

Средний AUC-ROC = 0.7179728564844672 найден за 0:00:20.311600мс

Обучается LogisticRegressionCV с C=0.1

Средний AUC-ROC = 0.717972838689228 найден за 0:00:15.899149мс

Обучается LogisticRegressionCV с C=1

Средний AUC-ROC = 0.7179728691953522 найден за 0:00:17.425479мс

Обучается LogisticRegressionCV с C=10

Средний AUC-ROC = 0.7179727874219914 найден за 0:00:17.189627мс

Обучается LogisticRegressionCV с C=100

Средний AUC-ROC = 0.7179726874296952 найден за 0:00:20.913687мс

Обучается LogisticRegressionCV с C=1000

Средний AUC-ROC = 0.7179727255623505 найден за 0:00:17.378154мс


🏆 Лучшее качество логистической регрессии = 0.7179729170730196 (при c=0.001)

Качество регрессии получилось примерно таким же, как при бустинге (~0.7). Я думаю, это обусловлено тем, что я никак не изменил датасет (не считая масштабирования). Но регрессия работает примерно в 20 раз быстрее бустинга — около 20 секунд против 7 минут.

**2. Как влияет на качество логистической регрессии удаление категориальных признаков (укажите новое значение метрики качества)? Чем вы можете объяснить это изменение?**

Уберем категориальные признаки из выборки

In [28]:
from itertools import chain

categorial_features = list(chain.from_iterable((f"r{i}_hero", f"d{i}_hero") for i in range(1, 6))) # heroes
categorial_features += ["lobby_type"]

['r1_hero',
 'd1_hero',
 'r2_hero',
 'd2_hero',
 'r3_hero',
 'd3_hero',
 'r4_hero',
 'd4_hero',
 'r5_hero',
 'd5_hero',
 'lobby_type']

In [51]:
X_with_no_categorial_features = X_scaled.filter([x for x in X_scaled.columns if x not in categorial_features])

Обучим регрессию на выборке без категориальных признаков

In [52]:
score, с = fit_log_reg(X_with_no_categorial_features)
print(f"🏆 Лучшее качество на выборке без категориальных признаков: {score} (c={c})")

Обучается LogisticRegressionCV с C=0.001




Средний AUC-ROC = 0.7178320660603478 найден за 0:00:24.490037мс
Обучается LogisticRegressionCV с C=0.01




Средний AUC-ROC = 0.7178321808820098 найден за 0:00:24.551775мс
Обучается LogisticRegressionCV с C=0.1




Средний AUC-ROC = 0.717832158849809 найден за 0:00:18.416239мс
Обучается LogisticRegressionCV с C=1




Средний AUC-ROC = 0.7178321050403953 найден за 0:00:20.210441мс
Обучается LogisticRegressionCV с C=10




Средний AUC-ROC = 0.7178320423333622 найден за 0:00:19.306442мс
Обучается LogisticRegressionCV с C=100




Средний AUC-ROC = 0.7178320800423214 найден за 0:00:17.976316мс
Обучается LogisticRegressionCV с C=1000
Средний AUC-ROC = 0.7178320122509341 найден за 0:00:21.832287мс
🏆 Лучшее качество на выборке без категориальных признаков: 0.7178321808820098 (c=0.001)




Качество получилось чуть хуже, чем на выборке с категориальными признаками (0.7178). Возможно, оно не изменилось потому, что эти признаки не влияли на результат.