In [None]:
import numpy as np # для матричных вычислений
import pandas as pd # для анализа и предобработки данных
import matplotlib.pyplot as plt # для визуализации
import seaborn as sns # для визуализации

from sklearn import linear_model # линейные модели
from sklearn import metrics # метрики

from sklearn.model_selection import train_test_split # сплитование выборки
from sklearn import preprocessing # предобработка
%matplotlib inline
plt.style.use('seaborn')

In [None]:
# Загрузим данные для образца
from sklearn.datasets import load_boston 

boston = load_boston()
# создаём DataFrame из загруженных numpy-матриц
boston_data = pd.DataFrame(
    data=boston.data, #данные
    columns=boston.feature_names #наименования столбцов
)
# добавляем в таблицу столбец с целевой переменной
boston_data['MEDV'] = boston.target
boston_data.head()

In [None]:
X = boston_data.drop('MEDV', axis=1) #матрица наблюдений
y = boston_data['MEDV'] #вектор правильных ответов

# РАЗДЕЛЕНИЕ выборки

In [None]:

from sklearn.model_selection import train_test_split
# Разделяем выборку на тренировочную и тестовую в соотношении 70/30

# Устанавливаем random_state для воспроизводимости результатов 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, shuffle=False, stratify=y, random_state=40)
# X - матрица признаков (наблюдений)
# y - вектор правильных ответов
# test_size=0.3 - 30% данных идут в тестовую выборку
# shuffle=False - По умолчанию True. Параметр перемешивания данных в выборке.
# stratify=y - Стратифицированное разбиение - Одинаковое соотношение целевого признака 
# в тренировочной и тестовой выборке, не допускающее перекоса в обучении модели.
# random_state=40 - гарантирует выдачу генератором одних и тех же случайных значений
# 


# Выводим результирующие размеры таблиц
print('Train:', X_train.shape, y_train.shape)
print('Test:', X_test.shape, y_test.shape)

# МЕТРИКИ РЕГРЕССИИ
см ML2.ipynb

In [None]:
from sklearn import metrics

# Делаем предсказание по всем признакам
y_predict_full = lr_full.predict(boston_data[features])
# Рассчитываем MAE - Средняя абсолютная ошибка
print('MAE score: {:.3f} thou. $'.format(metrics.mean_absolute_error(y, y_predict_full)))
# Рассчитываем RMSE - Корень из средней квадратической ошибки
print('RMSE score: {:.3f} thou. $'.format(np.sqrt(metrics.mean_squared_error(y, y_predict_full))))
# Рассчитываем MAPE - Средняя абсолютная ошибка в процентах
print('MAPE score: {:.3f} %'.format(metrics.mean_absolute_percentage_error(y, y_predict_full) * 100))
# Рассчитываем коэффициент детерминации Коэффициент детерминации (R2)
print('R2 score: {:.3f}'.format(metrics.r2_score(y, y_predict_full)))

# МЕТРИКИ КЛАССИФИКАЦИИ

**Accuracy** (достоверность) — доля правильных ответов модели среди всех ответов. 
* Интерпретация: как много (в долях) модель угадала ответов.
* Accuracy — самая простая и самая понятная метрика классификации, но у неё есть один существенный недостаток. 
* Она бесполезна, если классы сильно несбалансированы.

**Precision** (точность), или PPV (Positive Predictive Value) — это доля объектов, которые действительно являются положительными, по отношению ко всем объектам, названным моделью положительными.
* Интерпретация: способность отделить класс 1 от класса 0. Чем больше precision, тем меньше ложных попаданий. 
* Precision нужен в задачах, где от нас требуется минимум ложных срабатываний. Чем выше «цена» ложноположительного результата, тем выше должен быть precision.
* Можно использовать на несбалансированных выборках.

**Recall** (полнота), или TPR (True Positive Rate) — это доля объектов, названных классификатором положительными, по отношению ко всем объектам положительного класса.
* Интерпретация: способность модели обнаруживать класс 1 вообще, то есть охват класса 1. Заметьте, что ложные срабатывания не влияют на recall. 
* Recall очень хорошо себя показывает в задачах, где важно найти как можно больше объектов, принадлежащих к классу 1.
* Можно использовать на несбалансированных выборках.


Концентрация только на одной метрике (precision или recall) без учёта второй — сомнительная идея.
В битве за максимум precision для класса 1 побеждает модель, которая всегда будет говорить говорить «нет». У неё вообще не будет ложных срабатываний.
В битве за максимум recall для класса 1 побеждает модель, которая всегда будет говорить «да». Она охватит все наблюдения класса 1. 
В реальности необходимо балансировать между двумя этими метриками.

**F1** (F-мера) — это взвешенное среднее гармоническое между precision и recall:
* Несмотря на отсутствие бизнес-интерпретации, метрика F1 является довольно распространённой и используется в задачах, где необходимо выбрать модель, которая балансирует между precision и recall.
* Используется в задачах, где необходимо балансировать между precision и recall.

In [None]:
#Модель log_reg_full:
#Рассчитываем accuracy
print('Accuracy: {:.2f}'.format(metrics.accuracy_score(y, y_pred)))
#Рассчитываем precision
print('Precision: {:.2f}'.format(metrics.precision_score(y, y_pred)))
#Рассчитываем recall
print('Recall: {:.2f}'.format(metrics.recall_score(y, y_pred)))
#Рассчитываем F1-меру
print('F1 score: {:.2f}'.format(metrics.f1_score(y, y_pred)))

In [None]:
# Метрики классификации в одной строке
print(metrics.classification_report(y, y_pred))

Что отображено в print(metrics.classification_report(y, y_pred))?

1) В первой части таблицы отображаются метрики precision, recall и f1-score, рассчитанные для каждого класса в отдельности. Столбец support — это количество объектов каждого из классов.
2) Во второй части таблицы отображена общая метрика accuracy. 
3) Далее идёт строка macro avg — это среднее значение метрики между классами 1 и 0. Например, значение в строке macro avg и столбце recall = (0.88 + 0.56)/2=0.72.
4) Завершает отчёт строка weighted avg — это средневзвешенное значение метрики между классами 1 и 0. Рассчитывается по формуле:

In [None]:
# Нас интересует только вероятность класса (второй столбец)
y_test_proba_pred = log_reg.predict_proba(X_test_scaled)[:, 1]
# Для удобства завернем numpy-массив в pandas Series
y_test_proba_pred = pd.Series(y_test_proba_pred)
# Создадим списки, в которых будем хранить значения метрик 
recall_scores = []
precision_scores = []
f1_scores = []
# Сгенерируем набор вероятностных порогов в диапазоне от 0.1 до 1
thresholds = np.arange(0.1, 1, 0.05)
# В цикле будем перебирать сгенерированные пороги
for threshold in thresholds:
    # Пациентов, для которых вероятность наличия диабета > threshold относим к классу 1
    # В противном случае - к классу 0
    y_test_pred = y_test_proba_pred.apply(lambda x: 1 if x>threshold else 0)
    # Считаем метрики и добавляем их в списки
    recall_scores.append(metrics.recall_score(y_test, y_test_pred))
    precision_scores.append(metrics.precision_score(y_test, y_test_pred))
    f1_scores.append(metrics.f1_score(y_test, y_test_pred))

# Визуализируем метрики при различных threshold
fig, ax = plt.subplots(figsize=(10, 4)) #фигура + координатная плоскость
# Строим линейный график зависимости recall от threshold
ax.plot(thresholds, recall_scores, label='Recall')
# Строим линейный график зависимости precision от threshold
ax.plot(thresholds, precision_scores, label='Precision')

# Строим линейный график зависимости F1 от threshold
ax.plot(thresholds, f1_scores, label='F1-score')
# Даем графику название и подписи осям
ax.set_title('Recall/Precision dependence on the threshold')
ax.set_xlabel('Probability threshold')
ax.set_ylabel('Score')
ax.legend();

In [None]:
# Задаем оптимальный порог вероятностей
threshold_opt = 0.4 # полученное по графику значение
# Людей, у которых вероятность зарабатывать >50K больше 0.5 относим к классу 1
# В противном случае - к классу 0
y_test_pred_opt = y_test_proba_pred.apply(lambda x: 1 if x > threshold_opt else 0)
# Считаем метрики
print(metrics.classification_report(y_test, y_test_pred_opt))

# АНАЛИТИЧЕСКОЕ РЕШЕНИЕ "РЕГРЕССИИ" С ПОМОЩЬЮ NUMPY
см ML2.ipynb

In [None]:
def linear_regression(X, y):
    # Создаём вектор из единиц
    ones = np.ones(X.shape[0])
    # Добавляем вектор к таблице первым столбцом
    X = np.column_stack([ones, X])
    # Вычисляем обратную матрицу Q
    Q = np.linalg.inv(X.T @ X)
    # Вычисляем вектор коэффициентов
    w = Q @ X.T @ y
    return w
# Вычисляем параметры линейной регрессии
w = linear_regression(X, y)
# Выводим вычисленные значения параметров в виде вектора
print('Vector w: {}'.format(w))
# Выводим параметры с точностью до двух знаков после запятой
print('w0 = {:.2f}'.format(w[0]))
print('w1 = {:.2f}'.format(w[1]))

# НАЛИТИЧЕСКОЕ РЕШЕНИЕ "РЕГРЕССИИ" С ПОМОЩЬЮ SKLEARN
см ML2.ipynb

In [None]:
# Создаём объект класса LinearRegression
lr_full = linear_model.LinearRegression()

# Обучаем модель — ищем параметры по МНК
lr_full.fit(X, y) 

# Выводим полученные параметры
print('w0 = {}'.format(lr_full.intercept_)) #свободный член w0
print('w1 = {}'.format(lr_full.coef_)) #остальные параметры модели w1, w2, ..., wm

# Предсказываем медианную цену для всех участков из набора данных
y_predict = lr_full.predict(X)

# Выводим предсказание
# Составляем таблицу из признаков и их коэффициентов
w_df = pd.DataFrame({'Features': X.columns, 'Coefficients': lr_full.coef_})
# Составляем строку таблицы со свободным членом
intercept_df =pd.DataFrame({'Features': ['INTERCEPT'], 'Coefficients': lr_full.intercept_})
coef_df = pd.concat([w_df, intercept_df], ignore_index=True)
display(coef_df)

# ЧИСЛЕННОЕ РЕШЕНИЕ "РЕГРЕССИИ" С ПОМОЩЬЮ SKLEARN (SGD - градиентный спуск)
см ML2.ipynb

In [None]:
# Создаём объект класса линейной регрессии с SGD
sgd_lr_full = linear_model.SGDRegressor(random_state=42)
# У класса SGDRegressor, помимо random_state, есть ещё множество различных внешних параметров, 
# которые можно настраивать. Со всем списком вы можете ознакомиться в документации. 
# А мы приведём несколько самых важных:

# loss — функция потерь. По умолчанию используется squared_loss — уже привычная нам MSE. 
# Но могут использоваться и несколько других. Например, значение "huber" определяет функцию потерь Хьюбера. 
# Эта функция менее чувствительна к наличию выбросов, чем MSE.

# max_iter — максимальное количество итераций, выделенное на сходимость. Значение по умолчанию — 1000.

# learning_rate — режим управления темпом обучения. Значение по умолчанию — 'invscaling'. 
# Этот режим уменьшает темп обучения по формуле, которую мы рассматривали ранее: etat=eta0/t^p.
# Есть ещё несколько режимов управления, о которых вы можете прочитать в документации.
# Если вы не хотите, чтобы темп обучения менялся на протяжении всего обучения, 
# то можете выставить значение параметра на "constant".

# eta0 — начальное значение темпа обучения . Значение по умолчанию — 0.01.
# Если параметр learning_rate="constant", то значение этого параметра 
# будет темпом обучения на протяжении всех итераций.

# power_t — значение мощности уменьшения  в формуле etat=eta0/t^p . Значение по умолчанию — 0.25.


# Обучаем модель — ищем параметры по методу SGD
sgd_lr_full.fit(X, y)

# Выводим полученные параметры
print('w0: {}'.format(sgd_lr_full.intercept_)) #свободный член w0
print('w1: {}'.format(sgd_lr_full.coef_)) #остальные параметры модели w1, w2, ..., wm

#Предсказываем медианную цену для всех участков из набора данных
y_predict = sgd_lr_full.predict(X)

# Выводим предсказание
# Составляем таблицу из признаков и их коэффициентов
w_df = pd.DataFrame({'Features': X.columns, 'Coefficients': lr_full.coef_})
# Составляем строку таблицы со свободным членом
intercept_df =pd.DataFrame({'Features': ['INTERCEPT'], 'Coefficients': lr_full.intercept_})
coef_df = pd.concat([w_df, intercept_df], ignore_index=True)
display(coef_df)

# СМЕЩЕНИЕ (НЕДООБУЧЕНИЕ) И РАЗБРОС (ПЕРЕОБУЧЕНИЕ)
см ML2.ipynb

Недообучение (underfitting) — проблема, обратная переобучению. Модель из-за своей слабости не уловила никаких закономерностей в данных. В этом случае ошибка будет высокой как для тренировочных данных, так и для данных, не показанных во время обучения.

Смещение (bias) — это математическое ожидание разности между истинным ответом и ответом, выданным моделью. То есть это ожидаемая ошибка модели.

Разброс (variance) — это вариативность ошибки, то, насколько ошибка будет отличаться, если обучать модель на разных наборах данных. Математически это дисперсия (разброс) ответов модели.

Регуляризация — способ уменьшения переобучения моделей машинного обучения.

Штраф — это дополнительное неотрицательное слагаемое в выражении для функции потерь, которое специально повышает ошибку.  За счёт этого слагаемого метод оптимизации (OLS или SGD) будет находить не истинный минимум функции потерь, а псевдоминимум.

____________________________________________________________________________________________________________

Стандартизацию (нормализацию) полезнее проводить перед 
генерацией полиномиальных признаков, иначе можно потерять масштаб полиномов.

In [None]:
# Инициализируем стандартизатор StandardScaler
scaler = preprocessing.StandardScaler()

# Подгоняем параметры стандартизатора (вычисляем среднее и СКО)
scaler.fit(X_train)

# Производим стандартизацию тренировочной выборки
X_train_scaled = scaler.transform(X_train)

# Производим стандартизацию тестовой выборки
X_test_scaled = scaler.transform(X_test)

In [None]:
# Создаём генератор полиномиальных признаков
poly = preprocessing.PolynomialFeatures(degree=2, include_bias=False)
# degree=2 - степень полинома

# include_bias=False — включать ли в результирующую таблицу столбец из единиц (x в степени 0). 
# По умолчанию стоит True, но лучше выставить его в значение False, так как столбец из единиц и так 
# добавляется в методе наименьших квадратов.

# Подгоняем параметры
poly.fit(X_train_scaled)

# Генерируем полиномиальные признаки для тренировочной выборки
X_train_scaled_poly = poly.transform(X_train_scaled)

# Генерируем полиномиальные признаки для тестовой выборки
X_test_scaled_poly = poly.transform(X_test_scaled)

# Выводим результирующие размерности таблиц 
print(X_train_scaled_poly.shape)
print(X_test_scaled_poly.shape)

In [None]:
# L1-регуляризация (Lasso) 
# Создаём объект класса линейной регрессии с L1-регуляризацией
lasso_lr_poly = linear_model.Lasso(alpha=0.1)
# Главный параметр инициализации Lasso — это alpha, коэффициент регуляризации. 
# По умолчанию alpha=1. Практика показывает, что это довольно сильная регуляризация для L1-метода. 
# Давайте установим значение этого параметра на 0.1.

# Обучаем модель
lasso_lr_poly.fit(X_train_scaled_poly, y_train)

# Делаем предсказание для тренировочной выборки
y_train_predict_poly = lasso_lr_poly.predict(X_train_scaled_poly)
# Делаем предсказание для тестовой выборки
y_test_predict_poly = lasso_lr_poly.predict(X_test_scaled_poly)

# Рассчитываем коэффициент детерминации для двух выборок
print("Train R^2: {:.3f}".format(metrics.r2_score(y_train, y_train_predict_poly)))
print("Test R^2: {:.3f}".format(metrics.r2_score(y_test, y_test_predict_poly)))

In [None]:
# L2-регуляризация (Ridge)
# Создаём объект класса линейной регрессии с L2-регуляризацией
ridge_lr_poly = linear_model.Ridge(alpha=10)
# Для L2-регуляризации параметр alpha по умолчанию равен 1. 
# Давайте попробуем использовать значение параметра alpha=10:

# Обучаем модель
ridge_lr_poly.fit(X_train_scaled_poly, y_train)

# Делаем предсказание для тренировочной выборки
y_train_predict_poly = ridge_lr_poly.predict(X_train_scaled_poly)
# Делаем предсказание для тестовой выборки
y_test_predict_poly = ridge_lr_poly.predict(X_test_scaled_poly)

# Рассчитываем коэффициент детерминации для двух выборок
print("Train R^2: {:.3f}".format(metrics.r2_score(y_train, y_train_predict_poly)))
print("Test R^2: {:.3f}".format(metrics.r2_score(y_test, y_test_predict_poly)))

ЛУЧШЕ ТА, У КОТОРОЙ ВЫШЕ ПОКАЗАТЕЛИ НА ТЕСТОВОЙ ВЫБОРКЕ

Параметр alpha имеет очень важное значение: от его выбора зависит, как сильно мы будем штрафовать модель за переобучение. Важно найти значение, которое приносит наилучший эффект.

Попробуйте вручную изменять параметр alpha для построенных ранее моделей. Согласитесь, это не очень удобно.

In [None]:
# Создаём список из 20 возможных значений от 0.001 до 1
alpha_list = np.linspace(0.001, 1, 20)
# Создаём пустые списки, в которые будем добавлять результаты 
train_scores = []
test_scores = []
for alpha in alpha_list:
    # Создаём объект класса линейной регрессии с L1-регуляризацией
    lasso_lr_poly = linear_model.Lasso(alpha=alpha, max_iter=10000)
    
    # Обучаем модель
    lasso_lr_poly.fit(X_train_scaled_poly, y_train)
    
    # Делаем предсказание для тренировочной выборки
    y_train_predict_poly = lasso_lr_poly.predict(X_train_scaled_poly)
    # Делаем предсказание для тестовой выборки
    y_test_predict_poly = lasso_lr_poly.predict(X_test_scaled_poly)
    
    # Рассчитываем коэффициенты детерминации для двух выборок и добавляем их в списки
    train_scores.append(metrics.r2_score(y_train, y_train_predict_poly))
    test_scores.append(metrics.r2_score(y_test, y_test_predict_poly))

# Визуализируем изменение R^2 в зависимости от alpha
fig, ax = plt.subplots(figsize=(12, 4)) # фигура + координатная плоскость
ax.plot(alpha_list, train_scores, label='Train') # линейный график для тренировочной выборки
ax.plot(alpha_list, test_scores, label='Test') # линейный график для тестовой выборки
ax.set_xlabel('Alpha') # название оси абсцисс
ax.set_ylabel('R^2') # название оси ординат
ax.set_xticks(alpha_list) # метки по оси абсцисс
ax.xaxis.set_tick_params(rotation=45) # поворот меток на оси абсцисс
ax.legend(); # отображение легенды   

In [None]:
#Создаём объект класса линейной регрессии с L1-регуляризацией
lasso_lr_poly = linear_model.Lasso(alpha=0.0536)

#Обучаем модель 
lasso_lr_poly.fit(X_train_scaled_poly, y_train)

#Делаем предсказание для тренировочной выборки
y_train_predict_poly = lasso_lr_poly.predict(X_train_scaled_poly)
#Делаем предсказание для тестовой выборки
y_test_predict_poly = lasso_lr_poly.predict(X_test_scaled_poly)

#Рассчитываем коэффициент детерминации для двух выборок
print("Train R^2: {:.3f}".format(metrics.r2_score(y_train, y_train_predict_poly)))
print("Test R^2: {:.3f}".format(metrics.r2_score(y_test, y_test_predict_poly)))

# ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ В "КЛАССИФИКАЦИИ" С ПОМОЩЬЮ SKLEARN

In [None]:
#Создаем объект класса логистическая регрессия
log_reg_full = linear_model.LogisticRegression(random_state=42, max_iter=1000)
# random_state — число, на основе которого происходит генерация случайных чисел.

# multi_class='multinomial' - мультиклассовая классификация

# penalty — метод регуляризации. Возможные значения:
#   'l1' — L1-регуляризация;
#   'l2' — L2-регуляризация (используется по умолчанию);
#   'elasticnet' — эластичная сетка (L1+L2);
#   'none' — отсутствие регуляризации.

# C — коэффициент обратный коэффициенту регуляризации, то есть равен C/α. 
# Чем больше C, тем меньше регуляризация. По умолчанию C=1, тогда α=1.

# solver — численный метод оптимизации функции потерь logloss, может быть:
#   'sag' — стохастический градиентный спуск (нужна стандартизация/нормализация);
#   'saga' — модификация предыдущего, которая поддерживает работу с негладкими функциями (нужна стандартизация/нормализация);
#   'newton-cg' — метод Ньютона с модификацией сопряжённых градиентов (не нужна стандартизация/нормализация);
#   'lbfgs' — метод Бройдена — Флетчера — Гольдфарба — Шанно (не нужна стандартизация/нормализация; используется по умолчанию, так как из всех методов теоретически обеспечивает наилучшую сходимость);
#   'liblinear' — метод покоординатного спуска (не нужна стандартизация/нормализация).

# max_iter — максимальное количество итераций, выделенных на сходимость.

#Обучаем модель, минизируя logloss
log_reg_full.fit(X, y)

#Делаем предсказание класса
y_pred = log_reg_full.predict(X)

#Выводим результирующие коэффициенты
print('w0: {}'.format(log_reg_full.intercept_)) #свободный член w0
print('w1, w2: {}'.format(log_reg_full.coef_)) #остальные параметры модели w1, w2, ..., wm

#Значения концентации глюкозы и индекса массы тела для пациента
x_new = [[180, 51]]

#Делаем предсказание класса:
y_new_predict = log_reg_full.predict(x_new)
print('Predicted class: {}'.format(y_new_predict))

# Делаем предсказание вероятностей:
y_new_proba_predict = log_reg_full.predict_proba(x_new)
print('Predicted probabilities: {}'.format(np.round(y_new_proba_predict, 2)))

#Создадим временную таблицу X
X_temp = X.copy()
#Добавим в эту таблицу результат предсказания
X_temp['Prediction'] = y_pred
X_temp.tail()

# ДЕРЕВЬЯ РЕШЕНИЙ В "КЛАССИФИКАЦИИ" С ПОМОЩЬЮ SKLEARN

In [None]:
from sklearn import tree #модели деревьев решения

#Создаем объект класса дерево решений
dt = tree.DecisionTreeClassifier(
    criterion='entropy',
    min_samples_leaf=5,
    max_depth=8,
    random_state=42
)

# criterion — критерий информативности ('gini' — критерий Джини и 'entropy' — энтропия Шеннона).

# max_depth — максимальная глубина дерева (по умолчанию — None, глубина дерева не ограничена).

# max_features — максимальное число признаков, по которым ищется лучшее разбиение в дереве 
# (по умолчанию — None, то есть обучение производится на всех признаках). Нужно потому, 
# что при большом количестве признаков будет «дорого» искать лучшее (по критерию типа прироста информации) 
# разбиение среди всех признаков.

# min_samples_leaf — минимальное число объектов в листе (по умолчанию — 1). 
# У этого параметра есть понятная интерпретация: если он равен 5, то дерево будет порождать 
# только те решающие правила, которые верны как минимум для пяти объектов.

# random_state — число, отвечающее за генерацию случайных чисел.

#Обучаем дерево по алгоритму CART
dt.fit(X_train, y_train)

#Выводим значения метрики 
y_train_pred = dt.predict(X_train)
print('Train: {:.2f}'.format(metrics.f1_score(y_train, y_train_pred)))
y_test_pred = dt.predict(X_test)
print('Test: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))

Построение дерева на графике

In [None]:
#Создаем фигуру для визуализации графа
fig = plt.figure(figsize=(25,20))
#Строим граф дерева решений
tree_graph = tree.plot_tree(
    dt, #объект обученного дерева
    feature_names=X_train.columns, #наименования факторов
    class_names=["0 - <=50K", "1 - >50K"], #имена классов
    filled=True, #расцветка графа
);

Построение графика с областями

In [None]:
def plot_probabilities_2d(X, y, model):
    #Генерируем координатную сетку из всех возможных значений для признаков
    #Glucose изменяется от 40 до 200, BMI — от 10 до 80
    #Результат работы функции — два массива xx1 и xx2, которые образуют координатную сетку
    xx1, xx2 = np.meshgrid(
        np.arange(40, 200, 0.1),
        np.arange(10, 80, 0.1)
    )
    #Вытягиваем каждый из массивов в вектор-столбец — reshape(-1, 1)
    #Объединяем два столбца в таблицу с помощью hstack
    X_net = np.hstack([xx1.reshape(-1, 1), xx2.reshape(-1, 1)])
    #Предсказываем вероятность для всех точек на координатной сетке
    #Нам нужна только вероятность класса 1
    probs = model.predict_proba(X_net)[:, 1]
    #Переводим столбец из вероятностей в размер координатной сетки
    probs = probs.reshape(xx1.shape)
    #Создаём фигуру и координатную плоскость
    fig, ax = plt.subplots(figsize = (10, 5))
    #Рисуем тепловую карту вероятностей
    contour = ax.contourf(xx1, xx2, probs, 100, cmap='bwr')
    #Рисуем разделяющую плоскость — линию, где вероятность равна 0.5
    bound = ax.contour(xx1, xx2, probs, [0.5], linewidths=2, colors='black');
    #Добавляем цветовую панель 
    colorbar = fig.colorbar(contour)
    #Накладываем поверх тепловой карты диаграмму рассеяния
    sns.scatterplot(data=X, x='Glucose', y='BMI', hue=y, palette='seismic', ax=ax)
    #Даём графику название
    ax.set_title('Scatter Plot with Decision Boundary');
    #Смещаем легенду в верхний левый угол вне графика
    ax.legend(bbox_to_anchor=(-0.05, 1))

# Вызовем нашу функцию для визуализации:
plot_probabilities_2d(X, y, dt_clf_2d)

Важность признаков можно посмотреть, обратившись к атрибуту feature_importance_:

In [None]:
print(dt_clf_full.feature_importances_)

# А лучше через столбчатую диаграмму

fig, ax = plt.subplots(figsize=(13, 5)) #фигура + координатная плоскость
feature = X.columns #признаки
feature_importances = dt_clf_full.feature_importances_ #важность признаков
#Строим столбчатую диаграмму
sns.barplot(x=feature, y=feature_importances, ax=ax);
#Добавляем подпись графику, осям абсцисс и ординат
ax.set_title('Bar plot feature importances')
ax.set_xlabel('Features')
ax.set_ylabel('Importances');

# Ансамбли

Ансамблевые модели или просто ансамбли (ensembles) — это метод машинного обучения, где несколько простых моделей (часто называемых «слабыми учениками») обучаются для решения одной и той же задачи и объединяются для получения лучших результатов.

Существует три проверенных способа построения ансамблей:

* Бэггинг — параллельно обучаем множество одинаковых моделей, а для предсказания берём среднее по предсказаниям каждой из моделей.
* Бустинг — последовательно обучаем множество одинаковых моделей, где каждая новая модель концентрируется на тех примерах, где предыдущая допустила ошибку.
* Стекинг — параллельно обучаем множество разных моделей, отправляем их результаты в финальную модель, и уже она принимает решение.

In [None]:
#Создаем объект класса случайный лес
rf = ensemble.RandomForestClassifier(
    n_estimators=500,
    max_depth=15,
    criterion='entropy',
    min_samples_leaf=10,
    random_state=42
)
#Обучаем модель
rf.fit(X_train, y_train)
#Выводим значения метрики 
y_train_pred = rf.predict(X_train)
print('Train: {:.2f}'.format(metrics.f1_score(y_train, y_train_pred)))
y_test_pred = rf.predict(X_test)
print('Test: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))