In [3]:
#Для первого запуска
!pip install pandas
!pip install numpy
!pip install matplotlib
!pip install seaborn
!pip install fitter
!pip install scikit-learn

Collecting fitter
  Using cached fitter-1.5.2.tar.gz (27 kB)
Building wheels for collected packages: fitter
  Building wheel for fitter (setup.py): started
  Building wheel for fitter (setup.py): finished with status 'done'
  Created wheel for fitter: filename=fitter-1.5.2-py3-none-any.whl size=25610 sha256=4e08223611443b0a9144911f855841f632ba26a37defd9acfad3854ceb2ead8d
  Stored in directory: c:\users\nszyuz\appdata\local\pip\cache\wheels\2f\4b\12\1c9085f8ecb92805ca8645ab9c61703a2874685a9fb87b0bdb
Successfully built fitter
Installing collected packages: fitter
Successfully installed fitter-1.5.2


In [2]:
# Импорт нужных библиотек
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from collections import Counter
import seaborn as sns
from fitter import Fitter
import warnings
import time
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)

# 1.1. Выделение итогового набора полей для одной записи

In [3]:
# Получение иноформации "как есть" для RecordID 132539
df_ = pd.read_table('set/132539.txt', delimiter = ',') 
print(df_)
out = pd.read_table('outcomes.txt', delimiter = ',')
print(out[['RecordID', 'Survival', 'In-hospital_death']].iloc[0])

      Time Parameter      Value
0    00:00  RecordID  132539.00
1    00:00       Age      54.00
2    00:00    Gender       0.00
3    00:00    Height      -1.00
4    00:00   ICUType       4.00
..     ...       ...        ...
268  47:37     NIMAP      79.33
269  47:37  NISysABP     128.00
270  47:37  RespRate      23.00
271  47:37      Temp      37.80
272  47:37     Urine     280.00

[273 rows x 3 columns]
RecordID             132539
Survival                 -1
In-hospital_death         0
Name: 0, dtype: int64


Все поля представляют собой отдельные значения, разбиение полей с множеством значений на несоклько полей не требуется.

# 1.2 Создание структуры данных для итогового набора полей

Анализ встречаемости параметров: определение, какие параметры встречаются редко (меньше 1 данных на запись в среднем), встречаются ровно один раз в записи, встречаются больше одного раза в записи (для них высчитываем потом среднее значение), встречаются значительно больше одного раза в записи (для них высчитываем потом медианное значение).

In [None]:
# Получаем все значения RecordID из столбца outcomes.txt
out = pd.read_table('outcomes.txt', delimiter = ',')
RIDs = out["RecordID"]
n = len(RIDs)
# Формируем Counter, в котором все параметры будут считаться
x = Counter()
for rid in RIDs:
    df_ = pd.read_table('set/' + str(rid) + '.txt', delimiter = ',') 
    x = x + Counter(df_["Parameter"])

# Разделение параметров по встречаемости
unique_parameters = list(x.keys())
one_params = []
mean_params = []
rare_params = []
median_params = []
for parameter in unique_parameters:
    if x[parameter] / n > 10:
        median_params.append(parameter)
    elif x[parameter] / n > 1:
        mean_params.append(parameter)
    elif x[parameter] / n < 1:
        rare_params.append(parameter)
    else:
        one_params.append(parameter)
        
feature_list = one_params + rare_params + mean_params + median_params

Наполнение структуры данных согласно указанныму выше алгоритму и сохранение датасета

In [None]:
df = pd.DataFrame(columns = feature_list, index = range(n))
for i, rid in enumerate(RIDs):
    df_ = pd.read_table('set/' + str(rid) + '.txt', delimiter = ',')
    df_edited = pd.DataFrame(0, index = range(1), columns = feature_list)
    for parameter in one_params:
        df_edited[parameter] = df_['Value'].where(df_["Parameter"] == parameter).sum()
    for parameter in rare_params:
        df_edited[parameter] = df_['Value'].where(df_["Parameter"] == parameter).mean()
    for parameter in mean_params:
        df_edited[parameter] = (df_['Value'].where(df_["Parameter"] == parameter)).mean()
    for parameter in median_params: 
        df_edited[parameter] = (df_['Value'].where(df_["Parameter"] == parameter)).median()
    df.loc[i, feature_list] = df_edited.iloc[0].values

In [None]:
out = pd.read_table('outcomes.txt', delimiter = ',')
df["Survival"] = out["Survival"]
df["In-hospital_death"] = out["In-hospital_death"]
print(df)
df.to_csv('dataset.csv', index=False)

# 1.3. Описание полученной структуры данных

In [None]:
df = pd.read_csv('dataset.csv')
df.describe(include='all')

In [None]:
# Для полей из rare-params и mean-params рассчитывается среднее значение из имеющихся по человеку 
print("rare_params: ", rare_params)
print("mean_params: ", mean_params)
# Для полей из one-params Выдаётся единственное имеющееся значение
print("one_params: ", one_params)
# Для полей из median_params рассчитывается медианное значение
print("median_params: ", median_params)

In [None]:
# Название полей
df.columns

In [None]:
# типы полей
df.info()

# 2.1. Устранение дубликатов, пустых записей

In [None]:
df = pd.read_csv('dataset.csv')
df.info()

Категориальная обработка.
Удаляем одинаковые столбцы.

In [None]:
df["Gender"] = df["Gender"].replace(-1, np.NaN)
df["Gender"] = df["Gender"] > 0
df["MechVent"] = df["MechVent"] > 0
df = df.drop(columns = ["ICUType"])

df.info()

Дубликаты отсутствуют, так как каждый файл с пациентом имеет своё уникальное имя, соответствующее RecordID

In [None]:
print(df.duplicated().any())

Проведём проверку на наличие пустых записей в таблице: записей, в которых совсем нет значений

In [None]:
df.dropna(how='all')

Проверим, есть ли строчки, в которых есть только обязательные значения (порог 11 элементов) и удалим их, потому что они не помогут в обучении

In [None]:
df = df.dropna(thresh = 11) #Почему именно 11?
df

# 2.2. Обработка пропущенных значений, выбросов

Удаляем все признаки, для которых количество NaN значений превышает 90%, потому что эти столбцы нельзя будет использовать для обучения в дальнейшем (мало данных), а заполнять отсутствующие значения некорректно по 10% имеющимся.

In [None]:
df_count = len(df)
df["Height"] = df["Height"].replace(-1, np.NaN)
df["Weight"] = df["Weight"].replace(-1, np.NaN)

print ("{:<45} {:<10} {:<10}".format('Характеристика', 'Кол-во NaN', 'Процент NaN')) 
for column in df.columns: 
    print("{:<50} {:<10} {:<10}".format(column, df[column].isnull().sum(), round(100 * df[column].isnull().sum() / df_count)))

In [None]:
df = df.drop(columns=["Cholesterol", "TroponinI"])

Удаляем все строчки, для которых процент NaN >= 35%. Значение в 35% выбрали по графику, в котором пациенты отсортированы по количеству отсутствующих значений. При выборе меньшего порога будет отсечено гораздо больше данных.

In [None]:
plt.plot((df.isnull().sum(axis = 1)).sort_values().values)

In [None]:
df = df[df.isnull().sum(axis = 1) / len(df.columns) < 0.35]
df

In [None]:
for column in df.columns:
    plt.figure()
    df.boxplot([column])
plt.show()

Аномалии - значения, которые находятся вне интервала [Q1 - (Q3 - Q1) * 1.5; Q3 + (Q3 - Q1) * 1.5], изображаются точками на графике "ящик с усами", но не являются выбросами (см. далее). эти значения оставляем без изменения, так как они могут помочь при обучении.
Под выбросами понимаем значения, которые находятся вне интервала [Q1 - (Q3 - Q1) * 5; Q3 + (Q3 - Q1) * 5]. Их заменяем на NaN.

In [None]:
for column in df.columns:
    if column not in ["Survival", "In-hospital_death"] and df.dtypes[column] != 'bool':
        values = df[column] 
        q1, q3 = values.quantile([0.25, 0.75])
        low  = q1 - (q3 - q1) * 5
        high = q3 + (q3 - q1) * 5
        condition = (values < low) | (values > high)
        values[condition] = np.nan
df

# 2.4. Получение описательных статистик и графиков распределения всех признаков из итогового набора полей

Описательные статистики итогового датасета

In [None]:
df.describe()

In [None]:
df["Survival"][df["Survival"] < -1] = -1 #Обработка значений меньше чем <-1

Строим гистаграммы по значениям в колонках

In [None]:
data = df.to_numpy()
figure, axis = plt.subplots((df.dtypes=='float64').sum(), 1)
figure.set_size_inches(15, 250)
i = 0
for column in df.columns:
    if df.dtypes[column]=='float64':
        s = pd.Series(data[:, df.columns.get_loc(column)])
        axis[i].hist(s, bins = 10, log = True)
        axis[i].set_title(column)
        i += 1
plt.show()

Проверяем, насколько распределение для каждого признака для не-NaN значений является нормальным, логнормальным, экпоненциальным или равномерным, используя библиотеку fitter, в которой подбираются парааметры для каждого из распределений, минимизируя RSS (сумма квадратов ошибок от распределения) по гистограмме из 15 интервалов (при большем количестве интервалов могут проявиться некорректные результаты из-за работы с целыми числами в некоторых признаках, например, рост или возраст, когда в интервал может не попасть ни одного значения).

In [None]:
i = 0
f = [None] * (df.dtypes=='float64').sum()
for column in df.columns:
    if df.dtypes[column]=='float64':
        f[i] = Fitter(df[column][~df[column].isnull()],
                   distributions=["expon", "uniform", "norm", "lognorm"],
                   bins = 15)
        time.sleep(0.2)
        f[i].fit()
        print(column)
        print(f[i].summary()['sumsquare_error'])
        i += 1  

Во всех признаках, кроме указанных ниже, меньшая ошибка была при расчёте для нормального или логнормального распределения. Так как нормальное распределение предполагает возможность отрицательных значений, а логнормальное нет, то между этих двух будем выбирать логнормальное.

RecordID - равномерное: логично, так как номера ID указываются в равномерном порядке по нарастанию (с некоторыми пропусками).
GCS, GCS_25, GCS_75 - sumsquare_error показывает большую ошибку для любого распределения: по графику видно, что в данных признаках не сформированно хоть какое-то распределение, поэтому предлагается исключить данные признаки из датасета.

In [None]:
# График для _ПАРАМЕТР_ - пример нормального/логнормального распределения
f[3].summary()

In [None]:
# График для _ПАРАМЕТР_ - пример экспоненциального/логнормального распределения
f[6].summary() #Подставлять число -> номер графика подходящего под пример

In [None]:
# График для GCS: пример с неопределённым распределением
f[26].summary() # Поставить число неопределнного распределения, если нет такого, строку удалить

Заполняем NaN-значения согласно найденным распределениям, т. е. случайными величинами с известными параметрами распределений, для сохранения распределения значений.

In [None]:
for column in df.columns:
    if column not in ["RecordID"]:
        values = df[column] 
        E = values.mean()
        D = values.var()
        sigma = np.log(D / (E ** 2) + 1) ** 0.5
        mu = np.log(E) - (sigma ** 2) / 2
        condition = values.isna()
        new_values =  abs(np.random.lognormal(mu, sigma, len(df.index)))
        values[condition] = new_values[condition]
df

In [None]:
# Проверка, что NaN больше нет в датасете
df.isna().sum().sum()

Характер зависимости между признаками можно посмотреть по матрице корреляций: на heatmap цветом изображён коэффициент линейной корреляции между каждой парой признаков. Чем светлее, тем больше прямая зависимость, чем темнее - обратная.

In [None]:
corr = df.corr()
fig, ax = plt.subplots(figsize=(15, 10)) 
sns.heatmap(corr, ax=ax, xticklabels=True, yticklabels=True)

In [None]:
# Пример-проверка, что NaN удалились в столбце, где изначально было 77% NaN
data = df.to_numpy()
figure, axis = plt.subplots(1, 1)
figure.set_size_inches(15, 5)
s = pd.Series(data[:, df.columns.get_loc("TroponinT")])
print(len(s), len(df.index))
axis.hist(s, bins = 10, log = True)
axis.set_title("TroponinT")
plt.show()

In [None]:
df.to_csv('dataset2.csv', index = False)

# 3.1. Отбор признаков

In [None]:
df = pd.read_csv('dataset2.csv')
df

Используем функцию SelectKBest для нахождения k = 20 признаков (треть от имеющихся), имеющих наибольшее влияние на 2 выходные переменные, со следующими критериями:
1) Критерий хи-квадрат для классификации (метка 'In-hospital_death')
2) Коэффициент линейной корреляции Пирсона для регрессии (метка 'Survival')

In [None]:
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.feature_selection import f_regression

In [None]:
Y_cls = df['In-hospital_death']
X_cls = df.drop(columns = ['In-hospital_death', 'Survival'])
Y_reg = df['Survival']
X_reg = df.drop(columns = ['In-hospital_death', 'Survival'])

    # может лучше ничего не убирать??
# 20 признаков для классификации
selector_cls = SelectKBest(chi2, k = 20)
X_new = selector_cls.fit_transform(X_cls*1, Y_cls)
features_cls = X_cls.columns[selector_cls.get_support()]
print(features_cls)

# 20 признаков для регрессии
selector_reg = SelectKBest(f_regression, k = 20)
X_new = selector_reg.fit_transform(X_reg*1, Y_reg)
features_reg = X_reg.columns[selector_reg.get_support()]
print(features_reg)

In [None]:
# Красным показаны значения p-values для 20 признаков, которые мы выбрали
# Синим выделены признаки, которые мы не выбираем

mask = selector_cls.get_support()
scores = -np.log10(selector_cls.pvalues_)
X_indices = np.arange(X_cls.shape[-1])
plt.figure(1, figsize=[15, 7])
plt.clf()
plt.bar(X_indices[mask], scores[mask] ** 0.5, width=0.2, color = 'red')
plt.bar(X_indices[~mask], scores[~mask] ** 0.5, width=0.2, color = 'blue')
plt.show()
X_cls = X_cls.loc[:, mask]

In [None]:
mask = selector_reg.get_support()
scores = -np.log10(selector_reg.pvalues_)
X_indices = np.arange(X_reg.shape[-1])
plt.figure(1, figsize=[15, 7])
plt.clf()
plt.bar(X_indices[mask], scores[mask] ** 0.5, width=0.2, color = 'red')
plt.bar(X_indices[~mask], scores[~mask] ** 0.5, width=0.2, color = 'blue')
plt.show()
X_reg = X_reg.loc[:, mask]

# 3.2 Подбор и реализация алгоритмов выявления зависимостей параметров данных

Первый алгортим выяснения зависимостей. PCA-анализ (Метод главных компонент)
Определяем 2 компоненты в признаковом пространстве, для которых дисперсия значений будет наибольшей.
С помощью цвета можно определить разброс признака внутри компонент и таким образом отследить зависимость одного признака от остальных.
Показан график для признака 'Age' для регресионного анализа. Внизу представлены сформированные компоненты.

In [None]:
from sklearn import decomposition

X = X_reg.to_numpy()
X = X.astype(float)
pca = decomposition.PCA(n_components=2)
X_centered = X
X_centered = (X - X.mean(axis=0)) / np.std(X, axis=0)
pca.fit(X_centered)
X_pca = pca.transform(X_centered)
# p - признак, по которому выводим цвет, синий - ближе к минимальному значению, красный - к максимальному
p = 0
figure, axis = plt.subplots(1, 1)
figure.set_size_inches(10, 10)
axis.scatter(X_pca[:, 0], X_pca[:, 1], s=10, c=(X[:, p] - np.min(X[:, p])) /  (np.max(X[:, p])- np.min(X[:, p])), cmap='jet')
plt.show()

for i, component in enumerate(pca.components_):
    print("{} component: {}% of initial variance".format(i + 1, round(100 * pca.explained_variance_ratio_[i], 2)))
    print(" + ".join("%.3f x %s" % (value, name) for value, name in zip(component, X_reg.columns)))

In [None]:
p = 0
figure, axis = plt.subplots(1, 1)
figure.set_size_inches(10, 10)
temp = Y_reg.copy()
temp[temp == -1] = float("+inf")
temp[temp < 2] = 2
temp = 1 / np.log2(temp)
indx = temp > 0.3
axis.scatter(X_pca[indx, 0], X_pca[indx, 1], s = X[indx, p], c = temp[indx], cmap='copper')
plt.show()

In [None]:
X = X_cls.to_numpy()
X = X.astype(float)
pca = decomposition.PCA(n_components=2)
X_centered = X
X_centered = (X - X.mean(axis=0)) / np.std(X, axis=0)
pca.fit(X_centered)
X_pca = pca.transform(X_centered)
# p - признак, по которому выводим цвет, синий - ближе к минимальному значению, красный - к максимальному
p = 0
figure, axis = plt.subplots(1, 1)
figure.set_size_inches(10, 10)
axis.scatter(X_pca[:, 0], X_pca[:, 1], s=10, c=(X[:, p] - np.min(X[:, p])) /  (np.max(X[:, p])- np.min(X[:, p])), cmap='jet')
plt.show()

for i, component in enumerate(pca.components_):
    print("{} component: {}% of initial variance".format(i + 1, round(100 * pca.explained_variance_ratio_[i], 2)))
    print(" + ".join("%.3f x %s" % (value, name) for value, name in zip(component, X_cls.columns)))

In [None]:
p = 0
figure, axis = plt.subplots(1, 1)
figure.set_size_inches(10, 10)
axis.scatter(X_pca[:, 0], X_pca[:, 1], s = 10 + 50*Y_cls, c =(X[:, p] - np.min(X[:, p])) /  (np.max(X[:, p])- np.min(X[:, p])), cmap='jet')
plt.show()

In [None]:
X_reg_corr = X_reg.corr()
fig, ax = plt.subplots(figsize=(15, 10)) 
sns.heatmap(X_reg_corr, ax=ax, xticklabels=True, yticklabels=True)

In [None]:
X_cls_corr = X_cls.corr()
fig, ax = plt.subplots(figsize=(15, 10)) 
sns.heatmap(X_cls_corr, ax=ax, xticklabels=True, yticklabels=True)

# 3.3 Разбиение обработанных данных на обучающую, валидационную и тестирующую выборки

In [None]:
print([sum(Y_cls), len(Y_cls)])

Дисбаланс для задачи классификации составляет 1090/7683 = 14%. Это означает, что 14% данных относятся к классу "Умерли в госпитализации", а оставшиеся к классу "Не умерли в госпитализации". По описанию несбалансированных данных Google (https://developers.google.com/machine-learning/data-prep/construct/sampling-splitting/imbalanced-data) незначительный уровень дисбаланса соответствует доле меньшинства в 20-40% от всего множества данных. Поэтому предлагается удалить некоторое число данных, относящихся к мажоритарному классу, чтобы дисбаланс стал равен 20%.

In [None]:
print([sum(Y_reg==-1), sum(Y_reg==0), sum(Y_reg==1), sum((Y_reg>=0)*(Y_reg<=360)), sum(Y_reg>360), max(Y_reg), Y_reg.quantile(0.95), len(Y_reg)])

In [None]:
plt.plot(Y_reg.sort_values().values)

Непоследовательность определения значений для решения задачи регрессии состоит в том, что 4794/7683 = 62% людей имеют поле 'Survival' равным -1, то есть не умерли на момент получения данных, по сути это означает, что эта -1 соответствует +Inf. Преобразовываем поле 'Survival' по следующей формуле, для получения значений, которые можно предсказать.

In [None]:
temp = Y_reg.copy()
temp[temp == -1] = float("+inf")
temp[temp < 2] = 2
temp = 1 / np.log2(temp)
Y_reg = temp
plt.plot(Y_reg.sort_values().values)

In [None]:
from sklearn.model_selection import train_test_split

indx_1 = Y_cls == 1
indx_0 = Y_cls == 0
# Удаляем строчки с мажоритарным классом с вероятностью (1 - sum(Y_cls) / len(Y_cls))
counter = 0
for i in range(len(Y_cls)):
    if indx_0[i] == True:
        counter = counter + 1
    if counter > 2741:
        indx_0[i] = False

X_train_cls1, X_test_cls1, y_train_cls1, y_test_cls1 = train_test_split(X_cls[indx_1], Y_cls[indx_1], test_size=0.1, random_state=1)
X_train_cls1, X_val_cls1, y_train_cls1, y_val_cls1 = train_test_split(X_train_cls1, y_train_cls1, test_size=0.2, random_state=1)

X_train_cls0, X_test_cls0, y_train_cls0, y_test_cls0 = train_test_split(X_cls[indx_0], Y_cls[indx_0], test_size=0.24, random_state=1)
X_train_cls0, X_val_cls0, y_train_cls0, y_val_cls0 = train_test_split(X_train_cls0, y_train_cls0, test_size=0.63, random_state=1)

X_train_cls = pd.concat([X_train_cls0, X_train_cls1])
y_train_cls = pd.concat([y_train_cls0, y_train_cls1])
X_val_cls = pd.concat([X_val_cls0, X_val_cls1])
y_val_cls = pd.concat([y_val_cls0, y_val_cls1])
X_test_cls = pd.concat([X_test_cls0, X_test_cls1])
y_test_cls = pd.concat([y_test_cls0, y_test_cls1])

X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, Y_reg, test_size=0.1, random_state=1) # 0.2 тестовая выборка
X_train_reg, X_val_reg, y_train_reg, y_val_reg = train_test_split(X_train_reg, y_train_reg, test_size=0.2, random_state=1) # 0.2*0.8 = 0.18 валидационная, 0.72 обучающая


# 3.6 Выбор модели прогнозирования и настройка гиперпараметров для классификации

In [None]:
from sklearn.neural_network import MLPClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.gaussian_process.kernels import RBF
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import f1_score, accuracy_score, balanced_accuracy_score, precision_score, recall_score
from sklearn import metrics

names = [
    "Nearest Neighbors",
    "Linear SVM",
    "RBF SVM",
    "Gaussian Process",
    "Decision Tree",
    "Random Forest",
    "Neural Net",
    "AdaBoost",
    "Naive Bayes",
    "QDA",
]

classifiers = [
    KNeighborsClassifier(3),
    SVC(kernel="linear", C=0.025),
    SVC(gamma=2, C=1),
    GaussianProcessClassifier(1.0 * RBF(1.0)),
    DecisionTreeClassifier(max_depth=5),
    RandomForestClassifier(max_depth=5, n_estimators=10, max_features=1),
    MLPClassifier(alpha=1, max_iter=1000),
    AdaBoostClassifier(),
    GaussianNB(),
    QuadraticDiscriminantAnalysis(),
]

for name, clf in zip(names, classifiers):
    clf.fit(X_train_cls, y_train_cls)
    pred_cls = clf.predict(X_val_cls)
    score = f1_score(y_val_cls, pred_cls)
    print(name, score)

Для определения лучших алгоритмов бинарной классификации было проведено машинное обучение с использованием основных интеллектуальных моделей на основании 1526 тренировочных данных (783 "0" и 783 "1", пропорция 1:1 так как данные несбалансированны). Критерий качества (Accuracy) высчитывался на основании 1536 валидационных значений (1318 "0" и 218 "1" - пропорция как в данных в целом).
Пороговое значение для точности равно: (1318/1536)*(1318/1536)+(218/1536)*(218/1536) ~ 0,76. Оно аналогично случайному выбору.

Лучшие модели по критерию f1-score: Decision Tree, Random Forest, AdaBoost (аналогичен Random Forest), Linear SVM, Naive Bayes
SVM убираем из-за большой вычислительной сложности O(n^2*p+n^3) (n - размер тренировочного набора, p - количество признаков)
Random Forest/Decision Tree оставляем, его сложность O(n^2*p)
Naive Bayes оставляем, его сложность O(n*p)
Neural Net предлагается добавить, её сложность линейно зависит от n.

In [None]:
parameters = {'max_depth':[9, 11, 13], 'n_estimators':[100, 200, 300], 'max_features': ['sqrt', 'log2']}

clf = GridSearchCV(estimator=RandomForestClassifier(), param_grid=parameters, scoring='f1')
clf.fit(X_train_cls, y_train_cls)

results = pd.DataFrame.from_dict(clf.cv_results_)
results = results.sort_values('rank_test_score', ignore_index=True)
print(results['params'][0])
pred_cls = clf.predict(X_val_cls)

print(precision_score(y_val_cls, pred_cls))
print(recall_score(y_val_cls, pred_cls))
print(accuracy_score(y_val_cls, pred_cls))
print(f1_score(y_val_cls, pred_cls))
print(balanced_accuracy_score(y_val_cls, pred_cls))

In [None]:
pred_cls = clf.predict_proba(X_val_cls)
fpr, tpr, _ = metrics.roc_curve(y_val_cls,  pred_cls[:, 1])
auc = metrics.roc_auc_score(y_val_cls, pred_cls[:, 1])

plt.plot(fpr, tpr, label="AUC="+str(auc))
plt.ylabel('True Positive Rate')
plt.xlabel('False Positive Rate')
plt.legend(loc=4)
plt.show()

Random Forest при настройке гиперпараметров улучшил показатель f1_score с 0.484 (max_depth=5, n_estimators=10, max_features=1) до 0.559 (max_depth=11, n_estimators=100, max_features='sqrt').

In [None]:
parameters = {'hidden_layer_sizes':[(20,), (40,), (100,)], 'activation':['identity', 'relu']}

clf = GridSearchCV(estimator=MLPClassifier(), param_grid=parameters, scoring='f1')
clf.fit(X_train_cls, y_train_cls)

results = pd.DataFrame.from_dict(clf.cv_results_)
results = results.sort_values('rank_test_score', ignore_index=True)
print(results['params'][0])
pred_cls = clf.predict(X_val_cls)

print(precision_score(y_val_cls, pred_cls))
print(recall_score(y_val_cls, pred_cls))
print(accuracy_score(y_val_cls, pred_cls))
print(f1_score(y_val_cls, pred_cls))
print(balanced_accuracy_score(y_val_cls, pred_cls))

In [None]:
pred_cls = clf.predict_proba(X_val_cls)
fpr, tpr, _ = metrics.roc_curve(y_val_cls,  pred_cls[:, 1])
auc = metrics.roc_auc_score(y_val_cls, pred_cls[:, 1])

plt.plot(fpr, tpr, label="AUC="+str(auc))
plt.ylabel('True Positive Rate')
plt.xlabel('False Positive Rate')
plt.legend(loc=4)
plt.show()

In [None]:
parameters = {'var_smoothing':[1e-9, 1e-7, 1e-6, 1e-5]}

clf = GridSearchCV(estimator=GaussianNB(), param_grid=parameters, scoring='f1')
clf.fit(X_train_cls, y_train_cls)

results = pd.DataFrame.from_dict(clf.cv_results_)
results = results.sort_values('rank_test_score', ignore_index=True)
print(results['params'][0])
pred_cls = clf.predict(X_val_cls)

print(precision_score(y_val_cls, pred_cls))
print(recall_score(y_val_cls, pred_cls))
print(accuracy_score(y_val_cls, pred_cls))
print(f1_score(y_val_cls, pred_cls))
print(balanced_accuracy_score(y_val_cls, pred_cls))

In [None]:
pred_cls = clf.predict_proba(X_val_cls)
fpr, tpr, _ = metrics.roc_curve(y_val_cls,  pred_cls[:, 1])
auc = metrics.roc_auc_score(y_val_cls, pred_cls[:, 1])

plt.plot(fpr, tpr, label="AUC="+str(auc))
plt.ylabel('True Positive Rate')
plt.xlabel('False Positive Rate')
plt.legend(loc=4)
plt.show()

# 3.7 Прогноз значения целевой переменной, качество модели для классификации

In [None]:
clf = RandomForestClassifier(max_depth=9, n_estimators=300, max_features='log2')
clf.fit(X_train_cls, y_train_cls)
pred_cls = clf.predict(X_test_cls)

print(precision_score(y_test_cls, pred_cls))
print(recall_score(y_test_cls, pred_cls))
print(accuracy_score(y_test_cls, pred_cls))
print(f1_score(y_test_cls, pred_cls))
print(balanced_accuracy_score(y_test_cls, pred_cls))

In [None]:
pred_cls = clf.predict_proba(X_val_cls)
fpr, tpr, _ = metrics.roc_curve(y_val_cls,  pred_cls[:, 1])
auc = metrics.roc_auc_score(y_val_cls, pred_cls[:, 1])

plt.plot(fpr, tpr, label="AUC="+str(auc))
plt.ylabel('True Positive Rate')
plt.xlabel('False Positive Rate')
plt.legend(loc=4)
plt.show()

# 3.4. Выбор модели прогнозирования и настройка гиперпараметров для регрессии

In [None]:
from sklearn.linear_model import LinearRegression, Ridge, BayesianRidge
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline
from sklearn.svm import SVR
from sklearn.neighbors import KNeighborsRegressor
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import DotProduct, WhiteKernel
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.neural_network import MLPRegressor

from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error, max_error
from sklearn import metrics

names = [
    "LinearRegression",
    "Ridge",
    "BayesianRidge",
    "PolynomialFeatures",
    "SVR linear",
    "SVR rbf",
    "KNeighborsRegressor",
    "GaussianProcessRegressor",
    "DecisionTreeRegressor",
    "RandomForestRegressor",
    "MLPRegressor",
]

regressors = [
    LinearRegression(),
    Ridge(alpha=1.0, solver='auto'),
    BayesianRidge(),
    Pipeline([('poly', PolynomialFeatures(degree=2)), ('linear', LinearRegression(fit_intercept=False))]),
    SVR(kernel='linear'),
    SVR(kernel='rbf'),
    KNeighborsRegressor(3),
    GaussianProcessRegressor(kernel=DotProduct() + WhiteKernel()),
    DecisionTreeRegressor(max_depth=5),
    RandomForestRegressor(max_depth=5, n_estimators=10, max_features=2),
    MLPRegressor(alpha=1, max_iter=1000),
]

for name, rgr in zip(names, regressors):
    rgr.fit(X_train_reg, y_train_reg)
    pred_reg = rgr.predict(X_val_reg)
    score = mean_squared_error(y_val_reg, pred_reg)
    print(name, score)

In [None]:
# Пороговое значение MSE, когда в качестве y выбираем среднее значение по y
np.mean((np.mean(y_val_reg)-y_val_reg) **2)

Выбираем следующие модели для подбора гиперпараметров:
LinearRegression (без настройки)
BayesianRidge 
KNeighborsRegressor 
DecisionTreeRegressor
RandomForestRegressor 
MLPRegressor

In [None]:
parameters = {'max_depth':[13], 'n_estimators':[200], 'max_features': ['sqrt']}

rgr = GridSearchCV(estimator=RandomForestRegressor(), param_grid=parameters, scoring='neg_mean_squared_error')
rgr.fit(X_train_reg, y_train_reg)

results = pd.DataFrame.from_dict(rgr.cv_results_)
results = results.sort_values('rank_test_score', ignore_index=True)
print(results['params'][0])
pred_reg = rgr.predict(X_val_reg)

print(mean_squared_error(y_val_reg, pred_reg))
print(r2_score(y_val_reg, pred_reg))
print(mean_absolute_error(y_val_reg, pred_reg))
print(max_error(y_val_reg, pred_reg))

In [None]:
parameters = {'max_depth':[5, 10, 15], 'max_features': [1, 2, 'log2', 'sqrt']}

rgr = GridSearchCV(estimator=DecisionTreeRegressor(), param_grid=parameters, scoring='neg_mean_squared_error')
rgr.fit(X_train_reg, y_train_reg)

results = pd.DataFrame.from_dict(rgr.cv_results_)
results = results.sort_values('rank_test_score', ignore_index=True)
print(results['params'][0])
pred_reg = rgr.predict(X_val_reg)

print(mean_squared_error(y_val_reg, pred_reg))
print(r2_score(y_val_reg, pred_reg))
print(mean_absolute_error(y_val_reg, pred_reg))
print(max_error(y_val_reg, pred_reg))

In [None]:
parameters = {'n_neighbors':[15, 25, 50], 'weights':['uniform', 'distance'], 'p':[1, 2]}

rgr = GridSearchCV(estimator=KNeighborsRegressor(), param_grid=parameters, scoring='neg_mean_squared_error')
rgr.fit(X_train_reg, y_train_reg)

results = pd.DataFrame.from_dict(rgr.cv_results_)
results = results.sort_values('rank_test_score', ignore_index=True)
print(results['params'][0])
pred_reg = rgr.predict(X_val_reg)

print(mean_squared_error(y_val_reg, pred_reg))
print(r2_score(y_val_reg, pred_reg))
print(mean_absolute_error(y_val_reg, pred_reg))
print(max_error(y_val_reg, pred_reg))

In [None]:
parameters = {'n_iter':[500], 'tol':[1e-4], 'alpha_1':[1e-5, 1e-6, 1e-7], 'alpha_2':[1e-5, 1e-6, 1e-7]}

rgr = GridSearchCV(estimator=BayesianRidge(), param_grid=parameters, scoring='neg_mean_squared_error')
rgr.fit(X_train_reg, y_train_reg)

results = pd.DataFrame.from_dict(rgr.cv_results_)
results = results.sort_values('rank_test_score', ignore_index=True)
print(results['params'][0])
pred_reg = rgr.predict(X_val_reg)

print(mean_squared_error(y_val_reg, pred_reg))
print(r2_score(y_val_reg, pred_reg))
print(mean_absolute_error(y_val_reg, pred_reg))
print(max_error(y_val_reg, pred_reg))

In [None]:
parameters = {'hidden_layer_sizes':[(20, ), (50, ), (100, )], 'activation':['relu', 'logistic'], 'solver':['adam', 'lbfgs']}

rgr = GridSearchCV(estimator=MLPRegressor(), param_grid=parameters, scoring='neg_mean_squared_error')
rgr.fit(X_train_reg, y_train_reg)

results = pd.DataFrame.from_dict(rgr.cv_results_)
results = results.sort_values('rank_test_score', ignore_index=True)
print(results['params'][0])
pred_reg = rgr.predict(X_val_reg)

print(mean_squared_error(y_val_reg, pred_reg))
print(r2_score(y_val_reg, pred_reg))
print(mean_absolute_error(y_val_reg, pred_reg))
print(max_error(y_val_reg, pred_reg))