
Описание данных:

В данной лабораторной работе представлены данные по диабету среди коренных жительниц США. В данном датасете представлены следующие признаки:


1.   Количестов беременностей
2.   Глюкоза
3.   Кровяное давление
4.   Толщина кожи
5.   Инсулин
6.   BMI
7.   Diabetes Pedigree Function
8.   Возраст
9.   Исход

Все признаки, кроме исхода, являются вещественными, а исход является бинарным признаком, где 1 - больной, а 0 - здоровый пациент.

Выполнение работы:

Сначала подключаемся к облачному хранилищу для работы с файлом и подключаем все необходимые библиотеки.

In [None]:
from google.colab import drive 
drive.mount('/content/gdrive') 

import numpy as np
import pandas as pd

DiabetSet = pd.read_csv("/content/gdrive/MyDrive/Colab Notebooks/diabetes (1).csv")
DiabetSet.head()

Mounted at /content/gdrive


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


Изменим тип исхода на категориальную переменную.

In [None]:
DiabetSet = DiabetSet.astype({'Outcome': 'category'})

Далее с помощью методы dtype определяем типы данных, которые представлены в данной таблице. В данном случае типы данных это int64, float64 и category

In [None]:
DiabetSet.dtypes

Pregnancies                    int64
Glucose                        int64
BloodPressure                  int64
SkinThickness                  int64
Insulin                        int64
BMI                          float64
DiabetesPedigreeFunction     float64
Age                            int64
Outcome                     category
dtype: object

Для более коректного сравнения произведем замену нулевых значений на среднее, на основании предыдущей группировки по исходу, данная замена позволит более четко проследить зависимость и впоследствии построить какую-либо модель.

In [None]:
Indexes = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age']
for line in range(len(DiabetSet)):
  for col in range(1, len(DiabetSet.loc[line])-1):
    if DiabetSet.loc[line, Indexes[col]] == 0:
      DiabetSet.loc[line, Indexes[col]] = DiabetSet.groupby(['Outcome']).mean().loc[DiabetSet.loc[line, 'Outcome'], Indexes[col]]
DiabetSet.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148.0,72.0,35.0,100.335821,33.6,0.627,50,1
1,1,85.0,66.0,29.0,68.792,26.6,0.351,31,0
2,8,183.0,64.0,22.164179,100.710208,23.3,0.672,32,1
3,1,89.0,66.0,23.0,94.0,28.1,0.167,21,0
4,0,137.0,40.0,35.0,168.0,43.1,2.288,33,1


Первой библиотекой, которой мы  воспользуемся будет H20. Для этого установим ее и подключимся к ней.

In [None]:
!pip install -f http://h2o-release.s3.amazonaws.com/h2o/latest_stable_Py.html h2o

import h2o
from h2o.estimators.gbm import H2OGradientBoostingEstimator
h2o.init()

In [None]:
DiabetSet.columns

Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
       'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'],
      dtype='object')

Выделим признаки, которые являются независимыми, а также результирующую переменную.

In [None]:
predictors = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age']
response = "Outcome"

Конвертируем датафрейм Pandas в H2Oframe

In [None]:
from h2o.estimators.extended_isolation_forest import H2OFrame
data = H2OFrame(DiabetSet)

Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%


Далее необходимо изменить тип переменной "Исход" на факторный, для корректной работы программы.

In [None]:
data['Outcome'] = data['Outcome'].asfactor()

Проведем разделение выборки на тестовую и валидационную

In [None]:
train, valid = data.split_frame(ratios = [.8], seed = 1234)

In [None]:
diabet_gbm = H2OGradientBoostingEstimator(sample_rate = .7, seed = 1234)
diabet_gbm.train(x = predictors,
                   y = response,
                   training_frame = train,
                   validation_frame = valid)

perf = diabet_gbm.model_performance(valid)
perf

gbm Model Build progress: |██████████████████████████████████████████████████████| (done) 100%


Unnamed: 0,0,1,Error,Rate
0,94.0,10.0,0.0962,(10.0/104.0)
1,9.0,42.0,0.1765,(9.0/51.0)
Total,103.0,52.0,0.1226,(19.0/155.0)

metric,threshold,value,idx
max f1,0.4123357,0.815534,51.0
max f2,0.1262527,0.8419244,86.0
max f0point5,0.6968776,0.862069,37.0
max accuracy,0.6968776,0.8774194,37.0
max precision,0.9774227,1.0,0.0
max recall,0.0167663,1.0,139.0
max specificity,0.9774227,1.0,0.0
max absolute_mcc,0.4123357,0.723836,51.0
max min_per_class_accuracy,0.3675744,0.8431373,57.0
max mean_per_class_accuracy,0.4123357,0.8636878,51.0

group,cumulative_data_fraction,lower_threshold,lift,cumulative_lift,response_rate,score,cumulative_response_rate,cumulative_score,capture_rate,cumulative_capture_rate,gain,cumulative_gain,kolmogorov_smirnov
1,0.0129032,0.9736033,3.0392157,3.0392157,1.0,0.9764258,1.0,0.9764258,0.0392157,0.0392157,203.9215686,203.9215686,0.0392157
2,0.0258065,0.9659551,3.0392157,3.0392157,1.0,0.9693503,1.0,0.972888,0.0392157,0.0784314,203.9215686,203.9215686,0.0784314
3,0.0322581,0.9568146,3.0392157,3.0392157,1.0,0.9579377,1.0,0.9698979,0.0196078,0.0980392,203.9215686,203.9215686,0.0980392
4,0.0451613,0.9532313,3.0392157,3.0392157,1.0,0.9549046,1.0,0.9656141,0.0392157,0.1372549,203.9215686,203.9215686,0.1372549
5,0.0516129,0.9497886,3.0392157,3.0392157,1.0,0.95086,1.0,0.9637699,0.0196078,0.1568627,203.9215686,203.9215686,0.1568627
6,0.1032258,0.9329335,2.2794118,2.6593137,0.75,0.9419673,0.875,0.9528686,0.1176471,0.2745098,127.9411765,165.9313725,0.255279
7,0.1548387,0.8579541,2.6593137,2.6593137,0.875,0.9005817,0.875,0.9354396,0.1372549,0.4117647,165.9313725,165.9313725,0.3829186
8,0.2,0.7790846,3.0392157,2.745098,1.0,0.821529,0.9032258,0.9097179,0.1372549,0.5490196,203.9215686,174.5098039,0.5201735
9,0.3032258,0.5158643,1.8995098,2.4572382,0.625,0.6618484,0.8085106,0.8253368,0.1960784,0.745098,89.9509804,145.7238214,0.6585596
10,0.4,0.2869368,1.2156863,2.1568627,0.4,0.3955576,0.7096774,0.7213579,0.1176471,0.8627451,21.5686275,115.6862745,0.6896682


По результатм данной библиотеки удалось получить точность в 87,7%, f-мера 81,1%. Данные показатели ниже, чем те, которые были получены при обычном машинном обучение:

RfOver Accuracy: 0.9 Precision: 0.87 Recall 0.93 F1: 0.9 ROC_AUC: 0.9

В целом ухудшение не сильное, но ручное обучения дает лучший результат.

Далее попробуем воспользоваться библиотекой TPOT и посмотрим на ее результаты. Аналогично устанавливаем библиотеку и подключаемся к ней

In [None]:
!pip install deap update_checker tqdm stopit xgboost

In [None]:
!pip install tpot

In [None]:
from sklearn.model_selection import train_test_split
import numpy as np

Разделим датасет на X и y, а также разобьем выборку на тестовую и тренировочную.

In [None]:
X = DiabetSet.drop(('Outcome'), axis=1)
y = DiabetSet['Outcome']
feature_names = X.columns

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.75, test_size=0.25, random_state=42)

In [None]:
from tpot import TPOTClassifier 

tpot = TPOTClassifier(generations=5, population_size=50, verbosity=2, random_state=42)
tpot.fit(X_train, y_train)
print(tpot.score(X_test, y_test))

Optimization Progress:   0%|          | 0/300 [00:00<?, ?pipeline/s]


Generation 1 - Current best internal CV score: 0.8472113943028485

Generation 2 - Current best internal CV score: 0.8489505247376311

Generation 3 - Current best internal CV score: 0.8489505247376311

Generation 4 - Current best internal CV score: 0.8489505247376311

Generation 5 - Current best internal CV score: 0.8489505247376311

Best pipeline: BernoulliNB(GaussianNB(XGBClassifier(input_matrix, learning_rate=0.5, max_depth=3, min_child_weight=8, n_estimators=100, n_jobs=1, subsample=1.0, verbosity=0)), alpha=10.0, fit_prior=False)
0.796875


Таким образом данная библиотека дала на результат в районе 84,8%, что хуже чем при применении предыдущей библиотеки, а также ручного машинного обучения.

