In [1]:
# Внимание!!! Важно, что бы файлы с данными и исполняемый файл находились в одной папке, 
# тогда пути к тестовым и тренировочным наборам будут содержать только имена файлов.
# 
# В пути к тренировочным и тестовым данным запрежается использовать абсалютную адресацию, 
# то есть адресацию, в которой присутствуют имена папок. Путь должен содержать только имя файла.
#
# Напоминание: под моделью машинного обучения понимаются все действия с исходными данными, 
# которые необходимо произвести, что бы сопоставить признаки целевому значению.

### Область работы 1 (библиотеки)

In [2]:
# Данный блок в области 1 выполняется преподавателем
# 
# данный блок предназначен только для подключения необходимых библиотек
# запрещается подключать библиотеки в других блоках
#
# установка дополнительных библиотек размещается прямо здесь (обязательно закоментированы)
#
# pip install

In [1]:
# Standard libraries
import random
import warnings
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
from tabulate import tabulate
from IPython.display import display_html, display

# Sklearn imports for model building and evaluation
from sklearn.model_selection import GridSearchCV, train_test_split, ShuffleSplit, cross_val_score
from sklearn.ensemble import VotingClassifier, RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression, Ridge, Lasso, ElasticNet, BayesianRidge
from sklearn.neighbors import KNeighborsClassifier, KNeighborsRegressor
from sklearn.svm import SVC, SVR
from sklearn.preprocessing import StandardScaler, OrdinalEncoder, LabelEncoder, OneHotEncoder, TargetEncoder, MinMaxScaler, RobustScaler, PolynomialFeatures, QuantileTransformer, PowerTransformer
from sklearn.metrics import make_scorer, fbeta_score, f1_score, confusion_matrix, classification_report, precision_score, recall_score, accuracy_score, roc_auc_score, roc_curve, precision_recall_curve, mean_squared_error, log_loss, zero_one_loss
from sklearn.impute import SimpleImputer, IterativeImputer, KNNImputer
from sklearn.compose import ColumnTransformer, make_column_transformer, TransformedTargetRegressor
from sklearn.pipeline import Pipeline, FeatureUnion
import category_encoders as ce

# Suppress warnings
warnings.filterwarnings('ignore')


In [None]:
path_test = 'test.csv' 
path_train_Y = 'train_Y.csv'
path_train = 'train.csv'

df_test = pd.read_csv(path_test)
df_train_Y = pd.read_csv(path_train_Y)
df_train = pd.read_csv(path_train)
df_all = pd.concat([df_train, df_train_Y], axis=1)

# print(df_test.shape, df_train_Y.shape, df_train.shape, df_all.shape)

# Голая модель 
df_all.drop_duplicates(inplace = True)

### Область работы 2 (выполнение лучшей модели)

In [4]:
# Данный блок(и) в области 2 выполняется преподавателем
#
# В области находится одна, единственная, итоговая модель машинного обучения с однозначными, 
# зафиксированными параметрами
#
# В данной области категорически запрещается искать, выбирать, улучшать, оптимизировать, 
# тюниговать и т.д. модель машинного обучения

In [5]:
path_test = 'test.csv' 
path_train_Y = 'train_Y.csv'
path_train = 'train.csv'

df_test = pd.read_csv(path_test)
df_train_Y = pd.read_csv(path_train_Y)
df_train = pd.read_csv(path_train)
df_all = pd.concat([df_train, df_train_Y], axis=1)

# print(df_test.shape, df_train_Y.shape, df_train.shape, df_all.shape)

# Голая модель 
df_all.drop_duplicates(inplace = True)

In [6]:
# Блок обучения модели (все три модели)

In [None]:
X = df_all.drop('Diabetes_binary', axis=1)  
y = df_all['Diabetes_binary']  


# Рандомный лес
model_rf = RandomForestClassifier(
    n_estimators=300,          
    criterion='entropy',      
    n_jobs=-1,                 
    bootstrap=True,            
    max_samples=None,          
    oob_score=True,            
    max_depth=15,              
    max_features='sqrt',       
    min_samples_leaf=4,        
    min_samples_split=2     
)
model_rf.fit(X, y) 

y_test_pred_RF = model_rf.predict_proba(df_test)[:, 1] 
threshold_rf = 0.4
y_predict_RF = (y_test_pred_RF >= threshold_RF).astype(int)

# Градиентный бустинг 
model_gb = GradientBoostingClassifier(
    learning_rate=0.01,        
    max_depth=7,              
    max_features='sqrt',      
    min_samples_leaf=4,       
    min_samples_split=2,      
    n_estimators=300,        
    subsample=0.8            
)

model_gb.fit(X, y)

y_test_pred_GB = model_gb.predict_proba(df_test)[:, 1] 
threshold_GB = 0.4


y_test_pred_RF = model_rf.predict_proba(df_test)[:, 1] 
threshold_GB = 0.4
y_predict_RF = (y_test_pred_GB >= threshold_GB).astype(int)

# # Войтинг (жесткий)  

# clf_rf = RandomForestClassifier(
#     criterion='entropy', 
#     max_depth=15, 
#     min_samples_leaf=4,
#     n_estimators=300, 
#     n_jobs=-1,  # Параллельное выполнение
#     oob_score=True
# )
# clf_lr = LogisticRegression(C=1, max_iter=1000)
# clf_knn = KNeighborsClassifier(n_neighbors=11, n_jobs=-1)  
# clf_svc = SVC(C=0.1, gamma='auto', probability=True)  
# clf_gb = GradientBoostingClassifier(
#     learning_rate=0.01, 
#     max_depth=7, 
#     max_features='sqrt', 
#     min_samples_leaf=4, 
#     n_estimators=300, 
#     subsample=0.8
# )
# # Войтинг 
# mb_best = VotingClassifier(
#     estimators=[('lr', clf_lr), ('rf', clf_rf), ('knn', clf_knn), ('svc', clf_svc), ('gb', clf_gb)],
#     voting='hard'
# )

# mb_best.fit(X, y)

In [7]:
# Блок предсказания с использованием тестового набора (все три модели)

In [None]:
y_predict_RF = (y_test_pred_RF >= threshold_RF).astype(int)
y_predict_GB = y_predict_RF = (y_test_pred_GB >= threshold_GB).astype(int)
y_predict_final = (y_test_pred_GB >= threshold_GB).astype(int)

In [None]:
# Вектора предсказанных значений  RandomForestClassifier или ExtraTreesClassifier


In [None]:
# Вектора предсказанных значений  GradientBoostingClassifier или HistGradientBoostingClassifier


In [None]:
# Вектора предсказанных значений  финальной модели
