In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
from sklearn.preprocessing import PolynomialFeatures
from imblearn.over_sampling import SMOTE
from sklearn.metrics import roc_auc_score
 
# Загрузка и подготовка данных
data = pd.read_csv('german.csv', sep=';')
X = data.iloc[:, 1:].values
y = data.iloc[:, 0].values
 
# Разделение на обучающий и тестовый наборы данных
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
 
# Инженерия признаков с полиномиальными признаками (степень 2)
poly = PolynomialFeatures(degree=2)
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)
 


 
# Случайный лес
param_grid_rf = {'n_estimators': [100, 200, 500]}
grid_search_rf = GridSearchCV(RandomForestClassifier(), param_grid_rf, cv=5)
grid_search_rf.fit(X_train_poly, y_train)
best_rf = grid_search_rf.best_estimator_
 
 
# Применение SMOTE для перебалансировки классов
smote = SMOTE(random_state=42)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train_poly, y_train)
 
# Обучение моделей на сбалансированных данных
best_rf.fit(X_train_resampled, y_train_resampled)

 
# Прогноз на тестовых данных
y_pred_rf = best_rf.predict_proba(X_test_poly)[:, 1]

 
# Вычисление метрики ROC AUC
roc_auc_rf = roc_auc_score(y_test, y_pred_rf)



print("Random Forest ROC AUC:", roc_auc_rf)

Random Forest ROC AUC: 0.8111266947171576


In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import GradientBoostingClassifier
from imblearn.over_sampling import SMOTE
from sklearn.metrics import roc_auc_score
 
# Загрузка и подготовка данных
data = pd.read_csv('german.csv', sep=';')
X = data.iloc[:, 1:].values
y = data.iloc[:, 0].values
 
# Разделение на обучающий и тестовый наборы данных
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
 
# Применение SMOTE для перебалансировки классов
smote = SMOTE(random_state=42)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train, y_train)
 
# Подбор гиперпараметров с помощью GridSearchCV
param_grid = {'n_estimators': [100, 200, 500, 600, 1000], 'learning_rate': [0.1, 0.01, 0.001]}
grid_search = GridSearchCV(GradientBoostingClassifier(), param_grid, cv=5)
grid_search.fit(X_train_resampled, y_train_resampled)
best_model = grid_search.best_estimator_

# Прогноз на тестовых данных
y_pred = best_model.predict_proba(X_test)[:, 1]
 
# Вычисление метрики ROC AUC
roc_auc = roc_auc_score(y_test, y_pred)
 
print("ROC AUC: Gradient boosting", roc_auc)

ROC AUC: Gradient boosting 0.7594670406732118


In [3]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neural_network import MLPClassifier
from sklearn.preprocessing import StandardScaler
from imblearn.over_sampling import SMOTE
from sklearn.metrics import roc_auc_score
 
# Загрузка и подготовка данных
data1 = pd.read_csv('german.csv')
 
# Применяйте необходимые преобразования и оцените оптимальные признаки для вашего случая
# Здесь предполагается, что данные уже подготовлены и масштабированы
 
# Выделение признаков и целевой переменной
X = data.iloc[:, 1:].to_numpy()
y = data.iloc[:, 0].to_numpy()
 
# Разделение на обучающий и тестовый наборы данных
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
 
# Масштабирование признаков
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
 
# Применение SMOTE для перебалансировки классов в обучающем наборе
smote = SMOTE(random_state=42)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train, y_train)
 
# Подбор оптимальных параметров с помощью GridSearchCV
parameters = {'hidden_layer_sizes': [(100, 50), (50, 50, 50), (100, 100, 100)],
              'activation': ['logistic', 'relu'],
              'alpha': [0.0001, 0.001, 0.01]}
mlp = MLPClassifier(random_state=42)
grid_search = GridSearchCV(mlp, parameters, cv=5, scoring='roc_auc')
grid_search.fit(X_train_resampled, y_train_resampled)
 
# Лучшая модель после подбора параметров
best_mlp = grid_search.best_estimator_
 
# Прогноз на тестовых данных
y_pred = best_mlp.predict_proba(X_test)[:, 1]
 
# Вычисление и вывод метрики ROC AUC
roc_auc = roc_auc_score(y_test, y_pred)
if roc_auc > 0.8:
    print("Метрика ROC AUC больше 0.8:", roc_auc)
else:
    print("Метрика ROC AUC меньше или равна 0.8:", roc_auc)

