In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from lightgbm import LGBMClassifier
from xgboost import XGBClassifier
from catboost import CatBoostClassifier
from tensorflow import keras
from tensorflow.keras import layers as L
from scikeras.wrappers import KerasClassifier
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score, confusion_matrix, classification_report

# Чтение DataFrame
df_models = pd.read_csv("данные для моделей.csv")
print("DataFrame 'данные для моделей.csv' успешно загружен.")

print("\n--- Классификация: превышает ли значение CC50 медианное значение выборки ---")

# 1. Определение целевой переменной для CC50
target_cc50_median_class = 'cc50_above_median' # Новая целевая колонка

# Вычисляем медиану для 'log_CC50, mM'
median_cc50 = df_models['log_CC50, mM'].median()
# Создаем бинарный столбец: 1, если log_CC50 > медианы, иначе 0
df_models[target_cc50_median_class] = (df_models['log_CC50, mM'] > median_cc50).astype(int)

print(f"Медианное значение log_CC50, mM: {median_cc50:.4f}")
print(f"Распределение классов для {target_cc50_median_class}:\n{df_models[target_cc50_median_class].value_counts()}")

# Признаки (X) и целевая переменная (y)
# Исключаем только исходные логарифмированные целевые переменные и только созданную бинарную целевую переменную для CC50.
# Это гарантирует, что код будет работать независимо.
X = df_models.drop(columns=['log_IC50, mM', 'log_CC50, mM', 'log_SI', target_cc50_median_class])
y = df_models[target_cc50_median_class]

# Разделение на обучающую и тестовую выборки
X_train_cc50_class, X_test_cc50_class, y_train_cc50_class, y_test_cc50_class = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y # stratify=y для сохранения пропорций классов
)

print(f"\nРазмер обучающей выборки (X_train_cc50_class): {X_train_cc50_class.shape}")
print(f"Размер тестовой выборки (X_test_cc50_class): {X_test_cc50_class.shape}")
print(f"Распределение классов в обучающей выборке:\n{y_train_cc50_class.value_counts(normalize=True)}")
print(f"Распределение классов в тестовой выборке:\n{y_test_cc50_class.value_counts(normalize=True)}")

# Метрики для GridSearchCV (остаются теми же)
scoring_metrics_class = {
    'Accuracy': 'accuracy',
    'F1': 'f1',
    'ROC_AUC': 'roc_auc'
}

# --- Модель 1: Логистическая Регрессия ---
print("\n===== Логистическая Регрессия для CC50 (классификация) =====")
pipeline_lr_class_cc50 = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', LogisticRegression(random_state=42, solver='liblinear'))
])

param_grid_lr_class_cc50 = {
    'classifier__C': [0.1, 1, 10],
    'classifier__penalty': ['l1', 'l2']
}

grid_search_lr_class_cc50 = GridSearchCV(
    pipeline_lr_class_cc50,
    param_grid_lr_class_cc50,
    cv=5,
    scoring=scoring_metrics_class,
    refit='ROC_AUC',
    n_jobs=-1,
    verbose=1
)

grid_search_lr_class_cc50.fit(X_train_cc50_class, y_train_cc50_class)

print("Лучшие параметры для Логистической Регрессии:", grid_search_lr_class_cc50.best_params_)
print("Лучший ROC_AUC на кросс-валидации:", grid_search_lr_class_cc50.best_score_)

# Оценка на тестовой выборке
y_pred_lr_class_cc50 = grid_search_lr_class_cc50.predict(X_test_cc50_class)
y_proba_lr_class_cc50 = grid_search_lr_class_cc50.predict_proba(X_test_cc50_class)[:, 1]

accuracy_lr_class_cc50 = accuracy_score(y_test_cc50_class, y_pred_lr_class_cc50)
f1_lr_class_cc50 = f1_score(y_test_cc50_class, y_pred_lr_class_cc50)
roc_auc_lr_class_cc50 = roc_auc_score(y_test_cc50_class, y_proba_lr_class_cc50)

print("\nМетрики на тестовой выборке (Логистическая Регрессия):")
print(f"Accuracy: {accuracy_lr_class_cc50:.4f}")
print(f"F1-score: {f1_lr_class_cc50:.4f}")
print(f"ROC AUC: {roc_auc_lr_class_cc50:.4f}")
print("\nClassification Report (Логистическая Регрессия):")
print(classification_report(y_test_cc50_class, y_pred_lr_class_cc50))


# --- Модель 2: Random Forest Классификатор ---
print("\n===== Random Forest Классификатор для CC50 (классификация) =====")
pipeline_rf_class_cc50 = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', RandomForestClassifier(random_state=42))
])

param_grid_rf_class_cc50 = {
    'classifier__n_estimators': [50, 100, 200],
    'classifier__max_features': [0.6, 0.8, 1.0],
    'classifier__min_samples_leaf': [5, 10]
}

grid_search_rf_class_cc50 = GridSearchCV(
    pipeline_rf_class_cc50,
    param_grid_rf_class_cc50,
    cv=5,
    scoring=scoring_metrics_class,
    refit='ROC_AUC',
    n_jobs=-1,
    verbose=1
)

grid_search_rf_class_cc50.fit(X_train_cc50_class, y_train_cc50_class)

print("Лучшие параметры для Random Forest:", grid_search_rf_class_cc50.best_params_)
print("Лучший ROC_AUC на кросс-валидации:", grid_search_rf_class_cc50.best_score_)

# Оценка на тестовой выборке
y_pred_rf_class_cc50 = grid_search_rf_class_cc50.predict(X_test_cc50_class)
y_proba_rf_class_cc50 = grid_search_rf_class_cc50.predict_proba(X_test_cc50_class)[:, 1]

accuracy_rf_class_cc50 = accuracy_score(y_test_cc50_class, y_pred_rf_class_cc50)
f1_rf_class_cc50 = f1_score(y_test_cc50_class, y_pred_rf_class_cc50)
roc_auc_rf_class_cc50 = roc_auc_score(y_test_cc50_class, y_proba_rf_class_cc50)

print("\nМетрики на тестовой выборке (Random Forest):")
print(f"Accuracy: {accuracy_rf_class_cc50:.4f}")
print(f"F1-score: {f1_rf_class_cc50:.4f}")
print(f"ROC AUC: {roc_auc_rf_class_cc50:.4f}")
print("\nClassification Report (Random Forest):")
print(classification_report(y_test_cc50_class, y_pred_rf_class_cc50))


# --- Модель 3: LightGBM Классификатор ---
print("\n===== LightGBM Классификатор для CC50 (классификация) =====")
pipeline_lgbm_class_cc50 = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', LGBMClassifier(random_state=42, verbose=-1))
])

param_grid_lgbm_class_cc50 = {
    'classifier__n_estimators': [100, 200],
    'classifier__learning_rate': [0.01, 0.05, 0.1],
    'classifier__num_leaves': [20, 31],
    'classifier__reg_alpha': [0.1, 0.5],
    'classifier__reg_lambda': [0.1, 0.5]
}

grid_search_lgbm_class_cc50 = GridSearchCV(
    pipeline_lgbm_class_cc50,
    param_grid_lgbm_class_cc50,
    cv=5,
    scoring=scoring_metrics_class,
    refit='ROC_AUC',
    n_jobs=-1,
    verbose=1
)

grid_search_lgbm_class_cc50.fit(X_train_cc50_class, y_train_cc50_class)

print("Лучшие параметры для LightGBM:", grid_search_lgbm_class_cc50.best_params_)
print("Лучший ROC_AUC на кросс-валидации:", grid_search_lgbm_class_cc50.best_score_)

# Оценка на тестовой выборке
y_pred_lgbm_class_cc50 = grid_search_lgbm_class_cc50.predict(X_test_cc50_class)
y_proba_lgbm_class_cc50 = grid_search_lgbm_class_cc50.predict_proba(X_test_cc50_class)[:, 1]

accuracy_lgbm_class_cc50 = accuracy_score(y_test_cc50_class, y_pred_lgbm_class_cc50)
f1_lgbm_class_cc50 = f1_score(y_test_cc50_class, y_pred_lgbm_class_cc50)
roc_auc_lgbm_class_cc50 = roc_auc_score(y_test_cc50_class, y_proba_lgbm_class_cc50)

print("\nМетрики на тестовой выборке (LightGBM):")
print(f"Accuracy: {accuracy_lgbm_class_cc50:.4f}")
print(f"F1-score: {f1_lgbm_class_cc50:.4f}")
print(f"ROC AUC: {roc_auc_lgbm_class_cc50:.4f}")
print("\nClassification Report (LightGBM):")
print(classification_report(y_test_cc50_class, y_pred_lgbm_class_cc50))


# --- Модель 4: XGBoost Классификатор ---
print("\n===== XGBoost Классификатор для CC50 (классификация) =====")
pipeline_xgb_class_cc50 = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', XGBClassifier(random_state=42, use_label_encoder=False, eval_metric='logloss'))
])

param_grid_xgb_class_cc50 = {
    'classifier__n_estimators': [100, 200],
    'classifier__learning_rate': [0.01, 0.05, 0.1],
    'classifier__max_depth': [3, 5],
    'classifier__subsample': [0.7, 1.0],
    'classifier__colsample_bytree': [0.7, 1.0]
}

grid_search_xgb_class_cc50 = GridSearchCV(
    pipeline_xgb_class_cc50,
    param_grid_xgb_class_cc50,
    cv=5,
    scoring=scoring_metrics_class,
    refit='ROC_AUC',
    n_jobs=-1,
    verbose=1
)

grid_search_xgb_class_cc50.fit(X_train_cc50_class, y_train_cc50_class)

print("Лучшие параметры для XGBoost:", grid_search_xgb_class_cc50.best_params_)
print("Лучший ROC_AUC на кросс-валидации:", grid_search_xgb_class_cc50.best_score_)

# Оценка на тестовой выборке
y_pred_xgb_class_cc50 = grid_search_xgb_class_cc50.predict(X_test_cc50_class)
y_proba_xgb_class_cc50 = grid_search_xgb_class_cc50.predict_proba(X_test_cc50_class)[:, 1]

accuracy_xgb_class_cc50 = accuracy_score(y_test_cc50_class, y_pred_xgb_class_cc50)
f1_xgb_class_cc50 = f1_score(y_test_cc50_class, y_pred_xgb_class_cc50)
roc_auc_xgb_class_cc50 = roc_auc_score(y_test_cc50_class, y_proba_xgb_class_cc50)

print("\nМетрики на тестовой выборке (XGBoost):")
print(f"Accuracy: {accuracy_xgb_class_cc50:.4f}")
print(f"F1-score: {f1_xgb_class_cc50:.4f}")
print(f"ROC AUC: {roc_auc_xgb_class_cc50:.4f}")
print("\nClassification Report (XGBoost):")
print(classification_report(y_test_cc50_class, y_pred_xgb_class_cc50))


# --- Модель 5: CatBoost Классификатор ---
print("\n===== CatBoost Классификатор для CC50 (классификация) =====")
pipeline_cat_class_cc50 = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', CatBoostClassifier(random_state=42, verbose=0))
])

param_grid_cat_class_cc50 = {
    'classifier__iterations': [100, 200],
    'classifier__learning_rate': [0.01, 0.05, 0.1],
    'classifier__depth': [4, 6],
    'classifier__l2_leaf_reg': [1, 3]
}

grid_search_cat_class_cc50 = GridSearchCV(
    pipeline_cat_class_cc50,
    param_grid_cat_class_cc50,
    cv=5,
    scoring=scoring_metrics_class,
    refit='ROC_AUC',
    n_jobs=-1,
    verbose=1
)

grid_search_cat_class_cc50.fit(X_train_cc50_class, y_train_cc50_class)

print("Лучшие параметры для CatBoost:", grid_search_cat_class_cc50.best_params_)
print("Лучший ROC_AUC на кросс-валидации:", grid_search_cat_class_cc50.best_score_)

# Оценка на тестовой выборке
y_pred_cat_class_cc50 = grid_search_cat_class_cc50.predict(X_test_cc50_class)
y_proba_cat_class_cc50 = grid_search_cat_class_cc50.predict_proba(X_test_cc50_class)[:, 1]

accuracy_cat_class_cc50 = accuracy_score(y_test_cc50_class, y_pred_cat_class_cc50)
f1_cat_class_cc50 = f1_score(y_test_cc50_class, y_pred_cat_class_cc50)
roc_auc_cat_class_cc50 = roc_auc_score(y_test_cc50_class, y_proba_cat_class_cc50)

print("\nМетрики на тестовой выборке (CatBoost):")
print(f"Accuracy: {accuracy_cat_class_cc50:.4f}")
print(f"F1-score: {f1_cat_class_cc50:.4f}")
print(f"ROC AUC: {roc_auc_cat_class_cc50:.4f}")
print("\nClassification Report (CatBoost):")
print(classification_report(y_test_cc50_class, y_pred_cat_class_cc50))


# --- Модель 6: Простая Нейронная Сеть (Keras Sequential) ---
print("\n===== Простая Нейронная Сеть для CC50 (классификация) =====")

# Функция для создания Keras-модели (используем ту же, что и раньше)
def build_nn_model_class(meta, hidden_layers=1, neurons=32, activation='relu',
                         optimizer='adam', learning_rate=0.001):
    n_features = meta["n_features_in_"]
    
    model = keras.Sequential()
    model.add(L.Input(shape=(n_features,)))
    
    for _ in range(hidden_layers):
        model.add(L.Dense(neurons, activation=activation))
        
    model.add(L.Dense(1, activation='sigmoid')) # Sigmoid для бинарной классификации
    
    if optimizer == 'adam':
        opt = keras.optimizers.Adam(learning_rate=learning_rate)
    elif optimizer == 'rmsprop':
        opt = keras.optimizers.RMSprop(learning_rate=learning_rate)
    else:
        opt = keras.optimizers.Adam(learning_rate=learning_rate)

    model.compile(optimizer=opt, loss='binary_crossentropy', metrics=['accuracy'])
    return model

pipeline_nn_class_cc50 = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', KerasClassifier(
        model=build_nn_model_class,
        hidden_layers=1,
        neurons=32,
        activation='relu',
        optimizer='adam',
        learning_rate=0.001,
        batch_size=32,
        epochs=50,
        verbose=0,
        random_state=42,
        loss='binary_crossentropy' # Лосс для бинарной классификации
    ))
])

param_grid_nn_class_cc50 = {
    'classifier__hidden_layers': [1, 2],
    'classifier__neurons': [32, 64],
    'classifier__activation': ['relu'],
    'classifier__optimizer': ['adam'],
    'classifier__learning_rate': [0.001, 0.01],
    'classifier__batch_size': [32, 64],
    'classifier__epochs': [50, 100]
}

grid_search_nn_class_cc50 = GridSearchCV(
    pipeline_nn_class_cc50,
    param_grid_nn_class_cc50,
    cv=3, # Уменьшаем CV для скорости NN
    scoring=scoring_metrics_class,
    refit='ROC_AUC',
    n_jobs=-1,
    verbose=1
)

grid_search_nn_class_cc50.fit(X_train_cc50_class, y_train_cc50_class)

print("Лучшие параметры для Нейронной Сети:", grid_search_nn_class_cc50.best_params_)
print("Лучший ROC_AUC на кросс-валидации:", grid_search_nn_class_cc50.best_score_)

# Оценка на тестовой выборке
y_pred_nn_class_cc50 = grid_search_nn_class_cc50.predict(X_test_cc50_class)
y_proba_nn_class_cc50 = grid_search_nn_class_cc50.predict_proba(X_test_cc50_class)[:, 1]

accuracy_nn_class_cc50 = accuracy_score(y_test_cc50_class, y_pred_nn_class_cc50)
f1_nn_class_cc50 = f1_score(y_test_cc50_class, y_pred_nn_class_cc50)
roc_auc_nn_class_cc50 = roc_auc_score(y_test_cc50_class, y_proba_nn_class_cc50)

print("\nМетрики на тестовой выборке (Нейронная Сеть):")
print(f"Accuracy: {accuracy_nn_class_cc50:.4f}")
print(f"F1-score: {f1_nn_class_cc50:.4f}")
print(f"ROC AUC: {roc_auc_nn_class_cc50:.4f}")
print("\nClassification Report (Нейронная Сеть):")
print(classification_report(y_test_cc50_class, y_pred_nn_class_cc50))

DataFrame 'данные для моделей.csv' успешно загружен.

--- Классификация: превышает ли значение CC50 медианное значение выборки ---
Медианное значение log_CC50, mM: 2.6255
Распределение классов для cc50_above_median:
cc50_above_median
0    484
1    483
Name: count, dtype: int64

Размер обучающей выборки (X_train_cc50_class): (773, 68)
Размер тестовой выборки (X_test_cc50_class): (194, 68)
Распределение классов в обучающей выборке:
cc50_above_median
0    0.500647
1    0.499353
Name: proportion, dtype: float64
Распределение классов в тестовой выборке:
cc50_above_median
0    0.5
1    0.5
Name: proportion, dtype: float64

===== Логистическая Регрессия для CC50 (классификация) =====
Fitting 5 folds for each of 6 candidates, totalling 30 fits
Лучшие параметры для Логистической Регрессии: {'classifier__C': 1, 'classifier__penalty': 'l1'}
Лучший ROC_AUC на кросс-валидации: 0.783690984340335

Метрики на тестовой выборке (Логистическая Регрессия):
Accuracy: 0.7320
F1-score: 0.7400
ROC AUC: 0.7803

Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)


Лучшие параметры для XGBoost: {'classifier__colsample_bytree': 0.7, 'classifier__learning_rate': 0.01, 'classifier__max_depth': 5, 'classifier__n_estimators': 200, 'classifier__subsample': 0.7}
Лучший ROC_AUC на кросс-валидации: 0.8222943722943722

Метрики на тестовой выборке (XGBoost):
Accuracy: 0.7423
F1-score: 0.7525
ROC AUC: 0.8203

Classification Report (XGBoost):
              precision    recall  f1-score   support

           0       0.76      0.70      0.73        97
           1       0.72      0.78      0.75        97

    accuracy                           0.74       194
   macro avg       0.74      0.74      0.74       194
weighted avg       0.74      0.74      0.74       194


===== CatBoost Классификатор для CC50 (классификация) =====
Fitting 5 folds for each of 24 candidates, totalling 120 fits
Лучшие параметры для CatBoost: {'classifier__depth': 6, 'classifier__iterations': 200, 'classifier__l2_leaf_reg': 3, 'classifier__learning_rate': 0.01}
Лучший ROC_AUC на кросс-ва



Лучшие параметры для Нейронной Сети: {'classifier__activation': 'relu', 'classifier__batch_size': 64, 'classifier__epochs': 50, 'classifier__hidden_layers': 1, 'classifier__learning_rate': 0.001, 'classifier__neurons': 64, 'classifier__optimizer': 'adam'}
Лучший ROC_AUC на кросс-валидации: 0.8128541391242513

Метрики на тестовой выборке (Нейронная Сеть):
Accuracy: 0.7216
F1-score: 0.7273
ROC AUC: 0.8194

Classification Report (Нейронная Сеть):
              precision    recall  f1-score   support

           0       0.73      0.70      0.72        97
           1       0.71      0.74      0.73        97

    accuracy                           0.72       194
   macro avg       0.72      0.72      0.72       194
weighted avg       0.72      0.72      0.72       194

