In [1]:
# Импорт всех необходимых библиотек
!pip install catboost xgboost

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score
from catboost import CatBoostClassifier
import xgboost as xgb

data = pd.read_excel('Данные_для_курсовои_Классическое_МО.xlsx').drop(columns=['Unnamed: 0'])
data.dropna(inplace=True)

# Переместим названия колонок в отдельную переменную, пригодится
columns = data.columns.tolist()

# Быстрая проверка
data.head()

#'IC50, mM', 'CC50, mM', 'SI'



Unnamed: 0,"IC50, mM","CC50, mM",SI,MaxAbsEStateIndex,MaxEStateIndex,MinAbsEStateIndex,MinEStateIndex,qed,SPS,MolWt,...,fr_sulfide,fr_sulfonamd,fr_sulfone,fr_term_acetylene,fr_tetrazole,fr_thiazole,fr_thiocyan,fr_thiophene,fr_unbrch_alkane,fr_urea
0,6.239374,175.482382,28.125,5.094096,5.094096,0.387225,0.387225,0.417362,42.928571,384.652,...,0,0,0,0,0,0,0,0,3,0
1,0.771831,5.402819,7.0,3.961417,3.961417,0.533868,0.533868,0.462473,45.214286,388.684,...,0,0,0,0,0,0,0,0,3,0
2,223.808778,161.14232,0.72,2.627117,2.627117,0.543231,0.543231,0.260923,42.1875,446.808,...,0,0,0,0,0,0,0,0,3,0
3,1.705624,107.855654,63.235294,5.09736,5.09736,0.390603,0.390603,0.377846,41.862069,398.679,...,0,0,0,0,0,0,0,0,4,0
4,107.131532,139.270991,1.3,5.15051,5.15051,0.270476,0.270476,0.429038,36.514286,466.713,...,0,0,0,0,0,0,0,0,0,0


In [2]:
# Создаём бинарную целевую переменную
cc50_median = data['CC50, mM'].median()
print(f"Медиана CC50: {cc50_median}")

y = (data['CC50, mM'] > cc50_median).astype(int)
X = data.drop(columns=['IC50, mM', 'CC50, mM', 'SI'])

# Разбиение на обучающую и тестовую выборку
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# Масштабирование признаков
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

Медиана CC50: 408.79331430383263


Логистическая регрессия
---

In [3]:
logreg = LogisticRegression(max_iter=1000, random_state=42)
logreg.fit(X_train_scaled, y_train)
y_pred_logreg = logreg.predict(X_test_scaled)

print("Логистическая регрессия:")
print("Accuracy:", accuracy_score(y_test, y_pred_logreg))
print("F1:", f1_score(y_test, y_pred_logreg))
print("ROC-AUC:", roc_auc_score(y_test, y_pred_logreg))

Логистическая регрессия:
Accuracy: 0.72
F1: 0.7383177570093458
ROC-AUC: 0.72


In [4]:
rf_model = RandomForestClassifier(n_estimators=200, max_depth=7, random_state=42)
rf_model.fit(X_train, y_train)
y_pred_rf = rf_model.predict(X_test)

print("Random Forest:")
print("Accuracy:", accuracy_score(y_test, y_pred_rf))
print("F1:", f1_score(y_test, y_pred_rf))
print("ROC-AUC:", roc_auc_score(y_test, y_pred_rf))

Random Forest:
Accuracy: 0.74
F1: 0.7592592592592593
ROC-AUC: 0.7399999999999999


In [5]:
cat_model = CatBoostClassifier(
    iterations=1000,
    depth=6,
    learning_rate=0.05,
    random_seed=42,
    verbose=0
)
cat_model.fit(X_train, y_train)
y_pred_cat = cat_model.predict(X_test)

print("CatBoost:")
print("Accuracy:", accuracy_score(y_test, y_pred_cat))
print("F1:", f1_score(y_test, y_pred_cat))
print("ROC-AUC:", roc_auc_score(y_test, y_pred_cat))

CatBoost:
Accuracy: 0.755
F1: 0.7655502392344498
ROC-AUC: 0.755


In [6]:
xgb_model = xgb.XGBClassifier(
    n_estimators=500,
    max_depth=5,
    learning_rate=0.05,
    random_state=42
)
xgb_model.fit(X_train, y_train)
y_pred_xgb = xgb_model.predict(X_test)

print("XGBoost:")
print("Accuracy:", accuracy_score(y_test, y_pred_xgb))
print("F1:", f1_score(y_test, y_pred_xgb))
print("ROC-AUC:", roc_auc_score(y_test, y_pred_xgb))

XGBoost:
Accuracy: 0.77
F1: 0.780952380952381
ROC-AUC: 0.7699999999999999


In [7]:
results_cc50_clf = pd.DataFrame({
    'Модель': ['Logistic Regression', 'Random Forest', 'CatBoost', 'XGBoost'],
    'Accuracy': [
        accuracy_score(y_test, y_pred_logreg),
        accuracy_score(y_test, y_pred_rf),
        accuracy_score(y_test, y_pred_cat),
        accuracy_score(y_test, y_pred_xgb)
    ],
    'F1': [
        f1_score(y_test, y_pred_logreg),
        f1_score(y_test, y_pred_rf),
        f1_score(y_test, y_pred_cat),
        f1_score(y_test, y_pred_xgb)
    ],
    'ROC-AUC': [
        roc_auc_score(y_test, y_pred_logreg),
        roc_auc_score(y_test, y_pred_rf),
        roc_auc_score(y_test, y_pred_cat),
        roc_auc_score(y_test, y_pred_xgb)
    ]
})

display(results_cc50_clf)

Unnamed: 0,Модель,Accuracy,F1,ROC-AUC
0,Logistic Regression,0.72,0.738318,0.72
1,Random Forest,0.74,0.759259,0.74
2,CatBoost,0.755,0.76555,0.755
3,XGBoost,0.77,0.780952,0.77


Logistic Regression:
Работает стабильно, но не выдаёт ничего сверхъестественного.

F1-score и ROC-AUC на том же уровне — модель улавливает общий тренд, но не видит тонких закономерностей.

---

Random Forest:
Прирост на 2% в Accuracy/F1 — уже приятный апгрейд.

Модель умеет работать с нелинейностями и сложными взаимодействиями признаков — тут это дало результат.

---

CatBoost:
Дал ещё небольшой апгрейд.
F1 уже ближе к 0.77 — значит, модель лучше справляется с балансом точности и полноты.

---

XGBoost (победитель):
Лучший результат по всем метрикам.

Видимо, именно в этой задаче (медианная классификация токсичности) он точнее всего настраивает свои деревья.

Это уже очень уверенные 77% точности — отличный результат