### Используемые библиотеки

In [33]:
import pandas as pd
from skopt import BayesSearchCV
from skopt.space import Categorical
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import r2_score, root_mean_squared_error
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.model_selection import train_test_split
from sklearn.feature_selection import SelectKBest, mutual_info_regression

In [34]:
# считываем обработанные данные
df = pd.read_csv("data.csv")
df_y = df[['IC50, mM', 'CC50, mM', 'SI']]
df_x = df.drop(columns=['IC50, mM', 'CC50, mM', 'SI'])

### Регрессия IC50

In [35]:
# датасет для сравнения метрик по каждой из модели
metrics = pd.DataFrame(columns=["Среднеквадратичная ошибка",
                                "Коэффициент детерминации",
                                "Коэффициент детерминации при обучение"]
                                )

In [36]:
# избавимся от лишних признаков, выделим целевую переменную и добавим дополнительный признак
y_data = df_y['IC50, mM']
x_data = df_x
x_data['CC50, mM'] = df_y['CC50, mM']

# сократим количество признаков до 50 с помощью Mutual Info
selector = SelectKBest(score_func=mutual_info_regression, k=50)
select_x_data = selector.fit_transform(x_data, y_data)
selected_features = x_data.columns[selector.get_support()]
x_data = pd.DataFrame(select_x_data, columns=selected_features)

# разделим данные на тестовыые и тренировочные
X_train, X_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.2, random_state=42)
print(f'Тренеровочные данные: {X_train.shape}, {y_train.shape}')
print(f'Tестовые данные: {X_test.shape}, {y_test.shape}')

# стандартизируем данные train
scaler = StandardScaler()
tmp_data = scaler.fit_transform(X_train)
scaled_X_train = pd.DataFrame(tmp_data, columns=x_data.columns)

# стандартизируем данные test
tmp_data = scaler.transform(X_test)
scaled_X_test = pd.DataFrame(tmp_data, columns=x_data.columns)

Тренеровочные данные: (772, 50), (772,)
Tестовые данные: (194, 50), (194,)


#### RandomForestRegressor

In [37]:
# определим пространство гиперпараметров для модели RandomForestRegressor
param_space_rfr = {
    'n_estimators': (50, 500),
    'max_depth': (1, 50),
    'min_samples_split': (2, 20),
    'min_samples_leaf': (1, 10),
    'max_features': Categorical(['sqrt', 'log2']),
    'bootstrap': Categorical([True, False])
}

# создадим модель
model = RandomForestRegressor(random_state=42)

# оптимизируем с помощью Байесовского поиска
bayes_search = BayesSearchCV(
    estimator=model,
    search_spaces=param_space_rfr,
    n_iter=20,
    cv=5,
    scoring='r2',
    n_jobs=-1,
    random_state=42,
)

bayes_search.fit(scaled_X_train, y_train)

# выведем показатели
r2_model = round(bayes_search.best_score_, 4)
print(f'R² = {r2_model}\n')
print('Лучшие параметры модели:')
for k, v in bayes_search.best_params_.items():
    print(f"{k} = {v}")

# сохраним модель с наилучшими параметрами
rfr_model = bayes_search.best_estimator_


R² = 0.5337

Лучшие параметры модели:
bootstrap = False
max_depth = 47
max_features = sqrt
min_samples_leaf = 3
min_samples_split = 16
n_estimators = 218


In [38]:
# рассчитаем y
y_pred = rfr_model.predict(scaled_X_test)

# оценим метрики
rmse = root_mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Среднеквадратичная ошибка: {round(rmse, 4)}")
print(f"Коэффициент детерминации: {round(r2, 4)}")

# сохраним данные в таблицу
res = {"Среднеквадратичная ошибка":round(rmse, 4),
       "Коэффициент детерминации": round(r2, 4),
       "Коэффициент детерминации при обучение": r2_model}
metrics.loc[0] = res

Среднеквадратичная ошибка: 1.2439
Коэффициент детерминации: 0.5718


#### GradientBoostingRegressor

In [39]:
# определим пространство гиперпараметров для модели GradientBoostingRegressor
param_space_gbr = {
    'n_estimators': (10, 200),
    'max_depth': (1, 20),
    'min_samples_split': (2, 10),
    'min_samples_leaf': (1, 7),
}

# создадим модель
model = GradientBoostingRegressor(random_state=42)

# оптимизируем с помощью Байесовского поиска
bayes_search = BayesSearchCV(
    estimator=model,
    search_spaces=param_space_gbr,
    n_iter=20,
    cv=5,
    scoring='r2',
    n_jobs=-1,
    random_state=42,
)

bayes_search.fit(scaled_X_train, y_train)

# выведем показатели
r2_model = round(bayes_search.best_score_, 4)
print(f'R² = {r2_model}\n')
print('Лучшие параметры модели:')
for k, v in bayes_search.best_params_.items():
    print(f"{k} = {v}")

# сохраним модель с наилучшими параметрами
gbr_model = bayes_search.best_estimator_

R² = 0.5437

Лучшие параметры модели:
max_depth = 4
min_samples_leaf = 5
min_samples_split = 3
n_estimators = 194


In [40]:
# рассчитаем y
y_pred = gbr_model.predict(scaled_X_test)

# оценим метрики
rmse = root_mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Среднеквадратичная ошибка: {round(rmse, 4)}")
print(f"Коэффициент детерминации: {round(r2, 4)}")

# сохраним данные в таблицу
res = {"Среднеквадратичная ошибка":round(rmse, 4),
       "Коэффициент детерминации": round(r2, 4),
       "Коэффициент детерминации при обучение": r2_model}
metrics.loc[1] = res

Среднеквадратичная ошибка: 1.253
Коэффициент детерминации: 0.5656


#### KNeighborsRegressor

In [41]:
# определим пространство гиперпараметров для модели KNeighborsRegressor
param_space_knn = {
    'n_neighbors': (10, 100),
    'algorithm': Categorical(["auto", "brute"]),
    'leaf_size': (50, 200),
}

# создадим модель
model = KNeighborsRegressor()

# оптимизируем с помощью Байесовского поиска
bayes_search = BayesSearchCV(
    estimator=model,
    search_spaces=param_space_knn,
    n_iter=20,
    cv=5,
    scoring='r2',
    n_jobs=-1,
    random_state=42,
)

bayes_search.fit(scaled_X_train, y_train)

# выведем показатели
r2_model = round(bayes_search.best_score_, 4)
print(f'R² = {r2_model}\n')
print('Лучшие параметры модели:')
for k, v in bayes_search.best_params_.items():
    print(f"{k} = {v}")

# сохраним модель с наилучшими параметрами
knn_model = bayes_search.best_estimator_

R² = 0.3834

Лучшие параметры модели:
algorithm = auto
leaf_size = 200
n_neighbors = 12


In [42]:
# рассчитаем y
y_pred = knn_model.predict(scaled_X_test)

# оценим метрики
rmse = root_mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Среднеквадратичная ошибка: {round(rmse, 4)}")
print(f"Коэффициент детерминации: {round(r2, 4)}")

# сохраним данные в таблицу
res = {"Среднеквадратичная ошибка":round(rmse, 4),
       "Коэффициент детерминации": round(r2, 4),
       "Коэффициент детерминации при обучение": r2_model}
metrics.loc[2] = res

Среднеквадратичная ошибка: 1.4846
Коэффициент детерминации: 0.3901


In [43]:
metrics.index = ['RandomForestRegressor', 'GradientBoostingRegressor', 'KNeighborsRegressor']
metrics.head()

Unnamed: 0,Среднеквадратичная ошибка,Коэффициент детерминации,Коэффициент детерминации при обучение
RandomForestRegressor,1.2439,0.5718,0.5337
GradientBoostingRegressor,1.253,0.5656,0.5437
KNeighborsRegressor,1.4846,0.3901,0.3834


#### Вывод
Для целевой переменной IC50 были дообработанны данные:
* Добавлен дополнительный признак CC50, mM в данные для обучения
* Сокращено количество признаков до 50
* Данные разделены на тестовые и тренировочные
* Проведена стандартизация тренировочных данных и на её основе стандартизированы тестовые данные

Затем были подобраны параметры и построены три модели:

* RandomForestRegressor c параметрами:
    - bootstrap = False
    - max_depth = 47
    - max_features = sqrt
    - min_samples_leaf = 3
    - min_samples_split = 16
    - n_estimators = 218

* GradientBoostingRegressor с параметрами:
    - max_depth = 1
    - min_samples_leaf = 5
    - min_samples_split = 6
    - n_estimators = 200

* KNeighborsRegressor с параметрами:
    - algorithm = auto
    - leaf_size = 200
    - n_neighbors = 12

В качестве метрик для оценки работы модели использовались:
* Cреднеквадратичная ошибка (rmse)
* Коэффициент детерминации (R²)
* Коэффициент детерминации полученный при обучении

Наилучшие показатели при обучение получились у модели GradientBoostingRegressor, однако после валидации на тестовых данных, модель RandomForestRegressor показала наилучшие результаты.
