# **Теория**

**AutoKeras** - это библиотека автоматического машинного обучения, разработанная для простого и быстрого создания высокопроизводительных моделей глубокого обучения. Она использует подход обучения без учителя для поиска оптимальной архитектуры модели и оптимальных гиперпараметров.

В библиотеке AutoKeras есть несколько тюнеров, которые могут быть использованы для автоматического подбора гиперпараметров моделей машинного обучения.

* **Random (random):** Случайный поиск является простейшим подходом к оптимизации гиперпараметров. Он просто выбирает случайные комбинации гиперпараметров из заданного распределения и обучает модель для каждой комбинации. Однако его главным недостатком является то, что он может быть менее эффективным, чем другие методы, особенно когда пространство гиперпараметров велико.

* **Bayesian (bayesian):** Байесовская оптимизация является более сложным и интеллектуальным подходом к оптимизации гиперпараметров. Он использует вероятностную модель для оценки качества различных комбинаций гиперпараметров. Вместо случайного выбора комбинаций гиперпараметров, байесовский тюнер выбирает их на основе предыдущих результатов и текущего состояния вероятностной модели.

* **Hyperband (hyperband):** Hyperband является адаптивным алгоритмом оптимизации гиперпараметров, основанным на идее адаптивного выделения ресурсов для различных комбинаций гиперпараметров. Вместо одинакового выделения ресурсов для каждой комбинации, Hyperband адаптируется на основе предыдущих результатов и выделяет больше ресурсов для комбинаций с большим потенциалом. Hyperband комбинирует две стратегии: диверсификация (начиная с множества случайных комбинаций и малого количества эпох) и интенсификация (продолжая обучение лучших комбинаций на большем количестве эпох). Это делает Hyperband более эффективным и адаптивным, чем случайный поиск или байесовская оптимизация. Однако, он также может быть более сложным и требовать больше вычислительных ресурсов, особенно на начальных этапах.

* **Greedy (greedy):** Жадный тюнер является методом последовательного выбора гиперпараметров. Он начинает с настройки базовых гиперпараметров, а затем последовательно настраивает каждый гиперпараметр, выбирая тот, который приводит к наибольшему улучшению результатов. Преимущества жадного подхода включают простоту и возможность быстрого улучшения результатов. Однако этот подход может привести к локальному оптимуму, так как он не учитывает возможные взаимодействия между гиперпараметрами.

# **Предобработка датасета**

In [1]:
# Установим библиотеку для работы с AutoKeras
!pip install autokeras

Collecting autokeras
  Downloading autokeras-1.1.0-py3-none-any.whl (148 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/148.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━[0m [32m143.4/148.6 kB[0m [31m4.7 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m148.6/148.6 kB[0m [31m3.9 MB/s[0m eta [36m0:00:00[0m
Collecting keras-tuner>=1.1.0 (from autokeras)
  Downloading keras_tuner-1.4.6-py3-none-any.whl (128 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m128.9/128.9 kB[0m [31m16.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting keras-nlp>=0.4.0 (from autokeras)
  Downloading keras_nlp-0.6.3-py3-none-any.whl (584 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m584.5/584.5 kB[0m [31m30.4 MB/s[0m eta [36m0:00:00[0m
Collecting keras-core (from keras-nlp>=0.4.0->autokeras)
  Downloading keras_core-0.1.7-

In [2]:
# Импортируем необходимые библиотеки
import pandas as pd
from IPython.display import display
from keras.utils import to_categorical
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
import csv
import autokeras as ak
from sklearn.preprocessing import LabelEncoder
import pickle

Using TensorFlow backend


In [3]:
# получение csv-файла
google_url = 'https://docs.google.com/spreadsheets/d/1Rmw4nLN7cxRnhFFrIETh3gx8Gxcv56hV/edit#gid=548315443'
new_google_url = google_url.replace('edit#gid', 'export?format=csv&gid')
df=pd.read_csv(new_google_url)

In [4]:
# небольшая предобработка целевых столбцов (уверенность)
df['Поставьте галочку, если уверены на 100%'] = df['Поставьте галочку, если уверены на 100%'].replace(True, 'да')
df['Поставьте галочку, если уверены на 100%'] = df['Поставьте галочку, если уверены на 100%'].replace(False, 'нет')
df['Если 75%'] = df['Если 75%'].replace(True, 'да')
df['Если 75%'] = df['Если 75%'].replace(False, 'нет')
df['Если 50%'] = df['Если 50%'].replace(True, '50%')
df['Если 50%'] = df['Если 50%'].replace(False, 'нет')

df["Уверенность в диагнозе"] = df.apply(
    lambda row: "100%"
    if row["Поставьте галочку, если уверены на 100%"] == "да"
    else ("75%" if row["Если 75%"] == "да" else "50%"), axis=1)

df = df.drop(columns=["Поставьте галочку, если уверены на 100%", "Если 75%", "Если 50%"])
df

Unnamed: 0,id_ответа,Раса,Пол,Возраст,Статус курения,ECOG,Есть опухолевая нагрузка? (симптомная опухоль),Ко-мутации KRAS,Ко-мутации p53.,Ко-мутации STK11,Ко-мутации KEAP1,Срок от окончания ХЛТ,Молекулярный статус (только для неплоскоклеточного рака),PD-L1 статус,Предпочтение пациента по ответу на терапию,Ответ эксперта (Лактионов),"Альтернатива, если 50% - обязательно",Комментарий,Уверенность в диагнозе
0,1,Азиатская,Мужской,До 70,В настоящее время,0-1,да,да,да,да,да,до 42 дней,нет мутаций,Не исследовался,Результативность лечения,Дурвалумаб,0,0,100%
1,2,Азиатская,Мужской,До 70,В настоящее время,0-1,да,да,да,да,да,от 43 до 60 дней,нет мутаций,Не исследовался,Результативность лечения,Дурвалумаб,0,0,100%
2,3,Азиатская,Мужской,До 70,В настоящее время,0-1,да,да,да,да,да,более 61 дня,нет мутаций,Не исследовался,Результативность лечения,Наблюдение,Дурвалумаб,Нет доказательной базы для назначения после пе...,75%
3,4,Азиатская,Мужской,До 70,В настоящее время,0-1,да,да,да,да,да,до 42 дней,не исследовались,Не исследовался,Результативность лечения,Дурвалумаб,0,Возможно есть мутации и эффективность Дурвалум...,75%
4,5,Азиатская,Мужской,До 70,В настоящее время,0-1,да,да,да,да,да,от 43 до 60 дней,не исследовались,Не исследовался,Результативность лечения,Дурвалумаб,0,Возможно есть мутации и эффективность Дурвалум...,75%
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
248827,248828,Другая,Женский,>70,Курение в прошлом (бросил более 1 года),2,нет,нет,нет,нет,нет,от 43 до 60 дней,EGFR ex21,Более 1%,сохранение качества жизни,Наблюдение,Осимертиниб,"Возможна низкая эффективность Дурвалумаба, Оси...",50%
248828,248829,Другая,Женский,>70,Курение в прошлом (бросил более 1 года),2,нет,нет,нет,нет,нет,более 61 дня,EGFR ex21,Более 1%,сохранение качества жизни,Наблюдение,0,0,100%
248829,248830,Другая,Женский,>70,Курение в прошлом (бросил более 1 года),2,нет,нет,нет,нет,нет,до 42 дней,ALK позитивный,Более 1%,сохранение качества жизни,Алектиниб,Дурвалумаб,"Возможна низкая эффективность Дурвалумаба, Але...",50%
248830,248831,Другая,Женский,>70,Курение в прошлом (бросил более 1 года),2,нет,нет,нет,нет,нет,от 43 до 60 дней,ALK позитивный,Более 1%,сохранение качества жизни,Алектиниб,Дурвалумаб,"Возможна низкая эффективность Дурвалумаба, Але...",50%


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 248832 entries, 0 to 248831
Data columns (total 19 columns):
 #   Column                                                    Non-Null Count   Dtype 
---  ------                                                    --------------   ----- 
 0   id_ответа                                                 248832 non-null  int64 
 1   Раса                                                      248832 non-null  object
 2   Пол                                                       248832 non-null  object
 3   Возраст                                                   248832 non-null  object
 4   Статус курения                                            248832 non-null  object
 5   ECOG                                                      248832 non-null  object
 6   Есть опухолевая нагрузка? (симптомная опухоль)            248832 non-null  object
 7   Ко-мутации KRAS                                           248832 non-null  object
 8   Ко-мутации p53

In [6]:
# Создание экземпляра LabelEncoder
label_encoder = LabelEncoder()

# Применение LabelEncoder ко всем столбцам
for col in df.columns:
    if df[col].dtype == 'object':  # Проверка, что столбец имеет тип 'object'
        df[col] = label_encoder.fit_transform(df[col].astype(str))

In [7]:
# Отделим входные переменные
x = df[df.columns[1:15]]
x

Unnamed: 0,Раса,Пол,Возраст,Статус курения,ECOG,Есть опухолевая нагрузка? (симптомная опухоль),Ко-мутации KRAS,Ко-мутации p53.,Ко-мутации STK11,Ко-мутации KEAP1,Срок от окончания ХЛТ,Молекулярный статус (только для неплоскоклеточного рака),PD-L1 статус,Предпочтение пациента по ответу на терапию
0,0,1,1,0,0,0,0,0,0,0,1,5,2,0
1,0,1,1,0,0,0,0,0,0,0,2,5,2,0
2,0,1,1,0,0,0,0,0,0,0,0,5,2,0
3,0,1,1,0,0,0,0,0,0,0,1,4,2,0
4,0,1,1,0,0,0,0,0,0,0,2,4,2,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
248827,1,0,0,1,1,1,1,1,1,1,2,2,0,1
248828,1,0,0,1,1,1,1,1,1,1,0,2,0,1
248829,1,0,0,1,1,1,1,1,1,1,1,0,0,1
248830,1,0,0,1,1,1,1,1,1,1,2,0,0,1


In [8]:
# Выходная переменная
y = df[df.columns[15:19]]
y

Unnamed: 0,Ответ эксперта (Лактионов),"Альтернатива, если 50% - обязательно",Комментарий,Уверенность в диагнозе
0,1,0,0,0
1,1,0,0,0
2,2,2,10,2
3,1,0,7,2
4,1,0,7,2
...,...,...,...,...
248827,2,4,6,1
248828,2,0,0,0
248829,0,2,4,1
248830,0,2,4,1


In [9]:
# Разбиение наборов на общую и тестовую выборки
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.1, shuffle=True, random_state = 42)

In [10]:
# Вывод размеров обучающей и проверочной выборок
print(f'Размер обучающей выборки: {x_train.shape[0]}')
print(f'Размер проверочной выборки: {x_test.shape[0]}')

Размер обучающей выборки: 223948
Размер проверочной выборки: 24884


# **Эксперимент 1. Tuner RandomSearch, 10 запусков**

In [None]:
# инициализация класса автоматического машинного обучения
reg = ak.StructuredDataRegressor(
    overwrite=True,
    max_trials=10,
    loss='mean_squared_error',
    metrics=['mean_absolute_error'],
    project_name='experiment1',
)

# поиск лучшей модели
reg.fit(x_train, y_train, epochs=10, validation_data=(x_test, y_test))

Trial 10 Complete [00h 06m 55s]
val_loss: 0.034590449184179306

Best val_loss So Far: 2.0720716809030648e-10
Total elapsed time: 01h 03m 40s
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.src.callbacks.History at 0x7fba4374e2c0>

In [None]:
best_model_1 = reg.export_model()
#best_model_1.save('best_model_1.h5')
#best_model_1.save('best_model_1_savedmodel', save_format='tf')
with open('best_model_1.pkl', 'wb') as f:
    pickle.dump(best_model_1, f)
# Выведите архитектуру модели
print("Model architecture:")
print(best_model_1.summary())

Model architecture:
Model: "model"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 input_1 (InputLayer)        [(None, 14)]              0         
                                                                 
 multi_category_encoding (M  (None, 14)                0         
 ultiCategoryEncoding)                                           
                                                                 
 normalization (Normalizati  (None, 14)                29        
 on)                                                             
                                                                 
 dense (Dense)               (None, 32)                480       
                                                                 
 re_lu (ReLU)                (None, 32)                0         
                                                                 
 dense_1 (Dense)             (None, 512) 

# **Эксперимент №2. Tuner Hyperband, 10 запусков**

In [None]:
# инициализация класса автоматического машинного обучения
reg2 = ak.StructuredDataRegressor(
    overwrite=True,
    max_trials=10,
    tuner="hyperband",
    loss='mean_squared_error',
    metrics=['mean_absolute_error'],
    project_name='experiment2'
)

# поиск лучшей модели
reg2.fit(x_train, y_train, epochs=20, validation_data=(x_test, y_test))

Trial 10 Complete [00h 03m 09s]
val_loss: 2.493952512741089

Best val_loss So Far: 0.21631589531898499
Total elapsed time: 00h 32m 23s
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<keras.src.callbacks.History at 0x7fba4f797520>

In [None]:
best_model_2 = reg.export_model()
with open('best_model_2.pkl', 'wb') as f:
    pickle.dump(best_model_2, f)
# Выведите архитектуру модели
print("Model architecture:")
print(best_model_2.summary())

Model architecture:
Model: "model"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 input_1 (InputLayer)        [(None, 14)]              0         
                                                                 
 multi_category_encoding (M  (None, 14)                0         
 ultiCategoryEncoding)                                           
                                                                 
 normalization (Normalizati  (None, 14)                29        
 on)                                                             
                                                                 
 dense (Dense)               (None, 32)                480       
                                                                 
 re_lu (ReLU)                (None, 32)                0         
                                                                 
 dense_1 (Dense)             (None, 512) 

# **Эксперимент №3. Tuner Greedy, 10 запусков**

In [None]:
# создание и обучение модели
reg3 = ak.AutoModel(
    inputs=ak.StructuredDataInput(),
    outputs=ak.RegressionHead(),
    max_trials=10,
    tuner="greedy",
    loss='mean_squared_error',
    metrics=['mean_absolute_error'],
    project_name='experiment3',
    overwrite=True)
reg3.fit(x_train, y_train, epochs=20, validation_data=(x_test, y_test))

# оценка модели
results = reg3.evaluate(x_test, y_test)
print(results)

Trial 10 Complete [00h 15m 19s]
val_loss: 0.00010737845150288194

Best val_loss So Far: 0.00010737845150288194
Total elapsed time: 02h 05m 44s
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
[0.0004561545792967081, 0.015659311786293983]


In [None]:
best_model_3 = reg3.export_model()
with open('best_model_3.pkl', 'wb') as f:
    pickle.dump(best_model_3, f)
# Выведите архитектуру модели
print("Model architecture:")
print(best_model_3.summary())

Model architecture:
Model: "model"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 input_1 (InputLayer)        [(None, 14)]              0         
                                                                 
 multi_category_encoding (M  (None, 14)                0         
 ultiCategoryEncoding)                                           
                                                                 
 normalization (Normalizati  (None, 14)                29        
 on)                                                             
                                                                 
 dense (Dense)               (None, 1024)              15360     
                                                                 
 re_lu (ReLU)                (None, 1024)              0         
                                                                 
 dense_1 (Dense)             (None, 64)  

# **Эксперимент №4. Tuner Bayesian, 10 запусков**

In [11]:
# создание и обучение модели
reg4 = ak.AutoModel(
    inputs=ak.StructuredDataInput(),
    outputs=ak.RegressionHead(),
    max_trials=10,
    tuner="bayesian",
    loss='mean_squared_error',
    metrics=['mean_absolute_error'],
    project_name='experiment4',
    overwrite=True)
reg4.fit(x_train, y_train, epochs=20, validation_data=(x_test, y_test))

# оценка модели
results = reg4.evaluate(x_test, y_test)
print(results)

Trial 10 Complete [00h 08m 23s]
val_loss: 2.158161163330078

Best val_loss So Far: 0.0007164972485043108
Total elapsed time: 01h 22m 16s
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
[0.014368823729455471, 0.08122309297323227]


In [12]:
best_model_4 = reg4.export_model()
with open('best_model_4.pkl', 'wb') as f:
    pickle.dump(best_model_4, f)
# Выведите архитектуру модели
print("Model architecture:")
print(best_model_4.summary())

Model architecture:
Model: "model"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 input_1 (InputLayer)        [(None, 14)]              0         
                                                                 
 multi_category_encoding (M  (None, 14)                0         
 ultiCategoryEncoding)                                           
                                                                 
 normalization (Normalizati  (None, 14)                29        
 on)                                                             
                                                                 
 dense (Dense)               (None, 64)                960       
                                                                 
 re_lu (ReLU)                (None, 64)                0         
                                                                 
 dense_1 (Dense)             (None, 32)  