<h1>Практика оптимизации. Прогнозирование биологического ответа.</h1>

<h2>Цель задания:</h2>

<p>Необходимо предсказать биологический ответ молекул (столбец 'Activity') по их химическому составу (столбцы D1-D1776).</p>
<p>Данные представлены в формате <em>CSV</em>.  Каждая строка представляет молекулу.</p> 
<ul>
  <li> Первый столбец <em>CActivity</em> содержит экспериментальные данные, описывающие фактический биологический ответ [0, 1]; </li>
  <li> Остальные столбцы D1-D1776 представляют собой молекулярные <strong>дескрипторы</strong> — это вычисляемые свойства, которые могут фиксировать некоторые характеристики молекулы, например размер, форму или состав элементов.</li>
</ul>

<p>Предварительная обработка не требуется, данные уже закодированы и нормализованы.</p>
<p>В качестве метрики будем использовать F1-score.</p>

<p>Необходимо обучить две модели: <strong>логистическую регрессию и случайный лес</strong>. Далее нужно сделать подбор гиперпараметров с помощью базовых и продвинутых методов оптимизации. Важно использовать <strong>все четыре метода</strong> (<em>GridSeachCV, RandomizedSearchCV, Hyperopt, Optuna</em>) хотя бы по разу, максимальное количество итераций не должно превышать 50.</p>

<h2>Выполнение задания:</h2>

<h3>Импорт библиотек:</h3>

In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import RandomizedSearchCV

<h3>Получение данных:</h3>

In [3]:
url = r"https://raw.githubusercontent.com/Andrey-Shatsev/DataScience/main/%D0%9E%D0%BF%D1%82%D0%B8%D0%BC%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F/_train_sem09.csv"
df = pd.read_csv(url)

In [6]:
df

Unnamed: 0,Activity,D1,D2,D3,D4,D5,D6,D7,D8,D9,...,D1767,D1768,D1769,D1770,D1771,D1772,D1773,D1774,D1775,D1776
0,1,0.000000,0.497009,0.10,0.0,0.132956,0.678031,0.273166,0.585445,0.743663,...,0,0,0,0,0,0,0,0,0,0
1,1,0.366667,0.606291,0.05,0.0,0.111209,0.803455,0.106105,0.411754,0.836582,...,1,1,1,1,0,1,0,0,1,0
2,1,0.033300,0.480124,0.00,0.0,0.209791,0.610350,0.356453,0.517720,0.679051,...,0,0,0,0,0,0,0,0,0,0
3,1,0.000000,0.538825,0.00,0.5,0.196344,0.724230,0.235606,0.288764,0.805110,...,0,0,0,0,0,0,0,0,0,0
4,0,0.100000,0.517794,0.00,0.0,0.494734,0.781422,0.154361,0.303809,0.812646,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3746,1,0.033300,0.506409,0.10,0.0,0.209887,0.633426,0.297659,0.376124,0.727093,...,0,0,0,0,0,0,0,0,0,0
3747,1,0.133333,0.651023,0.15,0.0,0.151154,0.766505,0.170876,0.404546,0.787935,...,0,0,1,0,1,0,1,0,0,0
3748,0,0.200000,0.520564,0.00,0.0,0.179949,0.768785,0.177341,0.471179,0.872241,...,0,0,0,0,0,0,0,0,0,0
3749,1,0.100000,0.765646,0.00,0.0,0.536954,0.634936,0.342713,0.447162,0.672689,...,0,0,0,0,0,0,0,0,0,0
