### "Шапка" с названием проекта

В этой ячейке вы найдете оглавление и ключевые этапы работы, которые помогут вам ориентироваться в процессе выполнения проекта. Проект разделен на пять основных этапов, четыре из которых (этапы 2, 3, 4 и 5) вам предлагается выполнить в этом Jupyter Notebook:

- Подготовка среды MLflow - Первый шаг, подготовка и запуск сервисов MLflow, был выполнен вне ноутбука и оформлен в виде shell скрипта. Это основа для работы с экспериментами и логирования результатов ваших моделей.

- Этап 2 - Исследовательский Анализ Данных (EDA): На этом этапе вы проведете тщательный анализ данных, чтобы лучше понять их структуру и особенности.

- Этап 3 - Генерация Признаков и Обучение Модели: После анализа данных вы сгенерируете новые признаки и обучите модель, используя эти признаки.

- Этап 4 - Отбор Признаков и Обучение Модели: На этом шаге вы отберете наиболее значимые признаки и снова обучите модель для улучшения ее качества.

- Этап 5 - Подбор Гиперпараметров и Обучение Финальной Версии Модели: Финальный этап проекта посвящен оптимизации гиперпараметров для достижения максимального качества модели.

Для удобства навигации и организации работы, пожалуйста, следуйте оглавлению и рекомендациям, описанным в каждом этапе.

> ### Важно: Переобучение моделей
> На каждом этапе проекта, где требуется переобучение модели, важно не просто выполнить эту процедуру, но и тщательно проверить качество модели на соответствующих выборках. Это включает в себя анализ метрик качества, визуализацию результатов, сравнение с предыдущими моделями и, при необходимости, корректировку.

> ### Важно: Разделение выборок
> Перед началом выполнения вашего проекта важно правильно подготовить данные, разделив их на подвыборки. Это позволит оценить производительность модели более объективно и управлять риском переобучения. В зависимости от ваших целей и доступных данных, вы можете использовать различные стратегии разделения:

1. Разделение на train/val/test: Это классический подход, где данные делятся на три части. Обучающая выборка (train) используется для первичного обучения моделей, валидационная (val) - для настройки гиперпараметров и выбора лучшей модели, а тестовая (test) - для финальной оценки производительности модели. Такой подход идеален, если у вас достаточно данных, чтобы разделить их и каждая из выборок была репрезентативна.

2. Разделение на train/test с кросс-валидацией на train: Если данных недостаточно для трех подвыборок, можно ограничиться разделением на обучающую и тестовую выборки. В этом случае кросс-валидация на обучающей выборке поможет оценить стабильность модели и подобрать гиперпараметры.

Определение способа разделения данных: Выбор метода разбиения данных на подвыборки — train, validation и test — должен быть обоснован особенностями вашего набора данных и задачами проекта. Возможные методы разделения, включая различные стратегии и правила, подробно описаны в [документации scikit-learn по разбиению данных](https://scikit-learn.org/stable/auto_examples/model_selection/plot_cv_indices.html#sphx-glr-auto-examples-model-selection-plot-cv-indices-py). Вы можете следовать этим примерам или разработать собственный метод, исходя из специфики ваших данных.

Ваша задача - выбрать подходящий метод разделения данных исходя из объема и специфики ваших данных. Помните, что финальные метрики качества модели мы будем оценивать на тестовой выборке. Промежуточные результаты после каждого этапа проекта (например, после настройки гиперпараметров) следует оценивать на валидационной выборке, если таковая имеется. Это поможет вам корректно настроить модель перед финальной оценкой её производительности.

In [None]:
# сделайте разделение изначального набора данных в этой ячейке

import pandas as pd
from sklearn.model_selection import train_test_split

pd.options.display.max_columns = 100
pd.options.display.max_rows = 64

df = pd.read_csv('initial_data.csv')

features = df.drop(columns=['price']).columns.to_list()
target = ['price']

X_train, X_test, y_train, y_test = train_test_split(
    df[features],
    df[target],
    test_size=0.2,
    shuffle=False,
)

print(f"Признаки: {features}")
print(f"Таргет: {target}")

print(f"Размер обучающей выборки: {X_train.shape}")
print(f"Размер тестовой выборки: {X_test.shape}")

#### Этап 2: Исследовательский Анализ Данных (EDA)
На этом этапе ваша задача - провести тщательный исследовательский анализ данных (EDA), чтобы глубже понять особенности и связи в предоставленном наборе данных. В процессе EDA вы должны обратить внимание на три ключевых аспекта, о которых мы говорили в теме 3 курса. Очень важно, чтобы все результаты вашего исследования, включая визуализации, статистический анализ и предварительные выводы, были аккуратно залогированы в MLflow.

Для более организованного исследования предлагаем следующие рекомендуемые шаги:
- Понимание данных: Первоначально ознакомьтесь с данными, изучите типы данных, проверьте наличие пропущенных значений.
- Визуализация данных: Используйте графики и диаграммы для визуализации распределений признаков и возможных взаимосвязей между ними.
- Статистический анализ: Примените статистические методы для изучения центральных тенденций, разброса и корреляций между признаками.
- Предварительные выводы: На основе проведённого анализа сформулируйте предварительные выводы о данных, которые помогут в дальнейшем этапе моделирования.

Помните, что EDA - это итеративный процесс, в котором вы можете возвращаться к предыдущим шагам для дополнительного анализа, если это будет необходимо. Все находки и выводы должны быть чётко зафиксированы и легко доступны для команды проекта.


In [2]:
# 2.1 Загрузка данных
# Загрузка была выше

In [None]:
# 2.2. Общий обзор датасета
df.shape

In [None]:
# первые пять строк
df.head(5)

In [None]:
# последние пять строк
df.tail(5)

In [6]:
# 2.3 Анализ признаков для модели

In [None]:
df.describe()

In [None]:
print(df.isnull().sum().sort_values(ascending=False))

In [None]:
df.dtypes

In [None]:
unique_collection = {}
for col in df.columns:
    unique_num = len(df[col].unique())
    unique_collection[col] = unique_num

unique_collection = dict(sorted(unique_collection.items(), key=lambda x: x[1], reverse=True))
unique_collection

In [15]:
import os
import seaborn as sns
import matplotlib.pyplot as plt
ASSETS_DIR = "assets" 
if not os.path.exists(ASSETS_DIR):
    os.makedir(ASSETS_DIR)
sns.set_style("white")
sns.set_theme(style="whitegrid")

In [16]:
x = "building_id"

cat_columns = [
    "building_type_int",
    'rooms',
    'floor', 
    'floors_total',
    'flats_count'
]

binary_columns = ["is_apartment", 
                  "has_elevator"]

num_columns = ['ceiling_height', 
               'kitchen_area', 
               'living_area', 
               'total_area']

geo_columns = ['latitude', 
               'longitude']

stat = ["count"]

In [None]:
# график количества уникальных building_id в зависимости от фичей cat_columns (гистограммы):

fig, axs = plt.subplots(3, 2)
fig.set_size_inches(16.5, 12.5, forward=True)
fig.tight_layout(pad=3.6)

y = "building_id"

x = "building_type_int"
agg_df = pd.DataFrame(df.groupby(x).agg(stat)[y]).reset_index()
sns.barplot(
    data=agg_df,
    x=x,
    y=stat[0],
    ax=axs[0, 0]
)
axs[0, 0].set_title(f'Count {y} by {x}')

x = "rooms"
agg_df = pd.DataFrame(df.groupby(x).agg(stat)[y]).reset_index()
sns.barplot(
    data=agg_df,
    x=x,
    y=stat[0],
    ax=axs[0, 1]
)
axs[0, 1].set_title(f'Count {y} by {x}')

x = "floor"
agg_df = pd.DataFrame(df.groupby(x).agg(stat)[y]).reset_index()
sns.barplot(
    data=agg_df,
    x=x,
    y=stat[0],
    ax=axs[1, 0]
)
axs[1, 0].set_title(f'Count {y} by {x}')

x = "floors_total"
agg_df = pd.DataFrame(df.groupby(x).agg(stat)[y]).reset_index()
sns.barplot(
    data=agg_df,
    x=x,
    y=stat[0],
    ax=axs[1, 1]
)
axs[1, 1].set_title(f'Count {y} by {x}')

x = "flats_count"
agg_df = pd.DataFrame(df.groupby(x).agg(stat)[y]).reset_index()
sns.barplot(
    data=agg_df,
    x=x,
    y=stat[0],
    ax=axs[2, 0]
)
axs[2,0].set_title(f'Count {y} by {x}')

In [None]:
# таблица-воронка для бинарных колонок с подсчётом количества уникальных building_id
df.groupby(binary_columns).agg(stat[0])[x].reset_index().sort_values(
    by=x, ascending=False
).head(10)

In [None]:
# тепловая карта бинарных признаков
heat_df = df[binary_columns].apply(pd.Series.value_counts).T
sns.heatmap(heat_df)
plt.savefig(os.path.join(ASSETS_DIR, 'cat_features_2_binary_heatmap'))

In [None]:
#  Числовые

x = "build_year"

num_columns = ['ceiling_height', 
               'kitchen_area', 
               'living_area', 
               'total_area']

stats = ["mean", "median", lambda x: x.mode().iloc[0]]

ceiling_height_agg = df[[x] + [num_columns[0]]].groupby([x]).agg(stats).reset_index()
ceiling_height_agg.columns = ceiling_height_agg.columns.droplevel()
ceiling_height_agg.columns = [x, "ceiling_height_mean", "ceiling_height_median", "ceiling_height_mode"]

kitchen_area_agg = df[[x] + [num_columns[1]]].groupby([x]).agg(stats).reset_index()
kitchen_area_agg.columns = kitchen_area_agg.columns.droplevel()
kitchen_area_agg.columns = [x, "kitchen_area_mean", "kitchen_area_median", "kitchen_area_mode"]

living_area_agg = df[[x] + [num_columns[2]]].groupby([x]).agg(stats).reset_index()
living_area_agg.columns = living_area_agg.columns.droplevel()
living_area_agg.columns = [x, "living_area_mean", "living_area_median", "living_area_mode"]

total_area_agg = df[[x] + [num_columns[3]]].groupby([x]).agg(stats).reset_index()
total_area_agg.columns = total_area_agg.columns.droplevel()
total_area_agg.columns = [x, "total_area_mean", "total_area_median", "total_area_mode"]

ceiling_height_agg = ceiling_height_agg[ceiling_height_agg["build_year"] > 1950].sort_values("build_year")
kitchen_area_agg = kitchen_area_agg[kitchen_area_agg["build_year"] > 1950].sort_values("build_year")
living_area_agg = living_area_agg[living_area_agg["build_year"] > 1950].sort_values("build_year")
total_area_agg = total_area_agg[total_area_agg["build_year"] > 1950].sort_values("build_year")

fig, axs = plt.subplots(2, 2)
fig.set_size_inches(16.5, 12.5, forward=True)
fig.tight_layout(pad=3.6)

# построение линейных графиков для ceiling_height
sns.lineplot(ceiling_height_agg, ax=axs[0,0], x=x, y='ceiling_height_mean')
sns.lineplot(ceiling_height_agg, ax=axs[0,0], x=x, y="ceiling_height_median")
sns.lineplot(ceiling_height_agg, ax=axs[0,0], x=x, y="ceiling_height_mode")
axs[0,0].set_title(f"Count statistics for {num_columns[0]} by {x}")

# построение линейных графиков для kitchen_area
sns.lineplot(kitchen_area_agg, ax=axs[0,1], x=x, y='kitchen_area_mean')
sns.lineplot(kitchen_area_agg, ax=axs[0,1], x=x, y="kitchen_area_median")
sns.lineplot(kitchen_area_agg, ax=axs[0,1], x=x, y="kitchen_area_mode")
axs[0,1].set_title(f"Count statistics for {num_columns[1]} by {x}")

# построение линейных графиков для living_area
sns.lineplot(living_area_agg, ax=axs[1,0], x=x, y='living_area_mean')
sns.lineplot(living_area_agg, ax=axs[1,0], x=x, y="living_area_median")
sns.lineplot(living_area_agg, ax=axs[1,0], x=x, y="living_area_mode")
axs[1,0].set_title(f"Count statistics for {num_columns[2]} by {x}")

# построение линейных графиков для total_area
sns.lineplot(total_area_agg, ax=axs[1,1], x=x, y='total_area_mean')
sns.lineplot(total_area_agg, ax=axs[1,1], x=x, y="total_area_median")
sns.lineplot(total_area_agg, ax=axs[1,1], x=x, y="total_area_mode")
axs[1,1].set_title(f"Count statistics for {num_columns[3]} by {x}")

# сохранение графика в файл
plt.savefig(os.path.join(ASSETS_DIR, 'areas_and_height_by_date'))

In [None]:
# geo_columns
sns.scatterplot(data=df, x="latitude", y="longitude")

# сохранение графика в файл
plt.savefig(os.path.join(ASSETS_DIR, 'geo'))

In [21]:
# 2.4 Анализ целевой переменной

In [None]:
display(df[target].describe())

price = df[df["price"] < 1000000]["price"].dropna().astype(float)
sns.displot(price)

In [None]:
# 2.4 Анализ целевой переменной в зависимости от различных признаков

In [None]:
price = df[df["price"] < 100000][["price", binary_columns[0], binary_columns[1]]].dropna().astype(float)

sns.displot(price, x="price", hue=binary_columns[0])
plt.savefig(os.path.join(ASSETS_DIR, 'price_vs_is_apartment'))

sns.displot(price, x="price", hue=binary_columns[1])
plt.savefig(os.path.join(ASSETS_DIR, 'price_vs_has_elevator'))

In [None]:
# 2.5 Выводы после EDA

### EDA

Типы данных в датасете: INT и FLOAT. 

Данные уже были предобработаны в проекте первого спринта, пропущенных значений нет.

Были построены графики:

 - `cat_features_1.png`: количество зданий в разрезе фичей `building_type_int`, `rooms`, `floor`, `floors_total` и `flats_count`.
По графикам видно, что в данных преобладают здания 4-го типа с 1-2-3 комнатными помещениями. Типов 0 и 3 мало. Также есть немного зданий с 5-6-7 комнатами. 
Этажи в основном с 1 по 10. Также есть высокие, но в пределах реального.
Можем принять что, в этих фичах выбросов не наблюдается.
 - `cat_features_2_binary_heatmap.png`: визуальная оценка бинарных признаков.
В основном, среди объектов преобладают не-квартиры с лифтами. Возможно это - отели или бизнес-центры. Квартир очень мало.
Также, не будем считать их за выбросы.
 - `areas_and_height_by_date.png`: 
С годами растет высота потолков, но уменьшается площадь помещения.
 - `geo.png`:
Геолокации объектов сгруппированы в одной области - без сюрпризов.

Анализ целевой переменной:

Цены на объекты - в основном до 100000. Можно убрать из обучения данные выше этой цены. 
По корреляции с `has_elevator` нельзя сказать, что цена растет с наличием лифтов. Интересных корреляций не замечено.

In [None]:
# 2.6 логирование артефактов в MLflow

In [50]:
import os
import joblib
import mlflow
from dotenv import load_dotenv

load_dotenv()

TRACKING_SERVER_HOST = "127.0.0.1"
TRACKING_SERVER_PORT = 5000
EXPERIMENT_NAME = "churn_marselkamilov_project_2"
RUN_NAME = "model_baseline"

os.environ["MLFLOW_S3_ENDPOINT_URL"] = "https://storage.yandexcloud.net" #endpoint бакета от YandexCloud
os.environ["AWS_ACCESS_KEY_ID"] = os.getenv("AWS_ACCESS_KEY_ID") # получаем id ключа бакета, к которому подключён MLFlow, из .env
os.environ["AWS_SECRET_ACCESS_KEY"] = os.getenv("AWS_SECRET_ACCESS_KEY") # получаем ключ бакета, к которому подключён MLFlow, из .env

mlflow.set_tracking_uri(f"http://{TRACKING_SERVER_HOST}:{TRACKING_SERVER_PORT}")
mlflow.set_registry_uri(f"http://{TRACKING_SERVER_HOST}:{TRACKING_SERVER_PORT}")

experiment_id = mlflow.get_experiment_by_name(EXPERIMENT_NAME).experiment_id

with mlflow.start_run(run_name=RUN_NAME, experiment_id=experiment_id) as run:
    run_id = run.info.run_id
    mlflow.log_artifact("project_template_sprint_2.ipynb")

#### Этап 3: Генерация Признаков и Обучение Новой Версии Модели
После тщательного исследовательского анализа данных (EDA), вы, скорее всего, сформировали несколько гипотез относительно новых признаков, которые могут улучшить качество вашей модели. На этом этапе, мы предлагаем вам приступить к генерации новых признаков и последующему обучению модели, используя два подхода:

Ручная генерация признаков: Используйте ваше понимание данных и результаты EDA для создания новых признаков.
Автоматическая генерация признаков: Воспользуйтесь библиотеками для автоматической генерации признаков, чтобы облегчить и ускорить этот процесс.
Важно: Для признаков, созданных вручную, рекомендуется использовать объекты sklearn, такие как Pipeline и ColumnTransformer. Это позволит автоматизировать процесс преобразования данных и облегчить поддержку вашего проекта.

После генерации новых признаков, наступает время обучить новую версию вашей модели, используя эти признаки. Не забудьте залогировать все результаты, включая новые признаки, параметры модели и метрики качества, в MLflow для удобства отслеживания изменений и результатов.

Рекомендуемые шаги:

- Определение и генерация новых признаков на основе ваших гипотез.
- Использование библиотек для автоматической генерации признаков, если это применимо.
- Интеграция новых признаков в вашу модель с помощью Pipeline или ColumnTransformer для ручно созданных признаков.
- Обучение новой версии модели с использованием всех доступных признаков.
- Логирование результатов в MLflow для документирования и анализа эффективности новых признаков и модели.

Этот этап проекта критически важен для повышения точности и эффективности вашей модели. Тщательная работа на этом этапе может существенно повлиять на итоговое качество моделирования.


In [None]:
# 3.1 ручная генерация признаков

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import (
    SplineTransformer, 
    QuantileTransformer, 
    RobustScaler,
    PolynomialFeatures,
    KBinsDiscretizer,
)

num_columns = ['ceiling_height', 
               'kitchen_area', 
               'living_area', 
               'total_area',
                'rooms',
                'floor', 
                'floors_total',
                'flats_count']

n_knots = 3
degree_spline = 4
n_quantiles=100
degree = 3
n_bins = 5
encode = 'ordinal'
strategy = 'uniform'
subsample = None

In [None]:
# 3.2 оборачивание всех преобразований в объекты sklearn

In [None]:
numeric_transformer = ColumnTransformer(transformers=[('spl', SplineTransformer(n_knots=n_knots, degree=degree_spline), num_columns), 
                                                      ('q', QuantileTransformer(n_quantiles=n_quantiles), num_columns), 
                                                      ('rb', RobustScaler(), num_columns), 
                                                      ('pol', PolynomialFeatures(degree=degree), num_columns), 
                                                      ('kbd', KBinsDiscretizer(n_bins=n_bins, encode=encode, strategy=strategy, subsample=subsample), num_columns)])

preprocessor = ColumnTransformer(transformers=[('num', numeric_transformer, num_columns)], 
                                               n_jobs=-1)

In [None]:
encoded_features = preprocessor.fit_transform(X_train)
encoded_features_test = preprocessor.transform(X_test)

transformed_df = pd.DataFrame(
    encoded_features, 
    columns=preprocessor.get_feature_names_out()
)
transformed_df_test = pd.DataFrame(
    encoded_features_test, 
    columns=preprocessor.get_feature_names_out()
)

transformed_df.head(2)

In [54]:
# 3.3 автоматическая генерация признаков

In [None]:
from autofeat import AutoFeatRegressor
transformations = ["1/", 'exp', 'log']
af = AutoFeatRegressor(feateng_steps = 1,
                       max_gb = 16,
                       transformations = transformations)
X_train_af = af.fit_transform(X_train, y_train)
X_test_af = af.transform(X_test)

In [None]:
X_train_features = pd.concat([transformed_df, X_train_af], axis=1)
X_test_features = pd.concat([transformed_df_test, X_test_af], axis=1)
X_train_features.head(2)

In [62]:
# 3.4 обучение новой версии модели

In [None]:
from catboost import CatBoostRegressor
model = CatBoostRegressor(loss_function = 'RMSE')
model.fit(X_train_features,y_train)

In [None]:
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_percentage_error

probas = model.predict(X_test_features)

metrics = {}

r2 = r2_score(y_test, probas)
neg_mse = mean_squared_error(y_test, probas)
neg_mape = mean_absolute_percentage_error(y_test, probas)

metrics["r2"] = r2
metrics["neg_mean_squared_error"] = neg_mse
metrics["neg_mean_absolute_percentage_error"] = neg_mape

metrics

In [None]:
best_score = model.get_best_score()["learn"]
best_score

In [75]:
# 3.5 логирование артефактов в MLflow

In [None]:
REGISTRY_MODEL_NAME = "project_model_generated_features"

# настройки для логирования в MLFlow
pip_requirements = './requirements.txt'
signature = mlflow.models.infer_signature(X_test, probas)
input_example = X_test[:10]

with mlflow.start_run(run_name=RUN_NAME, experiment_id=experiment_id) as run:
    run_id = run.info.run_id

    mlflow.log_metrics(metrics) 
    mlflow.log_params(best_score)

    model_info = mlflow.catboost.log_model(cb_model=model,
        artifact_path="models",
        signature=signature,
        input_example=input_example,
        registered_model_name=REGISTRY_MODEL_NAME,
        await_registration_for=60,
        pip_requirements=pip_requirements
		)

#### Этап 4: Отбор Признаков и Обучение Новой Версии Модели
Создание новых признаков — это лишь часть работы. Следующий важный шаг — это убедиться в том, что каждый из этих признаков действительно вносит положительный вклад в качество модели. Некоторые признаки могут оказывать отрицательное влияние на модель, поэтому их следует исключить из анализа.

На этом этапе, мы рекомендуем вам применить различные методы отбора признаков для того, чтобы определить и удалить те признаки, которые не улучшают качество вашей модели. Цель этого этапа — максимизировать производительность модели, удалив избыточные или неинформативные признаки.

После тщательного отбора признаков, пора обучить новую версию вашей модели, уже без негативно влияющих на неё признаков. Важно залогировать результаты этого этапа, включая измененный набор признаков, параметры модели и полученные метрики качества, в MLflow для последующего анализа и сравнения.

Рекомендуемые шаги:

- Применение методов отбора признаков для идентификации и исключения признаков, ухудшающих качество модели.
- Анализ влияния каждого признака на модель, чтобы понять, какие из них наиболее ценные.
- Обучение новой версии модели без негативно влияющих признаков.
- Логирование всех изменений и результатов в MLflow, включая конечный набор признаков, параметры модели и метрики качества.

Этот этап не только поможет улучшить качество вашей модели, но и даст глубокое понимание о важности и влиянии отдельных признаков на результаты моделирования.


In [None]:
# 4.1 Отбор признаков при помощи метода номер 1

In [None]:
# 4.2 Отбор признаков при помощи метода номер 2

In [None]:
# 4.3 Анализ отобранных признаков при помощи двух методов и формирование финального списка с признаками для модели

In [None]:
# 4.4 Обучение новой версии модели

In [None]:
# 4.5 Логирование всех артефактов в MLflow

### Этап 5 - подбор гиперпараметров и обучение новой версии модели
После того как мы уделили значительное внимание качеству модели через создание и отбор признаков, пришло время для финального штриха — подбора гиперпараметров. Этот этап является ключевым в финальной части проекта второго спринта, где ваша задача — оптимизировать гиперпараметры модели для достижения наилучшего качества.

Рекомендуется подобрать гиперпараметры как минимум двумя различными методами (например, с использованием Grid Search и Random Search), чтобы вы могли сравнить результаты и выбрать наиболее эффективный набор гиперпараметров для вашей модели. После определения оптимальных гиперпараметров, наступает время обучить финальную версию модели, используя ваши новые признаки.

Рекомендуемые шаги:

- Выбор методов для подбора гиперпараметров: Определитесь с методами, которые вы будете использовать для подбора гиперпараметров (например, Grid Search, Random Search, Bayesian Optimization).
- Подбор гиперпараметров: Примените выбранные методы для нахождения оптимальных значений гиперпараметров вашей модели.
- Сравнение результатов: Анализируйте и сравнивайте результаты, полученные различными методами, для определения наилучшего набора гиперпараметров.
- Обучение финальной модели: Используя выбранные гиперпараметры, обучите финальную версию вашей модели на новых признаках.
- Документирование процесса и результатов: Залогируйте все шаги и результаты в MLflow, включая сравнение методов подбора гиперпараметров и характеристики финальной модели.

Этот этап позволит вам максимально улучшить качество вашей модели перед финальной оценкой, предоставив полное понимание важности и влияния гиперпараметров на производительность модели.

In [None]:
# 5.1 Подбор гиперпарметров при мощи метода номер 1

In [None]:
# 5.2 Подбор гиперпарметров при мощи метода номер 2

In [None]:
# 5.3 Формирование списка гиперпараметров для новой модели

In [None]:
# 5.4 Обуение финальной версии модели

In [None]:
# 5.5 Логирование артефактов в MLflow