# Создание DVC-пайплайна обучения модели

In [1]:
# Импорт библиотек, классов и функций
import os
import pandas as pd
import yaml
import joblib
import json
from dotenv import load_dotenv
from sqlalchemy import create_engine
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from category_encoders import CatBoostEncoder
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from catboost import CatBoostRegressor
from sklearn.metrics import root_mean_squared_error
from sklearn.dummy import DummyRegressor
from sklearn.model_selection import StratifiedKFold, cross_val_score, cross_validate

In [2]:
# Определение констант и настройка
load_dotenv()
RANDOM_STATE = 42
TABLE = os.environ.get('TBL_DST_CLEAN')

## Подготовка данных

In [3]:
# Функция создания соединения с БД
def create_connection():
    #load_dotenv()
    host = os.environ.get('DB_DESTINATION_HOST')
    port = os.environ.get('DB_DESTINATION_PORT')
    db = os.environ.get('DB_DESTINATION_NAME')
    username = os.environ.get('DB_DESTINATION_USER')
    password = os.environ.get('DB_DESTINATION_PASSWORD')
    print(f"postgresql://{username}:{password}@{host}:{port}/{db}")
    conn = create_engine(f"postgresql://{username}:{password}@{host}:{port}/{db}")
    return conn

Выгрузим очищенный датасет из хранилища признаков.

In [4]:
conn = create_connection()
data = pd.read_sql(f"SELECT * FROM {TABLE}", conn, index_col="id")
conn.dispose()
data

postgresql://mle_20240822_6db01ad632:760c7728fcd54078b4b6b8958e5367f1@rc1b-uh7kdmcx67eomesf.mdb.yandexcloud.net:6432/playground_mle_20240822_6db01ad632


Unnamed: 0_level_0,rooms,total_area,kitchen_area,living_area,floor,is_apartment,building_type,build_year,latitude,longitude,ceiling_height,flats_count,floors_total,has_elevator,price,first_floor,second_floor,last_floor
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
0,1.0,35.099998,9.90,19.900000,9,False,6,1965,55.717113,37.781120,2.64,84,12,True,9500000.0,False,False,False
1,1.0,43.000000,11.06,16.600000,7,False,2,2001,55.794849,37.608013,3.00,97,10,True,13500000.0,False,False,False
2,2.0,56.000000,9.00,32.000000,9,False,4,2000,55.740040,37.761742,2.70,80,10,True,13500000.0,False,False,False
3,3.0,76.000000,10.10,43.099998,1,False,4,2002,55.672016,37.570877,2.64,771,17,True,20000000.0,True,False,False
4,1.0,24.000000,3.00,14.000000,3,False,1,1971,55.808807,37.707306,2.60,208,9,True,5200000.0,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
141357,1.0,42.000000,11.00,18.000000,16,False,4,2013,55.626579,37.313503,2.64,672,25,True,10500000.0,False,False,False
141358,2.0,41.110001,5.28,28.330000,5,False,1,1960,55.727470,37.768677,2.48,80,5,False,7400000.0,False,False,True
141359,1.0,31.500000,5.30,20.000000,7,False,4,1966,55.704315,37.506584,2.64,72,9,True,9700000.0,False,False,False
141360,2.0,65.300003,13.80,33.700001,15,False,4,2017,55.699863,37.939564,2.70,480,25,True,11750000.0,False,False,False


При проведении исследовательского анализа были определены следующие категориальные признаки - тип здания `building_type_int`, апартаменты `is_apartment`, наличие лифта `has_elevator`. Признак  студии `studio` мы исключили, так как подобные значения отсутствуют в выборке и обучать модель по такому признаку не имеет смысла. Также были созданы дополнительные признаки - первый `first_floor`, второй `second_floor` и последний `last_floor` этажи зданий в качестве бинарных. Остальные признаки являются числовыми. 

Разделим признаки на бинарные, категориальные и числовые, а также выделим целевой признак.

In [5]:
target = "price"
bin_features = data.select_dtypes(include="boolean").columns.to_list()
cat_features = data.select_dtypes(include="object").columns.to_list()
num_features = [x for x in data.columns if x not in [target, *bin_features, *cat_features]]
print("Количество признаков в датасете:", data.columns.shape[0])
print("Количество признаков после разделения:", len([target, *bin_features, *cat_features, *num_features]))

Количество признаков в датасете: 18
Количество признаков после разделения: 18


Так как практически все категориальные признаки являются бинарными, а по типу здания имеется небольшое количество категорий, можно закодировать все категориальные признаки посредством OneHotEncoder. Это не приведет к очень большому увеличению датасета, однако воспользуемся одним из продвинутых методов целевого кодирования - CatBoostEncoder, который минимализирует возможность утечки целевого признака.

Для числовых признаков применим StandardScaler. Кодирование будем проводить посредством преобразователя ColumnTransformer из библиотеки sklearn.

In [6]:
# Параметры 
one_hot_drop = "if_binary"

prep = ColumnTransformer(
    [
        ("bin", OneHotEncoder(drop=one_hot_drop, sparse_output=False), bin_features),
        ("cat", CatBoostEncoder(return_df=False, random_state=RANDOM_STATE), cat_features),
        ("num", StandardScaler(), num_features)
    ], remainder="drop",
    verbose_feature_names_out=False
)

data_tf = prep.fit_transform(data.drop(columns=target), data[target])
display(pd.DataFrame(data_tf, columns=prep.get_feature_names_out()))

del bin_features, cat_features, num_features, one_hot_drop

Unnamed: 0,is_apartment_True,has_elevator_True,first_floor_True,second_floor_True,last_floor_True,building_type,rooms,total_area,kitchen_area,living_area,floor,build_year,latitude,longitude,ceiling_height,flats_count,floors_total
0,0.0,1.0,0.0,0.0,0.0,1.650694e+07,-1.168874,-0.751875,0.100320,-0.732289,0.281219,-0.994296,-0.123809,1.249989,-0.505487,-0.824545,-0.301815
1,0.0,1.0,0.0,0.0,0.0,1.650694e+07,-1.168874,-0.513679,0.400786,-0.884988,-0.075444,0.672386,0.620021,0.116942,1.290515,-0.761348,-0.598821
2,0.0,1.0,0.0,0.0,0.0,1.650694e+07,-0.118010,-0.121712,-0.132800,-0.172396,0.281219,0.626089,0.095566,1.123149,-0.206154,-0.843991,-0.598821
3,0.0,1.0,1.0,0.0,0.0,1.500347e+07,0.932854,0.481315,0.152125,0.341225,-1.145431,0.718682,-0.555331,-0.126126,-0.505487,2.515186,0.440699
4,0.0,1.0,0.0,0.0,0.0,1.650694e+07,-1.168874,-1.086555,-1.686933,-1.005295,-0.788769,-0.716516,0.753581,0.766848,-0.705044,-0.221741,-0.747324
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
124405,0.0,1.0,0.0,0.0,0.0,1.136195e+07,-1.168874,-0.543831,0.385244,-0.820207,1.529538,1.227946,-0.990101,-1.810728,-0.505487,2.033915,1.628723
124406,0.0,0.0,0.0,0.0,1.0,1.866406e+07,-0.118010,-0.570665,-1.096362,-0.342215,-0.432106,-1.225779,-0.024707,1.168542,-1.303711,-0.843991,-1.341335
124407,0.0,1.0,0.0,0.0,0.0,1.136194e+07,-1.168874,-0.860420,-1.091182,-0.727662,-0.075444,-0.947999,-0.246271,-0.546946,-0.505487,-0.882881,-0.747324
124408,0.0,1.0,0.0,0.0,0.0,1.136192e+07,-0.118010,0.158696,1.110507,-0.093733,1.351207,1.413133,-0.288869,2.287057,-0.206154,1.100540,1.628723


В результате преобразования получили 17 признаков для обучения модели и 1 целевой. Перейдем к выбору и обучению модели.

## Обучение модели и оценка метрик

В результате подготовки данных были исключены выбросы значений признаков, поэтому наиболее предпочтительной метрикой можно выбрать RMSE. Исходя из подготовленных данных можно выбрать и простые модели машинного обучения, однако лучше остановиться на ансамблевых методах, наиболее точными из которых являются бустинговые модели. Из бустинговых моделей наибольшую популярность имеют XGBoost, LightGBM и CatBoost. 

Несмотря на то, что категориальных признаков немного и данные подготовлены для работы любых моделей, воспользуемся моделью CatBoost так как она обладает высокой точностью и простотой настройки параметров. При этом данных не так много, чтобы делать выбор в пользу более быстрых моделей бустинга.

- Метрика для модели: **RMSE**
- Модель: **CatBoostRegressor**

In [7]:
# Разделение выборки на тренировочную и тестовую
train, test = train_test_split(data, random_state=RANDOM_STATE)
print("Размер тестовой выборки:", train.shape[0])
print("Размер валидационной выборки:", test.shape[0])

Размер тестовой выборки: 93307
Размер валидационной выборки: 31103


Произведено разделение выборки на тестовую и валидационную, произведем обучение модели на тестовой и получим метрику на валидационной выборке.

In [8]:
# Гиперпараметры модели
iterations = 1000
learning_rate = 0.03
depth = 6

# Пайплайн для модели
pipeline = Pipeline(
    [
        ("preprocessor", prep),
        ("model", CatBoostRegressor(
            iterations=iterations, 
            learning_rate=learning_rate, 
            depth=depth,
            verbose=0, random_seed=RANDOM_STATE)
        )
    ]
)

# Обучение модели
pipeline.fit(train.drop(columns=target), train[target])

del iterations, learning_rate, depth

Модель обучена, оценим результаты предсказания модели.

In [9]:
# Предсказание модели
test_pred = pipeline.predict(test.drop(columns=target))

# Получим метрику модели CatBoost
result_score = pd.Series()
result_score["valid"] = root_mean_squared_error(test[target], test_pred)
print(f"Значение RMSE модели на валидации: {result_score['valid']:,.2f}")

Значение RMSE модели на валидации: 8,939,406.79


Значение RMSE на валидационной выборке довольно большое, можно проверить модель на адекватность - сравнить с моделью, предсказывающей среднее значение.

In [10]:
# Обучение Dummy модели и вывод метрики для оценки
dummy_model = DummyRegressor(strategy="mean")
dummy_model.fit(prep.fit_transform(train.drop(columns=target), train[target]), train[target])
result_score["static"] = root_mean_squared_error(
    test[target], dummy_model.predict(prep.transform(test.drop(columns=target)))
)
print(f"Значение RMSE по средним данным: {result_score['static']:,.2f}")

del dummy_model

Значение RMSE по средним данным: 25,022,040.40


Значение метрики RMSE по константному значения существенно выше. Для получения более объективной оценки проведем оценку качества модели с помощью кросс-валидации.

In [11]:
# Параметры кросс-валидации
n_splits = 5
n_jobs = -1
metrics = "neg_root_mean_squared_error"

# Кросс-валидация на всем датасете
cv_strategy = StratifiedKFold(n_splits=n_splits)
result_score["cross_val"] = -cross_val_score(
    pipeline,
    data.drop(columns=target),
    data[target],
    cv=cv_strategy,
    n_jobs=n_jobs,
    scoring=metrics
).mean()

print(f"Значение RMSE при кросс-валидации: {result_score['cross_val']:,.2f}")

del n_splits, n_jobs, metrics, data, prep, pipeline, TABLE



Значение RMSE при кросс-валидации: 7,870,252.05


## Создание DVC-пайплайна

Для начала определим параметры для DVC пайплайна

In [12]:
# Параметры для DVC-пайплайна
params = {
    # Параметры загрузки данных
    "index_col": "id",
    # Параметры обучения модели
    "target": "price",
    "one_hot_drop": "if_binary",
    "iterations": 1000,
    "learning_rate": 0.03,
    "depth": 6,
    # Параметры кросс-валидации
    "n_splits": 5,
    "n_jobs": -1,
    "metrics": "neg_root_mean_squared_error"
}
params

{'index_col': 'id',
 'target': 'price',
 'one_hot_drop': 'if_binary',
 'iterations': 1000,
 'learning_rate': 0.03,
 'depth': 6,
 'n_splits': 5,
 'n_jobs': -1,
 'metrics': 'neg_root_mean_squared_error'}

### Функции получения данных

In [13]:
def get_data():
    """# Загрузка параметров
    with open("params.yaml", "r") as fd:
        params = yaml.safe_load(fd)
    """
    # Получение данных из базы
    conn = create_connection()
    table = os.environ.get('TBL_DST_CLEAN')
    data = pd.read_sql(f"SELECT * FROM {table}", conn, index_col=params["index_col"])
    conn.dispose()
    # Сохранение результатов
    os.makedirs('data', exist_ok=True)
    data.to_csv("data/initial_data.csv", index=None)

Проверим работу функции, результаты будут сохранены в папку `notebooks/data/`.

In [14]:
get_data()

postgresql://mle_20240822_6db01ad632:760c7728fcd54078b4b6b8958e5367f1@rc1b-uh7kdmcx67eomesf.mdb.yandexcloud.net:6432/playground_mle_20240822_6db01ad632


### Функция обучения модели

In [15]:
def fit_model():
    """# Загрузка параметров
    with open("params.yaml", "r") as fd:
        params = yaml.safe_load(fd)
    """
    # Загрузка данных
    data = pd.read_csv('data/initial_data.csv')

    # Подготовка модели
    target = params["target"]
    bin_features = data.select_dtypes(include="boolean").columns.to_list()
    cat_features = data.select_dtypes(include="object").columns.to_list()
    num_features = [x for x in data.columns if x not in [target, *bin_features, *cat_features]]
    # Пайплайн
    pipe = Pipeline([
        # Препроцессор
        ("preprocessor", ColumnTransformer(
            [
                ("bin", OneHotEncoder(
                    drop=params["one_hot_drop"], sparse_output=False
                ), bin_features),
                ("cat", CatBoostEncoder(return_df=False), cat_features),
                ("num", StandardScaler(), num_features)
            ], remainder="drop",
            verbose_feature_names_out=False
        )),
        # Модель
        ("model", CatBoostRegressor(
            iterations=params["iterations"], 
            learning_rate=params["learning_rate"], 
            depth=params["depth"],
            verbose=0)
        )
    ])

    # Обучение модели
    pipe.fit(data.drop(columns=target), data[target])

    # Сохранение модели
    os.makedirs('models', exist_ok=True) 
    with open('models/fitted_model.pkl', 'wb') as fd:
        joblib.dump(pipe, fd)
    

Проверим работу функции, результаты будут сохранены в папку `notebooks/models/`.

In [16]:
fit_model()

### Функция оценки качества модели

In [17]:
def evaluate_model():
    """# Загрузка параметров
    with open('params.yaml', 'r') as fd:
        params = yaml.safe_load(fd) 
    """
    # Загрузка данных и модели
    data = pd.read_csv('data/initial_data.csv')
    with open('models/fitted_model.pkl', 'rb') as fd:
        pipe = joblib.load(fd) 
    
    # Кросс-валидация 
    cv_strategy = StratifiedKFold(n_splits=params['n_splits'])
    cv_res = cross_validate(
        pipe,
        data.drop(columns=params["target"]),
        data[params["target"]],
        cv=cv_strategy,
        n_jobs=params['n_jobs'],
        scoring=params['metrics']
        )
    for key, value in cv_res.items():
        cv_res[key] = round(value.mean(), 3) 
    
    # Сохранение результата кросс-валидации
    os.makedirs('cv_results', exist_ok=True)
    with open('cv_results/cv_res.json', 'w') as fd:
        json.dump(cv_res, fd, indent=4)

Проверим работу функции, результаты будут сохранены в папку `notebooks/cv_results/`.

In [18]:
evaluate_model()



## Итоги создания DVC-пайплайна обучения модели

В рамках создания DVC-пайплайна обучения модели определены следующие параметры:
- Метрика: RMSE
- Модель: CatBoostRegression

Произведена подготовка данных:
1. Бинарные признаки кодированы посредством OneHotEncoder;
2. Категориальные признаки кодированы посредством CatBoostEncoder;
3. Числовые признаки масштабированы посредством StandardScaler.

Произведено обучение модели и оценка результатов на валидационной выборке, а также посредcтвом кросс-валидации. Подготовлены и протестированы функции для DVC-пайплайна. Функции записаны в файлы `data.py`, `fit.py` и `evaluate.py` в папке `scripts`. DVC-пайплайн запущен, изменения сохранены на Github и S3.