In [14]:
import pandas as pd
from sklearn.preprocessing import MultiLabelBinarizer
from transliterate import translit
import os
import numpy as np
import joblib
from typing import Dict
import yaml
import json
import warnings

warnings.filterwarnings("ignore")

In [15]:
config_path = '../config/params.yml'
config = yaml.load(open(config_path), Loader=yaml.FullLoader)

preproc = config['preprocessing']
training = config['train']
evaluate = config['evaluate']

# check columns with train
column_sequence_path = preproc['unique_values_path']
with open(column_sequence_path, encoding="utf8") as json_file:
    column_sequence = json.load(json_file)

# Import

In [16]:
data = pd.read_json(evaluate['predict_path'])

In [17]:
data

Unnamed: 0,room_count,district,area,street,house,metro,time_metro,facilities,floor,attic,square,transport_type
0,1,ЦАО,Якиманка,ул. Большая Полянка,28к1,Полянка,1,"[Можно с детьми, Ванна, Стиральная машина, Пос...",11,14,38,пешком
1,2,СВАО,Отрадное,ул. Декабристов,21,Отрадное,4,"[Можно с животными, Можно с детьми, Стиральная...",2,12,45,пешком
2,3,ВАО,Сокольники,ул. Матросская Тишина,23/7С3,Сокольники,16,"[Можно с детьми, Ванна, Стиральная машина, Пос...",5,5,80,пешком
3,2,ЦАО,Мещанский,Рождественский бул.,17,Трубная,5,"[Можно с животными, Стиральная машина, Посудом...",4,5,77,пешком
4,2,ЦАО,Пресненский,1-й Красногвардейский проезд,22с2,Тестовская,4,"[Можно с животными, Можно с детьми, Ванна, Сти...",48,78,73,пешком
...,...,...,...,...,...,...,...,...,...,...,...,...
4873,2,ЗАО,Фили-Давыдково,Кременчугская ул.,44К2,Давыдково,8,"[Можно с детьми, Стиральная машина, Мебель на ...",1,5,38,пешком
4874,1,САО,Сокол,Песчаная ул.,13,Сокол,6,"[Можно с животными, Можно с детьми, Ванна, Сти...",10,14,40,пешком
4875,3,ЦАО,Красносельский,Скорняжный пер.,7к2,Красные ворота,8,"[Можно с детьми, Можно с животными, Ванна]",4,16,69,пешком
4876,2,ЮЗАО,Ясенево,Вильнюсская ул.,8К2,Ясенево,13,"[Можно с детьми, Ванна, Стиральная машина, Меб...",2,16,54,пешком


# Preprocessing

In [18]:
def transform_types(data: pd.DataFrame,
                    change_type_columns: dict) -> pd.DataFrame:
    """
    Преобразование признаков в заданный тип данных
    :param data: датасет
    :param change_type_columns: словарь с признаками и типами данных
    :return:
    """
    return data.astype(change_type_columns, errors="raise")


def check_columns_evaluate(data: pd.DataFrame,
                           unique_values_path: str) -> pd.DataFrame:
    """
    Проверка на наличие признаков из train и упорядочивание признаков согласно train
    :param data: датасет test
    :param unique_values_path: путь до списока с признаками train для сравнения
    :return: датасет test
    """
    with open(unique_values_path, encoding='utf8') as json_file:
        unique_values = json.load(json_file)

    column_sequence = unique_values.keys()

    assert set(column_sequence) == set(data.columns), "Разные признаки"
    return data[column_sequence]

In [30]:
def pipeline_preprocess(data: pd.DataFrame,
                        flg_evaluate: bool = True,
                        **kwargs):
    """
    Обрабатывает исходные данные, применяя различные преобразования и заполнение отсутствующих значений.

    Аргументы:
    - data: pandas.DataFrame, исходные данные

    Возвращает:
    - pandas.DataFrame, обработанные данные
    """
    data = data.drop(kwargs["drop_columns"], axis=1, errors="ignore")
    # проверка dataset на совпадение с признаками из train
    # либо сохранение уникальных данных с признаками из train
    if flg_evaluate:
        data = check_columns_evaluate(
            data=data, unique_values_path=kwargs["unique_values_path"])
    else:
        save_unique_train_data(
            data=data,
            drop_columns=kwargs["drop_columns"],
            target_column=kwargs["target_column"],
            unique_values_path=kwargs["unique_values_path"],
        )

    data = data.drop(kwargs["drop_columns"], axis=1, errors="ignore")

    data = data.fillna({
        col: -1000 if data[col].dtype in ['int64', 'float64'] else 'unknown'
        for col in data.columns
    })

    # преобразование столбцов со списками в ячейках в бинаризованные
    mlb = MultiLabelBinarizer()
    list_columns = [
        col for col in data.columns if isinstance(data[col].iloc[0], list)
    ]
    data_bin = pd.DataFrame(mlb.fit_transform(data[list_columns[0]]),
                            columns=mlb.classes_,
                            index=data.index)
    data = pd.concat([data.drop(list_columns, axis=1), data_bin], axis=1)

    translit_columns = {
        column: translit(column.replace(" ", "_").replace("'", ""),
                         'ru',
                         reversed=True).replace("'", "")
        for column in data.columns
    }
    data = data.rename(columns=translit_columns)

    data = transform_types(data=data,
                           change_type_columns=kwargs["change_type_columns"])

    dict_category = {
        key: "category"
        for key in data.select_dtypes(["object"]).columns
    }
    data = transform_types(data=data, change_type_columns=dict_category)

    return data

# Evaluate

In [31]:
data_proc_test = pipeline_preprocess(data=data, **preproc)

In [32]:
data_proc_test.columns

Index(['room_count', 'district', 'area', 'metro', 'time_metro', 'floor',
       'attic', 'square', 'transport_type', 'Vanna', 'Dushevaja_kabina',
       'Internet', 'Konditsioner', 'Mebel_v_komnatah', 'Mebel_na_kuhne',
       'Mozhno_s_detmi', 'Mozhno_s_zhivotnymi', 'Posudomoechnaja_mashina',
       'Stiralnaja_mashina', 'Televizor', 'Holodilnik'],
      dtype='object')

In [33]:
model = joblib.load(training['model_path'])
data_proc_test['predict'] = model.predict(data_proc_test)

In [34]:
data_proc_test

Unnamed: 0,room_count,district,area,metro,time_metro,floor,attic,square,transport_type,Vanna,...,Konditsioner,Mebel_v_komnatah,Mebel_na_kuhne,Mozhno_s_detmi,Mozhno_s_zhivotnymi,Posudomoechnaja_mashina,Stiralnaja_mashina,Televizor,Holodilnik,predict
0,1,ЦАО,Якиманка,Полянка,1,11,14,38,пешком,1,...,1,1,1,1,0,1,1,1,1,66891.678265
1,2,СВАО,Отрадное,Отрадное,4,2,12,45,пешком,0,...,0,1,1,1,1,0,1,0,1,41832.945841
2,3,ВАО,Сокольники,Сокольники,16,5,5,80,пешком,1,...,1,1,1,1,0,1,1,1,1,89105.187711
3,2,ЦАО,Мещанский,Трубная,5,4,5,77,пешком,0,...,1,1,1,0,1,1,1,1,1,152845.634307
4,2,ЦАО,Пресненский,Тестовская,4,48,78,73,пешком,1,...,1,1,1,1,1,1,1,1,1,233623.326943
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4873,2,ЗАО,Фили-Давыдково,Давыдково,8,1,5,38,пешком,0,...,0,1,1,1,0,0,1,1,1,35925.557154
4874,1,САО,Сокол,Сокол,6,10,14,40,пешком,1,...,1,1,1,1,1,0,1,1,1,45314.712742
4875,3,ЦАО,Красносельский,Красные ворота,8,4,16,69,пешком,1,...,0,0,0,1,1,0,0,0,0,90563.125460
4876,2,ЮЗАО,Ясенево,Ясенево,13,2,16,54,пешком,1,...,0,1,1,1,0,0,1,1,1,42078.732696


In [35]:
data_proc_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4878 entries, 0 to 4877
Data columns (total 22 columns):
 #   Column                   Non-Null Count  Dtype   
---  ------                   --------------  -----   
 0   room_count               4878 non-null   int64   
 1   district                 4878 non-null   category
 2   area                     4878 non-null   category
 3   metro                    4878 non-null   category
 4   time_metro               4878 non-null   int64   
 5   floor                    4878 non-null   int64   
 6   attic                    4878 non-null   int64   
 7   square                   4878 non-null   int64   
 8   transport_type           4878 non-null   category
 9   Vanna                    4878 non-null   int32   
 10  Dushevaja_kabina         4878 non-null   int32   
 11  Internet                 4878 non-null   int32   
 12  Konditsioner             4878 non-null   int32   
 13  Mebel_v_komnatah         4878 non-null   int32   
 14  Mebel_na