In [1]:
import os

import numpy as np
import pandas as pd

import joblib

from typing import Dict

import yaml
import json

import warnings
warnings.filterwarnings("ignore")

In [2]:
config_path = '../config/params.yml'
config = yaml.load(open(config_path), Loader=yaml.FullLoader)

preproc = config['preprocessing']
training = config['train']
evaluate = config['evaluate']


# check columns with train
column_sequence_path = preproc['unique_values_path']
with open(column_sequence_path) as json_file:
    column_sequence = json.load(json_file)

# Import

In [3]:
data_test = pd.read_csv(evaluate['predict_path'])
data_test[:4]

Unnamed: 0,id,Gender,Age,Driving_License,Region_Code,Previously_Insured,Vehicle_Age,Vehicle_Damage,Annual_Premium,Policy_Sales_Channel,Vintage
0,381110,Male,25,1,11,1,< 1 Year,No,35786.0,152,53
1,381111,Male,40,1,28,0,1-2 Year,Yes,33762.0,7,111
2,381112,Male,47,1,28,0,1-2 Year,Yes,40050.0,124,199
3,381113,Male,24,1,27,1,< 1 Year,Yes,37356.0,152,187


# Preprocessing

In [11]:
def replace_values(data: pd.DataFrame, map_change_columns: dict) -> pd.DataFrame:
    """
    Замена значений в датасете
    :param data: датасет
    :param map_change_columns: словарь с признаками и значениями
    :return: датасет
    """
    return data.replace(map_change_columns)


def transform_types(data: pd.DataFrame, change_type_columns: dict) -> pd.DataFrame:
    """
    Преобразование признаков в заданный тип данных
    :param data: датасет
    :param change_type_columns: словарь с признаками и типами данных
    :return:
    """
    return data.astype(change_type_columns, errors="raise")


def get_bins(
    data: (int, float), first_val: (int, float), second_val: (int, float)
) -> str:
    """
    Генерация бинов для разных признаков
    :param data: датасет
    :param first_val: первый порог значения для разбиения на бины
    :param second_val: второй порог значения для разбиения на бины
    :return: датасет
    """
    assert isinstance(data, (int, float)), "Проблема с типом данных в признаке"
    result = (
        "small"
        if data <= first_val
        else "medium"
        if first_val < data <= second_val
        else "large"
    )
    return result


def check_columns_evaluate(data: pd.DataFrame, unique_values_path: str) -> pd.DataFrame:
    """
    Проверка на наличие признаков из train и упорядочивание признаков согласно train
    :param data: датасет test
    :param unique_values_path: путь до списока с признаками train для сравнения
    :return: датасет test
    """
    with open(unique_values_path) as json_file:
        unique_values = json.load(json_file)

    column_sequence = unique_values.keys()

    assert set(column_sequence) == set(data.columns), "Разные признаки"
    return data[column_sequence]

In [6]:
def pipeline_preprocess(data: pd.DataFrame, flg_evaluate: bool = True, **kwargs):
    """
    Пайплайн по предобработке данных
    :param data: датасет
    :param flg_evaluate: флаг для evaluate
    :return: датасет
    """
    # drop columns
    data = data.drop(kwargs["drop_columns"], axis=1, errors="ignore")
    # проверка dataset на совпадение с признаками из train
    # либо сохранение уникальных данных с признаками из train
    if flg_evaluate:
        data = check_columns_evaluate(
            data=data, unique_values_path=kwargs["unique_values_path"]
        )
    else:
        save_unique_train_data(
            data=data,
            drop_columns=kwargs["drop_columns"],
            target_column=kwargs["target_column"],
            unique_values_path=kwargs["unique_values_path"],
        )

    # replace values
    data = replace_values(data=data, map_change_columns=kwargs["map_change_columns"])

    # transform types
    data = transform_types(data=data, change_type_columns=kwargs["change_type_columns"])

    assert isinstance(
        kwargs["map_bins_columns"], dict
    ), "Подайте тип данных для бинаризации в формате dict"
    # bins
    for key in kwargs["map_bins_columns"].keys():
        data[f"{key}_bins"] = data[key].apply(
            lambda x: get_bins(
                x,
                first_val=kwargs["map_bins_columns"][key][0],
                second_val=kwargs["map_bins_columns"][key][1],
            )
        )

    # change category types
    dict_category = {key: "category" for key in data.select_dtypes(["object"]).columns}
    data = transform_types(data=data, change_type_columns=dict_category)
    return data

In [8]:
data_test.iloc[:,:5]

Unnamed: 0,id,Gender,Age,Driving_License,Region_Code
0,381110,Male,25,1,11
1,381111,Male,40,1,28
2,381112,Male,47,1,28
3,381113,Male,24,1,27
4,381114,Male,27,1,28
...,...,...,...,...,...
127032,508142,Female,26,1,37
127033,508143,Female,38,1,28
127034,508144,Male,21,1,46
127035,508145,Male,71,1,28


In [12]:
data_proc_test = pipeline_preprocess(data=data_test.iloc[:,:5], **preproc)

AssertionError: Разные признаки

In [13]:
data_proc_test = pipeline_preprocess(data=data_test, **preproc)

In [14]:
data_proc_test[:4]

Unnamed: 0,Gender,Age,Driving_License,Region_Code,Previously_Insured,Vehicle_Age,Vehicle_Damage,Annual_Premium,Policy_Sales_Channel,Vintage,Age_bins,Annual_Premium_bins,Vintage_bins
0,Male,25,1,11,1,less_1_year,0,35786.0,152,53,small,medium,medium
1,Male,40,1,28,0,1_2_year,1,33762.0,7,111,medium,medium,medium
2,Male,47,1,28,0,1_2_year,1,40050.0,124,199,medium,large,large
3,Male,24,1,27,1,less_1_year,1,37356.0,152,187,small,medium,large


Если используете модель, где необходимо сделать One-Hot кодирование, то у вас могут различаться признаки. В этом случае вам необходимо добавить недостающие бинаризованные признаки заполненные 'None'/0 (то есть как будто они пустые), а уже далее провеирить на соответствие признаки. Но и признаки для train нужно сохранять тогда до и после бинаризации

# Evaluate

In [15]:
model = joblib.load(training['model_path'])
data_proc_test['predict'] = model.predict(data_proc_test)

In [16]:
data_proc_test[:4]

Unnamed: 0,Gender,Age,Driving_License,Region_Code,Previously_Insured,Vehicle_Age,Vehicle_Damage,Annual_Premium,Policy_Sales_Channel,Vintage,Age_bins,Annual_Premium_bins,Vintage_bins,predict
0,Male,25,1,11,1,less_1_year,0,35786.0,152,53,small,medium,medium,0
1,Male,40,1,28,0,1_2_year,1,33762.0,7,111,medium,medium,medium,1
2,Male,47,1,28,0,1_2_year,1,40050.0,124,199,medium,large,large,1
3,Male,24,1,27,1,less_1_year,1,37356.0,152,187,small,medium,large,0
