In [244]:
import os

import numpy as np
import pandas as pd

from sklearn.preprocessing import StandardScaler

import joblib

from typing import Dict, Union, Optional

import yaml
import json

import warnings

warnings.filterwarnings("ignore")

In [245]:
config_path = '../config/params.yml'
config = yaml.load(open(config_path, encoding='utf-8'), Loader=yaml.FullLoader)

preproc = config['preprocessing']
training = config['train']
evaluate = config['evaluate']

# Import

In [261]:
data_eval = pd.read_csv(evaluate['predict_path'])
data_eval.head()

Unnamed: 0,ПрАудит,Актив_ОбА_ДебЗад_Отч,Актив_ОбА_ДебЗад_Пред,Актив_ОбА_ДебЗад_ПредПред,Актив_ОбА_Запасы_Отч,Актив_ОбА_Запасы_Пред,Актив_ОбА_Запасы_ПредПред,Актив_ОбА_Отч,Актив_ОбА_ПрочОбА_Отч,Актив_ОбА_ПрочОбА_Пред,...,ЧистПрибУб_Отч,ПрибУбДоНал_Отч,ОтложНалПриб_Отч,ВаловаяПрибыль_Отч,ДвижКап_Итог_Пред,ДвижКап_Итог_Отч,ДвижКап_Итог_ПредПред,ЧистАктив_Отч,ЧистАктив_Пред,ЧистАктив_ПредПред
0,1,198477.0,157148.0,172958.0,219387,108123.0,74581.0,498343,2920,6270.0,...,235259.0,257840.0,-883.0,574079.0,105262.0,340521,2412,340521,105261,2412
1,0,134095.0,138838.0,125797.0,27525,33953.0,34039.0,229725,8407,21565.0,...,5950.0,7549.0,-1597.0,663.0,90936.0,96885,91032,96885,90936,91032
2,0,9569.0,6316.0,0.0,4145,131.0,0.0,19589,1882,760.0,...,6340.0,8258.0,0.0,33993.0,677.0,6791,10,6791,677,10
3,0,91588.0,104941.0,93807.0,4249,4386.0,178013.0,95934,53,0.0,...,-942.0,1844.0,-427.0,9469.0,-959604.0,-949173,-953981,-949173,-959604,-953981
4,1,1381628.0,216102.0,217196.0,39,0.0,21.0,1586667,74,0.0,...,-53991.0,-55670.0,1679.0,-809.0,-54827.0,-2485153,-62163,-2485153,-54827,-62163


In [268]:
data_eval.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9536 entries, 0 to 9535
Data columns (total 92 columns):
 #   Column                                     Non-Null Count  Dtype  
---  ------                                     --------------  -----  
 0   ПрАудит                                    9536 non-null   int64  
 1   Актив_ОбА_ДебЗад_Отч                       9536 non-null   float64
 2   Актив_ОбА_ДебЗад_Пред                      9536 non-null   float64
 3   Актив_ОбА_ДебЗад_ПредПред                  9536 non-null   float64
 4   Актив_ОбА_Запасы_Отч                       9536 non-null   int64  
 5   Актив_ОбА_Запасы_Пред                      9536 non-null   float64
 6   Актив_ОбА_Запасы_ПредПред                  9536 non-null   float64
 7   Актив_ОбА_Отч                              9536 non-null   int64  
 8   Актив_ОбА_ПрочОбА_Отч                      9536 non-null   int64  
 9   Актив_ОбА_ПрочОбА_Пред                     9536 non-null   float64
 10  Актив_ОбА_ПрочОбА_ПредПр

# Preprocessing

Так как в процессе рассчитываются дополнительные признаки (фин. коэф-ты), а затем признаки отсеиваются по корреляции, то проверку на наличие всех признаков из train необходимо выполнять только после этих двух этапов.

In [247]:
def calculation_of_coeffs_div(data: pd.DataFrame, x: str, y: str, new_col: str,
                              perc: int) -> pd.DataFrame:
    """
    Расчёт финансовых коэффицицентов
    :param data: датасет
    :param x: признак, который будет в числителе   
    :param y: признак, который будет в знаменателе
    :param new_col: новый признак(коэффициент)
    :param perc: процент, на который нужно умножить результат
    :return: датасет
    """
    # Если в формуле не нужно умножать результат на 100, то параметр perc=1 
    result = data[x] / data[y] * perc
    result[data[y] == 0] = 0
    data[new_col] = result
    return data


def calculation_of_coeffs_sum(data: pd.DataFrame, x: str, y: str,
                              new_col: str) -> pd.DataFrame:
    """
    Расчёт финансовых коэффицицентов
    :param data: датасет
    :param x: первое слагаемое  
    :param y: второе слагаемое
    :param new_col: новый признак(коэффициент)
    :return: датасет
    """
    result = data[x] + data[y]
    data[new_col] = result
    return data


def calculation_of_coeffs_subtraction(data: pd.DataFrame, x: str, y: str,
                                      new_col: str) -> pd.DataFrame:
    """
    Расчёт финансовых коэффицицентов
    :param data: датасет
    :param x: признак, из которого вычитаем (уменьшаемое)  
    :param y: признак, который вычитаем (вычитаемое)
    :param new_col: новый признак(коэффициент)
    :return: датасет
    """
    result = data[x] - data[y]
    data[new_col] = result
    return data

Добавим рассчитываемые признаки в json файл:

In [248]:
# Список задач
tasks = [
    {"function": "calculation_of_coeffs_div", "args": ["ЧистПрибУб_Отч", "Выруч_Отч", "ЧистНормПриб", 100]},
    {"function": "calculation_of_coeffs_div", "args": ["ВаловаяПрибыль_Отч", "Выруч_Отч", "ВаловаяРент", 100]},
    {"function": "calculation_of_coeffs_div", "args": ["ПрибПрод_Отч", "Выруч_Отч", "РентабОперДеят", 100]},
    {"function": "calculation_of_coeffs_sum", "args": ["Пассив_ДолгосрОбяз_Отч", "Пассив_КраткосрОбяз_Отч", "СовокупДолг_Отч"]},
    {"function": "calculation_of_coeffs_sum", "args": ["Пассив_ДолгосрОбяз_Пред", "Пассив_КраткосрОбяз_Пред", "СовокупДолг_Пред"]},
    {"function": "calculation_of_coeffs_sum", "args": ["Пассив_ДолгосрОбяз_ПредПред", "Пассив_КраткосрОбяз_ПредПред", "СовокупДолг_ПредПред"]},
    {"function": "calculation_of_coeffs_div", "args": ["Актив_ОбА_Отч", "Пассив_КраткосрОбяз_Отч", "Коэф_ТекущЛиквид_Отч", 100]},
    {"function": "calculation_of_coeffs_div", "args": ["Актив_ОбА_Пред", "Пассив_КраткосрОбяз_Пред", "Коэф_ТекущЛиквид_Пред", 100]},
    {"function": "calculation_of_coeffs_div", "args": ["Актив_ОбА_ПредПред", "Пассив_КраткосрОбяз_ПредПред", "Коэф_ТекущЛиквид_ПредПред", 100]},
    {"function": "calculation_of_coeffs_div", "args": ["ЧистПрибУб_Отч", "ДвижКап_Итог_Отч", "Рентаб_СобствКап", 1]},
    {"function": "calculation_of_coeffs_div", "args": ["Актив_Отч", "ДвижКап_Итог_Отч", "Мультиплик_СобствКап_Отч", 1]},
    {"function": "calculation_of_coeffs_div", "args": ["Актив_Пред", "ДвижКап_Итог_Пред", "Мультиплик_СобствКап_Пред", 1]},
    {"function": "calculation_of_coeffs_div", "args": ["Актив_ПредПред", "ДвижКап_Итог_ПредПред", "Мультиплик_СобствКап_ПредПред", 1]},
    {"function": "calculation_of_coeffs_div", "args": ["Выруч_Отч", "Актив_Отч", "Эффект_Использ_Актив", 1]},
    {"function": "calculation_of_coeffs_div", "args": ["Актив_ОбА_ДебЗад_Отч", "Актив_Отч", "Доля_ДебЗадолж", 100]},
    {"function": "calculation_of_coeffs_div", "args": ["Актив_ОбА_Запасы_Отч", "Актив_Отч", "Доля_Запасов", 100]},
    {"function": "calculation_of_coeffs_div", "args": ["Пассив_КраткосрОбяз_КредитЗадолж_Отч", "Пассив_Отч", "Доля_КредитЗадолж_Отч", 100]},
    {"function": "calculation_of_coeffs_div", "args": ["Пассив_КраткосрОбяз_КредитЗадолж_Пред", "Пассив_Пред", "Доля_КредитЗадолж_Пред", 100]},
    {"function": "calculation_of_coeffs_div", "args": ["Пассив_КраткосрОбяз_КредитЗадолж_ПредПред", "Пассив_ПредПред", "Доля_КредитЗадолж_ПредПред", 100]},
    {"function": "calculation_of_coeffs_subtraction", "args": ["Доля_КредитЗадолж_Пред", "Доля_КредитЗадолж_ПредПред", "Динам_КрЗадолж_Пред_ПредПред"]},
    {"function": "calculation_of_coeffs_subtraction", "args": ["Доля_КредитЗадолж_Отч", "Доля_КредитЗадолж_Пред", "Динам_КрЗадолж_Отч_Пред"]},
    {"function": "calculation_of_coeffs_div", "args": ["Актив_ОбА_ДебЗад_Отч", "Пассив_КраткосрОбяз_КредитЗадолж_Отч", "Отнош_ДебитКредит", 1]},
    {"function": "calculation_of_coeffs_subtraction", "args": ["Коэф_ТекущЛиквид_Отч", "Коэф_ТекущЛиквид_Пред", "Динам_КоэфТекЛиквид_ОтчПред"]}
]

In [249]:
with open(preproc['tasks_path'], 'w', encoding='utf-8') as file:
    json.dump(tasks, file, ensure_ascii=False, indent=4)

print("JSON файл успешно создан и заполнен.")

JSON файл успешно создан и заполнен.


In [250]:
def execute_tasks_from_file(data: pd.DataFrame,
                            file_path: str) -> pd.DataFrame:
    """
    Расчёт новых признаков на основе JSON файла с задачами
    :param data: исходный датасет
    :param file_path: путь к JSON файлу с задачами
    :return: датасет
    """
    with open(file_path, 'r', encoding='utf-8') as file:
        tasks = json.load(file)

    functions = {
        'calculation_of_coeffs_div': calculation_of_coeffs_div,
        'calculation_of_coeffs_sum': calculation_of_coeffs_sum,
        'calculation_of_coeffs_subtraction': calculation_of_coeffs_subtraction
    }

    # Выполнение задач
    for task in tasks:
        func = functions[task["function"]]
        args = task["args"]
        data = func(data, *args)

    return data

In [251]:
def get_bins(data: Union[int, float],
             first_val: Union[int, float] = 0,
             second_val: Union[int, float] = 0) -> str:
    """
    Генерация бинов для разных признаков
    :param data: датасет
    :param first_val: первое пороговое значение 
    :param second_val: второе пороговое значение  
    :return: датасет
    """
    assert isinstance(data, (int, float)), "Неверный тип данных в признаке"
    result = ("Ниже нормы" if data < first_val else "Оптимально"
              if first_val <= data <= second_val else "Выше нормы")
    return result


def features_selection(data: pd.DataFrame, data_type: str) -> pd.Index:
    """
    Определение признаков, соответствующих указанному типу данных
    :param data: датасет
    :param data_type: тип данных
    :return: список признаков
    """
    num_cols = data.select_dtypes(include=[data_type]).columns
    return num_cols

In [None]:
def check_columns_evaluate(data: pd.DataFrame, unique_values_path: str,
                           flg_evaluate: bool) -> pd.DataFrame:
    """
    Проверка на наличие признаков из train, добавление недостающих, 
    удаление лишних
    :param data: датасет test
    :param unique_values_path: путь до списка с признаками train 
    :return: датасет test
    """

    with open(unique_values_path, encoding='utf-8') as json_file:
        unique_values = json.load(json_file)

    column_sequence = list(unique_values.keys())

    # Добавление target в column_sequence, если это тренировочные данные
    if not flg_evaluate and 'target' not in column_sequence:
        column_sequence.append('target')

    # Добавление недостающих признаков
    for col in column_sequence:
        if col not in data.columns:
            data[col] = 0

    # Удаление лишних признаков, кроме target, если это тренировочные данные
    if flg_evaluate:
        data = data[[col for col in column_sequence if col in data.columns]]
    else:
        data = data[[
            col for col in column_sequence
            if col in data.columns or col == 'target'
        ]]

    return data[column_sequence]

In [None]:
def pipeline_preprocess(data: pd.DataFrame,
                        flg_evaluate: bool = False,
                        **kwargs) -> pd.DataFrame:
    """
    Пайплайн по предобработке данных
    :param data: датасет
    :param flg_evaluate: флаг для evaluate
    :return: датасет
    """

    data = execute_tasks_from_file(data, kwargs['tasks_path'])

    data = check_columns_evaluate(
        data=data,
        unique_values_path=kwargs["unique_values_path"],
        flg_evaluate=flg_evaluate)

    # getbins
    assert isinstance(
        kwargs["bins_columns"],
        dict), "Подайте тип данных для бинаризации в формате dict"
    for key in kwargs["bins_columns"].keys():
        data[f"{key}_bins"] = data[key].apply(lambda x: get_bins(
            x,
            first_val=kwargs["bins_columns"][key][0],
            second_val=kwargs["bins_columns"][key][1],
        ))

    num_selected_cols = features_selection(data, preproc['data_type'][0])
    cat_selected_cols = features_selection(data, preproc['data_type'][1])
      
    data = pd.get_dummies(data,
                          columns=cat_selected_cols,
                          drop_first=True,
                          dtype=int)
    
    scaler = StandardScaler()
    data[num_selected_cols] = scaler.fit_transform(data[num_selected_cols])

    data = check_columns_evaluate(
        data=data, unique_values_path=kwargs["uniq_val_path_with_binar"])

    return data

In [263]:
data_test = pipeline_preprocess(data=data_eval, **preproc)

In [264]:
data_test.shape

(9536, 75)

In [256]:
with open(preproc['uniq_val_path_with_binar']) as json_file:
        unique_values = json.load(json_file)

column_sequence = unique_values.keys()
len(column_sequence)

75

In [265]:
data_test[:4]

Unnamed: 0,ПрАудит,Актив_ОбА_ДебЗад_Отч,Актив_ОбА_Запасы_Отч,Актив_ОбА_Запасы_Пред,Актив_ОбА_Запасы_ПредПред,Актив_ОбА_Отч,Актив_ОбА_ДенежнСр_Отч,Актив_ОбА_ДенежнСр_Пред,Актив_ОбА_ПредПред,Актив_ВнеОбА_ОснСр_Отч,...,Динам_КрЗадолж_Пред_ПредПред,Динам_КрЗадолж_Отч_Пред,Отнош_ДебитКредит,Динам_КоэфТекЛиквид_ОтчПред,Отнош_ДебитКредит_bins_Ниже нормы,Отнош_ДебитКредит_bins_Оптимально,Коэф_ТекущЛиквид_Отч_bins_Ниже нормы,Коэф_ТекущЛиквид_Отч_bins_Оптимально,Динам_КоэфТекЛиквид_ОтчПред_bins_Ниже нормы,Динам_КоэфТекЛиквид_ОтчПред_bins_Оптимально
0,1.313822,-0.041106,0.006726,-0.074999,-0.086086,-0.05152,-0.065578,-0.069181,-0.059535,-0.002,...,-0.065932,0.1296,-0.024899,-0.006107,1,0,1,0,0,0
1,-0.761138,-0.047985,-0.166556,-0.150075,-0.134183,-0.070878,-0.069916,-0.073513,-0.070029,-0.050646,...,0.314769,-0.131866,-0.023373,-0.005232,0,1,0,1,0,0
2,-0.761138,-0.061291,-0.187672,-0.18431,-0.174566,-0.086021,-0.068431,-0.071973,-0.097782,-0.049917,...,2.302269,-0.823817,-0.024034,-0.004866,1,0,0,1,0,0
3,-0.761138,-0.052527,-0.187578,-0.180003,0.036621,-0.080519,-0.070097,-0.073673,-0.065423,-0.04744,...,6.995811,0.014304,-0.025817,-0.005459,1,0,1,0,0,0


# Evaluate

In [266]:
model = joblib.load(training['model_path'])
data_test['predict'] = model.predict(data_test)

In [267]:
data_test

Unnamed: 0,ПрАудит,Актив_ОбА_ДебЗад_Отч,Актив_ОбА_Запасы_Отч,Актив_ОбА_Запасы_Пред,Актив_ОбА_Запасы_ПредПред,Актив_ОбА_Отч,Актив_ОбА_ДенежнСр_Отч,Актив_ОбА_ДенежнСр_Пред,Актив_ОбА_ПредПред,Актив_ВнеОбА_ОснСр_Отч,...,Динам_КрЗадолж_Отч_Пред,Отнош_ДебитКредит,Динам_КоэфТекЛиквид_ОтчПред,Отнош_ДебитКредит_bins_Ниже нормы,Отнош_ДебитКредит_bins_Оптимально,Коэф_ТекущЛиквид_Отч_bins_Ниже нормы,Коэф_ТекущЛиквид_Отч_bins_Оптимально,Динам_КоэфТекЛиквид_ОтчПред_bins_Ниже нормы,Динам_КоэфТекЛиквид_ОтчПред_bins_Оптимально,predict
0,1.313822,-0.041106,0.006726,-0.074999,-0.086086,-0.051520,-0.065578,-0.069181,-0.059535,-0.002000,...,0.129600,-0.024899,-0.006107,1,0,1,0,0,0,0
1,-0.761138,-0.047985,-0.166556,-0.150075,-0.134183,-0.070878,-0.069916,-0.073513,-0.070029,-0.050646,...,-0.131866,-0.023373,-0.005232,0,1,0,1,0,0,0
2,-0.761138,-0.061291,-0.187672,-0.184310,-0.174566,-0.086021,-0.068431,-0.071973,-0.097782,-0.049917,...,-0.823817,-0.024034,-0.004866,1,0,0,1,0,0,0
3,-0.761138,-0.052527,-0.187578,-0.180003,0.036621,-0.080519,-0.070097,-0.073673,-0.065423,-0.047440,...,0.014304,-0.025817,-0.005459,1,0,1,0,0,0,1
4,1.313822,0.085309,-0.191380,-0.184443,-0.174541,0.026907,-0.069886,-0.073677,-0.071899,-0.034306,...,-2.905963,-0.020040,-0.005599,0,0,1,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9531,-0.761138,-0.060044,-0.191410,-0.184437,-0.171543,-0.083211,-0.070094,-0.073299,-0.093747,-0.050161,...,0.262400,-0.025640,-0.005546,1,0,1,0,0,0,1
9532,1.313822,-0.037403,0.543859,0.572085,0.415292,-0.005985,-0.036125,-0.068570,0.015441,-0.040226,...,-0.361826,-0.025499,-0.005396,1,0,1,0,0,0,0
9533,1.313822,-0.061804,-0.179562,-0.175078,-0.169687,-0.084758,-0.069710,-0.073513,-0.077262,-0.043381,...,-0.128905,-0.025981,-0.005710,1,0,1,0,0,0,0
9534,1.313822,-0.051888,-0.189149,-0.157780,-0.138352,-0.040552,-0.057932,-0.032839,-0.004286,-0.049326,...,0.195729,-0.023904,-0.005493,1,0,0,1,0,0,0
