In [1]:
import os

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler

import joblib

from typing import Dict, Union, Optional

import yaml
import json

import warnings

warnings.filterwarnings("ignore")

In [2]:
config_path = '../config/params.yml'
config = yaml.load(open(config_path, encoding='utf-8'), Loader=yaml.FullLoader)

preproc = config['preprocessing']
training = config['train']
evaluate = config['evaluate']


column_sequence_path = preproc['unique_values_path']
with open(column_sequence_path) as json_file:
    column_sequence = json.load(json_file)

# Тестирование

In [5]:
from sklearn.model_selection import train_test_split

In [5]:
unique_data_path = config["preprocessing"]["unique_values_before_preproc"]
with open(unique_data_path, encoding='utf-8') as file:
    unique_df = json.load(file)

In [9]:
type(unique_df)

dict

In [10]:
param_features_path = config["preprocessing"]["input_features_path"]
with open(param_features_path, encoding='utf-8') as file:
    feature_params = json.load(file)

In [13]:
feature_params

{'ПрАудит': {'label': 'ПрАудит',
  'min': 'ПрАудит',
  'max': 'ПрАудит',
  'condition': {'type': 'or', 'value': 'ПрАудит'}},
 'Актив_ОбА_ДебЗад_Отч': {'label': 'Актив_ОбА_ДебЗад_Отч',
  'min': 'Актив_ОбА_ДебЗад_Отч',
  'max': 'Актив_ОбА_ДебЗад_Отч',
  'condition': {'type': '', 'value': ''}},
 'Актив_ОбА_ДебЗад_Пред': {'label': 'Актив_ОбА_ДебЗад_Пред',
  'min': 'Актив_ОбА_ДебЗад_Пред',
  'max': '',
  'condition': {'type': 'max_less_than_or_equal', 'value': 'Актив_ОбА_Пред'}},
 'Актив_ОбА_Запасы_Отч': {'label': 'Актив_ОбА_Запасы_Отч',
  'min': 'Актив_ОбА_Запасы_Отч',
  'max': '',
  'condition': {'type': 'max_less_than_or_equal',
   'value': 'Актив_ОбА_Запасы_Отч'}},
 'Актив_ОбА_Запасы_Пред': {'label': 'Актив_ОбА_Запасы_Пред',
  'min': 'Актив_ОбА_Запасы_Пред',
  'max': '',
  'condition': {'type': 'max_less_than_or_equal',
   'value': 'Актив_ОбА_ПредПред'}},
 'Актив_ОбА_Запасы_ПредПред': {'label': 'Актив_ОбА_Запасы_ПредПред',
  'min': 'Актив_ОбА_Запасы_ПредПред',
  'max': '',
  'condition'

In [21]:
column_sequence_path = preproc['unique_values_path']
with open(column_sequence_path) as json_file:
    column_sequence = json.load(json_file)
len(column_sequence)

72

In [22]:
column_sequence.keys()

dict_keys(['ПрАудит', 'Актив_ОбА_ДебЗад_Отч', 'Актив_ОбА_Запасы_Отч', 'Актив_ОбА_Запасы_Пред', 'Актив_ОбА_Запасы_ПредПред', 'Актив_ОбА_Отч', 'Актив_ОбА_ДенежнСр_Отч', 'Актив_ОбА_ДенежнСр_Пред', 'Актив_ОбА_ПредПред', 'Актив_ВнеОбА_ОснСр_Отч', 'Актив_ВнеОбА_ОснСр_Пред', 'Актив_ВнеОбА_ОснСр_ПредПред', 'Актив_ВнеОбА_Отч', 'Актив_ВнеОбА_Пред', 'Актив_ВнеОбА_ПредПред', 'Актив_Отч', 'Актив_ПредПред', 'Пассив_КапРез_НераспПриб_Отч', 'Пассив_КапРез_НераспПриб_Пред', 'Пассив_КапРез_НераспПриб_ПредПред', 'Пассив_КапРез_УставКапитал_Отч', 'Пассив_КапРез_УставКапитал_ПредПред', 'Пассив_Отч', 'Пассив_ПредПред', 'Пассив_ДолгосрОбяз_Отч', 'Пассив_КраткосрОбяз_Отч', 'Пассив_КраткосрОбяз_ПредПред', 'Пассив_КраткосрОбяз_КредитЗадолж_Отч', 'Пассив_КраткосрОбяз_КредитЗадолж_ПредПред', 'Актив_ОбА_ДебЗад_ПредПред', 'Актив_ОбА_ДенежнСр_ПредПред', 'Пассив_ДолгосрОбяз_Пред', 'Пассив_ДолгосрОбяз_ПредПред', 'Актив_ОбА_ПрочОбА_Отч', 'Актив_ОбА_ПрочОбА_Пред', 'Актив_ОбА_ПрочОбА_ПредПред', 'Выруч_Отч', 'ПрибПрод_Отч

In [15]:
column_sequence_path_2 = preproc['uniq_val_path_with_binar']
with open(column_sequence_path_2) as json_file:
    column_sequence_full = json.load(json_file)
len(column_sequence_full)

75

In [44]:
test_data_2 = pd.read_csv(evaluate['predict_path'])
test_data_2.shape

(9536, 66)

In [84]:
test_data = pd.read_csv(preproc['train_path_proc'])
test_data

Unnamed: 0,target,ПрАудит,Актив_ОбА_ДебЗад_Отч,Актив_ОбА_ДебЗад_Пред,Актив_ОбА_Запасы_Отч,Актив_ОбА_Запасы_Пред,Актив_ОбА_Запасы_ПредПред,Актив_ОбА_Отч,Актив_ОбА_Пред,Актив_ОбА_ДенежнСр_Отч,...,ПрибУбДоНал_Отч,ВаловаяПрибыль_Отч,НалПриб_Отч,ТекНалПриб_Отч,ДвижКап_Итог_Пред,ДвижКап_Итог_Отч,ДвижКап_Итог_ПредПред,ЧистАктив_Отч,ЧистАктив_Пред,ЧистАктив_ПредПред
0,0,0,62430.0,2678.0,111071.0,100760.0,86693.0,173703.0,103963.0,202.0,...,58060.0,54521.0,0.0,0.0,47820.0,47820.0,47820,0.0,0.0,59276.0
1,0,0,0.0,0.0,711.0,0.0,0.0,749.0,12.0,0.0,...,94.0,94.0,-19.0,0.0,9838.0,9911.0,9838,9911.0,9838.0,9838.0
2,0,0,2141.0,4137.0,131120.0,145374.0,110450.0,154797.0,151635.0,21536.0,...,2309.0,2309.0,0.0,0.0,0.0,0.0,0,0.0,0.0,0.0
3,0,1,822600.0,501767.0,189445.0,608825.0,233520.0,6520926.0,1228569.0,510777.0,...,2332819.0,2719107.0,-467984.0,467984.0,172369.0,2037204.0,135653,2037204.0,172369.0,135653.0
4,0,1,147864.0,186224.0,269591.0,299869.0,467362.0,477547.0,555396.0,3884.0,...,5530.0,61166.0,-1631.0,129.0,17569.0,21451.0,15688,21451.0,17569.0,15688.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
23858,0,1,112568.0,101328.0,3.0,353.0,158.0,126227.0,171801.0,13656.0,...,260291.0,289304.0,-44388.0,44642.0,112987.0,86407.0,137358,86407.0,112987.0,137358.0
23859,0,0,4928.0,6632.0,595.0,692.0,685.0,14451.0,13735.0,4326.0,...,3079.0,47154.0,-1780.0,0.0,0.0,0.0,0,0.0,0.0,0.0
23860,0,0,43712.0,198362.0,0.0,0.0,0.0,233095.0,322900.0,9886.0,...,61.0,8978.0,-12.0,12.0,0.0,0.0,0,0.0,0.0,0.0
23861,0,1,98266.0,143515.0,6415.0,6493.0,7562.0,171270.0,154919.0,66589.0,...,47285.0,615916.0,-17519.0,16734.0,39463.0,69143.0,62010,69143.0,39463.0,62010.0


## Генерация признаков

In [31]:
features_from_train_path = {"ПрАудит": {"label": "ПрАудит", "min": "ПрАудит", "max": "ПрАудит", "condition": {"type": "or", "value": "ПрАудит"}},
"Актив_ОбА_ДебЗад_Отч": {"label": "Актив_ОбА_ДебЗад_Отч", "min": "Актив_ОбА_ДебЗад_Отч", "max": "Актив_ОбА_ДебЗад_Отч", "condition": {"type": "", "value": ""}},
"Актив_ОбА_ДебЗад_Пред": {"label": "Актив_ОбА_ДебЗад_Пред", "min": "Актив_ОбА_ДебЗад_Пред", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Актив_ОбА_Пред"}},
"Актив_ОбА_Запасы_Отч": {"label": "Актив_ОбА_Запасы_Отч", "min": "Актив_ОбА_Запасы_Отч", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Актив_ОбА_Запасы_Отч"}},
"Актив_ОбА_Запасы_Пред": {"label": "Актив_ОбА_Запасы_Пред", "min": "Актив_ОбА_Запасы_Пред", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Актив_ОбА_ПредПред"}},
"Актив_ОбА_Запасы_ПредПред": {"label": "Актив_ОбА_Запасы_ПредПред", "min": "Актив_ОбА_Запасы_ПредПред", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Актив_ОбА_ПредПред"}},
"Актив_ОбА_Отч": {"label": "Актив_ОбА_Отч", "min": "Актив_ОбА_Отч", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Актив_Отч"}},
"Актив_ОбА_Пред": {"label": "Актив_ОбА_Пред", "min": "Актив_ОбА_Пред", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Актив_Пред"}},
"Актив_ОбА_ДенежнСр_Отч": {"label": "Актив_ОбА_ДенежнСр_Отч", "min": "Актив_ОбА_ДенежнСр_Отч", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Актив_ОбА_Отч"}},
"Актив_ОбА_ДенежнСр_Пред": {"label": "Актив_ОбА_ДенежнСр_Пред", "min": "Актив_ОбА_ДенежнСр_Пред", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Актив_ОбА_Пред"}},
"Актив_ОбА_ПредПред": {"label": "Актив_ОбА_ПредПред", "min": "Актив_ОбА_ПредПред", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Актив_ПредПред"}},
"Актив_ВнеОбА_ОснСр_Отч": {"label": "Актив_ВнеОбА_ОснСр_Отч", "min": "Актив_ВнеОбА_ОснСр_Отч", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Актив_ВнеОбА_Отч"}},
"Актив_ВнеОбА_ОснСр_Пред": {"label": "Актив_ВнеОбА_ОснСр_Пред", "min": "Актив_ВнеОбА_ОснСр_Пред", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Актив_Пред"}},
"Актив_ВнеОбА_ОснСр_ПредПред": {"label": "Актив_ВнеОбА_ОснСр_ПредПред", "min": "Актив_ВнеОбА_ОснСр_ПредПред", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Актив_ВнеОбА_ПредПред"}},
"Актив_ВнеОбА_Отч": {"label": "Актив_ВнеОбА_ПредПред", "min": "Актив_ВнеОбА_ПредПред", "max": "Актив_ВнеОбА_ПредПред", "condition": {"type": "", "value": ""}},
"Актив_ВнеОбА_Пред": {"label": "Актив_ВнеОбА_Пред", "min": "Актив_ВнеОбА_Пред", "max": "Актив_ВнеОбА_Пред", "condition": {"type": "", "value": ""}},
"Актив_ВнеОбА_ПредПред": {"label": "Актив_ВнеОбА_ПредПред", "min": "Актив_ВнеОбА_ПредПред", "max": "Актив_ВнеОбА_ПредПред", "condition": {"type": "", "value": ""}},
"Актив_Отч": {"label": "Актив_Отч", "min": "Актив_Отч", "max": "Актив_Отч", "condition": {"type": "", "value": ""}},
"Актив_Пред": {"label": "Актив_Пред", "min": "Актив_Пред", "max": "Актив_Пред", "condition": {"type": "", "value": ""}},
"Актив_ПредПред": {"label": "Актив_ПредПред", "min": "Актив_ПредПред", "max": "Актив_ПредПред", "condition": {"type": "", "value": ""}},
"Пассив_КапРез_Отч": {"label": "Пассив_КапРез_Отч", "min": "Пассив_КапРез_Отч", "max": "Пассив_КапРез_Отч", "condition": {"type": "", "value": ""}},
"Пассив_КапРез_Пред": {"label": "Пассив_КапРез_Пред", "min": "Пассив_КапРез_Пред", "max": "Пассив_КапРез_Пред", "condition": {"type": "", "value": ""}},
"Пассив_КапРез_ПредПред": {"label": "Пассив_КапРез_ПредПред", "min": "Пассив_КапРез_ПредПред", "max": "Пассив_КапРез_ПредПред", "condition": {"type": "", "value": ""}},
"Пассив_КапРез_НераспПриб_Отч": {"label": "Пассив_КапРез_НераспПриб_Отч", "min": "Пассив_КапРез_НераспПриб_Отч", "max": "Пассив_КапРез_НераспПриб_Отч", "condition": {"type": "", "value": ""}},
"Пассив_КапРез_НераспПриб_Пред": {"label": "Пассив_КапРез_НераспПриб_Пред", "min": "Пассив_КапРез_НераспПриб_Пред", "max": "Пассив_КапРез_НераспПриб_Пред", "condition": {"type": "", "value": ""}},
"Пассив_КапРез_НераспПриб_ПредПред": {"label": "Пассив_КапРез_НераспПриб_ПредПред", "min": "Пассив_КапРез_НераспПриб_ПредПред", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Пассив_ПредПред"}},
"Пассив_КапРез_УставКапитал_Отч": {"label": "Пассив_КапРез_УставКапитал_Отч", "min": "Пассив_КапРез_УставКапитал_Отч", "max": "Пассив_КапРез_УставКапитал_Отч", "condition": {"type": "", "value": ""}},
"Пассив_КапРез_УставКапитал_Пред": {"label": "Пассив_КапРез_УставКапитал_Пред", "min": "Пассив_КапРез_УставКапитал_Пред", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Пассив_Пред"}},
"Пассив_КапРез_УставКапитал_ПредПред": {"label": "Пассив_КапРез_УставКапитал_ПредПред", "min": "Пассив_КапРез_УставКапитал_ПредПред", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Пассив_ПредПред"}},
"Пассив_Отч": {"label": "Пассив_Отч", "min": "Пассив_Отч", "max": "", "condition": {"type": "equal", "value": "Актив_Отч"}},
"Пассив_Пред": {"label": "Пассив_Пред", "min": "Пассив_Пред", "max": "", "condition": {"type": "equal", "value": "Актив_Пред"}},
"Пассив_ПредПред": {"label": "Пассив_ПредПред", "min": "Пассив_ПредПред", "max": "", "condition": {"type": "equal", "value": "Актив_ПредПред"}},
"Пассив_ДолгосрОбяз_Отч": {"label": "Пассив_ДолгосрОбяз_Отч", "min": "Пассив_ДолгосрОбяз_Отч", "max": "Пассив_ДолгосрОбяз_Отч", "condition": {"type": "", "value": ""}},
"Пассив_КраткосрОбяз_Отч": {"label": "Пассив_КраткосрОбяз_Отч", "min": "Пассив_КраткосрОбяз_Отч", "max": "Пассив_КраткосрОбяз_Отч", "condition": {"type": "", "value": ""}},
"Пассив_КраткосрОбяз_Пред": {"label": "Пассив_КраткосрОбяз_Пред", "min": "Пассив_КраткосрОбяз_Пред", "max": "Пассив_КраткосрОбяз_Пред", "condition": {"type": "", "value": ""}},
"Пассив_КраткосрОбяз_ПредПред": {"label": "Пассив_КраткосрОбяз_ПредПред", "min": "Пассив_КраткосрОбяз_ПредПред", "max": "Пассив_КраткосрОбяз_ПредПред", "condition": {"type": "", "value": ""}},
"Пассив_КраткосрОбяз_КредитЗадолж_Отч": {"label": "Пассив_КраткосрОбяз_КредитЗадолж_Отч", "min": "Пассив_КраткосрОбяз_КредитЗадолж_Отч", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Пассив_КраткосрОбяз_Отч"}},
"Пассив_КраткосрОбяз_КредитЗадолж_Пред": {"label": "Пассив_КраткосрОбяз_КредитЗадолж_Пред", "min": "Пассив_КраткосрОбяз_КредитЗадолж_Пред", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Пассив_Пред"}},
"Пассив_КраткосрОбяз_КредитЗадолж_ПредПред": {"label": "Пассив_КраткосрОбяз_КредитЗадолж_ПредПред", "min": "Пассив_КраткосрОбяз_КредитЗадолж_ПредПред", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Пассив_ПредПред"}},
"Актив_ОбА_ДебЗад_ПредПред": {"label": "Актив_ОбА_ДебЗад_ПредПред", "min": "Актив_ОбА_ДебЗад_ПредПред", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Актив_ОбА_ПредПред"}},
"Актив_ОбА_ДенежнСр_ПредПред": {"label": "Актив_ОбА_ДенежнСр_ПредПред", "min": "Актив_ОбА_ДенежнСр_ПредПред", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Актив_ОбА_ПредПред"}},
"Пассив_ДолгосрОбяз_Пред": {"label": "Пассив_ДолгосрОбяз_Пред", "min": "Пассив_ДолгосрОбяз_Пред", "max": "Пассив_ДолгосрОбяз_Пред", "condition": {"type": "", "value": ""}},
"Пассив_ДолгосрОбяз_ПредПред": {"label": "Пассив_ДолгосрОбяз_ПредПред", "min": "Пассив_ДолгосрОбяз_ПредПред", "max": "Пассив_ДолгосрОбяз_ПредПред", "condition": {"type": "", "value": ""}},
"Актив_ОбА_ПрочОбА_Отч": {"label": "Актив_ОбА_ПрочОбА_Отч", "min": "Актив_ОбА_ПрочОбА_Отч", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Актив_ОбА_ПрочОбА_Отч"}},
"Актив_ОбА_ПрочОбА_Пред": {"label": "Актив_ОбА_ПрочОбА_Пред", "min": "Актив_ОбА_ПрочОбА_Пред", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Актив_ОбА_ПредПред"}},
"Актив_ОбА_ПрочОбА_ПредПред": {"label": "Актив_ОбА_ПрочОбА_ПредПред", "min": "Актив_ОбА_ПрочОбА_ПредПред", "max": "", "condition": {"type": "max_less_than_or_equal", "value": "Актив_ОбА_ПредПред"}},
"Выруч_Отч": {"label": "Выруч_Отч", "min": "Выруч_Отч", "max": "Выруч_Отч", "condition": {"type": "", "value": ""}},
"ПрибПрод_Отч": {"label": "ПрибПрод_Отч", "min": "ПрибПрод_Отч", "max": "ПрибПрод_Отч", "condition": {"type": "", "value": ""}},
"ПрочДоход_Отч": {"label": "ПрочДоход_Отч", "min": "ПрочДоход_Отч", "max": "ПрочДоход_Отч", "condition": {"type": "", "value": ""}},
"СовФинРез_Отч": {"label": "СовФинРез_Отч", "min": "СовФинРез_Отч", "max": "СовФинРез_Отч", "condition": {"type": "", "value": ""}},
"ПрочРасход_Отч": {"label": "ПрочРасход_Отч", "min": "ПрочРасход_Отч", "max": "ПрочРасход_Отч", "condition": {"type": "", "value": ""}},
"СебестПрод_Отч": {"label": "СебестПрод_Отч", "min": "СебестПрод_Отч", "max": "СебестПрод_Отч", "condition": {"type": "", "value": ""}},
"ЧистПрибУб_Отч": {"label": "ЧистПрибУб_Отч", "min": "ЧистПрибУб_Отч", "max": "ЧистПрибУб_Отч", "condition": {"type": "", "value": ""}},
"ПрибУбДоНал_Отч": {"label": "ПрибУбДоНал_Отч", "min": "ПрибУбДоНал_Отч", "max": "ПрибУбДоНал_Отч", "condition": {"type": "", "value": ""}},
"ВаловаяПрибыль_Отч": {"label": "ВаловаяПрибыль_Отч", "min": "ВаловаяПрибыль_Отч", "max": "ВаловаяПрибыль_Отч", "condition": {"type": "", "value": ""}},
"НалПриб_Отч": {"label": "НалПриб_Отч", "min": "НалПриб_Отч", "max": "НалПриб_Отч", "condition": {"type": "", "value": ""}},
"ТекНалПриб_Отч": {"label": "ТекНалПриб_Отч", "min": "ТекНалПриб_Отч", "max": "ТекНалПриб_Отч", "condition": {"type": "", "value": ""}},
"ДвижКап_Итог_Пред": {"label": "ДвижКап_Итог_Пред", "min": "ДвижКап_Итог_Пред", "max": "ДвижКап_Итог_Пред", "condition": {"type": "", "value": ""}},
"ДвижКап_Итог_Отч": {"label": "ДвижКап_Итог_Отч", "min": "ДвижКап_Итог_Отч", "max": "ДвижКап_Итог_Отч", "condition": {"type": "", "value": ""}},
"ДвижКап_Итог_ПредПред": {"label": "ДвижКап_Итог_ПредПред", "min": "ДвижКап_Итог_ПредПред", "max": "ДвижКап_Итог_ПредПред", "condition": {"type": "", "value": ""}},
"ЧистАктив_Отч": {"label": "ЧистАктив_Отч", "min": "ЧистАктив_Отч", "max": "ЧистАктив_Отч", "condition": {"type": "", "value": ""}},
"ЧистАктив_Пред": {"label": "ЧистАктив_Пред", "min": "ЧистАктив_Пред", "max": "ЧистАктив_Пред", "condition": {"type": "", "value": ""}},
"ЧистАктив_ПредПред": {"label": "ЧистАктив_ПредПред", "min": "ЧистАктив_ПредПред", "max": "ЧистАктив_ПредПред", "condition": {"type": "", "value": ""}}}

In [32]:
with open(preproc['input_features_path'], 'w', encoding='utf-8') as file:
    json.dump(features_from_train_path, file, ensure_ascii=False, indent=4)

print("JSON файл успешно создан и заполнен.")

JSON файл успешно создан и заполнен.


In [11]:
# testing=execute_tasks_from_file(data_eval, preproc['tasks_path'])
with open(preproc['input_features_path'], 'r', encoding='utf-8') as file:
        param_features = json.load(file)

In [12]:
param_features

{'ПрАудит': {'label': 'ПрАудит',
  'min': 'ПрАудит',
  'max': 'ПрАудит',
  'condition': {'type': 'or', 'value': 'ПрАудит'}},
 'Актив_ОбА_ДебЗад_Отч': {'label': 'Актив_ОбА_ДебЗад_Отч',
  'min': 'Актив_ОбА_ДебЗад_Отч',
  'max': 'Актив_ОбА_ДебЗад_Отч',
  'condition': {'type': '', 'value': ''}},
 'Актив_ОбА_ДебЗад_Пред': {'label': 'Актив_ОбА_ДебЗад_Пред',
  'min': 'Актив_ОбА_ДебЗад_Пред',
  'max': '',
  'condition': {'type': 'max_less_than_or_equal', 'value': 'Актив_ОбА_Пред'}},
 'Актив_ОбА_Запасы_Отч': {'label': 'Актив_ОбА_Запасы_Отч',
  'min': 'Актив_ОбА_Запасы_Отч',
  'max': '',
  'condition': {'type': 'max_less_than_or_equal',
   'value': 'Актив_ОбА_Запасы_Отч'}},
 'Актив_ОбА_Запасы_Пред': {'label': 'Актив_ОбА_Запасы_Пред',
  'min': 'Актив_ОбА_Запасы_Пред',
  'max': '',
  'condition': {'type': 'max_less_than_or_equal',
   'value': 'Актив_ОбА_ПредПред'}},
 'Актив_ОбА_Запасы_ПредПред': {'label': 'Актив_ОбА_Запасы_ПредПред',
  'min': 'Актив_ОбА_Запасы_ПредПред',
  'max': '',
  'condition'

## создадим uniq_value из train_path_proc

In [5]:
def save_unique_train_data(data: pd.DataFrame,
                           unique_values_path: str,
                           target_column: Optional[str] = None) -> None:
    """
    Сохранение словаря с признаками и уникальными значениями
    :param drop_columns: список с признаками для удаления
    :param data: датасет
    :param target_column: целевая переменная
    :param unique_values_path: путь до файла со словарем
    :return: None
    """

    if target_column is not None:
        unique_df = data.drop(columns=[target_column], axis=1, errors="ignore")
    else:
        unique_df = data

    dict_unique = {
        key: unique_df[key].unique().tolist()
        for key in unique_df.columns
    }
    with open(unique_values_path, "w") as file:
        json.dump(dict_unique, file)

In [8]:
save_unique_train_data(
    data=test_data,
    target_column=preproc["target_column"],
    unique_values_path=preproc["unique_values_before_preproc"],
)

In [9]:
with open(preproc['unique_values_before_preproc'], 'r', encoding='utf-8') as file:
    uniq_values_before_preproc = json.load(file)
uniq_values_before_preproc.keys()

dict_keys(['ПрАудит', 'Актив_ОбА_ДебЗад_Отч', 'Актив_ОбА_ДебЗад_Пред', 'Актив_ОбА_Запасы_Отч', 'Актив_ОбА_Запасы_Пред', 'Актив_ОбА_Запасы_ПредПред', 'Актив_ОбА_Отч', 'Актив_ОбА_Пред', 'Актив_ОбА_ДенежнСр_Отч', 'Актив_ОбА_ДенежнСр_Пред', 'Актив_ОбА_ПредПред', 'Актив_ВнеОбА_ОснСр_Отч', 'Актив_ВнеОбА_ОснСр_Пред', 'Актив_ВнеОбА_ОснСр_ПредПред', 'Актив_ВнеОбА_Отч', 'Актив_ВнеОбА_Пред', 'Актив_ВнеОбА_ПредПред', 'Актив_Отч', 'Актив_Пред', 'Актив_ПредПред', 'Пассив_КапРез_Отч', 'Пассив_КапРез_Пред', 'Пассив_КапРез_ПредПред', 'Пассив_КапРез_НераспПриб_Отч', 'Пассив_КапРез_НераспПриб_Пред', 'Пассив_КапРез_НераспПриб_ПредПред', 'Пассив_КапРез_УставКапитал_Отч', 'Пассив_КапРез_УставКапитал_Пред', 'Пассив_КапРез_УставКапитал_ПредПред', 'Пассив_Отч', 'Пассив_Пред', 'Пассив_ПредПред', 'Пассив_ДолгосрОбяз_Отч', 'Пассив_КраткосрОбяз_Отч', 'Пассив_КраткосрОбяз_Пред', 'Пассив_КраткосрОбяз_ПредПред', 'Пассив_КраткосрОбяз_КредитЗадолж_Отч', 'Пассив_КраткосрОбяз_КредитЗадолж_Пред', 'Пассив_КраткосрОбяз_Кред

In [3]:
with open(preproc['unique_values_path'], 'r', encoding='utf-8') as file:
    uniq_values = json.load(file)

In [4]:
uniq_values.keys()

dict_keys(['ПрАудит', 'Актив_ОбА_ДебЗад_Отч', 'Актив_ОбА_Запасы_Отч', 'Актив_ОбА_Запасы_Пред', 'Актив_ОбА_Запасы_ПредПред', 'Актив_ОбА_Отч', 'Актив_ОбА_ДенежнСр_Отч', 'Актив_ОбА_ДенежнСр_Пред', 'Актив_ОбА_ПредПред', 'Актив_ВнеОбА_ОснСр_Отч', 'Актив_ВнеОбА_ОснСр_Пред', 'Актив_ВнеОбА_ОснСр_ПредПред', 'Актив_ВнеОбА_Отч', 'Актив_ВнеОбА_Пред', 'Актив_ВнеОбА_ПредПред', 'Актив_Отч', 'Актив_ПредПред', 'Пассив_КапРез_НераспПриб_Отч', 'Пассив_КапРез_НераспПриб_Пред', 'Пассив_КапРез_НераспПриб_ПредПред', 'Пассив_КапРез_УставКапитал_Отч', 'Пассив_КапРез_УставКапитал_ПредПред', 'Пассив_Отч', 'Пассив_ПредПред', 'Пассив_ДолгосрОбяз_Отч', 'Пассив_КраткосрОбяз_Отч', 'Пассив_КраткосрОбяз_ПредПред', 'Пассив_КраткосрОбяз_КредитЗадолж_Отч', 'Пассив_КраткосрОбяз_КредитЗадолж_ПредПред', 'Актив_ОбА_ДебЗад_ПредПред', 'Актив_ОбА_ДенежнСр_ПредПред', 'Пассив_ДолгосрОбяз_Пред', 'Пассив_ДолгосрОбяз_ПредПред', 'Актив_ОбА_ПрочОбА_Отч', 'Актив_ОбА_ПрочОбА_Пред', 'Актив_ОбА_ПрочОбА_ПредПред', 'Выруч_Отч', 'ПрибПрод_Отч

Создание файла, определяющего типы данных и сохраняющего эту инфу в файл:

In [79]:
with open(preproc['features_and_dtype_path'], 'r', encoding='utf-8') as file:
    uniq_values = json.load(file)

In [10]:
#СОЗДАНИЕ ФАЙЛА feature.json
def generate_features_json(uniq_values_path, output_path):
    with open(uniq_values_path, 'r', encoding='utf-8') as f:
        uniq_values = json.load(f)

    features = {}
    for key, values in uniq_values.items():
        if values:
            first_value = values[0]
            if isinstance(first_value, int):
                feature_type = "int"
            elif isinstance(first_value, float):
                feature_type = "float"
            elif isinstance(first_value, str):
                feature_type = "str"
            else:
                feature_type = "unknown"
            
            features[key] = feature_type

    with open(output_path, 'w', encoding='utf-8') as f:
        json.dump(features, f, indent=4)

In [11]:
generate_features_json(preproc['unique_values_before_preproc'], preproc['features_and_dtype_path'])

In [14]:
with open(preproc['features_and_dtype_path'], 'r', encoding='utf-8') as file:
    feat = json.load(file)

In [15]:
feat

{'ПрАудит': 'int',
 'Актив_ОбА_ДебЗад_Отч': 'float',
 'Актив_ОбА_ДебЗад_Пред': 'float',
 'Актив_ОбА_Запасы_Отч': 'float',
 'Актив_ОбА_Запасы_Пред': 'float',
 'Актив_ОбА_Запасы_ПредПред': 'float',
 'Актив_ОбА_Отч': 'float',
 'Актив_ОбА_Пред': 'float',
 'Актив_ОбА_ДенежнСр_Отч': 'float',
 'Актив_ОбА_ДенежнСр_Пред': 'float',
 'Актив_ОбА_ПредПред': 'float',
 'Актив_ВнеОбА_ОснСр_Отч': 'float',
 'Актив_ВнеОбА_ОснСр_Пред': 'float',
 'Актив_ВнеОбА_ОснСр_ПредПред': 'float',
 'Актив_ВнеОбА_Отч': 'float',
 'Актив_ВнеОбА_Пред': 'float',
 'Актив_ВнеОбА_ПредПред': 'float',
 'Актив_Отч': 'float',
 'Актив_Пред': 'float',
 'Актив_ПредПред': 'float',
 'Пассив_КапРез_Отч': 'float',
 'Пассив_КапРез_Пред': 'float',
 'Пассив_КапРез_ПредПред': 'float',
 'Пассив_КапРез_НераспПриб_Отч': 'float',
 'Пассив_КапРез_НераспПриб_Пред': 'float',
 'Пассив_КапРез_НераспПриб_ПредПред': 'float',
 'Пассив_КапРез_УставКапитал_Отч': 'float',
 'Пассив_КапРез_УставКапитал_Пред': 'float',
 'Пассив_КапРез_УставКапитал_ПредПред':

In [100]:
fail = {"ПрАудит": "0",
"Актив_ОбА_ДебЗад_Отч": "62430.0",
"Актив_ОбА_ДебЗад_Пред": "2678.0",
"Актив_ОбА_Запасы_Отч": "111071.0",
"Актив_ОбА_Запасы_Пред": "100760.0",
"Актив_ОбА_Запасы_ПредПред": "86693.0",
"Актив_ОбА_Отч": "173703.0",
"Актив_ОбА_Пред": "103963.0",
"Актив_ОбА_ДенежнСр_Отч": "202.0",
"Актив_ОбА_ДенежнСр_Пред": "525.0",
"Актив_ОбА_ПредПред": "86693.0",
"Актив_ВнеОбА_ОснСр_Отч": "60449.0",
"Актив_ВнеОбА_ОснСр_Пред": "34200.0",
"Актив_ВнеОбА_ОснСр_ПредПред": "33757.0",
"Актив_ВнеОбА_Отч": "82252.0",
"Актив_ВнеОбА_Пред": "49487.0",
"Актив_ВнеОбА_ПредПред": "45095.0",
"Актив_Отч": "255955.0",
"Актив_Пред": "153450.0",
"Актив_ПредПред": "131788.0",
"Пассив_КапРез_Отч": "134398.0",
"Пассив_КапРез_Пред": "76338.0",
"Пассив_КапРез_ПредПред": "59276.0",
"Пассив_КапРез_НераспПриб_Отч": "134378.0",
"Пассив_КапРез_НераспПриб_Пред": "76318.0",
"Пассив_КапРез_НераспПриб_ПредПред": "59256.0",
"Пассив_КапРез_УставКапитал_Отч": "20.0",
"Пассив_КапРез_УставКапитал_Пред": "20.0",
"Пассив_КапРез_УставКапитал_ПредПред": "20.0",
"Пассив_Отч": "255955.0",
"Пассив_Пред": "153450.0",
"Пассив_ПредПред": "131788.0",
"Пассив_ДолгосрОбяз_Отч": "60000.0",
"Пассив_КраткосрОбяз_Отч": "61557.0",
"Пассив_КраткосрОбяз_Пред": "77112.0",
"Пассив_КраткосрОбяз_ПредПред": "72512.0",
"Пассив_КраткосрОбяз_КредитЗадолж_Отч": "59858.0",
"Пассив_КраткосрОбяз_КредитЗадолж_Пред": "77112.0",
"Пассив_КраткосрОбяз_КредитЗадолж_ПредПред": "72512.0",
"Актив_ОбА_ДебЗад_ПредПред": "0.0",
"Актив_ОбА_ДенежнСр_ПредПред": "0.0",
"Пассив_ДолгосрОбяз_Пред": "0.0",
"Пассив_ДолгосрОбяз_ПредПред": "0.0",
"Актив_ОбА_ПрочОбА_Отч": "0.0",
"Актив_ОбА_ПрочОбА_Пред": "0.0",
"Актив_ОбА_ПрочОбА_ПредПред": "0.0",
"Выруч_Отч": "287558.0",
"ПрибПрод_Отч": "54521.0",
"ПрочДоход_Отч": "10356.0",
"СовФинРез_Отч": "58060.0",
"ПрочРасход_Отч": "6242.0",
"СебестПрод_Отч": "233037.0",
"ЧистПрибУб_Отч": "58060.0",
"ПрибУбДоНал_Отч": "58060.0",
"ВаловаяПрибыль_Отч": "54521.0",
"НалПриб_Отч": "0.0",
"ТекНалПриб_Отч": "0.0",
"ДвижКап_Итог_Пред": "47820.0",
"ДвижКап_Итог_Отч": "47820.0",
"ДвижКап_Итог_ПредПред": "47820.0",
"ЧистАктив_Отч": "0.0",
"ЧистАктив_Пред": "0.0",
"ЧистАктив_ПредПред": "59276.0"}

# Import

In [59]:
data_eval = pd.read_csv(evaluate['predict_path'])
data_eval.head()

Unnamed: 0,ПрАудит,Актив_ОбА_ДебЗад_Отч,Актив_ОбА_ДебЗад_Пред,Актив_ОбА_ДебЗад_ПредПред,Актив_ОбА_Запасы_Отч,Актив_ОбА_Запасы_Пред,Актив_ОбА_Запасы_ПредПред,Актив_ОбА_Отч,Актив_ОбА_ПрочОбА_Отч,Актив_ОбА_ПрочОбА_Пред,...,ЧистПрибУб_Отч,ПрибУбДоНал_Отч,ОтложНалПриб_Отч,ВаловаяПрибыль_Отч,ДвижКап_Итог_Пред,ДвижКап_Итог_Отч,ДвижКап_Итог_ПредПред,ЧистАктив_Отч,ЧистАктив_Пред,ЧистАктив_ПредПред
0,1,198477.0,157148.0,172958.0,219387,108123.0,74581.0,498343,2920,6270.0,...,235259.0,257840.0,-883.0,574079.0,105262.0,340521,2412,340521,105261,2412
1,0,134095.0,138838.0,125797.0,27525,33953.0,34039.0,229725,8407,21565.0,...,5950.0,7549.0,-1597.0,663.0,90936.0,96885,91032,96885,90936,91032
2,0,9569.0,6316.0,0.0,4145,131.0,0.0,19589,1882,760.0,...,6340.0,8258.0,0.0,33993.0,677.0,6791,10,6791,677,10
3,0,91588.0,104941.0,93807.0,4249,4386.0,178013.0,95934,53,0.0,...,-942.0,1844.0,-427.0,9469.0,-959604.0,-949173,-953981,-949173,-959604,-953981
4,1,1381628.0,216102.0,217196.0,39,0.0,21.0,1586667,74,0.0,...,-53991.0,-55670.0,1679.0,-809.0,-54827.0,-2485153,-62163,-2485153,-54827,-62163


In [57]:
data_eval.info()

NameError: name 'data_eval' is not defined

# Preprocessing

Так как в процессе рассчитываются дополнительные признаки (фин. коэф-ты), а затем признаки отсеиваются по корреляции, то проверку на наличие всех признаков из train необходимо выполнять только после этих двух этапов.

In [8]:
def calculation_of_coeffs_div(data: pd.DataFrame, x: str, y: str, new_col: str,
                              perc: int) -> pd.DataFrame:
    """
    Расчёт финансовых коэффицицентов
    :param data: датасет
    :param x: признак, который будет в числителе   
    :param y: признак, который будет в знаменателе
    :param new_col: новый признак(коэффициент)
    :param perc: процент, на который нужно умножить результат
    :return: датасет
    """
    # Если в формуле не нужно умножать результат на 100, то параметр perc=1 
    result = data[x] / data[y] * perc
    result[data[y] == 0] = 0
    data[new_col] = result
    return data


def calculation_of_coeffs_sum(data: pd.DataFrame, x: str, y: str,
                              new_col: str) -> pd.DataFrame:
    """
    Расчёт финансовых коэффицицентов
    :param data: датасет
    :param x: первое слагаемое  
    :param y: второе слагаемое
    :param new_col: новый признак(коэффициент)
    :return: датасет
    """
    result = data[x] + data[y]
    data[new_col] = result
    return data


def calculation_of_coeffs_subtraction(data: pd.DataFrame, x: str, y: str,
                                      new_col: str) -> pd.DataFrame:
    """
    Расчёт финансовых коэффицицентов
    :param data: датасет
    :param x: признак, из которого вычитаем (уменьшаемое)  
    :param y: признак, который вычитаем (вычитаемое)
    :param new_col: новый признак(коэффициент)
    :return: датасет
    """
    result = data[x] - data[y]
    data[new_col] = result
    return data

Добавим рассчитываемые признаки в json файл:

In [59]:
# Список задач
tasks = [
    {"function": "calculation_of_coeffs_div", "args": ["ЧистПрибУб_Отч", "Выруч_Отч", "ЧистНормПриб", 100]},
    {"function": "calculation_of_coeffs_div", "args": ["ВаловаяПрибыль_Отч", "Выруч_Отч", "ВаловаяРент", 100]},
    {"function": "calculation_of_coeffs_div", "args": ["ПрибПрод_Отч", "Выруч_Отч", "РентабОперДеят", 100]},
    {"function": "calculation_of_coeffs_sum", "args": ["Пассив_ДолгосрОбяз_Отч", "Пассив_КраткосрОбяз_Отч", "СовокупДолг_Отч"]},
    {"function": "calculation_of_coeffs_sum", "args": ["Пассив_ДолгосрОбяз_Пред", "Пассив_КраткосрОбяз_Пред", "СовокупДолг_Пред"]},
    {"function": "calculation_of_coeffs_sum", "args": ["Пассив_ДолгосрОбяз_ПредПред", "Пассив_КраткосрОбяз_ПредПред", "СовокупДолг_ПредПред"]},
    {"function": "calculation_of_coeffs_div", "args": ["Актив_ОбА_Отч", "Пассив_КраткосрОбяз_Отч", "Коэф_ТекущЛиквид_Отч", 100]},
    {"function": "calculation_of_coeffs_div", "args": ["Актив_ОбА_Пред", "Пассив_КраткосрОбяз_Пред", "Коэф_ТекущЛиквид_Пред", 100]},
    {"function": "calculation_of_coeffs_div", "args": ["Актив_ОбА_ПредПред", "Пассив_КраткосрОбяз_ПредПред", "Коэф_ТекущЛиквид_ПредПред", 100]},
    {"function": "calculation_of_coeffs_div", "args": ["ЧистПрибУб_Отч", "ДвижКап_Итог_Отч", "Рентаб_СобствКап", 1]},
    {"function": "calculation_of_coeffs_div", "args": ["Актив_Отч", "ДвижКап_Итог_Отч", "Мультиплик_СобствКап_Отч", 1]},
    {"function": "calculation_of_coeffs_div", "args": ["Актив_Пред", "ДвижКап_Итог_Пред", "Мультиплик_СобствКап_Пред", 1]},
    {"function": "calculation_of_coeffs_div", "args": ["Актив_ПредПред", "ДвижКап_Итог_ПредПред", "Мультиплик_СобствКап_ПредПред", 1]},
    {"function": "calculation_of_coeffs_div", "args": ["Выруч_Отч", "Актив_Отч", "Эффект_Использ_Актив", 1]},
    {"function": "calculation_of_coeffs_div", "args": ["Актив_ОбА_ДебЗад_Отч", "Актив_Отч", "Доля_ДебЗадолж", 100]},
    {"function": "calculation_of_coeffs_div", "args": ["Актив_ОбА_Запасы_Отч", "Актив_Отч", "Доля_Запасов", 100]},
    {"function": "calculation_of_coeffs_div", "args": ["Пассив_КраткосрОбяз_КредитЗадолж_Отч", "Пассив_Отч", "Доля_КредитЗадолж_Отч", 100]},
    {"function": "calculation_of_coeffs_div", "args": ["Пассив_КраткосрОбяз_КредитЗадолж_Пред", "Пассив_Пред", "Доля_КредитЗадолж_Пред", 100]},
    {"function": "calculation_of_coeffs_div", "args": ["Пассив_КраткосрОбяз_КредитЗадолж_ПредПред", "Пассив_ПредПред", "Доля_КредитЗадолж_ПредПред", 100]},
    {"function": "calculation_of_coeffs_subtraction", "args": ["Доля_КредитЗадолж_Пред", "Доля_КредитЗадолж_ПредПред", "Динам_КрЗадолж_Пред_ПредПред"]},
    {"function": "calculation_of_coeffs_subtraction", "args": ["Доля_КредитЗадолж_Отч", "Доля_КредитЗадолж_Пред", "Динам_КрЗадолж_Отч_Пред"]},
    {"function": "calculation_of_coeffs_div", "args": ["Актив_ОбА_ДебЗад_Отч", "Пассив_КраткосрОбяз_КредитЗадолж_Отч", "Отнош_ДебитКредит", 1]},
    {"function": "calculation_of_coeffs_subtraction", "args": ["Коэф_ТекущЛиквид_Отч", "Коэф_ТекущЛиквид_Пред", "Динам_КоэфТекЛиквид_ОтчПред"]}
]

In [61]:
with open(preproc['tasks_path'], 'w', encoding='utf-8') as file:
    json.dump(tasks, file, ensure_ascii=False, indent=4)

print("JSON файл успешно создан и заполнен.")

JSON файл успешно создан и заполнен.


In [63]:
# testing=execute_tasks_from_file(data_eval, preproc['tasks_path'])
with open(preproc['tasks_path'], 'r', encoding='utf-8') as file:
        tasks = json.load(file)

In [69]:
tasks[2]

{'function': 'calculation_of_coeffs_div',
 'args': ['ПрибПрод_Отч', 'Выруч_Отч', 'РентабОперДеят', 100]}

In [68]:
# Словарь для отображения строк на функции
functions = {
        'calculation_of_coeffs_div': calculation_of_coeffs_div,
        'calculation_of_coeffs_sum': calculation_of_coeffs_sum,
        'calculation_of_coeffs_subtraction': calculation_of_coeffs_subtraction
    }
for task in tasks:
#     func = functions[task["function"]]
    func = functions[task["function"]]
    args = task["args"]
    print(func, args)
#         data = func(data, *args)

<function calculation_of_coeffs_div at 0x0000023FA3229B20> ['ЧистПрибУб_Отч', 'Выруч_Отч', 'ЧистНормПриб', 100]
<function calculation_of_coeffs_div at 0x0000023FA3229B20> ['ВаловаяПрибыль_Отч', 'Выруч_Отч', 'ВаловаяРент', 100]
<function calculation_of_coeffs_div at 0x0000023FA3229B20> ['ПрибПрод_Отч', 'Выруч_Отч', 'РентабОперДеят', 100]
<function calculation_of_coeffs_sum at 0x0000023FA3229BC0> ['Пассив_ДолгосрОбяз_Отч', 'Пассив_КраткосрОбяз_Отч', 'СовокупДолг_Отч']
<function calculation_of_coeffs_sum at 0x0000023FA3229BC0> ['Пассив_ДолгосрОбяз_Пред', 'Пассив_КраткосрОбяз_Пред', 'СовокупДолг_Пред']
<function calculation_of_coeffs_sum at 0x0000023FA3229BC0> ['Пассив_ДолгосрОбяз_ПредПред', 'Пассив_КраткосрОбяз_ПредПред', 'СовокупДолг_ПредПред']
<function calculation_of_coeffs_div at 0x0000023FA3229B20> ['Актив_ОбА_Отч', 'Пассив_КраткосрОбяз_Отч', 'Коэф_ТекущЛиквид_Отч', 100]
<function calculation_of_coeffs_div at 0x0000023FA3229B20> ['Актив_ОбА_Пред', 'Пассив_КраткосрОбяз_Пред', 'Коэф_Те

In [9]:
def execute_tasks_from_file(data: pd.DataFrame,
                            file_path: str) -> pd.DataFrame:
    """
    Расчёт новых признаков на основе JSON файла с задачами
    :param data: исходный датасет
    :param file_path: путь к JSON файлу с задачами
    :return: датасет
    """
    with open(file_path, 'r', encoding='utf-8') as file:
        tasks = json.load(file)

    # Словарь для отображения строк на функции
    functions = {
        'calculation_of_coeffs_div': calculation_of_coeffs_div,
        'calculation_of_coeffs_sum': calculation_of_coeffs_sum,
        'calculation_of_coeffs_subtraction': calculation_of_coeffs_subtraction
    }

    # Выполнение задач
    for task in tasks:
        func = functions[task["function"]]
        args = task["args"]
        data = func(data, *args)

    return data

In [10]:
def get_bins(data: Union[int, float],
             first_val: Union[int, float] = 0,
             second_val: Union[int, float] = 0) -> str:
    """
    Генерация бинов для разных признаков
    :param data: датасет
    :param first_val: первое пороговое значение 
    :param second_val: второе пороговое значение  
    :return: датасет
    """
    assert isinstance(data, (int, float)), "Неверный тип данных в признаке"
    result = ("Ниже нормы" if data < first_val else "Оптимально"
              if first_val <= data <= second_val else "Выше нормы")
    return result


def features_selection(data: pd.DataFrame, data_type: str) -> pd.Index:
    """
    Определение признаков, соответствующих указанному типу данных
    :param data: датасет
    :param data_type: тип данных
    :return: список признаков
    """
    num_cols = data.select_dtypes(include=[data_type]).columns
    return num_cols


def check_columns_evaluate(data: pd.DataFrame,
                           unique_values_path: str) -> pd.DataFrame:
    """
    Проверка на наличие признаков из train и упорядочивание признаков по train
    :param data: датасет test
    :param unique_values_path: путь до списка с признаками train 
    :return: датасет test
    """
    with open(unique_values_path, encoding='utf-8') as json_file:
        unique_values = json.load(json_file)

    column_sequence = unique_values.keys()

    # Добавление недостающих признаков
    for col in column_sequence:
        if col not in data.columns:
            data[col] = 0

    # Удаление лишних признаков
    data = data[[col for col in column_sequence if col in data.columns]]

    return data[column_sequence]

In [38]:
def check_columns_evaluate(data: pd.DataFrame,
                           unique_values_path: str,
                           flg_evaluate: bool) -> pd.DataFrame:
    with open(unique_values_path, encoding='utf-8') as json_file:
        unique_values = json.load(json_file)

    column_sequence = unique_values.keys()

    # Добавление недостающих признаков
    for col in column_sequence:
        if col not in data.columns:
            data[col] = 0

    # Удаление лишних признаков, кроме target, если это тренировочные данные
    if flg_evaluate:
        data = data[[col for col in column_sequence if col in data.columns]]
    else:
        data = data[[col for col in column_sequence if col in data.columns or col == 'target']]

    return data[column_sequence]

In [8]:
def pipeline_preprocess(data: pd.DataFrame,
                        flg_evaluate: bool = True,
                        **kwargs):
    """
    Пайплайн по предобработке данных
    :param data: датасет
    :param flg_evaluate: флаг для evaluate
    :return: датасет
    """

    data = execute_tasks_from_file(data, kwargs['tasks_path'])

    if flg_evaluate:
        data = check_columns_evaluate(
            data=data, unique_values_path=kwargs["unique_values_path"])
    else:
        save_unique_train_data(
            data=data,
            drop_columns=kwargs["drop_columns"],
            #             target_column=kwargs["target_column"],
            target_column=None,
            unique_values_path=kwargs["unique_values_path"],
        )

    # getbins
    assert isinstance(
        kwargs["bins_columns"],
        dict), "Подайте тип данных для бинаризации в формате dict"
    # bins
    for key in kwargs["bins_columns"].keys():
        data[f"{key}_bins"] = data[key].apply(lambda x: get_bins(
            x,
            first_val=kwargs["bins_columns"][key][0],
            second_val=kwargs["bins_columns"][key][1],
        ))

    num_selected_cols = features_selection(data, preproc['data_type'][0])
    cat_selected_cols = features_selection(data, preproc['data_type'][1])
      
    data = pd.get_dummies(data,
                          columns=cat_selected_cols,
                          drop_first=True,
                          dtype=int)
    
    scaler = StandardScaler()
    data[num_selected_cols] = scaler.fit_transform(data[num_selected_cols])

    data = check_columns_evaluate(
        data=data, unique_values_path=kwargs["uniq_val_path_with_binar"])

    return data

In [220]:
data_test = pipeline_preprocess(data=data_eval, **preproc)

In [221]:
data_test.shape

(9536, 78)

In [82]:
with open(preproc['uniq_val_path_with_binar']) as json_file:
        unique_values = json.load(json_file)

column_sequence = unique_values.keys()
len(column_sequence)

78

In [167]:
data_test[:4]

Unnamed: 0,ПрАудит,Актив_ОбА_ДебЗад_Отч,Актив_ОбА_Запасы_Отч,Актив_ОбА_Запасы_Пред,Актив_ОбА_Запасы_ПредПред,Актив_ОбА_Отч,Актив_ОбА_ДенежнСр_Отч,Актив_ОбА_ДенежнСр_Пред,Актив_ОбА_ПредПред,Актив_ВнеОбА_ОснСр_Отч,...,Динам_КоэфТекЛиквид_ОтчПред,Отнош_ДебитКредит_bins_Выше нормы,Отнош_ДебитКредит_bins_Ниже нормы,Отнош_ДебитКредит_bins_Оптимально,Коэф_ТекущЛиквид_Отч_bins_Выше нормы,Коэф_ТекущЛиквид_Отч_bins_Ниже нормы,Коэф_ТекущЛиквид_Отч_bins_Оптимально,Динам_КоэфТекЛиквид_ОтчПред_bins_Выше нормы,Динам_КоэфТекЛиквид_ОтчПред_bins_Ниже нормы,Динам_КоэфТекЛиквид_ОтчПред_bins_Оптимально
0,1,198477.0,219387,108123.0,74581.0,498343,10756.0,6540.0,321281.0,892603,...,-47.669281,0,True,False,0,True,False,0,0,0
1,0,134095.0,27525,33953.0,34039.0,229725,473.0,239.0,233129.0,23,...,15.273149,0,False,True,0,False,True,0,0,0
2,0,9569.0,4145,131.0,0.0,19589,3992.0,2479.0,10.0,13401,...,41.550773,0,True,False,0,False,True,0,0,0
3,0,91588.0,4249,4386.0,178013.0,95934,44.0,6.0,271825.0,58853,...,-1.062499,0,True,False,0,True,False,0,0,0


# Evaluate

In [89]:
model = joblib.load(training['model_path'])
data_test['predict'] = model.predict(data_test)

In [91]:
data_test

Unnamed: 0,ПрАудит,Актив_ОбА_ДебЗад_Отч,Актив_ОбА_Запасы_Отч,Актив_ОбА_Запасы_Пред,Актив_ОбА_Запасы_ПредПред,Актив_ОбА_Отч,Актив_ОбА_ДенежнСр_Отч,Актив_ОбА_ДенежнСр_Пред,Актив_ОбА_ПредПред,Актив_ВнеОбА_ОснСр_Отч,...,Отнош_ДебитКредит_bins_Выше нормы,Отнош_ДебитКредит_bins_Ниже нормы,Отнош_ДебитКредит_bins_Оптимально,Коэф_ТекущЛиквид_Отч_bins_Выше нормы,Коэф_ТекущЛиквид_Отч_bins_Ниже нормы,Коэф_ТекущЛиквид_Отч_bins_Оптимально,Динам_КоэфТекЛиквид_ОтчПред_bins_Выше нормы,Динам_КоэфТекЛиквид_ОтчПред_bins_Ниже нормы,Динам_КоэфТекЛиквид_ОтчПред_bins_Оптимально,predict
0,1,198477.0,219387,108123.0,74581.0,498343,10756.0,6540.0,321281.0,892603,...,0,True,False,0,True,False,0,0,0,0
1,0,134095.0,27525,33953.0,34039.0,229725,473.0,239.0,233129.0,23,...,0,False,True,0,False,True,0,0,0,0
2,0,9569.0,4145,131.0,0.0,19589,3992.0,2479.0,10.0,13401,...,0,True,False,0,False,True,0,0,0,0
3,0,91588.0,4249,4386.0,178013.0,95934,44.0,6.0,271825.0,58853,...,0,True,False,0,True,False,0,0,0,1
4,1,1381628.0,39,0.0,21.0,1586667,544.0,0.0,217427.0,299846,...,0,False,False,0,True,False,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9531,0,21240.0,6,6.0,2548.0,58584,51.0,550.0,33905.0,8920,...,0,True,False,0,True,False,0,0,0,0
9532,1,233137.0,814115,747396.0,497202.0,1130222,80563.0,7429.0,951076.0,191219,...,0,True,False,0,True,False,0,0,0,0
9533,1,4762.0,13125,9252.0,4112.0,37110,961.0,239.0,172373.0,133326,...,0,True,False,0,True,False,0,0,0,0
9534,1,97573.0,2510,26341.0,30525.0,650547,28877.0,59408.0,785371.0,24239,...,0,True,False,0,False,True,0,0,0,0


In [47]:
data_test.info()

NameError: name 'data_test' is not defined