In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib notebook

In [2]:
# данные за 2019 год
agents2019 = pd.read_csv('counterparty-analysis/agents2019.csv')
agents2019.drop("Unnamed: 0",axis=1, inplace=True)

# из 2019 года берем только таргет, так как все остальные показатели есть в файле 2020 года
agents2019 = agents2019[['Наименование ДП', 'Макс. ПДЗ за 2019 год, дней',
       'Сред. ПДЗ за 2019 год, дней',
       'Кол-во просрочек свыше 5-ти дней за 2019 год, шт.',
       'Общая сумма ПДЗ свыше 5-ти дней за 2019 год, руб.',
       'Кол-во раз ПДЗ за 2019 год, шт.']]

In [3]:
# данные за 2020 год
agents2020 = pd.read_csv('counterparty-analysis/agents2020.csv')

# объединим таргет 2019 года (в качестве фичи) с данными за 2020 год
df20 = agents2019.merge(agents2020, how='outer', on='Наименование ДП')
# теперь таргет 19 года - фича (ПДЗ за последний год)
# в качестве фичей берем данные за последние 4 года - для 2020 года это период 2016-2019
df20.columns = [col.replace('2019', 'Y-1') for col in df20.columns]
df20.columns = [col.replace('2018', 'Y-2') for col in df20.columns]
df20.columns = [col.replace('2017', 'Y-3') for col in df20.columns]
df20.columns = [col.replace('2016', 'Y-4') for col in df20.columns]

# соберем таргет
df20['Факт просрочки'] = df20['Макс. ПДЗ за 2020 год, дней'].map(lambda x: int(x > 0))
df20['Просрочка более 30 дней'] = df20['Макс. ПДЗ за 2020 год, дней'].map(lambda x: int(x > 30))
df20['Просрочка 0-30'] = df20['Макс. ПДЗ за 2020 год, дней'].map(lambda x: int(x <= 30))

# таргет 20 больше не актуален - будет использован как фича для 21 года
df20.drop(['Макс. ПДЗ за 2020 год, дней',
       'Сред. ПДЗ за 2020 год, дней',
       'Кол-во просрочек свыше 5-ти дней за 2020 год, шт.',
       'Общая сумма ПДЗ свыше 5-ти дней за 2020 год, руб.',
       'Кол-во раз ПДЗ за 2020 год, шт.'], axis=1, inplace=True)

In [4]:
# данные за 2021 год
df21 = pd.read_csv('counterparty-analysis/agents2021.csv')
# те контрагенты, у которых уже дефолт - не нужны
df21 = df21[df21['Статус']=='Действующая']

# таргет 2019 года уже использован в качестве фичи за 20 год - больше не нужен
df21.drop(["Unnamed: 0", 'Макс. ПДЗ за 2019 год, дней',
       'Сред. ПДЗ за 2019 год, дней',
       'Кол-во просрочек свыше 5-ти дней за 2019 год, шт.',
       'Общая сумма ПДЗ свыше 5-ти дней за 2019 год, руб.',
       'Кол-во раз ПДЗ за 2019 год, шт.', 'Статус'], axis=1, inplace=True)

# не нужны данные за 2016 год, так как для 2021 года используем 2017-2020 года
for col in df21.columns:
    if '2016' in col:  #if 'Факт' in col or '2016' in col:
        df21.drop(col, axis=1, inplace=True)

# теперь таргет 20 года - фича (ПДЗ за последний год)
# в качестве фичей берем данные за последние 4 года - для 2021 года это период 2017-2020
df21.columns = [col.replace('2020', 'Y-1') for col in df21.columns]
df21.columns = [col.replace('2019', 'Y-2') for col in df21.columns]
df21.columns = [col.replace('2018', 'Y-3') for col in df21.columns]
df21.columns = [col.replace('2017', 'Y-4') for col in df21.columns]

# соберем таргет
df21['Факт просрочки'] = (df21['ПДЗ 1-30'] + df21['ПДЗ 31-90'] +
                          df21['ПДЗ 91-365'] + df21['ПДЗ более 365']).apply(lambda x: int(x >= 1))
df21['Просрочка более 30 дней'] = (df21['ПДЗ 31-90'] + df21['ПДЗ 91-365'] + 
                                   df21['ПДЗ более 365']).apply(lambda x: int(x >= 1))
df21['Просрочка 0-30'] = df21['ПДЗ 1-30']

# предыдущий таргет 21 больше не актуален
df21.drop(['ПДЗ 1-30', 'ПДЗ 31-90', 'ПДЗ 91-365', 'ПДЗ более 365'], axis=1, inplace=True)

In [5]:
# для 20 года нет отчетности по оценке потенциала контрагента - заполним их -1
df20['Оценка потенциала контрагента 1, руб.'] = -1
df20['Оценка потенциала контрагента 2, руб.'] = -1

In [6]:
# приведем к одному виду названия колонок с фактами (без точек)
for col in df20.columns:
    if 'Факт.' in col:
        df20.rename(columns={col: col.replace('.', '')}, inplace=True)
        
for col in df21.columns:
    if col in ['Факт.32', 'Факт.31', 'Факт.23']:
        df21.rename(columns={col: col.replace('.', ' ')}, inplace=True)
    elif 'Факт.' in col:
        df21.rename(columns={col: col.replace('.', '')}, inplace=True)

In [7]:
# объединим в один датасет
df = pd.concat([df20, df21]).reset_index(drop=True)
df.drop('Наименование ДП', axis=1, inplace=True)

In [8]:
# если у колонки единственное значение на всем датафрейме - удалим ее
for col in df.columns:
    if len(df[col].value_counts(dropna=False)) == 1:
        df.drop(col, axis=1, inplace=True)

In [9]:
# пустые значения в фактах заменим 'Н/Д' - факт не применялся
for col in df.columns:
    if 'Факт' in col:
        df[col].fillna('Н/Д', inplace=True)

In [10]:
# заменим Х – фактор не сработал на -10, Н/Д – фактор не релевантен на -1
for col in df.columns:
    if 'Факт' in col:
        df[col] = df[col].apply(lambda x: -10 if x == 'Х' else -1 if x == 'Н/Д' else x)

In [11]:
df

Unnamed: 0,"Макс. ПДЗ за Y-1 год, дней","Сред. ПДЗ за Y-1 год, дней","Кол-во просрочек свыше 5-ти дней за Y-1 год, шт.","Общая сумма ПДЗ свыше 5-ти дней за Y-1 год, руб.","Кол-во раз ПДЗ за Y-1 год, шт.",Факт 1,Факт 2,Факт 3,Факт 4,Факт 5,...,"Y-1, Прибыль (убыток) до налогообложения , RUB","Y-4, Прибыль (убыток) от продажи, RUB","Y-3, Прибыль (убыток) от продажи, RUB","Y-2, Прибыль (убыток) от продажи, RUB","Y-1, Прибыль (убыток) от продажи, RUB",Факт просрочки,Просрочка более 30 дней,Просрочка 0-30,"Оценка потенциала контрагента 1, руб.","Оценка потенциала контрагента 2, руб."
0,0,0.00,0,0.000000,0,-10,-10,-10,-10,-10,...,3.603784e+09,3.280355e+09,6.200120e+09,8.716191e+08,3.658634e+09,1,0,1,-1.000000e+00,-1.000000e+00
1,0,0.00,0,0.000000,0,-10,-10,-10,-10,-10,...,8.747516e+07,1.630064e+07,1.109172e+07,5.135732e+07,9.411019e+07,1,0,1,-1.000000e+00,-1.000000e+00
2,7,5.50,1,132825.299363,2,-10,-10,-10,-10,-10,...,-6.456439e+08,4.148586e+08,1.611318e+08,-9.298981e+07,-1.207210e+08,1,0,1,-1.000000e+00,-1.000000e+00
3,0,0.00,0,0.000000,0,-10,-10,-10,-10,-10,...,3.999298e+09,4.903117e+09,5.186553e+09,7.869977e+09,4.029232e+09,1,0,1,-1.000000e+00,-1.000000e+00
4,2,2.00,0,0.000000,2,-10,-10,-10,-10,-10,...,4.960408e+10,2.338912e+10,3.727984e+10,5.307524e+10,5.622122e+10,1,0,1,-1.000000e+00,-1.000000e+00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
848,4,1.75,0,0.000000,4,-1,-1,-1,-1,-1,...,4.008280e+06,0.000000e+00,0.000000e+00,4.192994e+06,6.487898e+06,1,0,1,5.095541e+06,5.095541e+06
849,0,0.00,0,0.000000,0,-1,-1,-1,-1,-1,...,0.000000e+00,0.000000e+00,0.000000e+00,0.000000e+00,0.000000e+00,0,0,0,0.000000e+00,2.624204e+05
850,0,0.00,0,0.000000,0,-1,-1,-1,-1,-1,...,4.284076e+06,0.000000e+00,0.000000e+00,4.573248e+05,8.932484e+06,1,0,1,3.184713e+06,3.184713e+06
851,0,0.00,0,0.000000,0,-1,-1,-1,-1,-1,...,2.835159e+07,1.465019e+08,6.499554e+07,7.620446e+07,2.644204e+07,0,0,0,5.095541e+06,5.095541e+06


In [12]:
# заполним пустые значения -1, так как это означает что ни один из факторов не сработал
df['Итого'] = df['Итого'].fillna(-1)

In [13]:
# проверим, что нет пустых значений по всем колонкам
df.isna().sum().sum()

0

In [14]:
df.to_csv('dataset.csv', index=False)