In [2]:
import pandas as pd
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings('ignore')

# Загрузка датасета

In [3]:
df = pd.read_csv('vtb_dataset_target.csv', sep=';', encoding='cp1251')

df['month_date_open_pc'] = (df
                             .astype('str')
                             .date_open_pc
                             .apply(lambda x: x[:8] + '01')
                             .astype('datetime64')                    
                           )

## Убираем строки без данных спарк (среди них не было таргетов)

In [4]:
df[df['target']==1].loc[lambda x: x.spark_data_is_exist.isna()]

Unnamed: 0,inn,org_type,Дата заявки день,date_inquiry,date_open_pc,date_close_pc,diff_days,diff_days_inquiry_order,date_block,block_days,...,21 - ПрВерсОКВЭД,23 - a.\tУправляющая организация – берем данные из секции СвУпрОрг,23 - b. Гендиректор – ФЛ,23 - Учредители и их изменение,23 - Учредители – иностранные компании,23 - Учредители - физлица,История смены сооучредителей,diff_date_inquiry_spark_data,is_credit,month_date_open_pc


In [5]:
df = df.loc[lambda x: (x.target==1) | x.spark_data_is_exist.notna()]

In [6]:
print(df.shape)
df.head()

(67143, 85)


Unnamed: 0,inn,org_type,Дата заявки день,date_inquiry,date_open_pc,date_close_pc,diff_days,diff_days_inquiry_order,date_block,block_days,...,21 - ПрВерсОКВЭД,23 - a.\tУправляющая организация – берем данные из секции СвУпрОрг,23 - b. Гендиректор – ФЛ,23 - Учредители и их изменение,23 - Учредители – иностранные компании,23 - Учредители - физлица,История смены сооучредителей,diff_date_inquiry_spark_data,is_credit,month_date_open_pc
0,QZSCOUYDPK,ЮЛ,2019-03-13 00:00:00,2019-03-13 12:12:00,2019-03-13 00:00:00,,,0,,,...,,,,,,,ЮЛ: 24.01.2018 0:00:00,0.0,,2019-03-01
1,XGJYAHPQJUMT,ИП,2019-02-18 00:00:00,2019-02-18 10:44:00,2019-02-18 00:00:00,,,0,,,...,,,,,,,,0.0,,2019-02-01
2,JGRZVAAXTH,ЮЛ,2019-03-29 00:00:00,2019-03-29 18:11:00,2019-03-29 00:00:00,,,0,,,...,,,,,,,ЮЛ: 13.01.2014 0:00:00; ЮЛ: 13.05.2011 0:00:00...,0.0,,2019-03-01
3,CQNMOOTKHQAN,ИП,2018-11-15 00:00:00,2018-11-15 17:14:00,2018-11-15 00:00:00,,,0,,,...,,,,,,,,0.0,,2018-11-01
4,RDDXQARZUE,ЮЛ,2019-03-29 00:00:00,2019-03-29 18:40:00,2019-03-29 00:00:00,,,0,,,...,,,,,,,ЮЛ: 05.09.2013 0:00:00; ЮЛ: 09.12.2011 0:00:00...,0.0,,2019-03-01


# 1. Анализ целевой

In [6]:
df.target.value_counts()

0    60143
1     7000
Name: target, dtype: int64

In [7]:
df.target.describe()

count    67143.000000
mean         0.104255
std          0.305593
min          0.000000
25%          0.000000
50%          0.000000
75%          0.000000
max          1.000000
Name: target, dtype: float64

In [8]:
print('Всего клиентов в выборке:', df.shape[0])
print('Всего клиентов target=1:', df.target.sum())
print('Всего клиентов target=0:', df.shape[0] - df.target.sum())
print('Дисбаланс классов:', df.target.sum() / (df.shape[0] - df.target.sum()))

Всего клиентов в выборке: 67143
Всего клиентов target=1: 7000
Всего клиентов target=0: 60143
Дисбаланс классов: 0.11638927223450776


### Количество целевых по месяцам

In [7]:
(
  df
    .groupby('month_date_open_pc')['target']\
     .agg(['sum', 'mean', 'count'])\
     .reset_index()\
     .assign(percent_target=lambda x: round(100*(x['sum'] / df.target.sum()), 1))
     .rename(columns={'month_date_open_pc': 'Месяц открытия счета',
                      'sum': 'Количество таргетов',
                      'mean': 'Доля таргетов',
                      'count': 'Всего наблюдений',
                      'percent_target': 'Доля таргетов от всех'})
)

Unnamed: 0,Месяц открытия счета,Количество таргетов,Доля таргетов,Всего наблюдений,Доля таргетов от всех
0,2018-06-01,9,0.006374,1412,0.1
1,2018-07-01,20,0.004769,4194,0.3
2,2018-08-01,65,0.017483,3718,0.9
3,2018-09-01,106,0.030654,3458,1.5
4,2018-10-01,275,0.054402,5055,3.9
5,2018-11-01,645,0.10075,6402,9.2
6,2018-12-01,930,0.14266,6519,13.3
7,2019-01-01,645,0.13949,4624,9.2
8,2019-02-01,1215,0.149336,8136,17.4
9,2019-03-01,1280,0.130772,9788,18.3


Для всех строк с таргет=1 есть данные из spark