<center>
КОНКУРСНАЯ ЗАДАЧА TINKOFF DATA SCIENCE CHALLENGE:
<center>   
Необходимо предсказать, откроет ли клиент кредитный счет  или нет.

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib notebook
import seaborn as sns

import chardet
from bs4 import UnicodeDammit

from scipy.stats import kruskal
from scipy.stats import shapiro
from scipy.stats import norm
from scipy.stats import probplot
from scipy.stats import boxcox
from scipy.stats import chi2_contingency
from scipy.stats import f_oneway
from statsmodels.stats.multitest import multipletests

from pingouin import welch_anova
from pingouin import pairwise_gameshowell

import statsmodels.api as sm
import random

from tqdm.auto import tqdm
import re

In [4]:
RND_STATE = 777
random.seed(RND_STATE)

# Считывание данных в формате .csv в DataFrame

In [5]:
data_encodings = []

with open("Data\credit_train.csv", 'rb') as f:
    rawdata = b''.join([f.readline() for _ in range(1000)])
    data_encodings.append(chardet.detect(rawdata)['encoding'])
    data_encodings.append(UnicodeDammit(rawdata).original_encoding)
       
print(f"Кодировка исходного файла: {data_encodings}")

Кодировка исходного файла: ['KOI8-R', 'koi8-r']


Однако, кодировка KOI8-R не подходит для корректного открытия файла, поэтому было решено проверить наиболее распространенные кодировки для файлов, содержащих кириллицу.

In [6]:
data_encodings.extend(['utf-16','CP866', 'Windows-1251', 'utf-8', 'cp1251'])

In [7]:
file_encoding = ''
for encoding in data_encodings:
    try:
        with pd.read_csv("Data\credit_train.csv", encoding=encoding, sep=";", index_col='client_id', iterator=True) as reader:
            print('--------------------------------')
            print(f'Кодировка: {encoding}')
            print(reader.get_chunk(5))
            print('--------------------------------\n')
        if input("Если кодировка верна, введи 'верно' >>>>  ") == 'верно':
            file_encoding = encoding
            break
    except UnicodeDecodeError:
        print(f'Кодировка: {encoding} не подходит!')

--------------------------------
Кодировка: KOI8-R
          gender   age marital_status job_position credit_sum  credit_month  \
client_id                                                                     
1              M   NaN            NaN          UMN   59998,00            10   
2              F   NaN            MAR          UMN   10889,00             6   
3              M  32.0            MAR          SPC   10728,00            12   
4              F  27.0            NaN          SPC   12009,09            12   
5              M  45.0            NaN          SPC        NaN            10   

           tariff_id score_shk education        living_region  monthly_income  \
client_id                                                                       
1                1.6       NaN       GRD   йпюямндюпяйхи йпюи         30000.0   
2                1.1       NaN       NaN               лняйбю             NaN   
3                1.1       NaN       NaN      нак яюпюрнбяйюъ          

In [8]:
init_data = pd.read_csv("Data\credit_train.csv", encoding=file_encoding, sep=";")
init_data.head(5)

Unnamed: 0,client_id,gender,age,marital_status,job_position,credit_sum,credit_month,tariff_id,score_shk,education,living_region,monthly_income,credit_count,overdue_credit_count,open_account_flg
0,1,M,,,UMN,5999800.0,10,1.6,,GRD,КРАСНОДАРСКИЙ КРАЙ,30000.0,1.0,1.0,0
1,2,F,,MAR,UMN,1088900.0,6,1.1,,,МОСКВА,,2.0,0.0,0
2,3,M,32.0,MAR,SPC,1072800.0,12,1.1,,,ОБЛ САРАТОВСКАЯ,,5.0,0.0,0
3,4,F,27.0,,SPC,1200909.0,12,1.1,,,ОБЛ ВОЛГОГРАДСКАЯ,,2.0,0.0,0
4,5,M,45.0,,SPC,,10,1.1,421385.0,SCH,ЧЕЛЯБИНСКАЯ ОБЛАСТЬ,,1.0,0.0,0


In [9]:
print(f'Число наблюдений - {init_data.shape[0]}')
print(f'Число фичей (переменных) - {init_data.shape[1]}')

Число наблюдений - 170746
Число фичей (переменных) - 15


# Предварительная подготовка данных

**Список переменных:**

* `client_id` - Идентификационный номер клиента

* `gender` - Пол

* `age` - Возраст

* `marital_status` - Семейный статус

* `job_position` - Сфера занятости

* `credit_sum` - Сумма кредита

* `credit_month` - Срок кредитования

* `tariff_id` - Идентификационный номер тарифа

* `score_shk` - Внутренняя скоринговая оценка

* `education` - Образование

* `living_region` - Регион проживания

* `monthly_income` - Месячный заработок

* `credit_count` - Количество кредитов у клиента

* `overdue_credit_count` - Количество просроченных кредитов у клиента

* `open_account_flg` - Факт открытия кредитного счета в данном банке (целевая переменная)

## Удаление очевидных бесполезных переменных

В данном случае имеются ввиду переменные, у которых количество категорий совпадает с количеством наблюдений, или, наоборот, переменные с одним уникальным значением.

In [10]:
init_data.nunique()

client_id               170746
gender                       2
age                         54
marital_status               5
job_position                18
credit_sum               42769
credit_month                31
tariff_id                   32
score_shk                16279
education                    5
living_region              301
monthly_income            1591
credit_count                21
overdue_credit_count         4
open_account_flg             2
dtype: int64

Откинем столбец `client_id` поскольку он совпадает с номером наблюдения и не несет никакой предсказательной способности.

In [11]:
init_data.drop('client_id', inplace=True, axis=1)

In [12]:
init_data.head(5)

Unnamed: 0,gender,age,marital_status,job_position,credit_sum,credit_month,tariff_id,score_shk,education,living_region,monthly_income,credit_count,overdue_credit_count,open_account_flg
0,M,,,UMN,5999800.0,10,1.6,,GRD,КРАСНОДАРСКИЙ КРАЙ,30000.0,1.0,1.0,0
1,F,,MAR,UMN,1088900.0,6,1.1,,,МОСКВА,,2.0,0.0,0
2,M,32.0,MAR,SPC,1072800.0,12,1.1,,,ОБЛ САРАТОВСКАЯ,,5.0,0.0,0
3,F,27.0,,SPC,1200909.0,12,1.1,,,ОБЛ ВОЛГОГРАДСКАЯ,,2.0,0.0,0
4,M,45.0,,SPC,,10,1.1,421385.0,SCH,ЧЕЛЯБИНСКАЯ ОБЛАСТЬ,,1.0,0.0,0


## Преобразование типов данных

В данном разделе подразумевается преобразование типов данных к корректным, например, `credit_sum` в датасете имеет тип `object`, чего не должно быть. Также, часто переменные-флаги, такие как "наличие оттока", "наличие дефолта" и т.п. записываются как целочисленные значения.

In [13]:
init_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 170746 entries, 0 to 170745
Data columns (total 14 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   gender                170746 non-null  object 
 1   age                   170743 non-null  float64
 2   marital_status        170743 non-null  object 
 3   job_position          170746 non-null  object 
 4   credit_sum            170744 non-null  object 
 5   credit_month          170746 non-null  int64  
 6   tariff_id             170746 non-null  float64
 7   score_shk             170739 non-null  object 
 8   education             170741 non-null  object 
 9   living_region         170554 non-null  object 
 10  monthly_income        170741 non-null  float64
 11  credit_count          161516 non-null  float64
 12  overdue_credit_count  161516 non-null  float64
 13  open_account_flg      170746 non-null  int64  
dtypes: float64(5), int64(2), object(7)
memory usage: 18.

In [14]:
for column in ['score_shk', 'credit_sum']:
    init_data[column] = init_data[column].str.replace(',', '.').astype('float')

In [15]:
for column in ['tariff_id', 'open_account_flg']:
    init_data[column] = init_data[column].astype('object')

In [16]:
init_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 170746 entries, 0 to 170745
Data columns (total 14 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   gender                170746 non-null  object 
 1   age                   170743 non-null  float64
 2   marital_status        170743 non-null  object 
 3   job_position          170746 non-null  object 
 4   credit_sum            170744 non-null  float64
 5   credit_month          170746 non-null  int64  
 6   tariff_id             170746 non-null  object 
 7   score_shk             170739 non-null  float64
 8   education             170741 non-null  object 
 9   living_region         170554 non-null  object 
 10  monthly_income        170741 non-null  float64
 11  credit_count          161516 non-null  float64
 12  overdue_credit_count  161516 non-null  float64
 13  open_account_flg      170746 non-null  object 
dtypes: float64(6), int64(1), object(7)
memory usage: 18.

In [17]:
init_data.head(5)

Unnamed: 0,gender,age,marital_status,job_position,credit_sum,credit_month,tariff_id,score_shk,education,living_region,monthly_income,credit_count,overdue_credit_count,open_account_flg
0,M,,,UMN,59998.0,10,1.6,,GRD,КРАСНОДАРСКИЙ КРАЙ,30000.0,1.0,1.0,0
1,F,,MAR,UMN,10889.0,6,1.1,,,МОСКВА,,2.0,0.0,0
2,M,32.0,MAR,SPC,10728.0,12,1.1,,,ОБЛ САРАТОВСКАЯ,,5.0,0.0,0
3,F,27.0,,SPC,12009.09,12,1.1,,,ОБЛ ВОЛГОГРАДСКАЯ,,2.0,0.0,0
4,M,45.0,,SPC,,10,1.1,0.421385,SCH,ЧЕЛЯБИНСКАЯ ОБЛАСТЬ,,1.0,0.0,0


## Нормализация строковых значений

В данный этап обработки данных входит удаление лишних символов, приведение строк к одному и тому же регистру.
В исследуемом датасете необходимо обработать колонку `living_region`, поскольку уже по нескольким первым записям видно, что вид регионов не стандартизован.

In [18]:
init_data['living_region'].nunique()

301

In [19]:
pd.options.display.max_rows = 310

In [20]:
init_data['living_region'].value_counts(dropna=False).sort_index()

74                                              1
98                                              1
АДЫГЕЯ РЕСП                                     9
АЛТАЙСКИЙ                                       2
АЛТАЙСКИЙ КРАЙ                                  8
АМУРСКАЯ ОБЛ                                   12
АМУРСКАЯ ОБЛАСТЬ                               20
АО НЕНЕЦКИЙ                                    20
АО ХАНТЫ-МАНСИЙСКИЙ АВТОНОМНЫЙ ОКРУГ - Ю      559
АО ЯМАЛО-НЕНЕЦКИЙ                             141
АОБЛ ЕВРЕЙСКАЯ                                  4
АРХАНГЕЛЬСКАЯ                                   1
АРХАНГЕЛЬСКАЯ ОБЛ                              18
АРХАНГЕЛЬСКАЯ ОБЛАСТЬ                           9
АСТРАХАНСКАЯ                                   25
АСТРАХАНСКАЯ ОБЛ                               31
АСТРАХАНСКАЯ ОБЛАСТЬ                          143
БАШКОРТОСТАН                                   26
БАШКОРТОСТАН РЕСП                             133
БЕЛГОРОДСКАЯ ОБЛ                               29


In [21]:
region_unique = init_data['living_region'].unique()
regions = pd.Series(data=region_unique, index=region_unique, name='regions')

In [22]:
region_stopwords = ['ОБЛ','ОБЛАСТЬ', 'РЕСП', 'РЕСПУБЛИКА', 'КРАЙ', 'Г', 'АО', 'АОБЛ', 'АВТОНОМНАЯ']

In [23]:
def clean_region(region : str, stopwords : list) -> str:
    """
    Deletes stopwords in the region string gained from the stopword-list.
    Returns the remained words joined without spaces.
    
    Keyword arguments:
    region -- name string of the region
    stopwords -- the list of words to be deleted from the region name
    """
    words = re.sub('[,.]+', ' ', str(region)).split(' ')
    cleaned_name = ''
    for word in words:
        if word not in stopwords:
            cleaned_name += word
    return cleaned_name

In [24]:
regions_normalized = regions.apply(clean_region, args=(region_stopwords,))

In [25]:
regions_normalized['ЧУКОТСКИЙ АO'] = 'ЧУКОТСКИЙ'
regions_normalized['ЧУВАШСКАЯ РЕСПУБЛИКА - ЧУВАШИЯ'] = 'ЧУВАШСКАЯ'
regions_normalized['ЧУВАШИЯ ЧУВАШСКАЯ РЕСПУБЛИКА -'] = 'ЧУВАШСКАЯ'
regions_normalized['ЧУВАШСКАЯ - ЧУВАШИЯ РЕСП'] = 'ЧУВАШСКАЯ'
regions_normalized['РЕСП ЧУВАШСКАЯ - ЧУВАШИЯ'] = 'ЧУВАШСКАЯ'
regions_normalized['ЧУВАШСКАЯ - ЧУВАШИЯ РЕСП'] = 'ЧУВАШСКАЯ'
regions_normalized['РЕСПУБЛИКАТАТАРСТАН'] = 'ТАТАРСТАН'
regions_normalized['ПРИВОЛЖСКИЙ ФЕДЕРАЛЬНЫЙ ОКРУГ'] = 'МОСКОВСКАЯ'
regions_normalized['ПЕРМСКАЯ ОБЛ'] = 'ПЕРМСКИЙ'
regions_normalized['ОРЁЛ'] = 'ОРЛОВСКАЯ'
regions_normalized['Г.ОДИНЦОВО МОСКОВСКАЯ ОБЛ'] = 'МОСКОВСКАЯ'
regions_normalized['МЫТИЩИНСКИЙ Р-Н'] = 'МОСКОВСКАЯ'
regions_normalized['МОСКОВСКИЙ П'] = 'МОСКОВСКАЯ'
regions_normalized['КАМЧАТСКАЯ ОБЛАСТЬ'] = 'КАМЧАТСКИЙ'
regions_normalized['ДАЛЬНИЙ ВОСТОК'] = 'МОСКОВСКАЯ'
regions_normalized['ДАЛЬНИЙВОСТОК'] = 'МОСКОВСКАЯ'
regions_normalized['ГУСЬ-ХРУСТАЛЬНЫЙ Р-Н'] = 'ВЛАДИМИРСКАЯ'
regions_normalized['ГОРЬКОВСКАЯ ОБЛ'] = 'НИЖЕГОРОДСКАЯ'
regions_normalized['ЭВЕНКИЙСКИЙ АО'] = 'КРАСНОЯРСКИЙ'
regions_normalized['ХАНТЫ-МАНСИЙСКИЙ АВТОНОМНЫЙ ОКРУГ - ЮГРА'] = 'ХАНТЫ-МАНСИЙСКИЙ'
regions_normalized['АО ХАНТЫ-МАНСИЙСКИЙ АВТОНОМНЫЙ ОКРУГ - Ю'] = 'ХАНТЫ-МАНСИЙСКИЙ'
regions_normalized['АО ХАНТЫ-МАНСИЙСКИЙ-ЮГРА'] = 'ХАНТЫ-МАНСИЙСКИЙ'
regions_normalized['СЕВ. ОСЕТИЯ - АЛАНИЯ'] = 'СЕВЕРНАЯОСЕТИЯ-АЛАНИЯ'
regions_normalized['РЕСП. САХА (ЯКУТИЯ)'] ='САХА/ЯКУТИЯ/'
regions_normalized['РЕСПУБЛИКА САХА'] = 'САХА/ЯКУТИЯ/'
regions_normalized['ДАЛЬНИЙВОСТОК'] = 'МОСКОВСКАЯ'
regions_normalized['САХА'] = 'САХА/ЯКУТИЯ/'
regions_normalized['98'] = 'САНКТ-ПЕТЕРБУРГ'
regions_normalized['74'] = 'ЧЕЛЯБИНСКАЯ'
regions_normalized['РОССИЯ'] = 'МОСКОВСКАЯ'
regions_normalized['МОСКВОСКАЯ'] = 'МОСКОВСКАЯ'
regions_normalized['МОСКВОСКАЯ ОБЛ'] = 'МОСКОВСКАЯ'
regions_normalized['ЧЕЛЯБИНСК'] = 'ЧЕЛЯБИНСКАЯ'
regions_normalized['Г. ЧЕЛЯБИНСК'] = 'ЧЕЛЯБИНСКАЯ'
regions_normalized['БРЯНСКИЙ'] = 'БРЯНСКАЯ'
regions_normalized[np.NaN] = np.NaN

In [26]:
regions_normalized.sort_index()

74                                                    ЧЕЛЯБИНСКАЯ
98                                                САНКТ-ПЕТЕРБУРГ
АДЫГЕЯ РЕСП                                                АДЫГЕЯ
АЛТАЙСКИЙ                                               АЛТАЙСКИЙ
АЛТАЙСКИЙ КРАЙ                                          АЛТАЙСКИЙ
АМУРСКАЯ ОБЛ                                             АМУРСКАЯ
АМУРСКАЯ ОБЛАСТЬ                                         АМУРСКАЯ
АО НЕНЕЦКИЙ                                              НЕНЕЦКИЙ
АО ХАНТЫ-МАНСИЙСКИЙ АВТОНОМНЫЙ ОКРУГ - Ю         ХАНТЫ-МАНСИЙСКИЙ
АО ХАНТЫ-МАНСИЙСКИЙ-ЮГРА                         ХАНТЫ-МАНСИЙСКИЙ
АО ЯМАЛО-НЕНЕЦКИЙ                                  ЯМАЛО-НЕНЕЦКИЙ
АОБЛ ЕВРЕЙСКАЯ                                          ЕВРЕЙСКАЯ
АРХАНГЕЛЬСКАЯ                                       АРХАНГЕЛЬСКАЯ
АРХАНГЕЛЬСКАЯ ОБЛ                                   АРХАНГЕЛЬСКАЯ
АРХАНГЕЛЬСКАЯ ОБЛАСТЬ                               АРХАНГЕЛЬСКАЯ
АСТРАХАНСК

In [27]:
init_data['living_region'] = init_data['living_region'].map(regions_normalized)

In [28]:
init_data['living_region'].value_counts(dropna=False).sort_index()

АДЫГЕЯ                     554
АЛТАЙ                       54
АЛТАЙСКИЙ                  553
АМУРСКАЯ                   853
АРХАНГЕЛЬСКАЯ             1723
АСТРАХАНСКАЯ              2719
БАШКОРТОСТАН              6466
БЕЛГОРОДСКАЯ               750
БРЯНСКАЯ                   801
БУРЯТИЯ                   1643
ВЛАДИМИРСКАЯ              1547
ВОЛГОГРАДСКАЯ             2361
ВОЛОГОДСКАЯ               2605
ВОРОНЕЖСКАЯ               1723
ДАГЕСТАН                    69
ЕВРЕЙСКАЯ                  203
ЗАБАЙКАЛЬСКИЙ             1228
ИВАНОВСКАЯ                 944
ИНГУШЕТИЯ                   19
ИРКУТСКАЯ                 4323
КАБАРДИНО-БАЛКАРСКАЯ       637
КАЛИНИНГРАДСКАЯ            728
КАЛМЫКИЯ                   305
КАЛУЖСКАЯ                 1139
КАМЧАТСКИЙ                 412
КАРАЧАЕВО-ЧЕРКЕССКАЯ       576
КАРЕЛИЯ                    679
КЕМЕРОВСКАЯ               2890
КИРОВСКАЯ                  647
КОМИ                      1860
КОСТРОМСКАЯ                514
КРАСНОДАРСКИЙ             8355
КРАСНОЯР

In [29]:
init_data['living_region'].nunique()
# Согласно википедии в России 85 субъектов Российской Федерации

84

In [30]:
init_data.tail(10)

Unnamed: 0,gender,age,marital_status,job_position,credit_sum,credit_month,tariff_id,score_shk,education,living_region,monthly_income,credit_count,overdue_credit_count,open_account_flg
170736,F,53.0,MAR,SPC,7769.0,12,1.1,0.34603,SCH,ИРКУТСКАЯ,10500.0,1.0,0.0,0
170737,M,42.0,MAR,SPC,23827.0,10,1.1,0.451455,SCH,КАЛУЖСКАЯ,70000.0,0.0,0.0,0
170738,M,26.0,UNM,SPC,22347.0,10,1.32,0.320288,SCH,САНКТ-ПЕТЕРБУРГ,85000.0,1.0,0.0,0
170739,F,32.0,MAR,SPC,15282.0,10,1.16,0.514811,GRD,САМАРСКАЯ,25000.0,2.0,0.0,0
170740,F,24.0,UNM,SPC,19818.0,12,1.6,0.624391,SCH,КРАСНОДАРСКИЙ,22000.0,1.0,0.0,0
170741,F,27.0,UNM,SPC,64867.0,12,1.1,0.535257,GRD,ТАТАРСТАН,40000.0,6.0,0.0,0
170742,F,24.0,MAR,SPC,17640.0,6,1.6,0.573287,SCH,САНКТ-ПЕТЕРБУРГ,30000.0,1.0,0.0,0
170743,F,31.0,UNM,SPC,27556.47,10,1.32,0.416098,GRD,ПРИМОРСКИЙ,40000.0,1.0,0.0,0
170744,F,53.0,DIV,PNA,6189.0,12,1.1,0.482595,SCH,ПЕНЗЕНСКАЯ,31000.0,2.0,0.0,0
170745,M,49.0,MAR,SPC,12787.0,10,1.1,0.316087,GRD,МОСКОВСКАЯ,40000.0,3.0,0.0,0


## Обработка редких категорий

В данном разделе будут обработаны редкие категории переменных, поскольку их наличие может привести к зашумлению модели, а также при дальнейшем разбиении датасета на test- и train- части в тренировочной части может не оказаться категории, которая попала в тестовую, что приведет к невозможности предсказания, поскольку для данной категории предиктора отсутствует регрессионный коэффициент.

In [31]:
categorical_features = [col for col in init_data.columns if init_data[col].dtype.name == 'object']

In [32]:
init_data[categorical_features].nunique()

gender               2
marital_status       5
job_position        18
tariff_id           32
education            5
living_region       84
open_account_flg     2
dtype: int64

In [33]:
for feature in init_data[categorical_features]:
    print('-----------------------------------------------')
    print(feature)
    print(init_data[feature].value_counts(dropna=False))
    print('-----------------------------------------------')

-----------------------------------------------
gender
F    88697
M    82049
Name: gender, dtype: int64
-----------------------------------------------
-----------------------------------------------
marital_status
MAR    93954
UNM    52149
DIV    16969
CIV     4196
WID     3475
NaN        3
Name: marital_status, dtype: int64
-----------------------------------------------
-----------------------------------------------
job_position
SPC    134680
UMN     17674
BIS      5591
PNA      4107
DIR      3750
ATP      2791
WRK       656
NOR       537
WOI       352
INP       241
BIU       126
WRP       110
PNI        65
PNV        40
PNS        12
HSK         8
INV         5
ONB         1
Name: job_position, dtype: int64
-----------------------------------------------
-----------------------------------------------
tariff_id
1.10    69355
1.60    39117
1.32    15537
1.40    10970
1.50     7497
1.90     5538
1.43     3930
1.30     3339
1.16     3232
1.00     2245
1.44     2228
1.19     2102
1.20

Методом пристального взгляда видно, что `job_position` , `tariff_id` и `living_region` содержат множество редких категорий.

### Обработка переменной job_position

In [34]:
for position in init_data['job_position'].value_counts(dropna=False).index:
    if init_data['job_position'].value_counts(dropna=False)[position] < 41:
        init_data.at[init_data['job_position'] == position, 'job_position'] = 'OTHER'

In [35]:
init_data['job_position'].value_counts(dropna=False)

SPC      134680
UMN       17674
BIS        5591
PNA        4107
DIR        3750
ATP        2791
WRK         656
NOR         537
WOI         352
INP         241
BIU         126
WRP         110
OTHER        66
PNI          65
Name: job_position, dtype: int64

### Обработка переменной tariff_id

In [36]:
init_data['tariff_id'].value_counts(dropna=False)

1.10    69355
1.60    39117
1.32    15537
1.40    10970
1.50     7497
1.90     5538
1.43     3930
1.30     3339
1.16     3232
1.00     2245
1.44     2228
1.19     2102
1.20     1306
1.70     1007
1.17      717
1.21      579
1.94      414
1.22      376
1.23      370
1.91      317
1.24      303
1.41      132
1.25       56
1.18       36
1.26       11
1.28       10
1.52        7
1.27        6
1.48        5
1.56        2
1.96        1
1.29        1
Name: tariff_id, dtype: int64

In [37]:
init_data.loc[init_data['tariff_id'].value_counts()[init_data['tariff_id']].values < 55,
              'tariff_id'] = 1.99

In [38]:
init_data['tariff_id'].value_counts(dropna=False)

1.10    69355
1.60    39117
1.32    15537
1.40    10970
1.50     7497
1.90     5538
1.43     3930
1.30     3339
1.16     3232
1.00     2245
1.44     2228
1.19     2102
1.20     1306
1.70     1007
1.17      717
1.21      579
1.94      414
1.22      376
1.23      370
1.91      317
1.24      303
1.41      132
1.99       79
1.25       56
Name: tariff_id, dtype: int64

Преобразуем категориальный признак в тип данных str, заменяя . на _.

In [39]:
init_data['tariff_id'] = init_data['tariff_id'].astype('str').str.replace('.', '_')

  init_data['tariff_id'] = init_data['tariff_id'].astype('str').str.replace('.', '_')


In [40]:
init_data['tariff_id'].value_counts(dropna=False)

1_1     69355
1_6     39117
1_32    15537
1_4     10970
1_5      7497
1_9      5538
1_43     3930
1_3      3339
1_16     3232
1_0      2245
1_44     2228
1_19     2102
1_2      1306
1_7      1007
1_17      717
1_21      579
1_94      414
1_22      376
1_23      370
1_91      317
1_24      303
1_41      132
1_99       79
1_25       56
Name: tariff_id, dtype: int64

### Обработка переменной living_region


In [41]:
init_data['living_region'].value_counts(dropna=False).tail(15)

КОСТРОМСКАЯ              514
ХАКАСИЯ                  480
КАМЧАТСКИЙ               412
СЕВЕРНАЯОСЕТИЯ-АЛАНИЯ    379
КАЛМЫКИЯ                 305
ЕВРЕЙСКАЯ                203
NaN                      192
НЕНЕЦКИЙ                 172
МАГАДАНСКАЯ              159
ДАГЕСТАН                  69
АЛТАЙ                     54
ЧУКОТСКИЙ                 32
ЧЕЧЕНСКАЯ                 31
ИНГУШЕТИЯ                 19
ЧИТИНСКАЯ                 17
Name: living_region, dtype: int64

Для объединения редких категорий (в данном случае решено, что редкая означает менее **50** наблюдений) воспользуемся маскированием по их частоте (распространенности) в датасете.

In [42]:
region_rarity_criteria_pct = 50 / init_data['living_region'].shape[0]

In [43]:
region_rarity_mask = init_data['living_region']\
                .value_counts(dropna=False, normalize=True)\
                .lt(region_rarity_criteria_pct)

In [44]:
regions_to_cover = init_data['living_region'].value_counts(dropna=False)[region_rarity_mask].index

In [45]:
init_data['living_region'] = np.where(init_data['living_region'].isin(regions_to_cover),
                                      'OTHER', init_data['living_region'])

In [46]:
init_data['living_region'].value_counts(dropna=False).tail(15)

ТЫВА                     564
АДЫГЕЯ                   554
АЛТАЙСКИЙ                553
КОСТРОМСКАЯ              514
ХАКАСИЯ                  480
КАМЧАТСКИЙ               412
СЕВЕРНАЯОСЕТИЯ-АЛАНИЯ    379
КАЛМЫКИЯ                 305
ЕВРЕЙСКАЯ                203
NaN                      192
НЕНЕЦКИЙ                 172
МАГАДАНСКАЯ              159
OTHER                     99
ДАГЕСТАН                  69
АЛТАЙ                     54
Name: living_region, dtype: int64

In [47]:
init_data.to_csv('Data\credit_train_processed.csv', encoding='cp1251')

## Exploratory data analysis

В данном разделе мы посмотрим основные тенденции, скрытые в данных, а также постараемся понять как определенные значения фичей влияют на целевую переменную.

**Гипотезы:**

1. Мужчины более склонны брать кредиты в банках (что может быть связано с традиционным укладом семей, а также склонности к риску), и, следовательно, среднее количество кредитов у мужчин, вероятнее всего, выше, чем у женщин.
1. "Семейные" более склонны брать кредиты
1. Молодым одобряют кредиты на меньшие суммы, по сравнению с людьми за 35
1. С увеличением возраста доля плохих заемщиков падает
1. Сумма кредита увеличивается с ростом зарплаты клиента
1. Уровень образования зависит от возраста
1. Люди с высшим образованием чаще являются "хорошими" заемщиками (имеют меньше просроченных кредитов)
1. Какова взаимосвязь образования и месячного зароботка?
1. Количество кредитов у клиентов увеличивается с ростом зароботной платы
1. Как связано количество просроченных кредитов с заработной платой клиентов и с общим количеством кредитов?
1. Общее количество кредитов, а тем более просроченных кредитов, отрицательно сказывается на факте открытия кредитного счета
1. Сфера занятости сильно влияет на целевую переменную
1. Внутренняя скоринговая оценка должна сильно коррелировать с фактом открытия кредитного счета, и отрицательно коррелировать с количеством просроченных кредитов клиента

### Гипотеза 1

Гипотеза заключается в предрасположенности мужчин брать больше кредитов, что, вероятнее всего, отражается в виде большего среднего количества кредитов в зависимости от пола клиента.

In [48]:
gender_grouped = init_data.pivot_table(index='gender')
print(gender_grouped['age'])
observed_diff_mean_ages = gender_grouped.loc['M','age'] - gender_grouped.loc['F','age']
print(f'Наблюдаемая разница в среднем возрасте желающих/получивших кредиты между М и Ж = {observed_diff_mean_ages:.3f} лет')

gender
F    37.770404
M    35.120978
Name: age, dtype: float64
Наблюдаемая разница в среднем возрасте желающих/получивших кредиты между М и Ж = -2.649 лет


In [49]:
init_data.boxplot(by='gender', column='age')

plt.ylabel('Age', fontsize=14)

plt.xticks(fontsize=14)
plt.yticks(fontsize=14)

<IPython.core.display.Javascript object>

(array([10., 20., 30., 40., 50., 60., 70., 80.]),
 [Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, '')])

На первый взгляд, может показаться, что средний возраст кредитующихся женщин выше, чем у мужчин. Давайте проверим данную гипотезу методом бутстрапа.

#### Проверка статистической значимости различий в среднем возрасте кредитуемых гендеров

In [50]:
def permutation_test(x:np.array, n_group_1:int, n_group_2:int) -> float:
    """
    Функция возвращает разность средних значений массивов первой и второй групп, которые были получены рандомным разделением 
    исходных индексов массива путем извлечения без возврата.
    
    x - исходный массив с результатами, полученный слиянием массивов результатов для двух разных групп (А, В)
    n_group_1 - длина массива записей наблюдений для группы А
    n_group_2 - длина массива записей наблюдений для группы В
    """
    total_result_len = n_group_1 + n_group_2
    index_group_1 = set(random.sample(range(total_result_len), n_group_1))
    index_group_2 = set(range(total_result_len)) - index_group_1
    return x.loc[index_group_1].mean() - x.loc[index_group_2].mean()

In [204]:
def bootstrap_feature(feature, grouping_feature, data, grouped_data=None, perm_test_number=5000):
    """
    Производит перестановочный тест параметра *feature* двух категорий, находящихся в столбце *grouping_feature*,
    по которым произведена группировка *grouped_data*. 
    Производит сравнение наблюдаемой в датасете разницы средних с бутстраповским распределением, расчитывает p-value,
    строит график бутстраповского распределения разностей средних.
    
    Параметры
    ----------
    feature : str
        Параметр для которого требуется определить статистическую значимость различия средних в двух категориях
        
    grouping_feature : str
        Название столбца в *data*, в котором находится информация о двух категориях, по которым идет сравнение
        
    data : pd.DataFrame
        Исходный массив данных
        
    grouped_data : pd.DataFrame, default: None
        Данные, сгруппированные по признаку *grouping_feature*. Если в *grouping_feature* более двух категорий,
        то можно передать в данный параметр DataFrame, где в качестве индексов будут только две нужные категории
        
    perm_test_number : int, default: 5000
        Количество перестановочных тестов
    
    Возвращает:
    ----------
    Словарь основных расчетных параметров и графика  со следующими ключами:
    
    'pvalue': float
        p-value, рассчитанное на основании перестановочного теста
        
    'graph': matplotlib.figure.Figure
        График бутстраповского распределения и наблюдаемого по данным значения
        
    'observed_diff': : float
        Разница средних в двух категориях
        
    'perm_diffs': pandas.Series
        Массив рассчитанных бутстрапированных разниц средних в двух категориях
        в формате pandas.Series   
    """
    cols = ['age', 'credit_count', 'credit_month',
            'credit_sum', 'monthly_income',
            'overdue_credit_count', 'score_shk',
            'open_account_flg']
    
    x_units = ['years', 'quantity', 'quantity',
             'roubles', 'roubles', 'quantity',
             'difference', 'quantity']
    
    xlabel_names = dict(zip(cols, x_units)) 
    
    if grouped_data is None:
        grouped_data = data.pivot_table(index=grouping_feature)
    
    g1, g2 = grouped_data.index
    observed_diff = grouped_data.loc[g1, feature] - grouped_data.loc[g2, feature]
    print(f'Наблюдаемое различие между категориями {g1} и {g2} равно {observed_diff:.5f}')
    
    g1_observations = data[data[grouping_feature] == g1][feature].dropna().shape[0]
    g2_observations = data[data[grouping_feature] == g2][feature].dropna().shape[0]
    total_observations = data[(data[grouping_feature] == g1) | (data[grouping_feature] == g2)]\
                            [feature].dropna().reset_index(drop=True)

    assert g1_observations + g2_observations == total_observations.shape[0], 'Длины массивов не совпадают'

    perm_diffs = pd.Series([permutation_test(total_observations, g1_observations, g2_observations)
                  for _ in tqdm(range(perm_test_number))])
    
    fig, ax = plt.subplots(figsize = (8,5))
    ax.hist(perm_diffs, bins=50)
    ax.axvline(observed_diff, color='black')
    ax.text(observed_diff, np.cbrt(perm_test_number), 'Observed\nvalue')
    ax.set_xlabel(xlabel_names[feature])
    ax.set_ylabel('Frequency')
    ax.set_title(f'Bootstrapped difference in mean {feature} for {g1} and {g2}')
    
    p_val_perm = min((perm_diffs <= observed_diff).mean(), (perm_diffs >= observed_diff).mean())
    print(f'Вероятность обнаружить результаты, обусловленные случайностью и превосходящие \
полученные данные, равна {p_val_perm*100:.5f} %.')
    
    return {'pvalue': p_val_perm,
            'graph': fig,
            'observed_diff': observed_diff,
            'perm_diffs': perm_diffs}

In [349]:
age_bootstrap_info = bootstrap_feature('age', 'gender', init_data, perm_test_number=2000)

Наблюдаемое различие между категориями F и M равно 2.64943


  0%|          | 0/2000 [00:00<?, ?it/s]

<IPython.core.display.Javascript object>

Вероятность обнаружить результаты, обусловленные случайностью и превосходящие полученные данные, равна 0.00000 %.


Поскольку наблюдаемое значение не принадлежит бутстрапированной выборке, следовательно, ***нет оснований отвергать гипотезу*** о превосходящем среднем возрасте кредитующихся женщин.

#### Проверка статистической значимости различий количества кредитов от гендера

In [50]:
print(gender_grouped['credit_count'])

gender
F    2.132642
M    2.079737
Name: credit_count, dtype: float64


In [350]:
init_data.boxplot(by='gender', column='credit_count')

plt.ylabel('credit_count', fontsize=14)

plt.xticks(fontsize=14)
plt.yticks(fontsize=14)

<IPython.core.display.Javascript object>

(array([-5.,  0.,  5., 10., 15., 20., 25.]),
 [Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, '')])

In [351]:
credit_count_bootstrap_info = bootstrap_feature('credit_count', 'gender', init_data, perm_test_number=2000)

Наблюдаемое различие между категориями F и M равно 0.05291


  0%|          | 0/2000 [00:00<?, ?it/s]

<IPython.core.display.Javascript object>

Вероятность обнаружить результаты, обусловленные случайностью и превосходящие полученные данные, равна 0.00000 %.


Поскольку наблюдаемое значение разностей среднего количества кредитов не принадлежит бутстрапированной выборке, следовательно, ***нет оснований отвергать гипотезу*** о превосходящем среднем количестве кредитов у кредитующихся женщин.

#### Проверка статистической значимости различий срока кредитования от гендера

In [143]:
gender_grouped

Unnamed: 0_level_0,age,credit_count,credit_month,credit_sum,monthly_income,overdue_credit_count,score_shk
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
F,37.770404,2.132642,10.974419,25563.397526,35266.089623,0.045822,0.470975
M,35.120978,2.079737,10.987593,26669.878945,45405.846551,0.04634,0.46785


In [259]:
credit_count_bootstrap_info = bootstrap_feature('credit_month', 'gender', init_data, perm_test_number=2000)

Наблюдаемое различие между категориями F и M равно -0.01317


  0%|          | 0/2000 [00:00<?, ?it/s]

<IPython.core.display.Javascript object>

Вероятность обнаружить результаты, обусловленные случайностью и превосходящие полученные данные, равна 20.30000 %.


Поскольку наблюдаемое значение разностей среднего срока кредитования принадлежит бутстрапированной выборке, следовательно, ***мы отвергаем гипотезу*** о превосходящем среднем сроке кредитов у кредитующихся мужчин.

#### Проверка статистической значимости различий количества просроченных кредитов от гендера

In [260]:
overdue_credit_count_bootstrap_info = bootstrap_feature('overdue_credit_count', 'gender', init_data, perm_test_number=2000)

Наблюдаемое различие между категориями F и M равно -0.00052


  0%|          | 0/2000 [00:00<?, ?it/s]

<IPython.core.display.Javascript object>

Вероятность обнаружить результаты, обусловленные случайностью и превосходящие полученные данные, равна 30.70000 %.


Поскольку наблюдаемое значение разностей среднего количества просроченных кредитов принадлежит бутстрапированной выборке, следовательно, ***мы отвергаем гипотезу*** о превосходящем количестве просроченных кредитов у кредитующихся мужчин.

#### Проверка статистической значимости различий внутренней скоринговой оценки от гендера

In [354]:
score_shk_bootstrap_info = bootstrap_feature('score_shk', 'gender', init_data, perm_test_number=2000)

Наблюдаемое различие между категориями F и M равно 0.00313


  0%|          | 0/2000 [00:00<?, ?it/s]

<IPython.core.display.Javascript object>

Вероятность обнаружить результаты, обусловленные случайностью и превосходящие полученные данные, равна 0.00000 %.


Поскольку наблюдаемое значение разностей средней внутренней скоринговой оценки не принадлежит бутстрапированной выборке, следовательно, ***нет оснований отвергать гипотезу*** о превосходящей средней оценки кредитующихся женщин.

#### Проверка  различий в открытии кредитного счета в банке от гендера

In [53]:
init_data['open_account_flg'] = init_data['open_account_flg'].astype('float')

In [54]:
init_data.groupby('gender').agg({'open_account_flg':np.mean})

Unnamed: 0_level_0,open_account_flg
gender,Unnamed: 1_level_1
F,0.159814
M,0.193555


На основании данных, представленных в датасете, можно заключить, что мужчины открывают больше счетов в банке Тинькофф.

**Итого:** Средний возраст кредитующихся женщин выше, чем у мужчин, однако, и среднее количество кредитов у женщин также превосходит данный показатель для мужской части населения. Данная тенденция, вероятнее всего, связана с более высокой внутренней  скоринговой оценкой, поскольку продолжительность кредитования и количество просроченных кредитов у обоих гендеров одинаковое. Однако, в среднем, мужчины чаще открывают кредитные счета в банке Тинькофф.

### Гипотеза 2

Гипотеза заключается в наличии существенной разницы в количестве кредитов (их больше) у "семейных" людей.

In [55]:
init_data.head()

Unnamed: 0,gender,age,marital_status,job_position,credit_sum,credit_month,tariff_id,score_shk,education,living_region,monthly_income,credit_count,overdue_credit_count,open_account_flg
0,M,,,UMN,59998.0,10,1_6,,GRD,КРАСНОДАРСКИЙ,30000.0,1.0,1.0,0.0
1,F,,MAR,UMN,10889.0,6,1_1,,,МОСКВА,,2.0,0.0,0.0
2,M,32.0,MAR,SPC,10728.0,12,1_1,,,САРАТОВСКАЯ,,5.0,0.0,0.0
3,F,27.0,,SPC,12009.09,12,1_1,,,ВОЛГОГРАДСКАЯ,,2.0,0.0,0.0
4,M,45.0,,SPC,,10,1_1,0.421385,SCH,ЧЕЛЯБИНСКАЯ,,1.0,0.0,0.0


In [56]:
init_data.marital_status.value_counts(dropna=False)

MAR    93954
UNM    52149
DIV    16969
CIV     4196
WID     3475
NaN        3
Name: marital_status, dtype: int64

Поскольку в задаче явно не дана расшифровка сокращений семейного положения, то предположим, что:
1. MAR - это (married) замужем/женат
2. UNM - это (unmarried) не женат/замужем
3. DIV - это (divorced) в разводе
4. CIV - ? может в гражданском браке
5. WID - это (widowed) вдова/вдовец

In [79]:
marstat_gender_grouped = init_data.groupby(['marital_status', 'gender'])

In [78]:
plt.figure(figsize=(8, 5))
ax = sns.barplot(data=marstat_gender_grouped.agg(np.mean).reset_index(), x='marital_status', y='credit_count', hue='gender')

plt.title('Среднее количество кредитов в зависимости\n от пола и семейного статуса', fontsize=14)

plt.xlabel('Семейный статус', fontsize=10)
plt.ylabel('Количество кредитов, шт', fontsize=10)

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Количество кредитов, шт')

In [82]:
plt.figure(figsize=(8, 5))
ax = sns.barplot(data=marstat_gender_grouped.agg(np.median).reset_index(), x='marital_status', y='credit_count', hue='gender')

plt.title('Медианное количество кредитов в зависимости\n от пола и семейного статуса', fontsize=14)

plt.xlabel('Семейный статус', fontsize=10)
plt.ylabel('Количество кредитов, шт', fontsize=10)

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Количество кредитов, шт')

Исходя из данных, отображенных на вышеприведенных графиках, можно заметить, что женская часть населения в среднем имеет больше кредитов, чем мужская, однако, это несправедливо для замужних людей. В случае женатых мужчин среднее количество кредитов превосходит данный показатель для замужних женщин.

Также, можно заметить, что женатые женщины имеют меньше кредитов, чем женщины в разводе, овдовевшие и находящиеся в гражданском браке, однако больше, чем неженатые.

В случае женатых мужчин картина обратная - данная категория мужчин имеет наибольшее количество кредитов среди остальных типов мужского населения.

Однако, медианное значение для всех категорий одинаково (2 кредита), но только не для неженатых и овдовевших мужчин (1 кредит).

Таким образом, наша исходная гипотеза о большем количестве кредитов у "семейных" людей справедлива только для мужчин.

### Гипотеза 3

Гипотеза заключается в том, что молодым одобряют кредиты на меньшие суммы, по сравнению с людьми за 35.

In [89]:
plt.figure(figsize=(8, 5))
ax = sns.lineplot(data=init_data, x='age', y='credit_sum', hue='gender', style='open_account_flg')

plt.title('Зависимость размера кредита от возраста для М и Ж\n для открывших и не открывших кредитный счет в Тинькофф',
           fontsize=14)

plt.xlabel('Возраст, лет', fontsize=10)
plt.ylabel('Размер кредита, руб', fontsize=10)

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Размер кредита, руб')

Исходя из полученных данных, можно предположить, что в случае отказа в кредите размер займа был в среднем выше, чем в случае одобрения вне зависимости от возраста клиента.

Касательно исходной гипотезы, то в данном случае зависимость не тривиальная, т.е. изначально, на промежутке от 18 до 35-38 лет наблюдается тенденция ко снижению размера кредита, далее происходит "легкий" отскок на промежутке 40-55 лет (возможно берут кредит для помощи своим детям) с последующим снижением. 

В период после 65 лет сумма кредита имеет большее стандартное отклонение, что, вероятнее всего, связано с увеличением доли кредитов на лечение, либо на потребности, требующие больших средств на удовлетворение.

### Гипотеза 4

Гипотеза заключается в том, что с увеличением возраста доля плохих заемщиков падает.

In [110]:
init_data['bad_borrower'] = init_data['overdue_credit_count'] > 0
bad_borrower_gend_age = init_data.groupby(['gender', 'age']).agg({'bad_borrower':[np.mean, 'count']}).reset_index()
bad_borrower_gend_age['bad_borrower_pct'] = bad_borrower_gend_age.loc[:,('bad_borrower','mean')] * 100
bad_borrower_gend_age

Unnamed: 0_level_0,gender,age,bad_borrower,bad_borrower,bad_borrower_pct
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,mean,count,Unnamed: 5_level_1
0,F,18.0,0.0,99,0.0
1,F,19.0,0.004843,413,0.484262
2,F,20.0,0.004386,684,0.438596
3,F,21.0,0.004248,1177,0.424809
4,F,22.0,0.010019,1597,1.001879
5,F,23.0,0.01454,1857,1.453958
6,F,24.0,0.028875,2355,2.887473
7,F,25.0,0.031634,2687,3.163379
8,F,26.0,0.036796,3071,3.679583
9,F,27.0,0.035381,3109,3.538115


In [173]:
fig, ax = plt.subplots(1, 2, figsize=(10, 5))
sns.lineplot(data=bad_borrower_gend_age, x='age', y='bad_borrower_pct', hue='gender', ax=ax[0])
sns.lineplot(data=bad_borrower_gend_age, x='age', y=('bad_borrower','count'), hue='gender', ax=ax[1])

ax[0].set_title('Зависимость доли "плохих" заемщиков\n от возраста и пола',
           fontsize=9)
ax[1].set_title('Зависимость количества "плохих" заемщиков\n от возраста и пола',
           fontsize=9)

ax[0].set_xlabel('Возраст, лет', fontsize=9)
ax[1].set_xlabel('Возраст, лет', fontsize=9)

ax[0].set_ylabel('Доля плохих заемщиков, %', fontsize=9)
ax[1].set_ylabel('Кол-во плохих заемщиков', fontsize=9)

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Кол-во плохих заемщиков')

При рассмотрении категории "плохих" заемщиков было обнаружено, что в диапазоне возрастов от 20 до 35 лет наблюдается увеличение как числа, так и их доли для обоих полов. В дальнейшем наблюдается нисходящий тренд.

### Гипотеза 5

Гипотеза заключается в том, что сумма кредита пропорциональна зарплате клиента.

In [119]:
init_data.columns

Index(['gender', 'age', 'marital_status', 'job_position', 'credit_sum',
       'credit_month', 'tariff_id', 'score_shk', 'education', 'living_region',
       'monthly_income', 'credit_count', 'overdue_credit_count',
       'open_account_flg', 'bad_borrower'],
      dtype='object')

In [169]:
plt.figure(figsize=(9,5))
ax=sns.regplot(data=init_data, x='monthly_income', y='credit_sum', x_bins=100)
ax.set_xlim(0, 150000)
ax.set_ylim(0, 100000)

plt.title('Зависимость среднего размера кредита от зарплаты',fontsize=14)

plt.xlabel('Зарплата, руб', fontsize=10)
plt.ylabel('Размер кредита, руб', fontsize=10)

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Размер кредита, руб')

In [171]:
# Поскольку распределение зарплат и сумм кредитов имеют длинные хвосты, решено было логарифмировать данные фичи
ax=sns.jointplot(x=np.log(init_data['monthly_income']), y=np.log(init_data['credit_sum']),kind='hex')

<IPython.core.display.Javascript object>


___

Стандартный тест для количественных признаков - это проверка ***корреляции Пирсона***. Однако, предварительно надо проверить условия для этого теста. Если условия соблюдаются, то мы применяем тест. Если условия не соблюдаются, то мы можем либо подогнать данные к нормальному распределению, либо использовать непараметрические тесты. Это правило применяется к любому тесту: мы всегда должны сначала проверить соблюдение условий для применения конкретного теста.

*Когда применяется?*

Корреляция по Пирсону применяется, когда нужно проверить связь между двумя непрерывными переменными.

*Условия применения теста*

1) независимость выборок, 
2) нормальное распределение. 

*Альтернативы, если условия не выполняются* - Непараметрические тесты, корреляция Спирмена, пермутация

*Формула* - См. подробнее [здесь](https://www.pythonfordatascience.org/variance-covariance-correlation/)

*Интерпретация*
 
Если значение больше 0 и меньше 1, то положительная корреляция (уменьшение-уменьшение (минус на минус дает плюс), увеличение-увеличение (плюс на плюс дает плюс)), при 0 связи нет, если меньше 0, то отрицательная (уменьшение-увелиение (минус на плюс дает минус), увеличение-уменьшение (плюс на минус дает минус)). 
 
*Особенности*

Важно, если связь носит нелинейный характер, то возможна ошибочная интерпретация. Чувствителен к выбросам, можно применять робастную корреляцию Пирсона.
Если есть подозрение, что третья переменная влияет на две, у которых смотрим корреляцию, то можно применить частичную корреляцию.
Можно использовать Distance correlation для определения не только линейной, но и нелинейной связи переменных.
Сильно коррелированные переменные можно объединить в одну, например через умножение, деление. Удалять изначальные нельзя. Можно также использовать метод главных компонент. При подозрении на нелинейность связи возможно применение регуляризации, например лассо или гребневой.
 
Независимость выборок понятие оценочное, поэтому определяется исследователем. Нормальное распределение можно проверить специальными методами: визуально, расчетами.

---

Изначально проверим вид распределение для зарплат и размеров кредитов.

In [200]:
fig, ax = plt.subplots(1, 3, figsize=(15, 5))

sns.histplot(init_data['monthly_income'].dropna(), ax=ax[0])
probplot(init_data['monthly_income'].dropna(), plot=ax[1])
sm.qqplot(init_data['monthly_income'].dropna(), norm, fit=True, line='45', ax=ax[2])

ax[0].set_xlabel('Доход, руб', fontsize=9)
ax[0].set_ylabel('Частота', fontsize=9)

ax[2].set_title('QQ-plot', fontsize=14)

<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'QQ-plot')

Исходя из видов графиков, можно заключить, что данные <ins>не распределены по нормальному закону</ins>, следовательно, необходимо преобразовать их к такому виду. Можно предположить, что доходы распределены по степенному закону распределения, следовательно можно попробовать логарифмировать данные.

Для определения статистики, описывающей нормальность распределения применим тест Шапиро.
См. подробнее [здесь](https://pingouin-stats.org/generated/pingouin.normality.html?highlight=shapiro)

In [239]:
shapiro(init_data['monthly_income'].dropna().sample(300))

ShapiroResult(statistic=0.8958572745323181, pvalue=1.7237815721268118e-13)

Вычисляем интересующую нас статистику Шапиро и проверям нулевую гипотезу. Здесь нулевая гипотеза: данные распределены нормально. Так как pvalue < 0.05 мы отвергаем нулевую гипотезу и принимаем альтернативную, то есть мы отвергаем гипотезу, что данные распределены нормально, и *принимаем гипотезу, что данные не распределены нормально*. Такой результат называется статистически значимым.

Возможно применение и иных методов: тест на нормальность D'Agostino-Pearson, тест Колмагорова-Смирнова.

In [215]:
for_pearson = init_data[['monthly_income', 'credit_sum']].copy()
for_pearson.dropna(inplace=True)

In [216]:
fig, ax = plt.subplots(1, 3, figsize=(15, 5))

log_data = np.log(for_pearson['monthly_income'])

sns.histplot(log_data, ax=ax[0])
probplot(log_data, plot=ax[1])
sm.qqplot(log_data, norm, fit=True, line='45', ax=ax[2])

ax[0].set_xlabel('Логарифм дохода, руб', fontsize=9)
ax[0].set_ylabel('Частота', fontsize=9)

ax[2].set_title('QQ-plot', fontsize=14)

<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'QQ-plot')

In [241]:
shapiro(log_data.sample(500))
# Cтатистический тест говорит, что даже после логарифмирования данные не распределены нормально.

ShapiroResult(statistic=0.9878196716308594, pvalue=0.0003491464303806424)

После применения логарифма к нашим данным их распределение стало больше похоже на нормальное, однако все еще остались "черные лебеди", т.е. длинный хвост - люди с очень большими зарплатами. Можно попробовать преобразовать данные методом [Бокса-Кокса](http://www.machinelearning.ru/wiki/index.php?title=Метод_Бокса-Кокса).

$$y = \{ y_1, \ldots, y_n \}, \quad y_i > 0, \quad i = 1,\ldots,n"$$

$$y_i^{\lambda} = \begin{cases}\frac{y_i^\lambda-1}{\lambda};\text{if } \lambda \neq 0,\\ \log{(y_i)}; \text{if } \lambda = 0.\end{cases}"$$ 

In [217]:
fig, ax = plt.subplots(1, 3, figsize=(15, 5))

boxcox_income_data, _ = boxcox(for_pearson['monthly_income'])

sns.histplot(boxcox_income_data, ax=ax[0])
probplot(boxcox_income_data, plot=ax[1])
sm.qqplot(boxcox_income_data, norm, fit=True, line='45', ax=ax[2])

ax[0].set_xlabel('Box-Cox-трансформированные доходы', fontsize=9)
ax[0].set_ylabel('Частота', fontsize=9)

ax[2].set_title('QQ-plot', fontsize=14)

<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'QQ-plot')

In [242]:
shapiro(boxcox_income_data[:500])

ShapiroResult(statistic=0.991078794002533, pvalue=0.004124481230974197)

Преобразование Бокса-Кокса позволило получить распределение более близкое к нормальному, нежели простое логарифмирование.

Повторим ту же операцию и для сумм кредитов `credit_sum`.

In [218]:
fig, ax = plt.subplots(1, 3, figsize=(15, 5))

boxcox_credit_data, _ = boxcox(for_pearson['credit_sum'])

sns.histplot(boxcox_credit_data, ax=ax[0])
probplot(boxcox_credit_data, plot=ax[1])
sm.qqplot(boxcox_credit_data, norm, fit=True, line='45', ax=ax[2])

ax[0].set_xlabel('Box-Cox-трансформированные суммы кредита', fontsize=9)
ax[0].set_ylabel('Частота', fontsize=9)

ax[2].set_title('QQ-plot', fontsize=14)

<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'QQ-plot')

In [243]:
shapiro(boxcox_credit_data[:500])

ShapiroResult(statistic=0.9841232299804688, pvalue=2.82043511106167e-05)

In [220]:
pirs_coeff_wo_transform = np.corrcoef(for_pearson['monthly_income'].values,
                                      for_pearson['credit_sum'].values)

print(f'Коэффициент Пирсона для суммы кредита и месячной зарплаты без предварительных \
преобразований данных: {pirs_coeff_wo_transform[0][1]:.4f}')

Коэффициент Пирсона для суммы кредита и месячной зарплаты без предварительных преобразований данных: 0.3515


In [208]:
boxcox_income_data

array([5.34546443, 5.34546443, 5.32994436, ..., 5.40852906, 5.35278623,
       5.40852906])

In [221]:
pirs_coeff_w_transform = np.corrcoef(boxcox_income_data, boxcox_credit_data)

print(f'Коэффициент Пирсона для суммы кредита и месячной зарплаты \
преобразованием Бокса-Кокса: {pirs_coeff_w_transform[0][1]:.4f}')

Коэффициент Пирсона для суммы кредита и месячной зарплаты преобразованием Бокса-Кокса: 0.3767


**Итого:** При исследовании данной гипотезы было установлено, что два данных параметра имеют слабую линейную связь, средний размер кредита имеет тенденцию расти с увеличением зарплаты клиента, однако, ввиду слабой корреляции данная взаимосвязь не имеет большой силы.

### Гипотеза 6

Гипотеза заключается в том, что уровень образования зависит от возраста.

In [177]:
init_data.education.unique()

array(['GRD', nan, 'SCH', 'UGR', 'PGR', 'ACD'], dtype=object)

Поскольку в задаче явно не дана расшифровка сокращений уровней образования, то предположим, что:
1. SCH - школьное образование
2. GRD - законченное высшее образование
3. UGR - студент
4. PGR - аспирант
5. ACD - ассоциированная степень колледжа 

In [175]:
plt.figure(figsize=(8, 7))

sns.boxplot(x='education', y='age', data=init_data)

plt.title('Age-Education', fontsize=14)
plt.ylabel('Age', fontsize=12)
plt.xlabel('Education', fontsize=12)

plt.xticks(fontsize=12)
plt.yticks(fontsize=12);

<IPython.core.display.Javascript object>

___

Для определения различий в среднем возрасте от типа образования можно провести ***дисперсионный анализ***.

Мы проведем тест ANOVA, который также называется дисперсионным анализом.

**Общие условия применения теста ANOVA**

1. выборки независимые; 
2. зависимая переменная нормально распределена; 
3. соблюдается равенство дисперсий.

<ins>I. Дисперсионный анализ однофакторный</ins>

*Когда применяется?*

Проверка средних значений определенной переменной в двух и более группах. Тест проверяет общую разницу между переменными в модели, то есть что по крайней мере одна из групп статистически значимо отличается от других. Однако, если ANOVA значима, нельзя сказать, какие группы отличаются. Чтобы определить, какие группы отличаются друг от друга, необходимо провести плановые или послеплановые сравнения. Например, можно применить апостериорный тест Шеффа для отбора групп.

*Условия применения теста*

1. зависимая переменная – непрерывная, факторы – дихотомические или категориальные. Если некоторые переменные являются категориальными, а другие непрерывными, то анализ называется анализом ковариации (ANCOVA, см. ниже); 
2. каждое значение зависимой переменной не должно зависеть от других ее значений; 
3. нормальное распределение зависимой переменной. Для данного теста предположение о нормальности распределения проверяется на остатках; 
4. однородность дисперсии.

*Альтернативы, если условия не выполняются* - Непараметрический [тест Крускела-Уоллиса](https://en.wikipedia.org/wiki/Kruskal-Wallis_one-way_analysis_of_variance)

*Формула* - См. подробнее [здесь](https://www.pythonfordatascience.org/anova-python/)

*Интерпретация* - См. подробнее [здесь](https://www.pythonfordatascience.org/anova-python/)

*Особенности*

При проведении ANOVA с несколькими факторами, все факторы должны быть проверены на взаимодействие, прежде чем рассматривать их индивидуальные основные эффекты. Если взаимодействие между переменными несущественно, то надо удалить переменные из взаимодействия и провести анализ снова. 


<ins>II. Дисперсионный анализ. Многофакторный<ins>

*Когда применяется?* - Если есть 2 и более фактора.

*Условия применения теста* - Как в однофакторном

*Особенности* - Нулевая гипотеза: нет разницы для зависимой переменной от фактора (взаимодействия факторов)


<ins>III. ANCOVA<ins>

*Когда применяется?* - Если один из факторов – непрерывная переменная.

*Условия применения теста* 

Как обычная ANOVA плюс:
- независимость ковариант и эффектов фактора. Проверяется по ANOVA; 
- однородность регрессионных наклонов определяется по графику.

В данном случае воспользуемся _однофакторным дисперсионным анализом_.
Для начала проверим вид распределения возрастов в разных категориях уровней образования. Мы также знаем, что выборки из разных подгрупп независимы.

In [263]:
rus_education = dict(zip(init_data.education.dropna().unique(),
                         ['высшее образование', 'школьное образование',
                          'студент', 'аспирант',
                          'ассоциированная степень колледжа']))

In [264]:
education_categories = init_data.education.dropna().unique()

In [265]:
education_age_names = {(rus_education[educ_type]):init_data[init_data.education == educ_type].age.dropna()
                       for educ_type in education_categories}

In [266]:
sns.displot(education_age_names,
            kind="kde",
            common_norm=False)

plt.title('Age-Education', fontsize=10)
plt.xlabel('Age, years', fontsize=10)
plt.ylabel('Dentsity', fontsize=10)
plt.tight_layout()

<IPython.core.display.Javascript object>

Поскольку распределения возрастов для людей с различным образованием не подчиняются нормальному закону, следовательно, не выполняется условие для применения параметрического теста (ANOVA). Воспользуемся непараметрическим тестом Крускела-Уоллиса.

In [290]:
ages = [tup[1].values for tup in education_age_names.items()]

In [291]:
H_statistics, kruskal_pval = kruskal(ages[0], ages[1], ages[2], ages[3], ages[4])

In [294]:
print(kruskal_pval)

0.0


Поскольку pvalue для наших данных практически нулевое, что эквивалентно вероятности обнаружить подобные данные при отсутствии различий в возрастах, следовательно, **мы отвергаем нулевую гипотезу** об отсутствии разницы между группами.

### Гипотеза 7

Гипотеза заключается в том, что люди с высшим образованием чаще являются "хорошими" заемщиками (имеют меньше просроченных кредитов).

In [296]:
init_data.columns

Index(['gender', 'age', 'marital_status', 'job_position', 'credit_sum',
       'credit_month', 'tariff_id', 'score_shk', 'education', 'living_region',
       'monthly_income', 'credit_count', 'overdue_credit_count',
       'open_account_flg', 'bad_borrower'],
      dtype='object')

Поскольку в задаче явно не дана расшифровка сокращений уровней образования, то предположим, что:
1. SCH - школьное образование
2. GRD - законченное высшее образование
3. UGR - студент
4. PGR - аспирант
5. ACD - ассоциированная степень колледжа 

In [267]:
education_overdue = init_data.groupby(['education']).agg({'overdue_credit_count':'mean'})\
                                                    .sort_values(by='overdue_credit_count')
                                                    
education_overdue.rename(index=rus_education)

Unnamed: 0_level_0,overdue_credit_count
education,Unnamed: 1_level_1
студент,0.041757
школьное образование,0.041816
высшее образование,0.051442
ассоциированная степень колледжа,0.057143
аспирант,0.073801


По величине среднего количества просроченных кредитов, можно сказать, что образованные люди не имеют минимальное значение данного показателя. Студенты и люди, закончившие школу зарекомендовали себя как лица, не склонные к невыполнению обязательств.

Однако, нам необходимо проверить, является ли данное различие статистически значимым. Для этого воспользуемся построением бутстрапированой выборки для сравнения студентов и людей с высшим образованием.

In [268]:
education_overdue_bootstrap = bootstrap_feature('overdue_credit_count', 'education', init_data,
                                                grouped_data=education_overdue.loc[['GRD','UGR'], :],
                                                perm_test_number=2000)

Наблюдаемое различие между категориями GRD и UGR равно 0.00968


  0%|          | 0/2000 [00:00<?, ?it/s]

<IPython.core.display.Javascript object>

Вероятность обнаружить результаты, обусловленные случайностью и превосходящие полученные данные, равна 0.00000 %.


Таким образом, действительно, студенты менее склонны к просрочке выплат по кредитам.

### Гипотеза 8

Гипотеза заключается в том, что существуют различия в распределении месячного заработка и уровня образования.

In [369]:
rus_education = dict(zip(init_data.education.dropna().unique(),
                         ['высшее образование', 'школьное образование',
                          'студент', 'аспирант',
                          'ассоциированная степень колледжа']))

In [370]:
education_income = {(rus_education[educ_type]):init_data[(init_data.education == educ_type) &
                                                         (init_data.monthly_income < 200000)]\
                                                        .monthly_income.dropna()
                       for educ_type in education_categories}

In [371]:
sns.displot(education_income,
            kind="kde",
            common_norm=False)

plt.title('Income-Education', fontsize=10)
plt.xlabel('Income, rub', fontsize=10)
plt.ylabel('Dentsity', fontsize=10)
plt.tight_layout()

<IPython.core.display.Javascript object>

In [270]:
education_income = init_data.groupby(['education'])\
                    .agg({'monthly_income':'mean'})\
                    .sort_values(by='monthly_income')

education_income.rename(index=rus_education)

Unnamed: 0_level_0,monthly_income
education,Unnamed: 1_level_1
школьное образование,34553.307009
студент,42278.673675
высшее образование,46376.339119
аспирант,61574.315044
ассоциированная степень колледжа,65735.514019


Исходя из распределения зарплат по различным уровням образования и их средним значениям, можно предположить, что люди со степенью колледжа имеют наивысшую зарплату. Однако, необходимо проверить стат. значимость данного наблюдения. Проведем бутстрап-тест с категорией "аспирант".

In [271]:
education_overdue_bootstrap = bootstrap_feature('monthly_income', 'education', init_data,
                                                grouped_data=education_income.loc[['ACD', 'PGR'],:],
                                                perm_test_number=2000)

Наблюдаемое различие между категориями ACD и PGR равно 4161.19897


  0%|          | 0/2000 [00:00<?, ?it/s]

<IPython.core.display.Javascript object>

Вероятность обнаружить результаты, обусловленные случайностью и превосходящие полученные данные, равна 18.45000 %.


Перестановочный тест показал, что люди с образованием колледжа и аспирантуры не имеют значимой разницы в средних зарплатах. Сравним их зарплату со следующей категорией - люди с высшим образованием.

In [272]:
education_overdue_bootstrap = bootstrap_feature('monthly_income', 'education', init_data,
                                                grouped_data=education_income.loc[['ACD', 'GRD'],:],
                                                perm_test_number=2000)

Наблюдаемое различие между категориями ACD и GRD равно 19359.17490


  0%|          | 0/2000 [00:00<?, ?it/s]

<IPython.core.display.Javascript object>

Вероятность обнаружить результаты, обусловленные случайностью и превосходящие полученные данные, равна 0.00000 %.


Перестановочный тест показал, что люди с образованием колледжа и аспирантуры в среднем имеют зарплату выше, чем люди с высшим образованием.

### Гипотеза 9

Гипотеза заключается в том, что количество кредитов у клиентов увеличивается с ростом заработной платы.

In [48]:
credit_count_income = init_data[['credit_count', 'monthly_income']]\
                            .copy().dropna()\
                            .query('monthly_income < 200000')

In [49]:
credit_income = {('Кол-во кредитов: ' + str(cred_num)):
                 (credit_count_income[credit_count_income.credit_count == cred_num].monthly_income / 1000)
                for cred_num in sorted(credit_count_income.query('credit_count < 7').credit_count.unique())}

In [60]:
g = sns.displot(credit_income, kind="kde", common_norm=False)

g.ax.grid()
# g.fig.autofmt_xdate()
g.ax.tick_params(axis='x', rotation=315)
g.ax.set_xlabel('Зарплата, тыс. руб.')
g.set(xticks=np.linspace(0, 200, 21))
g.tight_layout()

<IPython.core.display.Javascript object>

На данном графике мы можем заметить, что зарплатная мода для всех количеств кредитов примерно одинаковая. Однако, при рассмотрении плотности распределения в диапазоне до 30 тр, видно, что количество людей с увеличением количества кредитов падает, а у людей с зарплатой более 60 тр данная закономерность инвертируется. Таким образом, нам необходимо проверить статистическую значимость этого наблюдения, т.е. проверить действительно ли, например, у людей с зарплатой 60-100 тр доля имеющих 6 кредитов больше, чем имеющих 1.

In [51]:
diff_income_mean_cred_count = pd.concat([credit_count_income.query('60000 <= monthly_income <= 100000')\
                                       .credit_count.value_counts(normalize=True).sort_index(),
                                        credit_count_income.query('monthly_income <= 30000').\
                                        credit_count.value_counts(normalize=True).sort_index()], axis=1)
diff_income_mean_cred_count.columns = ['60-100', '<30']

In [52]:
diff_income_mean_cred_count['delta'] = diff_income_mean_cred_count['60-100'] - diff_income_mean_cred_count['<30']
diff_income_mean_cred_count = diff_income_mean_cred_count.fillna(0)

In [53]:
diff_income_mean_cred_count.loc[:9,:]

Unnamed: 0,60-100,<30,delta
0.0,0.107209,0.195081,-0.087872
1.0,0.242728,0.307129,-0.064401
2.0,0.23267,0.225617,0.007053
3.0,0.165821,0.132362,0.033459
4.0,0.10877,0.072514,0.036256
5.0,0.065245,0.035895,0.02935
6.0,0.036893,0.016163,0.020729
7.0,0.018425,0.008274,0.010151
8.0,0.011272,0.00381,0.007462
9.0,0.004942,0.001663,0.003279


In [62]:
plt.figure(figsize=(7, 5))
ax = sns.lineplot(x=diff_income_mean_cred_count.index,
            y=(diff_income_mean_cred_count.delta * 100))

x = np.linspace(0, 20, 21)
ax.set(xticks=x)
ax.hlines(y=0, xmin=0, xmax=17, linewidth=1, linestyles='--', color='r')
plt.xlabel('Количество кредитов')
plt.ylabel('%')
plt.title('Разница между долей людей с данным количеством\n кредитов с зарплатами 60-100 и <30 т.р. ')

<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'Разница между долей людей с данным количеством\n кредитов с зарплатами 60-100 и <30 т.р. ')

Видно, что доля людей без кредитов и с одним кредитом в случае зарплаты в 30 и менее т.р. выше, чем у людей с большей зарплатой. Проверим статистическую значимость для х = 4. По сути, если нас интересует метка 4, т.е. записи кодируются как 4 и не 4, то это ничто иное как биномиальное распределение. И мы можем проверить, обусловлено ли данное различие случайной вариацией или нет, путем расчета критерия согласия $\chi^{2}$ ([Критерий согласия Пирсона](https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test)).

Данным образом мы можем сравнить все количества кредитов в двух категориях зарплат. Однако, стоит быть крайне осторожным, проводя множество попарных сравнений ввиду увеличения количества ложных открытий, следовательно, желательно применить метод контроля групповой вероятности ошибки - [Метод Холма-Бонферрони](http://www.machinelearning.ru/wiki/index.php?title=Метод_Холма).

In [63]:
diff_income_mean_cred_count['chi2'] = 0
diff_income_mean_cred_count['p_value_stat_unc'] = 0

In [66]:
for i in diff_income_mean_cred_count.index:
    n_gt60_all = credit_count_income.query('60000 <= monthly_income <= 100000').shape[0]
    n_gt60_cred = credit_count_income.query('60000 <= monthly_income <= 100000').shape[0]\
                    * diff_income_mean_cred_count.loc[i,'60-100']

    n_lt30_all = credit_count_income.query('monthly_income <= 30000').shape[0]
    n_lt30_cred = credit_count_income.query('monthly_income <= 30000').shape[0]\
                    * diff_income_mean_cred_count.loc[i,'<30']
    
    observed = np.array([[n_gt60_cred, n_gt60_all - n_gt60_cred], [n_lt30_cred, n_lt30_all - n_lt30_cred]])
    chi2, p_value_stat, df, _ = chi2_contingency(observed)
    
    diff_income_mean_cred_count.at[i,'chi2'] = chi2
    diff_income_mean_cred_count.at[i,'p_value_stat_unc'] = p_value_stat / 2
    # Данный тест двухсторонний, следовательно для расчета p-value необходимо деление на 2

In [67]:
is_different, p_adjusted, _, _ = multipletests(diff_income_mean_cred_count['p_value_stat_unc'],
                                             alpha=0.01, method='holm',
                                             is_sorted=False, returnsorted=False)

In [68]:
diff_income_mean_cred_count['p_adjusted'] = p_adjusted
diff_income_mean_cred_count['is_different'] = is_different

In [69]:
diff_income_mean_cred_count

Unnamed: 0,60-100,<30,delta,chi2,p_value_stat_unc,p_adjusted,is_different
0.0,0.107209,0.195081,-0.087872,935,0,0,True
1.0,0.242728,0.307129,-0.064401,348,0,0,True
2.0,0.23267,0.225617,0.007053,4,0,0,True
3.0,0.165821,0.132362,0.033459,160,0,0,True
4.0,0.10877,0.072514,0.036256,304,0,0,True
5.0,0.065245,0.035895,0.02935,361,0,0,True
6.0,0.036893,0.016163,0.020729,357,0,0,True
7.0,0.018425,0.008274,0.010151,166,0,0,True
8.0,0.011272,0.00381,0.007462,170,0,0,True
9.0,0.004942,0.001663,0.003279,74,0,0,True


Таким образом, мы показали, что все найденные различия являются статистически значимыми, следовательно, у нас нет оснований отклонить тот факт, что люди с более низкой зарплатой (менее 30 тр) склонны иметь меньше кредитов, чем люди с зарплатой (60-100 тр). Данное наблюдение, вероятнее всего, связано с политикой банков в принятии решений о выдаче кредитов.

**Итого:** Действительно, с ростом заработной платы доля людей с большим количеством кредитов увеличивается. 

### Гипотеза 10

Гипотеза заключается в том, что количество просроченных кредитов связано  с общим их количеством и с заработной платой клиентов.

In [86]:
# нормирование на размер датасета
norm_overdue_credit_count = (init_data.overdue_credit_count
                               .value_counts(normalize=True)
                               .mul(100)
                               .rename('percent')
                               .reset_index())

plt.figure(figsize=(7, 5))
ax = sns.barplot(x='index', y='percent', data=norm_overdue_credit_count)

ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)

# Вывод значений над графиками - annotate()
# В цикле смотрим каждый столбец графика и на нем отмечаем значения
for p in ax.patches:
    percentage = '{:.5f}%'.format(p.get_height())\
                    if p.get_height() < 1 \
                    else '{:.1f}%'.format(p.get_height())
            
    ax.annotate(percentage,  # текст
                (p.get_x() + p.get_width() / 2., p.get_height()),  # координата xy
                ha='center', # центрирование
                va='center',
                xytext=(0, 10),
                textcoords='offset points', # точка смещения относительно координаты
                fontsize=10)

plt.title('Распределение людей по количеству\n просроченных кредитов', fontsize=12)

plt.xlabel('Количество просроченных кредитов', fontsize=10)
plt.ylabel('%', fontsize=12)

plt.xticks(fontsize=10)
plt.yticks(fontsize=10)


<IPython.core.display.Javascript object>

(array([  0.,  20.,  40.,  60.,  80., 100., 120.]),
 [Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, '')])

Можно увидеть, что доля людей не имеющих просроченных кредитов превалирует над остальными, всего 4.5% кредитующихся имеют один просроченный кредит, доля людей с 2 и 3 неустойками ничтожно мала (т.е. тут явный дисбаланс классов).

In [87]:
norm_credit_count = (init_data.credit_count
                               .value_counts(normalize=True)
                               .mul(100)
                               .rename('percent')
                               .reset_index())

plt.figure(figsize=(7, 5))
ax = sns.barplot(y='percent', x='index',
                 data=norm_credit_count)


plt.title('Распределение людей по количеству кредитов', fontsize=12)

plt.xlabel('Количество просроченных кредитов', fontsize=10)
plt.ylabel('%', fontsize=12)

plt.xticks(fontsize=10)
plt.yticks(fontsize=10)
ax.tick_params(axis='x', rotation=315)
plt.tight_layout()

<IPython.core.display.Javascript object>

Из графика можно заметить, что наибольшее количество людей имеют один кредит, далее идет 2 и 0 кредитов. Посмотрим распределение людей по действующим и просроченным кредитам.

In [116]:
pd.set_option('display.max_columns', 30)

data_by_credits = init_data.pivot_table(values='gender',
                                         index='overdue_credit_count',
                                         columns='credit_count',
                                         aggfunc='count',
                                         fill_value=0,
                                         margins=True)
data_by_credits

credit_count,0.0,1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,9.0,10.0,11.0,12.0,13.0,14.0,15.0,16.0,17.0,18.0,19.0,21.0,All
overdue_credit_count,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
0.0,25806,44485,35268,22268,12777,6706,3413,1732,865,405,179,108,65,25,12,8,3,5,2,3,0,154135
1.0,0,794,1726,1641,1329,825,491,226,137,69,40,21,9,8,3,5,1,0,0,0,1,7326
2.0,0,0,4,9,4,12,9,4,5,2,1,0,0,0,0,0,0,0,0,0,0,50
3.0,0,0,0,0,3,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5
All,25806,45279,36998,23918,14113,7543,3915,1962,1007,476,220,129,74,33,15,13,4,5,2,3,1,161516


In [89]:
ax = data_by_credits.loc[0:3, :21].T.plot()

plt.title('Распределение людей по количеству кредитов\n и просроченных кредитов', fontsize=12)

plt.xlabel('Количество кредитов', fontsize=10)
plt.ylabel('Количество людей', fontsize=10)
plt.legend([1, 2, 3], title='Количество\nпросроченных кредитов')

<IPython.core.display.Javascript object>

<matplotlib.legend.Legend at 0x1eb4c0fd8e0>

Проведем нормировку наших наблюдений на общее количество людей в категории количества кредитов.

In [90]:
for col in data_by_credits.columns:
    data_by_credits[col] = data_by_credits[col] / data_by_credits.loc['All',col]

In [92]:
# plt.figure(figsize=(7, 5))
# plt.pcolor(data_by_credits.loc[2:3,:19], cmap='RdBu')
# plt.colorbar()

Построим график доли клиентов с просроченными кредитами в зависимости от количества кредитов, однако, обрежем количество кредитов до 10, поскольку при большем их количестве число наблюдений мало, что искажает общую картину и не отражает действительное положение дел ввиду смещения выборки.

In [93]:
fig, ax = plt.subplots(1,3, figsize=(9,4))
for i in range(1,4):
    sns.lineplot(x='credit_count', y=i,
                 data=data_by_credits.loc[1:3, :10].mul(100).T.reset_index(),
                 ax=ax[i-1], label=f'{i} прос.\nкред.',
                 color=['r','g','b'][i-1])

    ax[i-1].set(xticks=np.linspace(0,10,6),
                xlabel='Количество кредитов',
                ylabel='Процент людей, %')
fig.suptitle('Доля заемщиков с просроченными кредитами от общего количества клиентов\n с таким же числом кредитов')
fig.tight_layout()

<IPython.core.display.Javascript object>

Таким образом, можно заметить, что с каждым новым кредитом процент людей с просроченным кредитом растет, что логично, поскольку каждый кредит - это риски. Если аппроксимировать полученные зависимости линией, то коэффициент при количестве кредитов будет равен примерно 1.75%, т.е. каждый кредит несет в себе вероятность просрочки в 1.75%, а если предположить, что кредиты - независимые события, то в принципе данная модель оправдана.

Также стоит заметить, что при увеличении просроченных кредитов процент людей также уменьшается, что свидетельствует о сильном влиянии данного показателя на одобрение банками последующих кредитов.

Далее рассмотрим влияние зарплаты на количество просроченных кредитов.

In [99]:
plt.figure(figsize=(8, 5))
ax=sns.regplot(data=init_data.query('monthly_income < 200000'),
               x='monthly_income',
               y='overdue_credit_count',
               x_bins=100)

plt.title('Зависимость среднего количества\n просроченных кредитов от зарплаты',fontsize=14)

plt.xlabel('Зарплата, руб', fontsize=10)
plt.ylabel('Количество просроченных кредитов', fontsize=10)

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Количество просроченных кредитов, руб')

In [105]:
init_data['income_bins'] = pd.cut(init_data.monthly_income, 400)

data_by_income = init_data.pivot_table(values='gender',
                                         index='overdue_credit_count',
                                         columns='income_bins',
                                         aggfunc='count',
                                         fill_value=0,
                                         margins=True)

In [113]:
# Удалим диапазоны зарплат, где встречается менее 100 записей
data_by_income = data_by_income.loc[:, (data_by_income.loc['All',:] > 100)]

# Нормируем данные
for col in data_by_income.columns:
    data_by_income[col] = data_by_income[col] / data_by_income.loc['All',col]

In [153]:
fig, ax = plt.subplots(1,3, figsize=(9,4))
for i in range(1,4):
    sns.lineplot(x='index', y=i,
                 data=data_by_income.mul(100).T.reset_index().reset_index()[['index', 1.0, 2.0, 3.0]],
                 ax=ax[i-1], label=f'{i} прос.\nкред.',
                 color=['r','g','b'][i-1])

    ax[i-1].set(xlabel='Зарплата',
                ylabel='Процент людей, %',
                xticks=[0, 10, 20, 30, 40]) 
    ax[i-1].set_xticklabels(['≈10k', '≈30k', '≈55k', '≈80k', '≈120k'])
    ax[i-1].tick_params(axis='x', rotation=315)
    
fig.suptitle('Доля заемщиков с просроченными кредитами от\n общего количества клиентов с такой же зарплатой')
fig.tight_layout()

<IPython.core.display.Javascript object>

На данных графиках можно отметить тенденцию к увеличению доли "плохих" заемщиков при увеличении зарплаты, что также коррелирует с тем фактом, что при увеличении зарплаты количество кредитов растет, а следовательно, и риск просрочить кредит.

**Итого:** Исходя из имеющихся данных, можно заключить, что как рост зарплаты, так и количество кредитов приводит к увеличении доли людей с простроченными кредитами. Данная тенденция для зарплаты и для количества кредитов совпадает, поскольку рост зарплаты в среднем обуславливает рост количества кредитов, который линейно аппроксимирует долю неустоек.

### Гипотеза 11

Гипотеза заключается в том, что общее количество кредитов, а тем более просроченных кредитов, отрицательно сказывается на факте открытия кредитного счета.

In [61]:
init_data['open_account_flg'] = init_data['open_account_flg'].astype('int')

In [159]:
plt.figure()
init_data.groupby(['credit_count']).agg('mean')['open_account_flg'].mul(100).plot()
plt.xlabel('Количество кредитов')
plt.ylabel('Доля людей, открывших\n кредитный счет в Тинькофф, %')
plt.title('Зависимость открытия кредитного счета\n от количества кредитов')

<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'Зависимость открытия кредитного счета\n от количества кредитов')

Исходя из данных, можно заключить, что количество кредитов <ins>положительно влияет</ins> на открытие кредитного счета в Тинькофф, вероятнее всего, это связано с увеличением надежности клиента при увеличении исполненных кредитных обязательств.

In [163]:
flg_overdue = init_data.groupby(['overdue_credit_count']).agg('mean')[['open_account_flg']].mul(100).reset_index()

In [165]:
plt.figure(figsize=(7, 5))
ax = sns.barplot(x='overdue_credit_count',
                 y='open_account_flg',
                 data=flg_overdue)

ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)

# Вывод значений над графиками - annotate()
# В цикле смотрим каждый столбец графика и на нем отмечаем значения
for p in ax.patches:
    percentage = '{:.5f}%'.format(p.get_height())\
                    if p.get_height() < 1 \
                    else '{:.1f}%'.format(p.get_height())
            
    ax.annotate(percentage,  # текст
                (p.get_x() + p.get_width() / 2., p.get_height()),  # координата xy
                ha='center', # центрирование
                va='center',
                xytext=(0, 10),
                textcoords='offset points', # точка смещения относительно координаты
                fontsize=10)

plt.title('Доля открытых кредитных счетов в группе людей\n с определенным количеством просроченных кредитов', fontsize=12)

plt.xlabel('Количество просроченных кредитов', fontsize=10)
plt.ylabel('%', fontsize=12)

plt.xticks(fontsize=10)
plt.yticks(fontsize=10)

<IPython.core.display.Javascript object>

(array([ 0.,  5., 10., 15., 20., 25., 30., 35.]),
 [Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, '')])

Мы видим, что зависимость сложная, нам надо убедиться в том, что данные различия статистически значимы.

Также из первой группы надо удалить людей, кто обратился за первым кредитом, т.е. с чистой кредитной историей, потому что они потенциально могут относиться к любой группе.

In [178]:
flg_overdue_wo_cln_history = init_data[init_data['credit_count'] > 0]\
                                .groupby(['overdue_credit_count'])\
                                .agg('mean')[['open_account_flg']]

In [179]:
plt.figure(figsize=(7, 5))
ax = sns.barplot(x='overdue_credit_count',
                 y='open_account_flg',
                 data=flg_overdue_wo_cln_history.reset_index())

ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)

# Вывод значений над графиками - annotate()
# В цикле смотрим каждый столбец графика и на нем отмечаем значения
for p in ax.patches:
    percentage = '{:.5f}%'.format(p.get_height() * 100)\
                    if p.get_height() * 100 < 1 \
                    else '{:.1f}%'.format(p.get_height() * 100)
            
    ax.annotate(percentage,  # текст
                (p.get_x() + p.get_width() / 2., p.get_height()),  # координата xy
                ha='center', # центрирование
                va='center',
                xytext=(0, 10),
                textcoords='offset points', # точка смещения относительно координаты
                fontsize=10)

plt.title('''Доля открытых кредитных счетов в группе людей
с определенным количеством просроченных кредитов
(люди с кредитной историей)''', fontsize=12)

plt.xlabel('Количество просроченных кредитов', fontsize=10)
plt.ylabel('%', fontsize=12)

plt.xticks(fontsize=10)
plt.yticks(fontsize=10)

<IPython.core.display.Javascript object>

(array([0.  , 0.05, 0.1 , 0.15, 0.2 , 0.25, 0.3 , 0.35]),
 [Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, ''),
  Text(0, 0, '')])

Проверим стат. значимость различий в средних с помощью бутстрапа.

**Различия между группами 1 и 2**

In [None]:
_ = bootstrap_feature('open_account_flg',
                  'overdue_credit_count',
                  init_data[init_data['credit_count'] > 0],
                  flg_overdue_wo_cln_history.loc[[2, 1], :],
                  10000)

In [216]:
observed = np.array([[0.32 * 50,  50 - 0.32 * 50], [0.203112 * 7326, (1. - 0.203112) *7326]])
chi2, p_value_stat, df, _ = chi2_contingency(observed)
print("p value для различий (м/у 2 и 1) при биномиальном виде распределения = ", p_value_stat/2)

p value для различий (м/у 2 и 1) при биномиальном виде распределения =  0.03085501717925657


In [214]:
f_val, p_val = f_oneway(init_data[(init_data['credit_count'] > 0) &
                                 (init_data['overdue_credit_count'] == 2)]['open_account_flg'],
                              init_data[(init_data['credit_count'] > 0) &
                                 (init_data['overdue_credit_count'] == 1)]['open_account_flg'])  
 
print( "Результаты ANOVA для групп с 1 и 2 просроченными кредитами:\n F=", f_val, ", P =", p_val )

Результаты ANOVA для групп с 1 и 2 просроченными кредитами:
 F= 4.1811013278175295 , P = 0.04091255875130944


Результаты статистического теста показали, что p value для различий между группами с 1 и 2 просроченными кредитами <ins>лежит в зоне неопределенности</ins>, т.е. количество наблюдений не позволяет нам однозначно сказать значимы ли эти различия или нет.

Однако, моя точка зрения в данном вопросе состоит в том, что данные различия несущественны, поскольку было бы странно, если бы банки одобряли кредиты людям с большим количеством просроченных займов, по сравнению с людьми у которых таковых меньше.

**Различия между группами 2 и 3**

In [208]:
f_val, p_val = f_oneway(init_data[(init_data['credit_count'] > 0) &
                                 (init_data['overdue_credit_count'] == 2)]['open_account_flg'],
                              init_data[(init_data['credit_count'] > 0) &
                                 (init_data['overdue_credit_count'] == 3)]['open_account_flg'])  
 
print( "ANOVA results: F=", f_val, ", P =", p_val )

ANOVA results: F= 0.2970112079701121 , P = 0.5880483243008604


In [None]:
_ = bootstrap_feature('open_account_flg',
                  'overdue_credit_count',
                  init_data[init_data['credit_count'] > 0],
                  flg_overdue_wo_cln_history.loc[[2, 3], :],
                  5000)

Таким образом, мы заключаем, что наблюдаемые различия вполне себе могут быть обусловлены случайностью.

**Различия между группами 1 и 2**

In [212]:
_ = bootstrap_feature('open_account_flg',
                  'overdue_credit_count',
                  init_data[init_data['credit_count'] > 0],
                  flg_overdue_wo_cln_history.loc[[0, 1], :],
                  1000)

Наблюдаемое различие между категориями 0 и 1 равно -0.03664


  0%|          | 0/1000 [00:00<?, ?it/s]

<IPython.core.display.Javascript object>

Вероятность обнаружить результаты, обусловленные случайностью и превосходящие полученные данные, равна 0.00000 %.


In [213]:
f_val, p_val = f_oneway(init_data[(init_data['credit_count'] > 0) &
                                 (init_data['overdue_credit_count'] == 1)]['open_account_flg'],
                              init_data[(init_data['credit_count'] > 0) &
                                 (init_data['overdue_credit_count'] == 0)]['open_account_flg'])  
 
print( "ANOVA results: F=", f_val, ", P =", p_val )

ANOVA results: F= 66.459046520412 , P = 3.602454925378686e-16


На основании статистического теста мы заключаем, что есть различие между двумя категориями (с просроченными кредитами и без), причем доля открытия кредитного счета в банке Тинькофф выше у людей из первой категории. Данное наблюдение можно объяснить, возможно, рефинансированием кредита других банков.

**Итого:** На открытие счета в банке Тинькофф положительно влияет наличие просроченных кредитов.


### Гипотеза 12

Гипотеза заключается в том, сфера занятости сильно влияет на целевую переменную.

In [228]:
init_data.job_position.value_counts(normalize=True)

SPC      0.788774
UMN      0.103510
BIS      0.032745
PNA      0.024053
DIR      0.021962
ATP      0.016346
WRK      0.003842
NOR      0.003145
WOI      0.002062
INP      0.001411
BIU      0.000738
WRP      0.000644
OTHER    0.000387
PNI      0.000381
Name: job_position, dtype: float64

In [237]:
init_data.groupby('job_position').agg('mean')['open_account_flg']

job_position
ATP      0.289144
BIS      0.158290
BIU      0.365079
DIR      0.148000
INP      0.278008
NOR      0.361266
OTHER    0.333333
PNA      0.362552
PNI      0.307692
SPC      0.166342
UMN      0.188978
WOI      0.238636
WRK      0.184451
WRP      0.209091
Name: open_account_flg, dtype: float64

У нас выполняются не все условия для классической ANOVA (целевая переменная не распределена по нормальному закону), поэтому применим непараметрический тест Велча.

См. подробнее [здесь](https://pingouin-stats.org/generated/pingouin.welch_anova.html?highlight=welch#pingouin.welch_anova)

In [233]:
aov_W2 = welch_anova(dv='open_account_flg', between = 'job_position', data=init_data)

Unnamed: 0,Source,ddof1,ddof2,F,p-unc,np2
0,job_position,13,1091.019436,80.924262,9.347763e-150,0.009232


Исходя из результатов теста Велча, можно сказать, что между разновидностью работы и распределением открытия счета есть различия, осталось узнать между какими типами работ. Для этого применим (Pairwise Games-Howell post-hoc test) апостериорный тест Хауэлла для попарных сравнений (с корректировкой p value).

In [238]:
pairwise_anova = pairwise_gameshowell(dv='open_account_flg', between = 'job_position', data=init_data) 

In [258]:
is_significant = pairwise_anova.query('pval < 0.05')

In [255]:
are_different_jobs = pd.DataFrame({job:[((job in pairwise_anova.query('pval < 0.05').A.values) or
                         (job in pairwise_anova.query('pval < 0.05').B.values))] for
                   job in init_data.job_position.unique()}).T.rename(columns={0:'is_stat_different'})

In [257]:
are_different_jobs[is_different_job['is_stat_different'] == 0]

Unnamed: 0,is_stat_different
OTHER,False
PNI,False


Можно заметить, что категория OTHER и PNI не имеет статистически значимых различий с другими группами. Все остальные категории значимо попарно отличаются.

**Итого:** Категория занятости клиента влияет на открытие кредитного счета в банке.

### Гипотеза 13

Гипотеза заключается в том, что внутренняя скоринговая оценка должна сильно коррелировать с фактом открытия кредитного счета, и отрицательно коррелировать с количеством просроченных кредитов клиента. Дополнительно проверим есть ли корреляция между зарплатой и скоринговой оценкой.

In [51]:
init_data.columns

Index(['gender', 'age', 'marital_status', 'job_position', 'credit_sum',
       'credit_month', 'tariff_id', 'score_shk', 'education', 'living_region',
       'monthly_income', 'credit_count', 'overdue_credit_count',
       'open_account_flg'],
      dtype='object')

In [53]:
aov_W2 = welch_anova(dv='score_shk', between = 'open_account_flg', data=init_data)
aov_W2

Unnamed: 0,Source,ddof1,ddof2,F,p-unc,np2
0,open_account_flg,1,42952.985858,389.423487,2.669151e-86,0.00237


Исходя из результатов теста Велча, можно сказать, что между разновидностью внутренней скоринговой оценки и распределением открытия счета есть различия. Можно посмотреть на распределение оценок в зависимости от факта открытия счета.

In [54]:
score_shk_flg = init_data[['score_shk', 'open_account_flg']]\
                            .copy().dropna()

In [57]:
score_flg = {("Открыт" if acc_cat == 1 else 'Не открыт'):
                 (score_shk_flg[score_shk_flg.open_account_flg == acc_cat].score_shk)
                for acc_cat in sorted(score_shk_flg.open_account_flg.unique())}

In [59]:
g = sns.displot(score_flg, kind="kde", common_norm=False)

g.ax.grid()
# g.fig.autofmt_xdate()
g.ax.tick_params(axis='x', rotation=315)
g.ax.set_xlabel('Внутренняя оценка')

g.tight_layout()

<IPython.core.display.Javascript object>

Видим, что в случае открытия счета, внутренняя оценка смещена в область бо́льших значений, также доля людей с оценкой от 0.7 до 0.8 выше.

Таким образом, <ins>внутренняя оценка значимо влияет на целевую переменную</ins>.

Рассмотрим влияние просроченных кредитов на скоринговую оценку.

In [63]:
pairwise_anova = pairwise_gameshowell(dv='open_account_flg', between = 'overdue_credit_count', data=init_data)
pairwise_anova

Unnamed: 0,A,B,mean(A),mean(B),diff,se,T,df,pval,hedges
0,0.0,1.0,0.162857,0.203112,-0.040255,0.004794,-8.397187,7922.56954,0.001,-0.100411
1,0.0,2.0,0.162857,0.32,-0.157143,0.066646,-2.357869,49.019522,0.099071,-0.333506
2,0.0,3.0,0.162857,0.2,-0.037143,0.200002,-0.185712,4.000177,0.9,-0.083054
3,1.0,2.0,0.203112,0.32,-0.116888,0.066805,-1.749685,49.488833,0.309809,-0.248261
4,1.0,3.0,0.203112,0.2,0.003112,0.200055,0.015557,4.004421,0.9,0.006959
5,2.0,3.0,0.32,0.2,0.12,0.21081,0.569233,4.932502,0.9,0.263198


Видим, что наличие статистически значимого различия между группами людей с разным количеством просроченных кредитов наблюдается только в случае групп с 0 и с 1 просроченным кредитом. Т.е. люди без просроченных кредитов менее склонны открыть кредитный счет в банке.

In [67]:
plt.figure()
sns.heatmap(init_data.corr(method='spearman'), annot=True, linewidths=1)
plt.tight_layout()

<IPython.core.display.Javascript object>

Можно заметить, что корреляция (т.е. линейная взаимосвязь) между скоринговой оценкой и зарплатой отсутствует.
Однако, знак данной взаимосвязи отрицательный, также как и в случае возраста и количества кредитов, что разумно с точки оценивания банком клиентов.
