# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Шаг 1. Откроем файл с данными и изучим общую информацию

**Откроем файл и посмотрим первые 10 строк**

In [None]:
import pandas as pd
data = pd.read_csv('/datasets/data.csv')
display(data.head(20))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Посмотрим последние 10 строк дата фрейма**

In [None]:
display(data.tail(10))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21515,1,-467.68513,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486.327999,заняться образованием
21516,0,-914.391429,42,высшее,0,женат / замужем,0,F,компаньон,0,322807.776603,покупка своего жилья
21517,0,-404.679034,42,высшее,0,гражданский брак,1,F,компаньон,0,178059.553491,на покупку своего автомобиля
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем
21519,1,-2351.431934,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949.039788,покупка коммерческой недвижимости
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


**Выведем общую информацию о дата фрейме**

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Вывод**: Наша таблица с данными имеет 12 столбцов и 21525 строк.
Описание данных:

* children — количество детей в семье
* days_employed — общий трудовой стаж в днях
* dob_years — возраст клиента в годах
* education — уровень образования клиента
* education_id — идентификатор уровня образования
* family_status — семейное положение
* family_status_id — идентификатор семейного положения
* gender — пол клиента
* income_type — тип занятости
* debt — имел ли задолженность по возврату кредитов
* total_income — ежемесячный доход
* purpose — цель получения кредита

Также есть некоторые особенности:

* Nan объекты находятся в столбцах days_employed и total_income
* Есть отрицательные значения в столбце days_employed

### Артефакты данных

**Посмотрим и другие столбцы на наличие артефактов:**

**Пол**

In [None]:
data['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

XNA - вероятно пол не определен, он составляет единичный случай. На результат исследования это не влияет, поэтому оставим как есть

**Дети**

In [None]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Есть интересные показатели: у некоторых заемщиков 20 детей. Вероятно это ошибка, которую допускают банковские работники при заполнении документов, либо данные неккоретно выгружаются из банковской скорринговой системы. Я поискал информацию о наличии таких семей в стране и нашел следующие показатели:

" Троих детей в нашей стране воспитывают 1 млн 233 тыс. семей, четверых детей — 233 тыс. семей, а от пяти до семи — 95 тыс. Растят по восемь-десять детей в 5 тыс. семей, **а 11 и более — в 929 семьях**. Такая информация представлена в документе (есть в распоряжении RT), который первый заместитель министра труда Алексей Вовченко направил председателю Национального родительского комитета Ирине Волынец."

Теоритически это возможно, единственное что я поменяю в этом столбце это отрицательные значения: -1

In [None]:
data['children'] = abs(data['children'])

## Шаг 2. Предобработка данных

### Обработка пропусков

**Вызовем метод isnull и узнаем количество пропусков в нашем дата фрейме**

In [None]:
data.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Видим пропуски в двух столбцах - days_employed и total_income. Что соответственно означает: общий трудовой стаж в днях и ежемесячный доход. Количество пропусков одинаково, что логично: нет стажа = нет дохода. Данное явление имеет место быть, когда житель России имеет неофициальный доход. Заполним данные пропуски следующим образом: трудовой стаж - 0 и доход соответсвенно тоже 0

In [None]:
data['education'] = data['education'].str.lower()



In [None]:
data_pivot = data.pivot_table(index=['education', 'dob_years'], columns='income_type', values='total_income', aggfunc='median')
data_pivot.head(10)

Unnamed: 0_level_0,income_type,безработный,в декрете,госслужащий,компаньон,пенсионер,предприниматель,сотрудник,студент
education,dob_years,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
высшее,0,,,147473.884045,224510.58936,137674.117012,,157362.970952,
высшее,20,,,71105.37721,100002.327317,,,98287.203541,
высшее,21,,,197361.075573,161279.29816,,,152357.265174,
высшее,22,,,147573.108685,186306.912411,,,128459.221957,98201.625314
высшее,23,,,,142943.813796,,,147688.600004,
высшее,24,,,164527.701963,157696.016954,,,126600.910975,
высшее,25,,,144780.213466,158821.741828,,,134761.916088,
высшее,26,,,134417.716085,189893.464621,214963.301941,,147014.037288,
высшее,27,,,168966.283322,204281.97916,,499163.144947,165009.733021,
высшее,28,,,160173.504299,212108.301012,,,170205.648086,


In [None]:
def fill_nan_total_income(income_type, education, dob_years):
    try:
        return data_pivot[income_type][education][dob_years]
    except:
        return 'ошибка'

In [None]:
data['median_total_income'] = data.apply(lambda row: fill_nan_total_income(row['income_type'],  row['education'], row['dob_years']), axis=1)

In [None]:
data['total_income'] = data['total_income'].fillna(data.groupby(['income_type','dob_years', 'education'])['total_income'].transform('median'))
data.head(50)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,median_total_income
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,167348.738871
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,139562.649689
2,0,-5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,145885.952297
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,133222.762637
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,110254.377654
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья,204281.97916
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем,244882.016153
7,0,-152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование,130484.935304
8,2,-6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы,153535.173496
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи,137703.110419


Проверим резултат методом isnull

In [None]:
data.isnull().sum()

children                  0
days_employed          2174
dob_years                 0
education                 0
education_id              0
family_status             0
family_status_id          0
gender                    0
income_type               0
debt                      0
total_income             14
purpose                   0
median_total_income      14
dtype: int64

В общей информации о таблице теперь все тоже хорошо

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
children               21525 non-null int64
days_employed          19351 non-null float64
dob_years              21525 non-null int64
education              21525 non-null object
education_id           21525 non-null int64
family_status          21525 non-null object
family_status_id       21525 non-null int64
gender                 21525 non-null object
income_type            21525 non-null object
debt                   21525 non-null int64
total_income           21511 non-null float64
purpose                21525 non-null object
median_total_income    21511 non-null float64
dtypes: float64(3), int64(5), object(5)
memory usage: 2.1+ MB


**Вывод** пропуски имеют логичное отсутствие, данный момент не является технической ошибкой или человеческим фактором. Данный пропуск для удобства мы можем просто заменить на 0

### Преобразование неточных данных

**Изучим внимательнее столбец days_employed. Посмотрим сколько в годах трудовой стаж наших заемщиков:**

In [None]:
year_employed = data['days_employed'] / 365
print(year_employed.head(50))
print(year_employed.tail(10))

0      -23.116912
1      -11.026860
2      -15.406637
3      -11.300677
4      932.235814
5       -2.537495
6       -7.888225
7       -0.418574
8      -18.985932
9       -5.996593
10     -11.428722
11      -2.171786
12            NaN
13      -5.059293
14      -5.054674
15      -2.664012
16      -4.712149
17      -6.493150
18    1096.660649
19     -27.503612
20      -3.593436
21      -0.695028
22      -4.840121
23      -0.747894
24     927.539597
25     996.023258
26            NaN
27      -1.449840
28      -1.965135
29            NaN
30     919.401832
31      -4.608448
32     -12.739482
33      -4.242843
34     -12.296074
35    1079.509787
36      -0.482785
37     -17.667975
38      -1.638032
39      -1.782432
40      -2.822911
41            NaN
42      -3.445195
43     -11.988168
44      -3.731621
45      -2.847813
46      -6.199212
47      -7.367499
48      -9.153611
49      -3.236831
Name: days_employed, dtype: float64
21515      -1.281329
21516      -2.505182
21517      -1.108710
2

  Трудовой стаж некоторых заемщиков составляет 900 лет. С этим столбцом явно что то не так. Значения со знаком минус выглядят реалистично (если убрать минус), а положительные нет. Сделаем следующее: отрицательные значения приведем к положительным, а значительно большие (значения больше 23 000 дней, то есть 63 года) разделим на 24 (количество часов в сутках).

In [None]:
for index in range(len(data)):
    if data.loc[index, 'days_employed'] >= 23000:
        data.loc[index, 'days_employed'] = data.loc[index, 'days_employed'] / 24
display(data.head(20))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,median_total_income
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,167348.738871
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,139562.649689
2,0,-5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,145885.952297
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,133222.762637
4,0,14177.753002,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,110254.377654
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья,204281.97916
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем,244882.016153
7,0,-152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование,130484.935304
8,2,-6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы,153535.173496
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи,137703.110419


Сейчас приведем все данные к положительному значению и снова посмотрим как будут выглядеть показатели в годах:

In [None]:
data['days_employed'] = abs(data['days_employed'])
print((data['days_employed'] / 365).head(50))

0     23.116912
1     11.026860
2     15.406637
3     11.300677
4     38.843159
5      2.537495
6      7.888225
7      0.418574
8     18.985932
9      5.996593
10    11.428722
11     2.171786
12          NaN
13     5.059293
14     5.054674
15     2.664012
16     4.712149
17     6.493150
18    45.694194
19    27.503612
20     3.593436
21     0.695028
22     4.840121
23     0.747894
24    38.647483
25    41.500969
26          NaN
27     1.449840
28     1.965135
29          NaN
30    38.308410
31     4.608448
32    12.739482
33     4.242843
34    12.296074
35    44.979574
36     0.482785
37    17.667975
38     1.638032
39     1.782432
40     2.822911
41          NaN
42     3.445195
43    11.988168
44     3.731621
45     2.847813
46     6.199212
47     7.367499
48     9.153611
49     3.236831
Name: days_employed, dtype: float64


**Теперь данные выглядят более реалистично** 

Также приведем все данные в столбце education к нижнему регистру:

In [None]:
data['education'] = data['education'].str.lower()
display(data.head(10))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,median_total_income
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,167348.738871
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,139562.649689
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,145885.952297
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,133222.762637
4,0,14177.753002,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,110254.377654
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья,204281.97916
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем,244882.016153
7,0,152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование,130484.935304
8,2,6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы,153535.173496
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи,137703.110419


### Обработка дубликатов

Посмотрим количество абсолютно одинаковых строк:

In [None]:
data.duplicated().sum()

71

Удалим их:

In [None]:
data = data.drop_duplicates()

<div class="alert alert-success" style="border-radius: 15px; box-shadow: 4px 4px 4px; border: 1px solid ">
<b> Комментарий ревьюера</b>
    
Поскольку у нас нет уникальных идентификаторов пользователей, полные дубликаты вполне могут быть разными людьми. А вот дубликаты записей в столбцах вроде **Среднее** образование и **среднее** образование удалить надо было (путем приведения к одному регистру), это верно. </div>

Проверим результат:

In [None]:
data.duplicated().sum()

0

**Вывод**: так как в дата фрейме нет идентификаторов заемщиков, по которым мы могли удалить дубли, мы искали абсолютно одинаковые строки во всем дата фрейме

### Лемматизация

**Займемся поиском слов, записанных в разных формах. Пройдемся по столбцам с типом данных object**

У столбцов: education, family_status, income_type проблем с разным написанием нет

In [None]:
data['education'].value_counts()

среднее                15172
высшее                  5250
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

In [None]:
data['family_status'].value_counts()

женат / замужем          12339
гражданский брак          4151
Не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: family_status, dtype: int64

In [None]:
data['income_type'].value_counts()

сотрудник          11084
компаньон           5078
пенсионер           3829
госслужащий         1457
предприниматель        2
безработный            2
в декрете              1
студент                1
Name: income_type, dtype: int64

**А вот в этом стобце есть с чем поработать:**

In [None]:
data['purpose'].value_counts()

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

In [None]:
from pymystem3 import Mystem
m = Mystem()

In [None]:
data['purpose_new'] = data['purpose'].astype(str)

In [None]:

purpose_list = data['purpose'].unique() 
print(purpose_list) 
print('-------------') 
lemmas = [] 
for i in purpose_list: 
    lemma = ' '.join(m.lemmatize(i)) 
    lemmas.append(lemma) 
print(lemmas) 
    

['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство жилой недвижимости' 'жилье'
 'операции со своей недвижимостью' 'автомобили' 'заняться образованием'
 'сделка с подержанным автомобилем' 'получение образования' 'автомобиль'
 'свадьба' 'получение дополнительного образования' 'покупка своего жилья'
 'операции с недвижимостью' 'получение высшего образования'
 'свой автомобиль' 'сделка с автомобилем' 'профильное образование'
 'высшее образование' 'покупка жилья для сдачи' 'на покупку автомобиля'
 'ремонт жилью' 'заняться высшим образованием']
-------------
['покупка   жил

Напечатаем для удобства каждый элемент с новой строки:

In [None]:
for i in lemmas:
    print(i)

покупка   жилье 

приобретение   автомобиль 

дополнительный   образование 

сыграть   свадьба 

операция   с   жилье 

образование 

на   проведение   свадьба 

покупка   жилье   для   семья 

покупка   недвижимость 

покупка   коммерческий   недвижимость 

покупка   жилой   недвижимость 

строительство   собственный   недвижимость 

недвижимость 

строительство   недвижимость 

на   покупка   подержать   автомобиль 

на   покупка   свой   автомобиль 

операция   с   коммерческий   недвижимость 

строительство   жилой   недвижимость 

жилье 

операция   со   свой   недвижимость 

автомобиль 

заниматься   образование 

сделка   с   подержанный   автомобиль 

получение   образование 

автомобиль 

свадьба 

получение   дополнительный   образование 

покупка   свой   жилье 

операция   с   недвижимость 

получение   высокий   образование 

свой   автомобиль 

сделка   с   автомобиль 

профильный   образование 

высокий   образование 

покупка   жилье   для   сдача 

на   покупка   автом

**Вывод**: Определим категории по которым будем разбивать данные:
автомобиль, недвижимость (жилье+недвижимость), образование, свадьба

### Категоризация данных

In [None]:
def f(row):
    lemmas_row = m.lemmatize(row)
    for i in lemmas_row:
        if 'авто' in i:
            return 'автомобиль'
        if 'недв' in i:
            return 'недвижимость'
        if 'жил' in i:
            return 'недвижимость'
        if 'свад' in i:
            return 'свадьба'
        if 'образов' in i:
            return 'образование'
data['category'] = data['purpose'].apply(f)
display(data)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,median_total_income,purpose_new,category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,167348.738871,покупка жилья,недвижимость
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,139562.649689,приобретение автомобиля,автомобиль
2,0,5623.422610,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,145885.952297,покупка жилья,недвижимость
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,133222.762637,дополнительное образование,образование
4,0,14177.753002,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу,110254.377654,сыграть свадьбу,свадьба
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем,144507.102912,операции с жильем,недвижимость
21521,0,14330.725172,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем,102425.505563,сделка с автомобилем,автомобиль
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость,139556.031733,недвижимость,недвижимость
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля,139556.031733,на покупку своего автомобиля,автомобиль


**Сделаем категоризацию по доходам:**

Посмотрим диапазон в доходах:

In [None]:
print(data['total_income'].max())
print(data['total_income'].min())


2265604.028722744
20667.26379327158


Сделаем следующую категоризацию по доходу:

- От 0 до 10 000 - очень низкий
- от 10 001 до 30 000 - низкий
- от 30 001 до 70 000 - средний
- от 70 001 до 100 000 - умеренный
- от 100 001 до - 200 000 - высокий
- от 200 001 и выше - очень высокий

In [None]:
def icome_group(s):
    if s <= 10000:
        return 'очень низкий (от 0 до 10 000)'
    if 10001 <= s <= 30000:
        return 'низкий (от 10 001 до 30 000)'
    if 30001 <= s <= 70000:
        return 'средний (от 30 001 до 70 000)'
    if 70001 <= s <= 100000:
        return 'умеренный (от 70 001 до 100 000)'
    if 100001 <= s <= 200000:
        return 'высокий (от 100 001 до - 200 000)'
    return 'очень высокий (от 200 001 и выше)'
data['incom_category'] = data['total_income'].apply(icome_group)


**Вывод** - для дальнейшего нашего исследования мы произвели категоризацию следующих показателей:
- **цель получения кредита**
    * недвижимость
    * автомобиль
    * свадьба
    * образование
- **ежемесячный доход**
    - От 0 до 10 000 - очень низкий
    - от 10 001 до 30 000 - низкий
    - от 30 001 до 70 000 - средний
    - от 70 001 до 100 000 - умеренный
    - от 100 001 до - 200 000 - высокий
    - от 200 001 и выше - очень высокий

## Шаг 3. Ответим на вопросы

Для определения зависимости определенной характеристики заемщика на возврат кредита, посчитаем **процент невозврата "part"** по тому или иному признаку

**- Есть ли зависимость между наличием детей и возвратом кредита в срок?**

In [None]:
children_stat = data.groupby('children').agg({'debt': ['count', 'sum']})
children_stat['part'] = (children_stat['debt']['sum'] / children_stat['debt']['count']) * 100
children = children_stat.sort_values('part', ascending=False)
children

Unnamed: 0_level_0,debt,debt,part
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
20,76,8,10.526316
4,41,4,9.756098
2,2052,194,9.454191
1,4855,445,9.165808
3,330,27,8.181818
0,14091,1063,7.543822
5,9,0,0.0


In [None]:
# КОД РЕВЬЮЕРА

data.groupby('children')['debt'].agg(['count', 'sum', lambda x: '{:.2%} '.format(x.mean())])

Unnamed: 0_level_0,count,sum,<lambda_0>
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14091,1063,7.54%
1,4855,445,9.17%
2,2052,194,9.45%
3,330,27,8.18%
4,41,4,9.76%
5,9,0,0.00%
20,76,8,10.53%


In [None]:

data.groupby( data['children'].apply(lambda x: 'Есть' if x>0 else 'Нет') )['debt'].agg(['count', 'sum', lambda x: '{:.2%} '.format(x.mean())])

Unnamed: 0_level_0,count,sum,<lambda_0>
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Есть,7363,678,9.21%
Нет,14091,1063,7.54%


**Вывод**: Наличие детей напрямую влияет на возврат кредита. Так у заемщиков с количеством детей 0 процент невозврата составляет 7,54%, а с двумя детьми уже 9,45%. Причина простая: чем больше детей, тем больше финансовая нагрузка на семью.

**- Есть ли зависимость между семейным положением и возвратом кредита в срок?**

In [None]:
family_stat = data.groupby('family_status').agg({'debt': ['count', 'sum']})
family_stat['part'] = (family_stat['debt']['sum'] / family_stat['debt']['count']) * 100
family = family_stat.sort_values('part', ascending=False)
family

Unnamed: 0_level_0,debt,debt,part
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Не женат / не замужем,2810,274,9.75089
гражданский брак,4151,388,9.347145
женат / замужем,12339,931,7.545182
в разводе,1195,85,7.112971
вдовец / вдова,959,63,6.569343


**Вывод**: да, зависимость от семейного положения тоже имеет место быть. Люди в официальном браке и в разводе лучше возвращают кредиты банкам, чем "холостые" люди. На мой взгляд это связано с приобретением определенных привычек

In [None]:

dict(zip(data['family_status_id'], data['family_status']))

{0: 'женат / замужем',
 1: 'гражданский брак',
 2: 'вдовец / вдова',
 3: 'в разводе',
 4: 'Не женат / не замужем'}

In [None]:

print('Создали словарь:')
family_dict = data[['family_status_id', 'family_status']]
family_dict = family_dict.drop_duplicates().reset_index(drop=True)
display(family_dict)


print('\n\nСгруппированная таблица. Берем по id, другой столбец удалили:')
a = data.groupby('family_status_id')['debt'].agg(['count', 'sum', lambda x: '{:.2%} '.format(x.mean())])
display(a)


print('\n\nЗаменяем численные значения по ключу словаря:')
a.reset_index().replace({'family_status_id': family_dict.family_status.to_dict()})

Создали словарь:


Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,Не женат / не замужем




Сгруппированная таблица. Берем по id, другой столбец удалили:


Unnamed: 0_level_0,count,sum,<lambda_0>
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,12339,931,7.55%
1,4151,388,9.35%
2,959,63,6.57%
3,1195,85,7.11%
4,2810,274,9.75%




Заменяем численные значения по ключу словаря:


Unnamed: 0,family_status_id,count,sum,<lambda_0>
0,женат / замужем,12339,931,7.55%
1,гражданский брак,4151,388,9.35%
2,вдовец / вдова,959,63,6.57%
3,в разводе,1195,85,7.11%
4,Не женат / не замужем,2810,274,9.75%


**- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

In [None]:
income_stat = data.groupby('incom_category').agg({'debt': ['count', 'sum']})
income_stat['part'] = (income_stat['debt']['sum'] / income_stat['debt']['count']) * 100
income_stat.sort_values('part', ascending=False)

Unnamed: 0_level_0,debt,debt,part
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
incom_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
низкий (от 10 001 до 30 000),22,2,9.090909
высокий (от 100 001 до - 200 000),11746,1019,8.675294
умеренный (от 70 001 до 100 000),3005,255,8.485857
очень высокий (от 200 001 и выше),5228,366,7.000765
средний (от 30 001 до 70 000),1453,99,6.813489


**Вывод**: низкий официальный доход не всегда яввляется показателем плохой платежеспособности. Это специфика нашего рынка оплаты труда. Не секрет, что весь доход сотрудников не всегда проходит "по белому". Однако можно выделить некоторые категории, которые чаще всего закрывают свои долги вовремя:
- средний (от 30 001 до 70 000)
- очень высокий (от 200 001 и выше)

Одной из самых недисциплинированных групп является категория - "высокий (от 100 001 до - 200 000)". В данном случае необходимо знать, запрашивает ли данный банк подтверждение дохода заемщика! Вероятно, суммы записанные сотрудником банка со слов потенциального заемщика являются завышенными!

**- Как разные цели кредита влияют на его возврат в срок?**

In [None]:
category_stat = data.groupby('category').agg({'debt': ['count', 'sum']})
category_stat['part'] = (category_stat['debt']['sum'] / category_stat['debt']['count']) * 100
category_stat.sort_values('part', ascending=False)

Unnamed: 0_level_0,debt,debt,part
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
автомобиль,4306,403,9.359034
образование,4013,370,9.220035
свадьба,2324,186,8.003442
недвижимость,10811,782,7.233373


**Вывод**: ответсвеннее всего к возврату долгов относятся заемщики, которые приобретают недвижимость. В данном случае потребность в "в крыше над головой" является сильной мотивацией для возврата кредита. Напротив за автомобиль заемщики меньше боятся получить просрочку по кредиту.

**- Как образование влияет на возврат кредита**

In [None]:
education_stat = data.groupby('education').agg({'debt': ['count', 'sum']})
education_stat['part'] = (education_stat['debt']['sum'] / education_stat['debt']['count']) * 100
education_stat.sort_values('part', ascending=False)

Unnamed: 0_level_0,debt,debt,part
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
education,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
начальное,282,31,10.992908
неоконченное высшее,744,68,9.139785
среднее,15172,1364,8.990245
высшее,5250,278,5.295238
ученая степень,6,0,0.0


**Вывод**: Уровень образования напрямую влияет на возвращаемость кредита. Так люди с высшим образованием наиболее охотно возвращают свои долги. И наоборот, люди с незаконченным высшим или только начальным образованием, имеют самый высокий процент по невозвратам!

## Шаг 4. Общий вывод

Итак, вернемся к нашему главному вопросу: "Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов."

Ответ: да, семейный статус и количество детей влияет на факт погашения кредита! Если искать пересечение этих двух характеристик, то наиболее платежеспособная категория будет: семейная пара или заемщики в разводе, но без детей. Но нужно понимать, что одна из "бездетных" категорий может перейти в разряд с одним и более ребенком. Также я бы сделал вывод о том что кредиты вовремя возвращают дисциплинированные и "системные" люди, имеющие хорошую репутацию в разных сферах жизни (возможно некую "системность" и дисциплинированность человек приобретает закончив школу и учебное заведение высшего или среднего звена). 

In [None]:
display(family)
display(children)

Unnamed: 0_level_0,debt,debt,part
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Не женат / не замужем,2810,274,9.75089
гражданский брак,4151,388,9.347145
женат / замужем,12339,931,7.545182
в разводе,1195,85,7.112971
вдовец / вдова,959,63,6.569343


Unnamed: 0_level_0,debt,debt,part
Unnamed: 0_level_1,count,sum,Unnamed: 3_level_1
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
20,76,8,10.526316
4,41,4,9.756098
2,2052,194,9.454191
1,4855,445,9.165808
3,330,27,8.181818
0,14091,1063,7.543822
5,9,0,0.0
