# Исследование надёжности заёмщиков

Кредитному отделу банка необходима информация о том, есть ли влияние на погашение кредита в срок со стороны таких факторов, как количество детей и семейное положение клиента. Располагаемые данные — статистика о клиентах и о том, были ли у них проблемы с возвратом кредитов.

Столбец №1 - индекс;

Столбец №2 - children — количество детей в семье;

Столбец №3 - days_employed — общий трудовой стаж в днях;

Столбец №4 - dob_years — возраст клиента в годах;

Столбец №5 - education — уровень образования клиента;

Столбец №6 - education_id — идентификатор уровня образования;

Столбец №7 - family_status — семейное положение;

Столбец №8 - family_status_id — идентификатор семейного положения;

Столбец №9 - gender — пол клиента;

Столбец №10 - income_type — тип занятости;

Столбец №11 - debt — имел ли задолженность по возврату кредитов;

Столбец №12 - total_income — ежемесячный доход;

Столбец №13 - purpose — цель получения кредита

**Содержание проекта**
- [Шаг 1. Общая информация](#Шаг-1.-Откройте-файл-с-данными-и-изучите-общую-информацию.)
- [Шаг 2. Предобработка данных](#Шаг-2.-Предобработка-данных)
 - [2.1. Обработка пропусков](#2.1-Обработка-пропусков)
 - [2.2. Замена типа данных](#2.2-Замена-типа-данных)
 - [2.3. Обработка дубликатов](#2.3-Обработка-дубликатов)
 - [2.4. Лемматизация](#2.4-Лемматизация)
 - [2.5. Категоризация данных](#2.5-Категоризация-данных)
- [Шаг 3. Ответы на вопросы](#Шаг-3.-Ответьте-на-вопросы)
- [Шаг 4. Общий вывод](#Шаг-4.-Общий-вывод)

### Шаг 1. Откройте файл с данными и изучите общую информацию. 

Сперва стандарнтым способом импортируем pandas.
Затем прочитаем файл и сохраним содержимое в датафрейм data.

In [1]:
import pandas as pd
from pymystem3 import Mystem
from collections import Counter
data = pd.read_csv('/datasets/data.csv')


Выведем первые 15 столбцов data, чтобы иметь возможность ориентироваться в названиях столбцов и типах данных

In [2]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Сразу же бросается в глаза столбец "трудовой стаж" - там есть отрицательные значения, очень большие положительные значения и пропуски.
Оценим объем полученных данных

In [3]:
data.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Из таблицы выше видно, что столбцы со стажем работы и среднемесячным доходом имеют пропуски. Выясним, совпадают ли эти пропуски в строках. Для этого попробуем вывести на экран строки с нулевыми значениями трудового стажа и ненулевыми значениями общего дохода.
Также обратим внимание на то, что пропуски в столбцах, где тип данных - float. Появление их в выборке может быть связано с тем, что при занесении данных в ячейке могли смешаться цифры и текст, и при выгрузке такие испорченные ячейки просто решили обнулить.

In [4]:
print(data.loc[(data['days_employed'].isnull()) & (data['total_income'].notnull())])


Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []


Получили на выходе пустой датафрейм: значит, если значение отсутствует в трудовом стаже, значит, также оно отсутствует в совокупном доходе.
Далее вызовем метод describe, чтобы оценить числовые столбцы.

In [5]:
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


Из таблицы видно, что средний трудовой стаж по выборке 63000 дней или почти 173 года. Такое значение адекватным быть не может.


# Вывод

При ознакомлении с данными выявлены следующие проблемы:
1.Столбцы "days_employed" и "total_income" имеют пропуски.
2.Столбец "days_employed" содержит отрицательные значения и неадекватно большие положительные значения

### Шаг 2. Предобработка данных

### 2.1 Обработка пропусков

Далее пройдемся по каждому столбцу методом value_counts(), чтобы познакомиться с набором значений.
Для столбцов с вещественным типом данных - измерим длину

In [6]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

В столбце "дети" видим артефакты - отрицательные значения и большое количество людей с 20 детьми.Маловероятно, что у 76 человек в выборке 20 детей с учетом того, что максимальное "нормальное" значение - 5

In [7]:
len(data['days_employed'].unique())

19352

В столбце трудового стажа 19352 уникальных значения - это 19351 ненулевое и 1 NaN. Значит, дубликатов, по крайней мере, среди строк, в которых указан трудовой стаж - нет

In [8]:
data['family_status'].value_counts()

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

Здесь все выглядит нормально.

In [9]:
data['family_status_id'].value_counts()

0    12380
1     4177
4     2813
3     1195
2      960
Name: family_status_id, dtype: int64

Количество значений в кодах семейного положения и видах семейного положения совпадают, значит, здесь все корректно.

In [10]:
data['dob_years'].value_counts()

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

В столбце "возраст" есть 101 человек с возрастом 0. Попробуем сгруппировать данные по семейному положению и заменить нулевые значения медианным возрастом для каждой группы используя метод replace().

In [11]:
data['dob_years'] = data['dob_years'].replace(0, (data.groupby('family_status')['dob_years'].transform('median')))

In [12]:
data['dob_years'].value_counts()

41    628
35    617
40    609
34    603
38    598
42    597
33    581
39    573
36    571
43    562
31    560
44    547
29    545
30    540
48    538
37    537
50    514
32    510
49    508
28    503
45    497
27    493
56    487
46    485
52    484
47    480
54    479
58    466
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

Как видим из данных выше, избавились от нолей.

In [13]:
data['education'].value_counts()

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
УЧЕНАЯ СТЕПЕНЬ             1
Ученая степень             1
Name: education, dtype: int64

В столбце "образование" можно выделить 5 видов - начальное, среднее, высшее, неоконченное высшее и ученая степень.
Есть дубликаты из-за разных регистров. Заменить позже.

In [14]:
data['education_id'].value_counts()

1    15233
0     5260
2      744
3      282
4        6
Name: education_id, dtype: int64

Как мы видим, есть пять кодов. Важно, чтобы после замены дубликатов количество значений по видам образования и кодам совпадало.

In [15]:
data['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

В нашей выборке преобладают женщины. У одного человека пол не указан.
Присвоим этой строке 'gender' = F

In [16]:
data.loc[data['gender'] == 'XNA', 'gender'] ='F'

In [17]:
data['income_type'].value_counts()

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
предприниматель        2
безработный            2
в декрете              1
студент                1
Name: income_type, dtype: int64

Присутствуют разные типы источников дохода, все выглядит корректно.

In [18]:
data['debt'].value_counts()

0    19784
1     1741
Name: debt, dtype: int64

Данный столбец выглядит немного загадочным.
Официальная его расшифровка - "имел ли задолженность по возврату кредитов"
Набор значений 0 и 1. 
По всей видимости, 0 означает - "не имел задолженности", 1 - "имел задолженность".
Также исходя из грубых банковских данных, доля неработающих кредитов (по которым есть просрочка платежей) редко превышает 10% от кредитного портфеля.

In [19]:
len(data['total_income'].unique())

19352

В столбце ежемесячного дохода 19352 уникальных значения - это 19351 ненулевое и 1 NaN. 

In [20]:
len(data['total_income'].unique())

19352

In [21]:
data['purpose'].value_counts()

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
операции с жильем                         653
покупка жилья для сдачи                   653
операции с коммерческой недвижимостью     651
жилье                                     647
покупка жилья                             647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
покупка своего жилья                      620
строительство недвижимости                620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

Видно, что номинальных целей кредита более двух десятков, но если обобщить, то можно выделить следюущие категории:
"жилье и недвижимость", "образование", "автомобиль", "свадьба". Этот столбец далее бужет необходимо подвергнуть лемматизации.

Итак, начнем заполнять пропуски.
Первая проблема заключается в том, что дни трудового стажа в большинстве строк отрицательные.
Начальная гипотеза в том, что при выгрузке данных произошла ошибка и положительные данные превратились в отрицательные.
Необходимо понять, можно ли взять эти значения по модулю. Сначала посчитаем средний трудовой стаж группы людей одного возраста в количестве лет. 
Это значение априори должно быть значительным.
Например, обратимся к возрастной группе 35 лет.

In [22]:
abs(data[data['dob_years'] == 35]['days_employed'].mean() / 365)

3.9860539252062015

Получилось, что средний стаж 35-летних - около 4 лет. Значения выглядят не слишком правдоподобными. Но гипотезу пока отвергать не будем.
Попробуем найти людей с самыми большими по модулю отрицательными значениями стажа и назовем их hard_workers.

In [23]:
top_20_hard_workers = data.sort_values('days_employed', ascending=True).head(20)
top_20_hard_workers

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
16335,1,-18388.949901,61,среднее,1,женат / замужем,0,F,сотрудник,0,186178.934089,операции с недвижимостью
4299,0,-17615.563266,61,среднее,1,женат / замужем,0,F,компаньон,0,122560.741753,покупка жилья
7329,0,-16593.472817,60,высшее,0,женат / замужем,0,F,сотрудник,0,124697.846781,заняться высшим образованием
17838,0,-16264.699501,59,среднее,1,женат / замужем,0,F,сотрудник,0,51238.967133,на покупку автомобиля
16825,0,-16119.687737,64,среднее,1,женат / замужем,0,F,сотрудник,0,91527.685995,покупка жилой недвижимости
3974,0,-15835.725775,64,среднее,1,гражданский брак,1,F,компаньон,0,96858.531436,сыграть свадьбу
1539,0,-15785.678893,59,высшее,0,Не женат / не замужем,4,F,сотрудник,0,119563.851852,операции с коммерческой недвижимостью
4321,0,-15773.061335,61,среднее,1,гражданский брак,1,F,сотрудник,0,205868.58578,свадьба
7731,0,-15618.063786,64,среднее,1,женат / замужем,0,F,компаньон,0,296525.358574,высшее образование
15675,0,-15410.040779,65,высшее,0,женат / замужем,0,F,сотрудник,0,188800.068859,покупка жилой недвижимости


На выходе у нас получились 20 человек в пожилом возрасте, из чего логично предположить, что они работали на протяжении всей жизни, начиная с юности. Продолжим проверять нашу гипотезу и оценим их средний возраст и средний стаж в годах.

In [24]:
top_20_hard_workers_avg_age = top_20_hard_workers['dob_years'].mean()
top_20_hard_workers_avg_de = top_20_hard_workers['days_employed'].mean()
print(f'средний возраст топ-20 работников с самым большим стажем: {top_20_hard_workers_avg_age}')
print(f'средний стаж топ-20 работников с самым большим стажем в годах: {abs(top_20_hard_workers_avg_de)/365:.2f}')

средний возраст топ-20 работников с самым большим стажем: 60.25
средний стаж топ-20 работников с самым большим стажем в годах: 42.67


Получается, что средний возраст самых трудолюбивых работников около 60 лет, а стаж - около 42.5, то есть в среднем они начали работать перед 18-летием. Выглядит правдоподобно. Проверим то же для самых молодых работников.

In [25]:
top_20_young_workers = data[(data['days_employed']<0) & (data['dob_years']>0) ].sort_values('dob_years').head(20)
top_20_young_workers

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
13021,0,-695.968951,19,неоконченное высшее,2,Не женат / не замужем,4,F,компаньон,0,165269.027482,автомобили
4098,0,-111.76279,19,среднее,1,гражданский брак,1,M,компаньон,0,91876.754772,на проведение свадьбы
20230,0,-509.969922,19,неоконченное высшее,2,Не женат / не замужем,4,F,госслужащий,0,75787.415536,покупка коммерческой недвижимости
12047,0,-1020.18313,19,среднее,1,Не женат / не замужем,4,M,сотрудник,1,93343.132708,операции со своей недвижимостью
1981,0,-724.49261,19,СРЕДНЕЕ,1,Не женат / не замужем,4,F,компаньон,0,59124.071006,свой автомобиль
11749,0,-757.612624,19,среднее,1,женат / замужем,0,F,компаньон,0,120759.031042,покупка недвижимости
766,0,-796.983636,19,неоконченное высшее,2,женат / замужем,0,F,сотрудник,0,80812.147802,покупка жилья для сдачи
8316,0,-556.088508,19,среднее,1,Не женат / не замужем,4,F,сотрудник,0,68524.106035,высшее образование
9218,0,-322.024011,19,среднее,1,гражданский брак,1,F,компаньон,0,103676.482282,сыграть свадьбу
10235,0,-793.358581,19,среднее,1,женат / замужем,0,F,сотрудник,0,131308.777259,ремонт жилью


На выходе имеем 20 человек в возрасте 19-20 лет с визуально небольшим стажем, проверим средние.

In [26]:
top_20_young_workers_avg_age = top_20_young_workers['dob_years'].mean()
top_20_young_workers_avg_de = top_20_young_workers['days_employed'].mean()
print(f'средний возраст топ-20 самых молодых работников: {top_20_young_workers_avg_age}')
print(f'средний стаж топ-20 самых молодых работников в годах: {abs(top_20_young_workers_avg_de)/365:.2f}')

средний возраст топ-20 самых молодых работников: 19.35
средний стаж топ-20 самых молодых работников в годах: 1.89


Здесь получилось, что средний возраст самых молодых немногим за 19, а средний стаж - около 2 лет. 
Эти данные так же выглядят правдоподобными.
Значит, мы принимаем гипотезу о том, что при выгрузке данных трудовой стаж в днях почему-то стал отрицательным и эти значения можно взять по модулю.
С тем фактом, что в целом по отдельной возрастной группе стаж может оказаться маленьким, придется смириться.

Другая проблема заключается в том, что в столбце "days_employed" есть неадекватно большие положительные значения.


In [27]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Среди первых 20 строк заметим, что неадекватно большие положительные значения в строках, которые удовлетворяют условию "income_type" == "пенсионер".
Проверим гипотезу о том, что только у пенсионеров неадекватное значение в столбце "days_employed"

In [28]:
data[data['days_employed'] > 0]['income_type'].value_counts()

пенсионер      3443
безработный       2
Name: income_type, dtype: int64

Получается, что положительные значения только у пенсионеров и безработных. Проверим, у всех ли пенсионеров и безработных положительные значения. Попробуем вывести строки с отрицательным значением "days_employed", где "income_type" - "пенсионер", либо "безработный.

In [29]:
print(data[(data['days_employed'] < 0) & ((data['income_type'] == 'пенсионер') | (data['income_type'] == 'безработный'))])

Empty DataFrame
Columns: [children, days_employed, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []


На выходе получили пустой датафрейм, значит у пенсионеров и безработных в трудовом стаже стоят либо положительные значения, либо пропуски.

Также выдвинем еще одну гипотезу о том, что строки с пропусками в "days_employed" и  "total_income" являются возможными дубликатами строк, где "days_employed" и  "total_income" указаны. Для этого отберем одну строку с пропусками и попробуем отыскать такую же по ее параметрам - 'family_status_id', 'children', 'education_id'

In [30]:
data[(data['dob_years'] == 35) & (data['family_status_id'] == 3) & (data['children'] == 1) & (data['education_id'] == 0)].sort_values(by='purpose', ascending=True)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
5823,1,,35,высшее,0,в разводе,3,M,компаньон,0,,заняться образованием
4989,1,-4213.971539,35,высшее,0,в разводе,3,F,компаньон,0,483130.445238,покупка своего жилья


Вызов строк с точным повторением условий строк с отсутствующими данными показал, что такие строки не являются потенциальными дубликатами.
В частности, на примере выше для строки 5823 нашли подходящую строку с параметром возраста, детей, семейного положения, но обнаружились расхождения в целях кредита, а самое главное в поле - то есть это точно разные люди.

таким образом гипотеза о том, что строки с отсутствующими значениями - дубликаты корректно заполененных строк - отвергнута

Значит, будем заполнять пропущенные значения трудового стажа и совокупного дохода средним по сгруппированным данным по источнику дохода.
Для заполнения "days_employed" добавим в датафрейм новый столбец - employment_coef. Он будет выражать отношение трудового стажа к потенциально максимальному трудовому стажу, то есть, если бы человек начал работать с 16 лет (возраст, с которого в РФ разрешено работать официально).
Также избавимся от минусов в столбце "days_employed"

In [31]:
data['days_employed'] = abs(data['days_employed'])
data['employment_coef'] = (data['days_employed']/365) / (data['dob_years'] - 16)
data.head(30)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,employment_coef
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,0.889112
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,0.551343
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,0.906273
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,0.706292
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,25.195563
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья,0.230681
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем,0.292156
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование,0.012311
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы,0.99926
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи,0.239864


Сначала заполним пропуски в столбце "total_income". Будем заполнять медианой по каждой группе 'income_type'. Медиане отдано предпочтение, по сравнению со средней, поскольку из таблицы describe() видно, что из-за высоких значений дохода у отдельных людей среднее превышает медиану всей выборки на достаточно выскоую величину.
Воспользуемся комбинацией методов fillna() и transfrom().

In [32]:
data['total_income'] = data['total_income'].fillna(data.groupby('income_type')['total_income'].transform('median'))

Затем аналогичным образом заполним трудовой стаж умножением разности возраста и 16-летия на среднее значение по группе employment_coef. 

In [33]:
data['days_employed'] = data['days_employed'].fillna(data.groupby('income_type')['employment_coef'].transform('mean') * 365 * (data['dob_years'] - 16))

In [34]:
data.head(30)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,employment_coef
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,0.889112
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,0.551343
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,0.906273
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,0.706292
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,25.195563
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья,0.230681
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем,0.292156
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование,0.012311
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы,0.99926
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи,0.239864


In [35]:
data = data.drop('employment_coef', axis=1)

In [36]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Продолжим работать с артефактами.

Вернемся к стобцу 'children'.

In [37]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Здесь мы видим 75 человек с 20 детьми.
Предположим, что при выгрузке добавился лишний ноль, и у этих 75 человек - 2 ребенка.

Также предположим, что "минус один" ребенок просто ошибочная запись отсутсвия детей. (Сдвинулась ячейка в Excel)
Проведем соответствующие замены.

In [38]:
data.loc[data['children'] == 20, 'children'] = 2
data.loc[data['children'] == -1, 'children'] = 1
data['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

### Вывод

Итак, мы заполнили пропуски данных в столбцах трудового стажа (days_employed) и ежемесячного дохода (total_income) с учетом средних по группе типа занятости ("income_type").
Кроме того, мы избавились от строк с нулевым значением возраста  ('dob_years').
Также мы разобрались с артефактами в количестве детей - 20 заменены на 2, -1 заменен на 0.
В промежуточном итоге наша выборка имеет 21424 строки без пропущенных значений.


### 2.2 Замена типа данных

Заменим вещественный тип данных на целочисленный в столбцах "days_employed" и "total_income".
Для работы с этими значениями нам не нужна точность до знаков после запятой.
Воспользуемся методом astype(), потому что нам нужны целые числа.

In [39]:
data['days_employed'] = data['days_employed'].astype(int)
data['total_income'] = data['total_income'].astype(int)

### Вывод

Заменили вещественный тип на числовой, точность до знаков после запятой не нужна.

### 2.3 Обработка дубликатов

Перед тем, как обрабатывать датафрейм методами для поиска дубликатов, поработаем с ними вручную. Тут мы помним про столбец с образованием (разный регистр).

In [40]:
data['education'].value_counts()

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
УЧЕНАЯ СТЕПЕНЬ             1
Ученая степень             1
Name: education, dtype: int64

Приводим все виды образований к нижнему регистру методом str.lower().

In [41]:
data['education'] = data['education'].str.lower()

In [42]:
data['education'].value_counts()

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

Проверим датафрейм на дубликаты методом duplicated(). Сначала посчитаем их количество, затем выведем на экран.

In [43]:
data.duplicated().sum()

72

In [44]:
duplicates = data[data.duplicated()].sort_values(by='total_income', ascending=False)
duplicates

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
15991,0,3315,51,среднее,1,гражданский брак,1,F,компаньон,0,172357,на проведение свадьбы
19387,0,2084,38,высшее,0,гражданский брак,1,F,компаньон,0,172357,на проведение свадьбы
13878,1,1421,31,среднее,1,женат / замужем,0,F,компаньон,0,172357,покупка жилья
17379,0,3599,54,высшее,0,женат / замужем,0,M,компаньон,0,172357,операции с коммерческой недвижимостью
17774,1,2273,40,среднее,1,гражданский брак,1,F,компаньон,0,172357,строительство жилой недвижимости
...,...,...,...,...,...,...,...,...,...,...,...,...
13639,0,416531,64,среднее,1,женат / замужем,0,F,пенсионер,0,118514,автомобиль
16204,0,347109,56,среднее,1,женат / замужем,0,F,пенсионер,0,118514,на покупку автомобиля
3290,0,364464,58,среднее,1,гражданский брак,1,F,пенсионер,0,118514,сыграть свадьбу
15273,0,355787,57,среднее,1,гражданский брак,1,F,пенсионер,0,118514,свадьба


Мы видим, что строки дубликатов в столбце 'total_income' заполнены медианными значениями по группе типа занятости.
Значит, они были изначально среди строк с пропусками.
Мы должны избавиться от этих дубликатов.

In [45]:
data = data.drop_duplicates().reset_index(drop=True)

Проверим.

In [46]:
data.duplicated().sum()

0

От дубликатов избавились.

In [47]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 12 columns):
children            21453 non-null int64
days_employed       21453 non-null int64
dob_years           21453 non-null int64
education           21453 non-null object
education_id        21453 non-null int64
family_status       21453 non-null object
family_status_id    21453 non-null int64
gender              21453 non-null object
income_type         21453 non-null object
debt                21453 non-null int64
total_income        21453 non-null int64
purpose             21453 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


### Вывод

Итак, мы избавились от дубликатов строк, выявленных методом .duplicates().
Кроме того, путем ручного поиска дубликатов привели значения в столбце "education" к нижнему регистру.

### 2.4 Лемматизация

На этом этапе проведем лемматизацию целей кредита для того, чтобы сгруппировать разные формулировки в большие группы.


In [49]:
m = Mystem()
lemmas = []
for word in data['purpose']:
    lemmatized_word = m.lemmatize(word)
    lemmas.extend(lemmatized_word)
    
counter_dict = Counter(lemmas)
print(counter_dict)

Counter({' ': 33568, '\n': 21453, 'недвижимость': 6351, 'покупка': 5897, 'жилье': 4460, 'автомобиль': 4306, 'образование': 4013, 'с': 2918, 'операция': 2604, 'свадьба': 2323, 'свой': 2230, 'на': 2221, 'строительство': 1878, 'высокий': 1374, 'получение': 1314, 'коммерческий': 1311, 'для': 1289, 'жилой': 1230, 'сделка': 941, 'дополнительный': 906, 'заниматься': 904, 'проведение': 767, 'сыграть': 765, 'сдача': 651, 'семья': 638, 'собственный': 635, 'со': 627, 'ремонт': 607, 'подержанный': 486, 'подержать': 478, 'приобретение': 461, 'профильный': 436})


Видно, что больще всего лемм приходится на пробелы и знак окончания строки, но далее идут почти все леммы, которые можно отнести к целям кредита.
Исключая предлоги и лемму 'операция' (метод value_counts показывал, что это не имеет отношения к здоровью) включим 'свадьба' как последнюю лемму, выражающую цель кредита.
Итак выделим четыре вида целей кредита: 1.Недвижимость (включая "жилье") 2. Автомобиль 3. Образование 4. Свадьба
Если мы просуммируем количество повторений этих лемм в словаре, то заметим, что их сумма совпадает с количеством строк нашей выборки.

In [50]:
counter_dict['недвижимость'] + counter_dict['жилье']  + counter_dict['автомобиль'] + counter_dict['образование'] + counter_dict['свадьба']

21453

### Вывод

Провели лемматизацию "сырых" целей кредита и выделили 4 обобщенные. Проверили их релевантность суммой нахождения лемм в словаре.

### 2.5 Категоризация данных

Начнем категоризацию данных с определения обобщенной цели кредита для каждой строки.

Для этого напишем функцию, которую применим к столбцу "purpose" (цель получения кредита).

Если ячейка содержит леммы "недвижимость" или "жилье" отнесем такой кредит к категории "недвижимость", и соответствующие категории для "автомобиль", "свадьба", "образование.

In [51]:
#в качестве аргумента функция принимает строку
#строка обрабатывается Mystem()
# мы создаем пустой список, в который добавляем леммы
#затем проверяем, содержит ли список леммы, выражающие обобщенную цель кредита
#в зависимости от леммы, возвращаем категорию
def purpose_category(purpose):
    try:
        lemmas = []
        lemmatized_word = m.lemmatize(purpose)
        lemmas.extend(lemmatized_word)     
    
        if 'недвижимость' in lemmas:
            return 'недвижимость'
        if 'жилье' in lemmas:
            return 'недвижимость'
        if 'автомобиль' in lemmas:
            return 'автомобиль'
        if 'образование' in lemmas:
            return 'образование'
        if 'свадьба' in lemmas:
            return 'свадьба'
        else:
            return 4 #если ни одна из обозначенных лемм не встретилась, возвращаем 4 - прочая цель кредита
        
    except:
        print('Введите значение в формате "строка"')
    
    

In [52]:
#применим функцию к столбцу
data['purpose_category'] = data['purpose'].apply(purpose_category)

In [53]:
data.head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,недвижимость
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,недвижимость
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,недвижимость
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,недвижимость
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,образование
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,свадьба
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,недвижимость


Далее категоризируем данные по количеству детей.
Создадим следущий словарь:
    0 - нет детей
    1 - один ребенок
    2 - двое детей
    более двух - многодетная семья
Словарь для категоризации выбран таким образом, потому что каждый новый член семьи - это достаточно большие расходы для семейного бюджета.
Поэтому семьи с двумя детьми выделены в отдельную группу.
3 и более детей - это многодетные семьи.
Напишем функцию для категоризации

In [54]:
def child_category(number):
    try:
        if number == 0:
            return 'нет детей'
        if number == 1:
            return 'один ребенок'
        if number == 2:
            return 'двое детей'
        if number > 2:
            return 'многодетная семья'
    except:
        print('Убедиться, что количество детей - целое число')

In [55]:
#применим функцию к столбцу
data['child_category'] = data['children'].apply(child_category)

In [56]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,child_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,недвижимость,один ребенок
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль,один ребенок
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,недвижимость,нет детей
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование,многодетная семья
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба,нет детей
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,недвижимость,нет детей
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,недвижимость,нет детей
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,образование,нет детей
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,свадьба,двое детей
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,недвижимость,нет детей


Далее категоризируем выборку по уровню дохода. Здесь имеет смысл обратиться к описательной статистике столбца.

In [57]:
data['total_income'].describe()

count    2.145300e+04
mean     1.653206e+05
std      9.818947e+04
min      2.066700e+04
25%      1.076200e+05
50%      1.425940e+05
75%      1.958210e+05
max      2.265604e+06
Name: total_income, dtype: float64

На мой взгляд, для категоризации выборки по доходам, можно обратиться к значениям квартилей, делящих выборку на четверти
Тогда можно создать следующий словарь:
Доход до 100 000 - низкий доход;
от 100 000 до 140 000 - средний доход;
от 140 000 до 195 000 - доход выше среднего;
выше 195 000 - высокий доход
Напишем функцию для категоризации

In [60]:
def income_category(income):
    try:
        if income <= 100000:
            return 'низкий доход'
        if income <= 140000:
            return 'средний доход'
        if income <= 195000:
            return 'доход выше среднего'
        else:
            return 'высокий доход'
    except:
        print('Убедиться, что значение дохода - число')

In [61]:
#применим функцию к столбцу
data['income_category'] = data['total_income'].apply(income_category)

In [62]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,child_category,income_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,недвижимость,один ребенок,высокий доход
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль,один ребенок,средний доход
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,недвижимость,нет детей,доход выше среднего
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование,многодетная семья,высокий доход
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба,нет детей,доход выше среднего
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,недвижимость,нет детей,высокий доход
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,недвижимость,нет детей,высокий доход
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,образование,нет детей,средний доход
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,свадьба,двое детей,низкий доход
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,недвижимость,нет детей,доход выше среднего


### Вывод

Итак, мы категоризировали нашу выборку по целям кредитов, количеству детей и доходам.
На следующем шаге обратимся к сводным таблицам, чтобы ответить на поставленные вопросы.

### Шаг 3. Ответьте на вопросы

Прежде чем анализировать рискованность тех или иных групп, стоит найти сколько у нас в среднем по выборке людей имело проблемы с возвратом кредита 

In [63]:
bad_loans_overall = data[data['debt']==1]['debt'].count() / data['debt'].count()
print(f'Доля людей, имевших проблемы с возвратом, по всей выборке: {bad_loans_overall:.2%}')

Доля людей, имевших проблемы с возвратом, по всей выборке: 8.12%


Запомним это значение как средний ориентир и в дальнейшем будем сопоставлять статистику невозвратов по группам в том числе и с 8.1%.

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [64]:
children_pivot = data.pivot_table(index = ['child_category'], columns = 'debt', values='children', aggfunc = 'count' )
children_pivot['bad_loans, %'] = round((children_pivot[1] / (children_pivot[0] + children_pivot[1])) * 100, 2)
children_pivot.sort_values(by = 'bad_loans, %', ascending=False)

debt,0,1,"bad_loans, %"
child_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
двое детей,1926,202,9.49
один ребенок,4410,445,9.17
многодетная семья,349,31,8.16
нет детей,13027,1063,7.54


### Вывод

Да, определенная зависимость присуствует. Среди должников без детей самая низкая доля людей, имевших задолженность по кредиту. У группы людей с одним ребенком процент просрочивших должников выше, чем у людей без детей. Но самая высокая доля проблемных должников в группе с двумя детьми.
Интересно, что у многодетных семей проблемы с долгами находятся на среднем уровне. Возможно, это связано с тем, что заводить более двух детей решаются лишь состоятельные люди.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [65]:
family_pivot = data.pivot_table(index = ['family_status'], columns = 'debt', values='children', aggfunc = 'count' )
family_pivot['bad_loans, %'] = round((family_pivot[1] / (family_pivot[0] + family_pivot[1])) * 100, 2)
family_pivot.sort_values(by = 'bad_loans, %', ascending=False)

debt,0,1,"bad_loans, %"
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2536,274,9.75
гражданский брак,3762,388,9.35
женат / замужем,11408,931,7.55
в разводе,1110,85,7.11
вдовец / вдова,896,63,6.57


### Вывод

Как мы видим из таблицы выше, самая больша доля проблемных должников среди одиноких людей. 

Затем идут люди, которые живут в гражданском браке. Женатые и замужние люди расположились на третьем месте с отрывом от предыдущих двух категорий. Возможно, это связано с тем, что чаще всего люди, вступившие в брак, становятся более ответственными. Кроме того, кредит может быть один на семью, и партнер помогает его выплачивать. 

Самая добросовестная категория - вдовцы и вдовы. Возможно, их платежеспособность связана с тем, что им осталась часть имущества от супруга и в трудной ситуации у них есть подушка безопасности. Кроме того, наверное, в этой категории больше пожилых людей, которые интуитивно более ответственно подходят к денежным вопросам.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [66]:
income_pivot = data.pivot_table(index = ['income_category'], columns = 'debt', values='children', aggfunc = 'count' )
income_pivot['bad_loans, %'] = round((income_pivot[1] / (income_pivot[0] + income_pivot[1])) * 100, 2)
income_pivot.sort_values(by = 'bad_loans, %', ascending=False)

debt,0,1,"bad_loans, %"
income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
доход выше среднего,5967,571,8.73
средний доход,4601,427,8.49
низкий доход,4109,354,7.93
высокий доход,5035,389,7.17


### Вывод

Как видно из таблицы, люди с высоким доходом реже всего имели проблемы с кредитами. Однако на втором месте по качеству стоит группа людей с низким доходом, возможно, это свзано с тем, что такая группа людей подходит к вопросам личных финансов более ответственно, держа в голове, что в будущем, возможно, снова предстоит прибегнуть ко взятию кредита, а просрочки могут серьезно осложнить доступ к заемному финансированию. 

Однако в целом уровень проблем в этой группе можно назвать близким к среднему. Интересно, что самой проблемной группой стали люди с доходом выше среднего. Возможно, это свзано с тем, что в этой группе больше людей, которые способны погашать кредит вовремя, но их не слишком пугают штрафные санкции, и они ведут себя более расслабленно. Также у людей со средним уровнем дохода повышенная доля невозвратов.

- Как разные цели кредита влияют на его возврат в срок?

In [67]:
purpose_pivot = data.pivot_table(index = ['purpose_category'], columns = 'debt', values='children', aggfunc = 'count' )
purpose_pivot['bad_loans, %'] = round((purpose_pivot[1] / (purpose_pivot[0] + purpose_pivot[1])) * 100, 2)
purpose_pivot.sort_values(by = 'bad_loans, %', ascending=False)

debt,0,1,"bad_loans, %"
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,3903,403,9.36
образование,3643,370,9.22
свадьба,2137,186,8.01
недвижимость,10029,782,7.23


### Вывод

Доля проблемных возвратов по целям кредита выглядит следующим образом:

Автомобиль - 9.36%; Образование - 9.22%, Свадьба - 8.01%, Недвижимость и жилье - 7.23%.

То есть, люди приобретающие любой тип недвижимости в кредит - самые ответственные плательщики. Интересно, что самые безответственные плательщики - люди, взявшие в долг на покупку авто. Интересно, что люди, которые организуют в долг свадьбу, относительно дисциплинированны. Возможно, потому что имеют возможность погасить задолженность подаренными на свадьбе деньгами.

### Шаг 4. Общий вывод

Получив данные о зависимостях возврата кредита в срок и различными параметрами, сведем все полученные данные в одно и выделим три группы риска. К низкому риску отнесем те группы людей, у которых доля невозвратов ниже 8.1% на значительную величину. Средний риск - заемщики с невозвратами около 8.1%. Высокий риск - те группы людей, по которым доля проблемных кредитов значительно выше 8.1%.

Низкий риск:

    люди без детей;
    люди, находящиеся в браке или бывшие в узаконенном браке;
    люди с высоким доходом;
    кредитная цель - недвижимость
    
Средний риск:

    люди, с количеством детей 3 или больше;
    люди с низким доходом;
    люди, взявшие у банка в долг на свадьбу
    
Высокий риск:

    люди с одним или двумя детьми;
    люди, не состоящие в узаконенных отношениях;
    люди со средним доходом и доходом выше среднего;
    люди, взявшие кредит на покупку автомобиля и финансирование получения образования.